全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 python论坛
1868 3
2015-07-15
在淘宝或者天猫任意一件商品页面,例如http://detail.tmall.com/item.htm?id=43502289962
直接爬取的话很简单。
我现在要做的是爬取交易记录。捕捉到交易记录的url为
http://ext-mdskip.taobao.com/extension/dealRecords.htm?_ksTS=1436953640869_2388&callback=jsonp2389&bid_page=1&page_size=15&is_start=false&item_type=b&ends=1437017185000&starts=1436412385000&item_id=3991162984
但事实上这是一个一次性的链接,只要用一次就失效了。

请诸位大神给出一个爬这个数据的程序,多谢!

思路现在有两个,但是都不会具体操作
1.伪装浏览器,获取上面的url
2.api接口
如果大神们有思路,希望讲的详细一点。。。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2015-7-16 17:24:21
请看
https://bbs.pinggu.org/thread-3718062-1-1.html
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-7-16 22:49:44
python爱好者 发表于 2015-7-16 17:24
请看
https://bbs.pinggu.org/thread-3718062-1-1.html
你好,这个视频没有解决我的问题

之前能查到的方法都是有url的

但我的问题是,抓包获得的url失效了,因为这个url是一次性的,浏览器用url了以后python不能再使用了。

所以真正的问题就是:通过一个天猫商品url,点击交易记录后,(不通过浏览器)如何获得交易记录的url
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-7-17 20:21:24
关于问题“1.伪装浏览器,获取上面的url”,推荐利用python selenium,这个是可以模拟浏览器进行网页测试的,很实用也很方便,它可以模拟鼠标点击按钮,按照各种形式定位html控件。
关于问题“2.api接口”如果确实需要用selenium可以回复我。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群