全部版块 我的主页
论坛 提问 悬赏 求职 新闻 读书 功能一区 悬赏大厅
3815 27
2015-08-11
悬赏 100 个论坛币 未解决
https://asos.tmall.com/search.htm?spm=a1z10.5-b.w4011-5044691060.102.QqiXRs&search=y&orderType=defaultSort&pageNo=2&tsearch=y#anchor
求python代码,用python爬取此网页的源代码
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2015-8-11 21:20:12
顶一个
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-8-12 02:10:24
详细一点,就要这个页面还是要点这个页面的每个链接然后下载html,点开了链接之后需不需要在打开的页面里再把所有链接下载下来?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-8-12 08:55:33
bxshi 发表于 2015-8-12 02:10
详细一点,就要这个页面还是要点这个页面的每个链接然后下载html,点开了链接之后需不需要在打开的页面里再 ...
不需要里面的链接,只需要这个页面的网页源码,我只会urllib但是打不开这个网页所以来求助,提取信息什么的我会。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-8-12 22:46:46
明白了,这个问题是因为urllib不能好好处理302重定向导致的错误,你需要用requests包来抓数据。

代码如下:

复制代码


import requests
r = requests.get('https://asos.world.tmall.com/search.htm?spm=a1z10.5-b.w41-5044691060.102.QqiXRs')
r.text

希望有帮助。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-8-12 22:57:08
FYI, here is the quick start of requests:

http://docs.python-requests.org/en/latest/user/quickstart/#redirection-and-history
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群