全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 python论坛
1497 1
2017-08-24
断断续续用了两三个月时间学习python.终于开始上手写项目了。。第一个项目是爬取豆瓣读书所有图书标签下的图书信息,将它放进CSV文件里。之前没有加headers伪装浏览器,速度非常快,几分钟就把一个标签下100多页的信息全部爬取下来了。后来因为速度太快,被网站发现,差点被封IP。然后,我在requests命令下加了header,以及cookie。程序跑起来完全没有问题。。最大的问题就是速度实在太慢了,爬取一页需要4-5分钟。照这样计算,一个标签有近100页,那就要8个小时才能爬完,而豆瓣读书的标签起码有100个。。那岂不是要爬取一个月?对了,我没有用上多线程。我想请问下,为什么python爬虫这么慢?用了多线程会有多快。python爬虫速度是否会和内存有关,我电脑内存只有4G,扩展后会不会更快。

复制代码


附件列表
微信图片_20170824211018.png

原图尺寸 14.48 KB

微信图片_20170824211018.png

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2017-8-28 10:07:36
别来这里问,这个python基本是费了,论坛老板都搞cda去了。
你可以去
https://www.v2ex.com/go/python
https://www.newsmth.net/nForum/#!board/Python?p=1
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群