Python爬虫程序源代码-QQ群qq空间链接二手房爬虫程序机票爬虫程序及说明
# Findtrip说明文档
## 介绍
Findtrip是一个基于Scrapy的机票爬虫,目前整合了国内两大机票网站(去哪儿 + 携程)
## Introduction
Findtrip is a webspider for flight tickets by Scrapy,which contains two majorchina ticket websites ---- Qua & Ctrip
## 安装
在用户目录下执行,将代码clone到本地
```
git clone https://github.com/fankcoder/findtrip.git
```
所需运行环境,请看./requirements.txt
本程序使用selenium+ phantomjs模拟浏览器行为获取数据,phantomjs浏览器下载地址(当然使用Firefox也可以,不过打开速度就会慢很多)
http://npm.taobao.org/dist/phantomjs
数据库使用Mongodb存储,运行需要安装Mongodb,安装传送门
例如:qq空间爬虫程序说明:
##**QQSpider1:**##
<br/>
详情请见博客: [《QQ空间爬虫分享(一天可抓取400 万条数据) 》](http://blog.csdn.net/bone_ace/article/details/50771839)
如果出现报错:
```
Traceback (most recent call last):
File ".\init.py", line 20, in<module>
my_messages.backups() # 备份爬虫信息
NameError: name 'my_messages' is not defined
```
<br/>
多半的原因是 BitVector 模块用不了,可自行调试。
<br/>
如果确定是BitVector用不了的话可以用"BitVector模块报错解决" 里面的两个文件替换掉原有文件,不使用BitVector判重,改用python的list判重(数据量不大的话效果是一样的)。
<br/>
<br/>
------------------------------------------------------- 分界线 -------------------------------------------------------
<br/>
<br/>
<br/>
有同学反映,爬QQ空间的很多都是学生想爬一些数据做统计研究的,本不是计算机专业,爬起来比较困难,希望有现成的数据出售。但是因为工作变动,其实今年3月份 程序开发完后我就没有跑过了,所以手上也没有数据。