Python爬虫程序源代码-QQ群qq空间链接二手房爬虫程序机票爬虫程序及说明

yusb

265

收藏 2023-11-25

Python爬虫程序源代码-QQ群qq空间链接二手房爬虫程序机票爬虫程序及说明

Python爬虫程序源代码-QQ群qq空间链接二手房爬虫程序机票爬虫程序及说明.zip
大小:(4.59 MB)

只需: RMB 19元马上下载

本附件包括：

haipproxy-0.1.zip
QQ-Groups-Spider-master.zip
QQSpider-master.zip
机票爬虫findtrip-master.zip
链家二手房LianJiaSpider-master.zip

# Findtrip说明文档

## 介绍
Findtrip是一个基于Scrapy的机票爬虫，目前整合了国内两大机票网站（去哪儿 + 携程）

## Introduction
Findtrip is a webspider for flight tickets by Scrapy,which contains two majorchina ticket websites ---- Qua & Ctrip

## 安装
在用户目录下执行,将代码clone到本地
```
git clone https://github.com/fankcoder/findtrip.git
```

所需运行环境,请看./requirements.txt

本程序使用selenium+ phantomjs模拟浏览器行为获取数据，phantomjs浏览器下载地址（当然使用Firefox也可以，不过打开速度就会慢很多）

http://npm.taobao.org/dist/phantomjs

数据库使用Mongodb存储，运行需要安装Mongodb，安装传送门

例如：qq空间爬虫程序说明：

##**QQSpider1:**##
 
详情请见博客： [《QQ空间爬虫分享（一天可抓取400 万条数据）》](http://blog.csdn.net/bone_ace/article/details/50771839)
如果出现报错：
```
Traceback (most recent call last):
File ".\init.py", line 20, in<module>
my_messages.backups() # 备份爬虫信息
NameError: name 'my_messages' is not defined
```

 
多半的原因是 BitVector 模块用不了，可自行调试。
 
如果确定是BitVector用不了的话可以用"BitVector模块报错解决" 里面的两个文件替换掉原有文件，不使用BitVector判重，改用python的list判重（数据量不大的话效果是一样的）。

 
 
-------------------------------------------------------   分界线   -------------------------------------------------------
 
 

 
有同学反映，爬QQ空间的很多都是学生想爬一些数据做统计研究的，本不是计算机专业，爬起来比较困难，希望有现成的数据出售。但是因为工作变动，其实今年3月份程序开发完后我就没有跑过了，所以手上也没有数据。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

栏目导航

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群