全部版块 我的主页
论坛 提问 悬赏 求职 新闻 读书 功能一区 经管文库(原现金交易版)
431 0
2023-11-25
Python爬虫程序源代码-163、百度、百度云、哔哩哔哩、中国知网爬虫程序及其说明

Python爬虫程序源代码-163、百度、百度云、哔哩哔哩、中国知网爬虫程序及其说明.zip
大小:(1.14 MB)

只需: RMB 19元  马上下载

本附件包括:

  • 163spider-master.zip
  • baidu-music-spider-master.zip
  • BaiduyunSpider-master.zip
  • bilibili-user-master.zip
  • CnkiSpider-master (1).zip




2e94dfd4efa07f1135f42199da05ef9.png


其中:CnkiSpider-master (1).zip中国知网爬虫程序说明:

##使用说明

1. 在src/CnkiSpider.py设置检索条件

2. 执行src/CnkiSpider.py抓取数据

3. 抓取数据存储在/data目录下,文件名格式为"data-keyword-年月日时分秒.txt.txt",如"data-新媒体-20131128224556.txt"

4. 每个数据文件的第一行为字段名称

5. 每次运行都根据当前时间生成新的数据文件

6. 如果抓取过程中断,可以在src/CnkiSpider.py中设置startPage为中断时的页码,并重新运行src/CnkiSpider.py从中断的页面继续抓取,最后将各个数据文件合并

7. 生成的文本文件直接修改后缀名为.csv然后用LibreOffice打开并在LibreOffice中设置字段分隔符为src/CnkiSpider.py中变量fieldsSep设置的字符串

8. Windows下打开Excel 2013,然后【打开】->【浏览】->选择文件(文件名后下拉框选择“文本文件”),出现文本导入向导,设置“文件原始格式”为Unicode(UTF-8),下一步,设置“分隔符号”

9. 由若要使用文本编辑器打开数据文件,建议使用Notepad++打开。Windows自带的记事本打开大文件会卡死。Notepad++可以自动识别编码格式,防止乱码。

10. 如果数据文件中从某部分开始大量出现关键词字段和分类号字段为空的情况,则将src/CnkiSpider.py中restEvery变量调小,restPeriod变量调大后重试。

## windows下和linux下使用需要修改的地方

CnkiSpider.py        print"----CONTENT:获取第" + str(article["order"]) + "篇文章"

ContentSpider.py     s =s.replace("【分类号】".decode("utf8"), "")



二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群