全部版块 我的主页
论坛 提问 悬赏 求职 新闻 读书 功能一区 经管文库(原现金交易版)
506 0
2023-10-24
利用期刊分区插件easyscholoar,爬取谷歌学术论文和分区信息的Python代码



代码运行思路:

1、Python 运行selenium,通过关键词在谷歌学术上爬取论文标题,引用量和期刊分区信息

2、利用爬取到的论文标题,再在谷歌学术上爬取摘要、作者、年份,期刊名,出版商等信息

3、根据爬取到的期刊分区数据,根据不同期刊分区指数建立对应的列

4、将所有数据进行汇总,保存为Excel


注:
1、谷歌学术特别容易被屏蔽,所以代码没有开启多线程,而且设置了较长时间的暂停时间,建议设置好关键词和网站后,凌晨自动运行。实测晚上花四五个小时就能跑完,爬取几十页中的几百篇论文数据问题不大


2、在爬取过程中,如果程序因各种原因而停止。已经爬取的数据并不受影响。而且可以根据暂停的节点,修改一下位置后,继续运行程序,实测没问题


3、能翻墙的,可以直接使用谷歌学术,并设置一页20条数据,这样翻页数量能少点,减少被屏蔽的概率


4、不能翻墙的,使用国内谷歌学术镜像也是一样的,只是一页只有10页的区别


5、要求有easyscholoar会员账号,网上有免费获取方法,自己解决


总的软件分为四步,复制在jupyter lab中。想使用的,安装一下jupyter lab


案例图片:
11.png
22.png
33.png
44.png


附件:
爬取谷歌学术论文信息Python代码
大小:(76 Bytes)

只需: RMB 49元  马上下载



















二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群