本人下载了SSRN网站上面1万篇Top Papers论文数据,主要内容包括如下:
ID 标题 摘要 关键词 分类 页数 参考文献书 url 链接 作者学校
上传日期 12个月内下载量 总下载量 总引用量 作者数量 上传年份
附件包括两个部分:
1、下载的SSRN论文数据
2、利用Python爬取SSRN数据的简单代码
这些代码是简易代码,由于本人在编写多线程代码时存在一些问题没有解决,所以写的代码分为三个步骤:
先提取每篇论文的链接及该页面数据,再根据URL提取详情页面的数据,最后将两个数据合并得到最终数据