全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 python论坛
7597 14
2018-12-01
悬赏 100 个论坛币 未解决
   我之前为爬取JSTOR(期刊文库)上面Journal of Finance 近五年的文章编了代码,一直运转良好。但最近导师要求我去下载JFE期刊(其在sciencedirect文库上)的近五年文章,我把自己的代码改了下却发现并不能使用,主要错在request.get并没得到相应的网页文本。求助有在sciencedirect爬取文章经验的大神,还望不吝赐教啊!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2018-12-1 09:28:37
注明:我是因为使用学校的IP地址,因此我的IP是有权限访问并下载sciencedirect文章的。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2018-12-1 09:29:58
网站使用的动态编程吧?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2018-12-1 10:31:12
嗯,你果然是有水平呀,那请问这该用什么爬取啊?我手动下载时就会发现:首先在下载文章时会出现重定向(自动跳转)现象;然后,在网页加载pdf文本后,我过一会点击右上方的下载pdf按钮,显示的窗口就会成为 NAD0CA~4@G4FYUU%~[{TWYI.png (刚开始点击下载按钮是没问题的)。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2018-12-16 20:00:12
好吧,我自己已经摸索到答案了。谢谢大家的围观和回复了。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2018-12-26 18:59:38
PDF文件怎么爬取的?楼主指导一哈???
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群