全部版块 我的主页
论坛 提问 悬赏 求职 新闻 读书 功能一区 经管百科 爱问频道
1641 3
2019-07-05
求助!用R写这个代码的时候遇到了error:
代码:

link<-read_html("https://scholar.google.com/scholar?hl=zh-CN&as_sdt=0%2C5&q=Challenges+in+the+Design+and+Interpretation+of+Noninferiority+Trials&btnG=")


error提示:
Error in doc_parse_raw(x, encoding = encoding, base_url = base_url, as_html = as_html,  :
  input conversion failed due to input error, bytes 0x3C 0x2F 0x74 0x69 [6003]

屏幕快照 2019-07-05 下午5.57.54.png

补充:
我在浏览器中直接复制粘贴网址(即https://scholar.google.com/schol ... ty+Trials&btnG=)是可以正确打开的,网址应该没有问题
那这个error该如何解决?


万分感谢!!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2019-7-5 18:28:39
还有一个问题
抓取网页“https://www.nejm.org/search?date=custom&toYear=2017&q=2017+AND+%222017%22+AND+2017&fromYear=2017&toMonth=12&fromMonth=1&isAdvancedSearch=true#qs=%3Fdate%3Dcustom%26toYear%3D2017%26requestType%3Dajax%26toMonth%3D12%26isAdvancedSearch%3Dtrue%26q%3D2017%2BAND%2B%25222017%2522%2BAND%2B2017%26fromYear%3D2017%26fromMonth%3D1%26viewClass%3D%26page%3D5%26manualFilterParam%3DcontentAge_delimiter_contentAge_firstDelimiter” (这是第五页)上的内容的时候,总是只能抓取到第一页的内容

(就是每页有20篇论文 但是不管用哪页的网址都只能抓取到第一页的内容 标红数字5就是表示第5页)
比如:
复制代码
复制代码




复制代码
复制代码


应该分别抓取到第5页、第4页的某些数据,但真正抓取到的都是第1页的数据

求问为什么 肿么办
感谢!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2019-7-7 15:20:35
两个问题我解决了 以防有人遇到一样的问题 我写一下我的解决方法
问题一:google scholar
将网址中“看不懂”的地方都去掉 就可以read_html了 比如我给的例子应该变成
复制代码


问题二:抓取后面几页的数据
每页抓取“后一页”这个按钮的超链接 然后用那个超链接 read_html后一页 然后抓取所需数据
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2019-7-26 20:44:02
雨茗jg 发表于 2019-7-7 15:20
两个问题我解决了 以防有人遇到一样的问题 我写一下我的解决方法
问题一:google scholar
将网址中“看不 ...
???楼主说的“看不懂的”是什么意思?看到%这些就删吗?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群