全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
7063 10
2015-10-07
复制代码

以上代码是用来抓取百度行业新闻, 但是在rvest 0.3.0的版本下,即便根据新包更改了html()读取中文网页即为乱码
求指导

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2015-10-7 09:26:02
顶下。。。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-11-18 17:45:39
同求乱码问题
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-11-19 00:46:24
复制代码


这个乱码问题不好解决,因为在设定的时候,读取比较***。
建议你用xml包试试,不需要用这么多的正则表达式。在你找到对应的中文后,再用iconv函数进行转码。
其中编码已经在函数中给出了,希望你能修改好你的代码,成功运行。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-11-19 00:49:58
主要是你的运行结果是乱码,我不知道你具体要做什么,一堆正则表达式,现在实在是没心情看,所以不方便改你的代码或者写新的代码。

另外友情提示:html函数现在已经换成了read_html了。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-11-19 08:55:56
jiangbeilu 发表于 2015-11-19 00:49
主要是你的运行结果是乱码,我不知道你具体要做什么,一堆正则表达式,现在实在是没心情看,所以不方便改你 ...
想问一下 read_html 和 html_session 有什么不同
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群