全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
4821 2
2014-11-05
复制代码
有哪位大神知道如何解决,造成的原因是什么?也百度了很多,也没找到原因。
解决方法:
temp<-getURL(testurl,.encoding="gbk")
t2<-iconv(temp,"gbk","utf-8")  #转码
pagetree<-htmlTreeParse(t2,asText=TRUE,useInternalNodes=TRUE,encoding="utf-8") #这步有乱码
temp_name <-xpathSApply(pagetree,"//tr/td[@class='tl']/a", xmlValue)  #无乱码
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2014-11-6 10:03:47
temp<-getURL(testurl)
直接试试这个,或者通过分割进行分析strsplit()


其实这也不叫乱码吧,你只要提取对你有用的信息就行了
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-11-6 16:38:07
htmlTreeParse中的encoding参数个人认为没用,帮助文档中说的是如果html源码中没有指定指定编码方式,encoding这个参数才有用,谁做web开发不指定编码方式呢。

解决方法是得到web页面内容后,有乱码不要管,用getNodeSet或者readHtmlTable得到结果后,再
iconv(x,"utf-8","")转化一个编码应该就行了

另外这是windows下才会出现的问题,linux下应该不会出现这种情况
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群