htmlTreeParse 出现乱码

小朝

4912

收藏 2014-11-05

复制代码

有哪位大神知道如何解决，造成的原因是什么？也百度了很多，也没找到原因。
解决方法：
temp<-getURL(testurl,.encoding="gbk")
t2<-iconv(temp,"gbk","utf-8") #转码
pagetree<-htmlTreeParse(t2,asText=TRUE,useInternalNodes=TRUE,encoding="utf-8") #这步有乱码
temp_name <-xpathSApply(pagetree,"//tr/td[@class='tl']/a", xmlValue) #无乱码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

xucaifeng66

2014-11-6 10:03:47

temp<-getURL(testurl)
直接试试这个，或者通过分割进行分析strsplit()

其实这也不叫乱码吧，你只要提取对你有用的信息就行了

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

一路嘿嘿

2014-11-6 16:38:07

htmlTreeParse中的encoding参数个人认为没用，帮助文档中说的是如果html源码中没有指定指定编码方式，encoding这个参数才有用，谁做web开发不指定编码方式呢。

解决方法是得到web页面内容后，有乱码不要管，用getNodeSet或者readHtmlTable得到结果后，再
iconv(x,"utf-8","")转化一个编码应该就行了

另外这是windows下才会出现的问题，linux下应该不会出现这种情况

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群