r语言抓取网页乱码问题求助

2640

收藏 2016-08-29

程序为：
library(RCurl)
library(XML)

url <- 'http://bbs.tianya.cn/post-free-5568048-1.shtml'
xpath <- '//div[@class=\"bbs-content clearfix\"]'
##注意，此处默认认为每次只有一个数据满足条件，所以程序中只用了[[1]]
html_value <- function(url,xpath){
  webpage <- getURL(url)
  webpage <- readLines(tc <- textConnection(webpage)); close(tc)
  pagetree <- htmlTreeParse(webpage,encoding="utf-8", useInternalNodes=TRUE)
  value <- getNodeSet(pagetree,xpath)
  ##i <- length(value)                   ##统计满足条件的值个数，一般情况为1
  value <- xmlValue(value[[1]])
  return(value)
}
结果为：
> html_value(url,xpath)
[1] "\n\t\t\t\t\t\t\t¡¡¡¡Îò·￠ÏÖ￡¬óßÂÛμÄá|á¿êÇÎTÇîμÄ￡¬èç1ûÃ»óDÇ¿′óμÄóßÂÛÑ1á|￡¬DìóñóñêÂ¼t1à¼ÆóÖ2»áËáËÖ®áË¡￡¡¡¡¡Õa′ÎêÂ¼tÏ￡íûóD1Ø2¿ÃÅ½è′Ë»ú»á￡¬¶Ô¾ßìåDDòμ½øDDÕû¶ù￡¬ÔeèÎμ½èË￡¬ò»2éμ½μ×￡¬2»ÄüèÃÎT1¼μÄêüo|ÕßÔaêüμÄ±ˉ¾çÖØÑY¡￡¶øÎòÃÇμÄÕt¸®Dèòa×öμÄ￡¬¾í2»½ö½öêÇ¼à¶½¶½′ùÄÇÃ′¼òμ￥¡￡¡¡¡¡êμ¼êéÏ′ó¼ò×DÏ¸Ïëò»Ïë·￠ÏÖ￡¬°Y½eÖ÷òåμÄê￠DDêÇÔì3éÄ¿Ç°éç»á3ó¶ñÏÖÏó×ìéúμÄÎÂ′2￡¬èËèËÏòÇ®¿′￡¬2»1Ëàñòåá®3ü￡¬ÖD»aÃñ×å¼¸Ç§ÄêμÄμàμÂ1Ûé￥ê§′ù¾¡￡¬àÏÅÆ×ê±¾Ö÷òå¶¼×Ôà￠2»èç￡¬ÇòÄ¿Ç°μÄ×′¿öè′μ½áËóÖóú·￠2»¿éêÕê°μÄμØ2½¡￡¡¡¡¡Ë×»°Ëμ￡¬ÂòêàóÃÖØμä￡¬Ëäè»ÏÖÔú2»Äü3ÆÎaÂòêà￡¬μ«¶Ôóú′ËÖÖ2»ÕyÖ®·ç￡¬ò2Dèòaíõáaé½μú¶t3öà′Ö÷3Ö1«μàáË¡￡\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t"

怎么解决呢？