全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
2474 2
2016-08-29
程序为:
library(RCurl)
library(XML)


url <- 'http://bbs.tianya.cn/post-free-5568048-1.shtml'
xpath <- '//div[@class=\"bbs-content clearfix\"]'
##注意,此处默认认为每次只有一个数据满足条件,所以程序中只用了[[1]]
html_value <- function(url,xpath){
  webpage <- getURL(url)
  webpage <- readLines(tc <- textConnection(webpage)); close(tc)
  pagetree <- htmlTreeParse(webpage,encoding="utf-8", useInternalNodes=TRUE)
  value <- getNodeSet(pagetree,xpath)
  ##i <- length(value)                     ##统计满足条件的值个数,一般情况为1
  value <- xmlValue(value[[1]])
  return(value)
}
结果为:
> html_value(url,xpath)
[1] "\n\t\t\t\t\t\t\t¡¡¡¡Îò·¢ÏÖ£¬óßÂÛμÄá|á¿êÇÎTÇîμÄ£¬èç1ûûóDÇ¿′óμÄóßÂÛÑ1á|£¬Dìóñóñê¼t1à¼ÆóÖ2»áËáËÖ®áË¡£¡¡¡¡Õa′Îê¼tÏ£íûóD1Ø2¿ÃŽè′Ë»ú»á£¬¶Ô¾ßìåDDòμ½øDDÕû¶ù£¬ÔeèÎμ½èË£¬ò»2éμ½μ×£¬2»ÄüèÃÎT1¼μÄêüo|ÕßÔaêüμıˉ¾çÖØÑY¡£¶øÎòÃÇμÄÕt¸®Dèòa×öμÄ£¬¾í2»½ö½öêǼල¶½′ùÄÇÃ′¼òμ¥¡£¡¡¡¡êμ¼êéÏ′ó¼ò×DϸÏëò»Ïë·¢ÏÖ£¬°Y½eÖ÷òåμÄê¢DDêÇÔì3éĿǰéç»á3ó¶ñÏÖÏó×ìéúμÄÎÂ′2£¬èËèËÏòÇ®¿′£¬2»1Ëàñòåá®3ü£¬ÖD»aÃñ×弸ǧÄêμÄμàμÂ1Ûé¥ê§′ù¾¡£¬àÏÅÆ×ê±¾Ö÷òå¶¼×Ôà¢2»è磬ÇòĿǰμÄ×′¿öè′μ½áËóÖóú·¢2»¿éêÕê°μÄμØ2½¡£¡¡¡¡Ë×»°Ë죬ÂòêàóÃÖØμ䣬Ëäè»ÏÖÔú2»Äü3ÆÎaÂòêà£¬μ«¶Ôóú′ËÖÖ2»ÕyÖ®·ç£¬ò2Dèòaíõáaé½μú¶t3öà′Ö÷3Ö1«μàáË¡£\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t"

怎么解决呢?

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2016-8-29 16:24:00
复制代码

上面的代码,就可以完成了,其实可能不需要指定编码。htmlTreeParse本身就可以用url作直接的参数来解析页面的。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-9-1 15:22:38
jiangbeilu 发表于 2016-8-29 16:24
上面的代码,就可以完成了,其实可能不需要指定编码。htmlTreeParse本身就可以用url作直接的参数来解析页 ...
十分感谢~
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群