全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
9537 11
2017-03-14
关键是这个ajax动态加载我不理解,如果只是抓取一页的评论,是可以的,下面是我的做法。

library(RCurl)  
library(XML)  
library(plyr)  
#伪造请求报头  
myheader=c("User-Agent"="Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.1.6) ",  
           "Accept"="text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",  
           "Accept-Language"="en-us",  
           "Connection"="keep-alive",  
           "Accept-Charset"="GB2312,utf-8;q=0.7,*;q=0.7"  
)


webpage = getURL('https://item.jd.com/12107414.html#comments-list',httpheader=myheader,.encoding='utf-8')  
pagetree = htmlParse(webpage,encoding='utf-8')  
comment = xpathSApply(pagetree,"//div[@class='comment-content']",xmlValue)  

comment = iconv(comment,"utf-8","LATIN1")  

comment


问题很明显,我只能得到10条评论。怎么获取全部评论,求解答(有例子更好)

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2017-3-14 13:30:11
用python爬取,可以实现翻页
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2017-3-15 10:10:16
http://club.jd.com/review/12107414-1-1-0.html
具体参考
http://blog.csdn.net/xiaoquantouer/article/details/51841016
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2017-3-18 18:56:45
今天有时间,简单写了个爬虫,爬取京东某个商品的评论,希望对你有用。
复制代码
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2017-3-19 22:59:41
学习。谢谢!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2017-3-21 20:48:07
小朝 发表于 2017-3-18 18:56
今天有时间,简单写了个爬虫,爬取京东某个商品的评论,希望对你有用。
谢谢,我试试,另外我今天又碰到一个新的问题,希望你帮忙
http://ccpl.psych.ac.cn/textmind/
这个网站是文本分析用的,我输入一些文本,他返回给我一些信息,我要存起来。
(这个网站提供了软件下载,但是软件分析时总是会报错,即使不错结果也和网页的结果不同)
我现在有800个文本要分析(不能一块贴进去),我想能不能用程序帮我贴上去,并且抓取相应的结果存起来。谢谢(或者提示下我应该搜什么关键词才能查到这类的文章,我不会python,用r可以办到不?)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群