全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
5252 9
2015-08-29
关于抓取新浪微博的时候,

程序如下;
library(rvest)
library(stringr)
url = 'http://weibo.com/p/100808f8b273063bbf129c4b4c8d4b88490682?k=Galaxy+S6+edge&from=526&_from_=huati_topic'
web<-html(url,encoding="UTF-8")
web%>% html_nodes(".W_f12")

网址:
http://weibo.com/p/100808f8b273063bbf129c4b4c8d4b88490682?k=Galaxy+S6+edge&from=526&_from_=huati_topic

附图1:想抓取的数据 无标题.png 附图2:网页HTML代码 2.png 问题:待抓的数据794.9万放置在<script>里面,所以无法抓取,求大拿帮组
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2015-8-30 14:16:11
顶起来,各位大拿帮回答一下
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-8-30 17:20:14
提示: 作者被禁止或删除 内容自动屏蔽
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-8-31 15:43:53
ryoeng 发表于 2015-8-30 17:20
登入后再说呗。。。(咱模拟了一下,也登入不了)
http://cos.name/cn/topic/411615/
我的想法是,794.9万是放置在<script>里面,如果能把网页源文件拿到,直接进行字符串处理,也是可以抓取到794.9万的,但是如何能把整个网页源文件读到R文件里呢?
多谢
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-8-31 19:56:13
提示: 作者被禁止或删除 内容自动屏蔽
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-9-1 09:38:28
思路: 用rvest把script里面的js抓出来, 再用正则表达式处理.
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群