关于用rvest抓取<script>标签里数据的问题 - 经管之家

› 论坛 › 数据科学与人工智能 › 数据分析与数据科学 › R语言论坛

关于用rvest抓取<script>标签里数据的问题

5329

9

收藏 2015-08-29

关于抓取新浪微博的时候，

程序如下；
library(rvest)
library(stringr)
url = 'http://weibo.com/p/100808f8b273063bbf129c4b4c8d4b88490682?k=Galaxy+S6+edge&from=526&_from_=huati_topic'
web<-html(url,encoding="UTF-8")
web%>% html_nodes(".W_f12")

网址：
http://weibo.com/p/100808f8b273063bbf129c4b4c8d4b88490682?k=Galaxy+S6+edge&from=526&_from_=huati_topic

附图1：想抓取的数据

无标题.png

附图2：网页HTML代码

问题：待抓的数据794.9万放置在<script>里面，所以无法抓取，求大拿帮组

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

2015-8-30 14:16:11

顶起来，各位大拿帮回答一下

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2015-8-30 17:20:14

提示: 作者被禁止或删除内容自动屏蔽

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2015-8-31 15:43:53

ryoeng 发表于 2015-8-30 17:20
登入后再说呗。。。（咱模拟了一下，也登入不了）
http://cos.name/cn/topic/411615/

我的想法是，794.9万是放置在<script>里面，如果能把网页源文件拿到，直接进行字符串处理，也是可以抓取到794.9万的，但是如何能把整个网页源文件读到R文件里呢？
多谢

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2015-8-31 19:56:13

提示: 作者被禁止或删除内容自动屏蔽

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2015-9-1 09:38:28

思路: 用rvest把script里面的js抓出来, 再用正则表达式处理.

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

相关推荐

栏目导航

热门文章

推荐文章

扫码加好友，拉您进群

各岗位、行业、专业交流群