请教用rvest包抓取数据时如何查看html_node - 经管之家

› 论坛 › 数据科学与人工智能 › 数据分析与数据科学 › R语言论坛

请教用rvest包抓取数据时如何查看html_node

14456

11

收藏 2015-08-23

第一个问题、

如果想抓取如下链接右上角的阅读，讨论，粉丝数

http://weibo.com/p/100808f8b273063bbf129c4b4c8d4b88490682?k=Galaxy+S6+edge&from=526&_from_=huati_topic

92.4万阅读

1.7万讨论

58粉丝

在源文件里查看 92.4万是在<script>标签里。

R程序如下：

library(rvest)

url = 'http://weibo.com/p/100808f8b273063bbf129c4b4c8d4b88490682?k=Galaxy+S6+edge&from=526&_from_=huati_topic'

session = url %>% html_session() %>% html_nodes("????")%>%html_text()

问题：html_nodes("????")里的 CSS selector如何选取？

第二个问题，

在itellin的博客 http://blog.sciencenet.cn/blog-556556-850288.html里

提到“通过查看器立刻知道表格数据都在td:nth-child(1),td:nth-child(3)之类的节点中，直接代码提取就行了”。

什么查看器啊，利用火狐的查看器看不到啊

多谢了

附件列表

142942u44aa9fwhxz9hhlx.png

原图尺寸 239.39 KB

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

2015-8-24 07:35:52

提示: 作者被禁止或删除内容自动屏蔽

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2015-8-24 09:06:12

提示: 作者被禁止或删除内容自动屏蔽

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2015-8-24 18:22:18

ryoeng 发表于 2015-8-24 09:06
あゆみ - WHO ❤❤❤
これからもずっとこの歌声が，
あなたに届きます様にと；

多谢了，就是不懂XPATH是如何设置的，网上好多说用查看器就可以，可以一直没找到是如何查看的，

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2015-8-24 18:25:04

ryoeng 发表于 2015-8-24 09:06
あゆみ - WHO ❤❤❤
これからもずっとこの歌声が，
あなたに届きます様にと；

[@id="main"]/div[2]/div[3]/div/div[1]/div[1]/div 这个方括号里的数是什么意思，另外“main”是从哪儿找到的，源文件？

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2015-8-24 18:27:27

ryoeng 发表于 2015-8-24 07:35
http://www.r-bloggers.com/migrating-table-oriented-web-scraping-code-to-rvest-wxpath-css-selector-ex ...

能给介绍下 html_nodes(".td-2nd a[href*='air']")，里面的参数是怎么选的吗？源文件找不到

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

相关推荐

栏目导航

热门文章

推荐文章

扫码加好友，拉您进群

各岗位、行业、专业交流群