全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
14378 11
2015-08-23
第一个问题、





如果想抓取如下链接右上角的阅读,讨论,粉丝数

http://weibo.com/p/100808f8b273063bbf129c4b4c8d4b88490682?k=Galaxy+S6+edge&from=526&_from_=huati_topic


92.4万阅读
1.7万讨论
58粉丝


在源文件里查看 92.4万 是在<script>标签里。

R程序如下:

library(rvest)

url = 'http://weibo.com/p/100808f8b273063bbf129c4b4c8d4b88490682?k=Galaxy+S6+edge&from=526&_from_=huati_topic'

session = url %>% html_session() %>% html_nodes("????")%>%html_text()

问题:html_nodes("????")里的 CSS selector如何选取?


第二个问题,

在itellin的博客  http://blog.sciencenet.cn/blog-556556-850288.html


提到“通过查看器立刻知道表格数据都在td:nth-child(1),td:nth-child(3)之类的节点中,直接代码提取就行了”。

什么查看器啊,利用火狐的查看器看不到啊

多谢了
附件列表
142942u44aa9fwhxz9hhlx.png

原图尺寸 239.39 KB

142942u44aa9fwhxz9hhlx.png

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2015-8-24 07:35:52
提示: 作者被禁止或删除 内容自动屏蔽
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-8-24 09:06:12
提示: 作者被禁止或删除 内容自动屏蔽
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-8-24 18:22:18
ryoeng 发表于 2015-8-24 09:06
あゆみ - WHO ❤❤❤
これからもずっとこの歌声が,
あなたに届きます様にと;
多谢了,就是不懂XPATH是如何设置的,网上好多说用查看器就可以,可以一直没找到是如何查看的,
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-8-24 18:25:04
ryoeng 发表于 2015-8-24 09:06
あゆみ - WHO ❤❤❤
これからもずっとこの歌声が,
あなたに届きます様にと;
[@id="main"]/div[2]/div[3]/div/div[1]/div[1]/div  这个方括号里的数是什么意思,另外“main”是从哪儿找到的,源文件?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-8-24 18:27:27
ryoeng 发表于 2015-8-24 07:35
http://www.r-bloggers.com/migrating-table-oriented-web-scraping-code-to-rvest-wxpath-css-selector-ex ...
能给介绍下 html_nodes(".td-2nd a[href*='air']"),里面的参数是怎么选的吗?源文件找不到
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群