如何用R抓取一个网页中在div中的数据且不乱码

何武德

1948

收藏 2016-04-21

想要抓取 http://www.demohour.com/projects?attribute=most_funded 中的数据并制成表格保存成csv输出，但是怎么抓取网页中在div中的数据，想要抓取的内容在图片中浅蓝色背景的区域，代码错在哪里？？可以怎么改？？

附件列表

1.png

原图尺寸 3.79 KB

1.png

原图尺寸 3.79 KB

1.png

原图尺寸 3.79 KB

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

jiangbeilu

2016-4-21 16:37:51

看不到浅蓝色

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

langdao1688

2016-4-21 23:06:22

跟楼主遇到过一样的情况

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

何武德

2016-4-22 10:02:40

jiangbeilu 发表于 2016-4-21 16:37
看不到浅蓝色

在<div id="project_list" class="c8">里

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

何武德

2016-4-22 10:10:53

langdao1688 发表于 2016-4-21 23:06
跟楼主遇到过一样的情况

那后来是怎么解决的呢？昨天试了一下，用dat = url %>% read_html() %>% html_nodes('dd') %>% html_text 可以取到乱码的数据，dd是那个div下的一个节点，在一些有table标签的网页用XML包中的readHTMLTable抓到正常的数据，不知道怎样用XML包抓取网页中非表格的数据，知道哪里可以查找XML包中的方法使用的例子吗？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群