全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
5461 4
2015-06-22
悬赏 200 个论坛币 未解决
各位大侠,求帮助。

我遇到的问题:

1.用R写爬虫,爬博客园精华帖区的一些数据,网址链接是这样的 <http://www.cnblogs.com/pick/#p2> ,明显看到里面有“#”会注释掉后面的”p2“页码,只能爬第一页。下面把我的代码贴出来
library(magrittr)
library(proto)
library(gsubfn)
library(bitops)
library(rvest)
library(stringr)
library(DBI)
library(RSQLite)
library(RCurl)
library(sp)
library(raster)

#---------每一篇博文的标题
url <- 'http://www.cnblogs.com/pick/#p4'
        url%>%
            html_session()%>%
            html_nodes("div.post_item h3")%>%
            html_text()%>%
            as.character()%>%
            trim()
运行下来,爬下来的数据还是第一页博文的标题。
求大神支招!!!

2.还想爬一些精华帖的评论,就是谁给谁评论了,评论了什么内容这些信息。
拿下面这篇精华帖为例相对论并非遥不可及 ,拉到最下面,查看第一页的评论时,翻页,你会看到网址始终是<http://www.cnblogs.com/yangpf/p/4148488.html#!comments>,网址里面也没有标识 页码变化的信息。
对于这种我想爬到每一页的评论的详情,该怎么做??
跪求大神,大神相助!!

3.终极问题,如何用R模拟登陆博客园。

我现在的进展是,知道要用Rcurl这个包,要提交一大堆的东西给博客园服务器,包括加密后的用户名,密码;以及多次机器登陆后,如何搞定验证码等等

我没有实现。。。

跪求跪求大神帮忙!!


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2015-6-22 23:41:53
pytho爬虫没搞过,不过原理应该是一样的。就你这种情况,我们可以对url进行“编码/解码”,然后再抓取;而且就这个url而言,其真正的请求地址应该是“http://www.cnblogs.com/mvc/AggSite/PostList.aspx”,第三页的参数为:{"CategoryType":"Picked","ParentCategoryId":0,"CategoryId":-2,"PageIndex":3,"ItemListActionName":"PostList"}。可以在浏览器端按f12,或者用其他工具抓包观察
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-6-23 19:37:40
第一个问题已经自行解决,啊哈哈,不过依然感谢楼上兄弟消灭0回复。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-6-24 12:17:45
mark 同问
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-10-12 21:58:52
我有个相似的问题求关注 https://bbs.pinggu.org/forum.php?mod=viewthread&tid=3933221 ,楼主怎么解决第一个问题的??
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群