各位大侠,求帮助。
我遇到的问题:
1.用R写爬虫,爬
博客园精华帖区的一些数据,网址链接是这样的 <
http://www.cnblogs.com/pick/#p2> ,明显看到里面有“#”会注释掉后面的”p2“页码,只能爬第一页。下面把我的代码贴出来
library(magrittr)
library(proto)
library(gsubfn)
library(bitops)
library(rvest)
library(stringr)
library(DBI)
library(RSQLite)
library(RCurl)
library(sp)
library(raster)
#---------每一篇博文的标题
url <- 'http://www.cnblogs.com/pick/#p4'
        url%>%
            html_session()%>%
            html_nodes("div.post_item h3")%>%
            html_text()%>%
            as.character()%>%
            trim()
运行下来,爬下来的数据还是第一页博文的标题。
求大神支招!!!
2.还想爬一些精华帖的评论,就是谁给谁评论了,评论了什么内容这些信息。
拿下面这篇精华帖为例
相对论并非遥不可及 ,拉到最下面,查看第一页的评论时,翻页,你会看到网址始终是<
http://www.cnblogs.com/yangpf/p/4148488.html#!comments>,网址里面也没有标识 页码变化的信息。
对于这种我想爬到每一页的评论的详情,该怎么做??
跪求大神,大神相助!!
3.终极问题,如何用R模拟登陆博客园。
我现在的进展是,知道要用Rcurl这个包,要提交一大堆的东西给博客园服务器,包括加密后的用户名,密码;以及多次机器登陆后,如何搞定验证码等等
我没有实现。。。
跪求跪求大神帮忙!!