用R写爬虫遇到的几个问题：1.网址中有注释符号＃。2.翻页网址不变。3.如何用R模拟登

lonesword

5516

收藏 2015-06-22

悬赏 200 个论坛币未解决

各位大侠，求帮助。

我遇到的问题：

1.用R写爬虫，爬博客园精华帖区的一些数据,网址链接是这样的 <http://www.cnblogs.com/pick/#p2> ，明显看到里面有“#”会注释掉后面的”p2“页码，只能爬第一页。下面把我的代码贴出来
library(magrittr)
library(proto)
library(gsubfn)
library(bitops)
library(rvest)
library(stringr)
library(DBI)
library(RSQLite)
library(RCurl)
library(sp)
library(raster)

#---------每一篇博文的标题
url <- 'http://www.cnblogs.com/pick/#p4'
      url%>%
         html_session()%>%
         html_nodes("div.post_item h3")%>%
         html_text()%>%
         as.character()%>%
         trim()
运行下来，爬下来的数据还是第一页博文的标题。
求大神支招！！！

2.还想爬一些精华帖的评论，就是谁给谁评论了，评论了什么内容这些信息。
拿下面这篇精华帖为例相对论并非遥不可及 ，拉到最下面，查看第一页的评论时，翻页，你会看到网址始终是<http://www.cnblogs.com/yangpf/p/4148488.html#!comments>,网址里面也没有标识页码变化的信息。
对于这种我想爬到每一页的评论的详情，该怎么做？？
跪求大神，大神相助！！

3.终极问题，如何用R模拟登陆博客园。

我现在的进展是，知道要用Rcurl这个包，要提交一大堆的东西给博客园服务器，包括加密后的用户名，密码；以及多次机器登陆后，如何搞定验证码等等

我没有实现。。。

跪求跪求大神帮忙！！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

qq345763920

2015-6-22 23:41:53

pytho爬虫没搞过，不过原理应该是一样的。就你这种情况，我们可以对url进行“编码/解码”，然后再抓取；而且就这个url而言，其真正的请求地址应该是“http://www.cnblogs.com/mvc/AggSite/PostList.aspx”，第三页的参数为：{"CategoryType":"Picked","ParentCategoryId":0,"CategoryId":-2,"PageIndex":3,"ItemListActionName":"PostList"}。可以在浏览器端按f12,或者用其他工具抓包观察

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

lonesword

2015-6-23 19:37:40

第一个问题已经自行解决，啊哈哈，不过依然感谢楼上兄弟消灭0回复。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

xiaoxiaoyudian

2015-6-24 12:17:45

mark 同问

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

vloz

2015-10-12 21:58:52

我有个相似的问题求关注 https://bbs.pinggu.org/forum.php?mod=viewthread&tid=3933221 ，楼主怎么解决第一个问题的？？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群