全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
5422 13
2016-07-25
==========背景===================
本人最近在R语言爬虫,但是有的网站是动态的json格式,每次找跳转的网址,好麻烦,因此,寻找新的方法,架构一个浏览器,在自己的浏览器里面寻找网址。于是有了以下的问题:

==========执行步骤分割线============
1、cmd启用 java -jar selenium-server-standalone-2.53.0.jar //启动selenium
2、R控制台
> library("Rwebdriver", lib.loc="C:/Program Files/R/R-3.2.3/library")
Loading required package: RCurl
Loading required package: bitops
Loading required package: RJSONIO
> library("XML", lib.loc="\\\\CNDOUW0000/Users/CNLeeWi/R/win-library/3.2")
> start_session(root = "http://localhost/wd/hub/" ,browser = "firefox")
Error in function (type, msg, asError = TRUE)  :
  Failed to connect to localhost port 80: Connection refused


=========相关资料链接================

http://www.r-bloggers.com/scraping-with-selenium/

https://cran.r-project.org/web/packages/RSelenium/vignettes/RSelenium-basics.html

https://github.com/coderLMN/AutomatedDataCollectionWithR/issues






二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2016-7-25 16:36:38
R语言能干这么多事
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-7-25 17:11:53
juliewong 发表于 2016-7-25 16:36
R语言能干这么多事
R的世界,个人觉得网络数据采集、数据挖掘、可视化、机器学习等方面都有自己独到的优势
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-7-25 17:29:46
不要用R爬动态网页,超级超级麻烦,还是用Python吧,R分析数据就行。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-7-25 17:37:38
zhaoleibupt 发表于 2016-7-25 17:29
不要用R爬动态网页,超级超级麻烦,还是用Python吧,R分析数据就行。
就目前来说,爬虫确实不是R的擅长,python爬的比较简单。我也只是小型数据爬取,例如网 站评 价,作为一个尝试也未尝不可
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-7-25 17:39:51
太阳之子追梦者 发表于 2016-7-25 17:37
就目前来说,爬虫确实不是R的擅长,python爬的比较简单。我也只是小型数据爬取,例如网 站评 价,作为一个 ...
网站的评论一般都是用ajax写的,需要模拟浏览器或者抓包,最好还是Python。抓包的话R部分可以,模拟浏览器就算了。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群