全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
1686 2
2019-11-06

R语言网络爬虫一例

今天看到隔壁Python论坛有一篇文章,介绍网络爬虫的:
Python爬虫机器人

手痒,用R语言实现如下:

# 先准备好必要的packages
library(tidyverse)
library(httr)
library(rvest)

url <- "https://www.ivsky.com/tupian/gaoguai_laoren_v55393/pic_865178.html"

# 开始了
url %>%
    read_html() %>%
    html_nodes("#imgis") %>%
    html_attr("src") %>%
    paste0("https:", .) %>%
    download.file(., destfile = "D:\\out.jpg", method = "curl")

代码虽然不多,但主要的难点在于html_nodes("#imgis"),如何在网页代码的内容中准确定位到自己想要找的内容。在本案例中,由于我们要找的网址正好前面有个id="imgis",所以定位比较容易,但是,在实践中,比这复杂得多的情况比比皆是,要具体情况具体分析。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2019-11-8 11:26:55
擅用chrome的开发者模式,基本没什么问题。
另,爬虫还是用py写吧,当心被封。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2024-10-11 16:23:20
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群