R语言网络爬虫一例

今天看到隔壁Python论坛有一篇文章，介绍网络爬虫的：
Python爬虫机器人

手痒，用R语言实现如下：

# 先准备好必要的packages
library(tidyverse)
library(httr)
library(rvest)

url <- "https://www.ivsky.com/tupian/gaoguai_laoren_v55393/pic_865178.html"

# 开始了
url %>%
    read_html() %>%
    html_nodes("#imgis") %>%
    html_attr("src") %>%
    paste0("https:", .) %>%
    download.file(., destfile = "D:\\out.jpg", method = "curl")

代码虽然不多，但主要的难点在于html_nodes("#imgis")，如何在网页代码的内容中准确定位到自己想要找的内容。在本案例中，由于我们要找的网址正好前面有个id="imgis"，所以定位比较容易，但是，在实践中，比这复杂得多的情况比比皆是，要具体情况具体分析。