今天看到隔壁Python论坛有一篇文章,介绍网络爬虫的: Python爬虫机器人
手痒,用R语言实现如下:
# 先准备好必要的packages library(tidyverse) library(httr) library(rvest) url <- "https://www.ivsky.com/tupian/gaoguai_laoren_v55393/pic_865178.html" # 开始了 url %>% read_html() %>% html_nodes("#imgis") %>% html_attr("src") %>% paste0("https:", .) %>% download.file(., destfile = "D:\\out.jpg", method = "curl")
代码虽然不多,但主要的难点在于html_nodes("#imgis"),如何在网页代码的内容中准确定位到自己想要找的内容。在本案例中,由于我们要找的网址正好前面有个id="imgis",所以定位比较容易,但是,在实践中,比这复杂得多的情况比比皆是,要具体情况具体分析。
html_nodes("#imgis")
id="imgis"
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝