之前给大家分享了月度空气质量数据的爬虫程序,详见“爬虫大法:空气质量数据的爬取”一文。事实上,中国空气质量在线监测分析平台(https://www.aqistudy.cn/historydata/)也提供了全国384个城市和地区的日度空气质量数据,只是爬取下来程序更为复杂,耗费时间也会更长。

这个爬虫程序的思路还是先爬取城市名,构造网址,然后再通过网址爬取各个城市的日度空气质量数据。这个网站日度数据网址命名规则是这样的:
https://www.aqistudy.cn/historydata/daydata.php?city=北京&month=2015-01
https://www.aqistudy.cn/historydata/daydata.php?city=北京&month=2015-02
……
https://www.aqistudy.cn/historydata/daydata.php?city=上海&month=2015-01
https://www.aqistudy.cn/historydata/daydata.php?city=上海&month=2015-02
其实,很容易分解,就是初始网址+城市名+月份。有了思路之后,代码都是浮云了!飘了飘了!
有需要本期爬虫代码和爬取下来的日度空气质量数据的朋友,可以在公众号【功夫计量经济学】后台回复“AQI”,即可看到获取方式。为了感谢各位朋友的支持,月度空气质量数据的下载已经放开,不再需要转发,后台回复”PM2.5”即可看到下载链接。
数据说明:
(1)这次爬取的是384个城市和地区2015年1月1日到2020年4月30日的日度空气质量数据。但是,像有些地区比如西藏林芝、日喀则是2017年1月1日之后才有数据的。
(2)因为网站上实际上没有保亭、白沙、昌江、澄迈、儋州、定安、东方、乐东、临高、陵水、琼海、琼中、屯昌、万宁、文昌和五指山这16个城市和地区的空气质量数据,所以这些城市和地区爬取下来的会是空白,最终一共只有368个城市和地区的数据。
(3)这个网站事实上也存在数据缺失的问题,有些城市有些月份、有些日期是没有数据的。当然,缺失的相当少。