全部版块 我的主页
论坛 计量经济学与统计论坛 五区 计量经济学与统计软件
2020 0
2020-05-03

之前给大家分享了月度空气质量数据的爬虫程序,详见“爬虫大法:空气质量数据的爬取”一文。事实上,中国空气质量在线监测分析平台(https://www.aqistudy.cn/historydata/)也提供了全国384个城市和地区的日度空气质量数据,只是爬取下来程序更为复杂,耗费时间也会更长。

这个爬虫程序的思路还是先爬取城市名,构造网址,然后再通过网址爬取各个城市的日度空气质量数据。这个网站日度数据网址命名规则是这样的:

https://www.aqistudy.cn/historydata/daydata.php?city=北京&month=2015-01

https://www.aqistudy.cn/historydata/daydata.php?city=北京&month=2015-02

……

https://www.aqistudy.cn/historydata/daydata.php?city=上海&month=2015-01

https://www.aqistudy.cn/historydata/daydata.php?city=上海&month=2015-02

其实,很容易分解,就是初始网址+城市名+月份。有了思路之后,代码都是浮云了!飘了飘了!

复制代码

有需要本期爬虫代码和爬取下来的日度空气质量数据的朋友,可以在公众号【功夫计量经济学】后台回复“AQI”,即可看到获取方式。为了感谢各位朋友的支持,月度空气质量数据的下载已经放开,不再需要转发,后台回复”PM2.5”即可看到下载链接。


数据说明:

(1)这次爬取的是384个城市和地区2015年1月1日到2020年4月30日的日度空气质量数据。但是,像有些地区比如西藏林芝、日喀则是2017年1月1日之后才有数据的。

(2)因为网站上实际上没有保亭、白沙、昌江、澄迈、儋州、定安、东方、乐东、临高、陵水、琼海、琼中、屯昌、万宁、文昌和五指山这16个城市和地区的空气质量数据,所以这些城市和地区爬取下来的会是空白,最终一共只有368个城市和地区的数据。

(3)这个网站事实上也存在数据缺失的问题,有些城市有些月份、有些日期是没有数据的。当然,缺失的相当少。


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群