Stata爬虫和讯网企业社会责任CSR数据，附上do-file以及2019年数据。

3281

收藏 2021-05-01

最近一直在找和讯网的CSR的数据，但是发现下载下来的数据尤其是2019、2020与官网数据有差别。根据自己的观察以及论坛信息，发现这是因为和讯网官网的数据会变化，2010-2018年的相对稳定（与官网也有差别），而从2019年开始各个下载下来的数据基本都不一样。于是自己用stata爬取了和讯网2019年的数据。
主要逻辑是通过URL：http://stockdata.stock.hexun.com/zrbg/data/zrbList.aspx?date=2019-12-31&count=20&pname=20&titType=null&page=1&callback=hxbase_json11619798541446
中“page=1”代表页码的变化设置循环语句提取数据，再通过正则表达式获取数据中需要的各个部分。包括总评分和五个分项的数据。
各位也可以去找视频教程学习。我的代码参考了Youtube的视频，但是原博主的代码无法获取负数而和讯网数据包含了负值（这也是因为在正则表达式语言中[0-9]只代表正整数，而无法获取负数）。我从符号“-”下手解决这个问题（关于这部分如果有更高明办法的同学老师欢迎交流！），因此我的代码可以获取所有的数值。
最后需要注意的是我爬取2019年数据的时间是2021年4月30日（CET），只代表了这个时间数据与官网一致，以后或许是有变化的，大家可以在使用的时点自行爬取。
我只爬取了2019年的，因此代码也是爬取2019年。改变循环语句中表示末页页码的数字&改变URL中的“date=20xx-12.31”即可爬取其他年度，或许有爬取全年度的嵌套循环语句的方式，我没有涉及这方面。
*注意：由于我在国外，在爬取时候偶尔碰到过connection time-out的问题，不过国内的小伙伴应该不会碰到。另外可能也有软件以及网站方面的问题，如果中断只要看一下Stata根目录 save 到了第几页，改变一下循环语句继续即可。也可以不要一次爬取太多，如一次50页，不会出现问题的（超过100页的时候感觉Stata明显吃力，还是建议大家一次少一点，也有可能是我电脑的问题）。
附件包括：dofile(txt and Stata-do), 2019年爬取的数据(xlsx and dta), 数据2010-2018(xlsx and dta，这部分我是论坛下载的)。*注意：2010-2018跟现在的官网也有一些差别（如2018总数为4244，这份数据为4227），大家需要最新的还是建议自行爬取数据吧