爬虫!本数据为中国情报网A股上市企业数据,时点为2020年3月。本帖目的在于帮助大家学会如何用Stata进行爬虫(而非数据本身)。目前,爬虫应用较多是使用Python和R语言,但是很多做实证研究和计量分析的小伙伴对Stata情有独钟,那么Stata是否完成高效快捷的爬虫任务呢?其实,Stata也可以完成大多数格式的爬虫,并不会麻烦特别多,本帖也是希望大家可以学习一点Stata爬虫的知识,如正则表达式等。本文提供了全部的Stata代码,并对其中的命令进行了讲解和注释(见下图),同时,本帖只是象征性收取1元钱,希望更多的人可以学习到
附件采取网盘链接方式,大家遇到爬虫的一些问题可以相互交流讨论,欢迎大家留言。
附件包含文件说明:
1.process文件夹:为数据处理过程中的生成的文件夹(可以忽略)
2.中国A股上市公司数据(原).dta:爬取的原始dta数据
3.中国A股上市公司数据(新).dta:爬取的处理之后的dta数据(最终)
4.中国A股上市公司数据(新).xlsx:爬取的处理之后导出的xlsx数据(最终)
5.爬虫代码.do:为爬取的Stata代码(重要!!!)
6.说明.txt:本说明文件
提示:中国情报网A股上市企业数据的省份和城市变量原始数据存在一定的问题,应该是城市和区县,笔者这里并没有修改,保持和原始数据一致,原因在于本帖的目的主要帮助大家学会用Stata爬取数据!
楼主2020年8月更新数据集集锦
:
1.(更新)1990-2019年中国上市公司数据(最全!1130个变量,含数据处理)
https://bbs.pinggu.org/thread-9401341-1-1.html
2.(更新)2003-2019中国上市公司公司治理和股权性质数据(126个变量)
https://bbs.pinggu.org/thread-9432575-1-1.html
3.(更新)2000-2019中国上市公司盈余管理数据(含处理过程)
https://bbs.pinggu.org/thread-9417872-1-1.html
4.(更新)中国上市公司基本信息(含所在省市及行政代码经纬度)
https://bbs.pinggu.org/thread-9418143-1-1.html
5.(更新)1990-2020中国上市公司人物特征(含处理过程)
https://bbs.pinggu.org/thread-9363631-1-1.html
6.(更新)2010-2019和讯网上市公司社会责任报告(含代码)
https://bbs.pinggu.org/thread-9538071-1-1.html
7.(更新)2010-2019和讯网上市公司社会责任报告明细(含代码)
https://bbs.pinggu.org/thread-9550203-1-1.html
8.(更新)1995-2020中国上市公司并购重组数据(含代码)
https://bbs.pinggu.org/thread-9574519-1-1.html