爬虫!本数据为1990-2020年中国上市公司高管简历。数据来源为新浪财经。数据截止日期为2020年8月19日。采用Stata爬取,提供完整Stata爬取代码(学习Stata爬虫的好方法)。本数据共有11个变量(详见下文),核心变量是公司高管简历,同时列示高管任职的区间以及所在公司证券代码和年份,方便进行数据匹配和筛选。观测值个数120万+(1208945)。附件包含如下文件:
1.process文件夹:爬取的HTML过程文件(由于占用空间很大,所以就删除了,不影响使用)
2.ManagerCV.dta:爬取后整理的含有部分缺失值的高管简历dta格式数据
3.ManagerCV_new.dta:补充缺失值以后的完整高管简历dta格式数据(使用这个即可)
4.爬取上市公司高管简历.do:Stata完整爬取代码(重要!!!)
5.说明文件:本说明文件
包含变量如下:
| 序号 | 变量英文名称 | 变量中文名称 |
| 1 | personID | 人员代码 |
| 2 | year | 年份 |
| 3 | Stkcd | 证券代码 |
| 4 | name | 姓名 |
| 5 | post | 职务 |
| 6 | cv | 简历 |
| 7 | http | 链接 |
| 8 | startday | 起始日期 |
| 9 | Endday | 终止日期 |
| 10 | startyear | 起始年份 |
| 11 | endyear | 终止年份 |
2020年8月更新数据集集锦
:
1.(更新)1990-2019年中国上市公司数据(最全!1130个变量,含数据处理)
https://bbs.pinggu.org/thread-9401341-1-1.html
2.(更新)2003-2019中国上市公司公司治理和股权性质数据(126个变量)
https://bbs.pinggu.org/thread-9432575-1-1.html
3.(更新)2000-2019中国上市公司盈余管理数据(含处理过程)
https://bbs.pinggu.org/thread-9417872-1-1.html
4.(更新)中国上市公司基本信息(含所在省市及行政代码经纬度)
https://bbs.pinggu.org/thread-9418143-1-1.html
5.(更新)1990-2020中国上市公司人物特征(含处理过程)
https://bbs.pinggu.org/thread-9363631-1-1.html
6.(更新)2010-2019和讯网上市公司社会责任报告(含代码)
https://bbs.pinggu.org/thread-9538071-1-1.html
7.(更新)2010-2019和讯网上市公司社会责任报告明细(含代码)
https://bbs.pinggu.org/thread-9550203-1-1.html
8.(更新)1995-2020中国上市公司并购重组数据(含代码)
https://bbs.pinggu.org/thread-9574519-1-1.html