全部版块 我的主页
论坛 提问 悬赏 求职 新闻 读书 功能一区 经管文库(原现金交易版)
15047 50
2020-10-20
爬虫!本数据为1990-2020年中国上市公司高管简历。数据来源为新浪财经。数据截止日期为2020年8月19日。采用Stata爬取,提供完整Stata爬取代码(学习Stata爬虫的好方法)。本数据共有11个变量(详见下文),核心变量是公司高管简历,同时列示高管任职的区间以及所在公司证券代码和年份,方便进行数据匹配和筛选。观测值个数120万+(1208945)。附件包含如下文件:
1.process文件夹:爬取的HTML过程文件(由于占用空间很大,所以就删除了,不影响使用)
2.ManagerCV.dta:爬取后整理的含有部分缺失值的高管简历dta格式数据
3.ManagerCV_new.dta:补充缺失值以后的完整高管简历dta格式数据(使用这个即可)
4.爬取上市公司高管简历.do:Stata完整爬取代码(重要!!!)
5.说明文件:本说明文件
包含变量如下:
序号变量英文名称变量中文名称
1personID人员代码
2year年份
3Stkcd证券代码
4name姓名
5post职务
6cv简历
7http链接
8startday起始日期
9Endday终止日期
10startyear起始年份
11endyear终止年份
Stata爬取上市公司高管简历
大小:(76 Bytes)

只需: RMB 68元  马上下载


展示图片1.png 展示图片2.png

20208月更新数据集集锦

1.(更新)1990-2019年中国上市公司数据(最全!1130个变量,含数据处理)

https://bbs.pinggu.org/thread-9401341-1-1.html

2.(更新)2003-2019中国上市公司公司治理和股权性质数据(126个变量)

https://bbs.pinggu.org/thread-9432575-1-1.html

3.(更新)2000-2019中国上市公司盈余管理数据(含处理过程)

https://bbs.pinggu.org/thread-9417872-1-1.html

4.(更新)中国上市公司基本信息(含所在省市及行政代码经纬度)

https://bbs.pinggu.org/thread-9418143-1-1.html

5.(更新)1990-2020中国上市公司人物特征(含处理过程)

https://bbs.pinggu.org/thread-9363631-1-1.html

6.(更新)2010-2019和讯网上市公司社会责任报告(含代码)

https://bbs.pinggu.org/thread-9538071-1-1.html

7.(更新)2010-2019和讯网上市公司社会责任报告明细(含代码)

https://bbs.pinggu.org/thread-9550203-1-1.html

8.(更新)1995-2020中国上市公司并购重组数据(含代码)

https://bbs.pinggu.org/thread-9574519-1-1.html



二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2020-10-20 15:57:49
楼主,请问爬虫的时候如果遇到反爬怎么办?你这个高管简历爬取的时候又遇到反爬吗?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2020-10-21 09:06:50
时光雕刻青春 发表于 2020-10-20 15:57
楼主,请问爬虫的时候如果遇到反爬怎么办?你这个高管简历爬取的时候又遇到反爬吗?
有些网站确实会有一些反爬的措施,一般的解决方案就是伪装一下,可以买一些IP,每次随机用一个IP;别爬得太快,可以设置随机数,随机停留几秒钟;多用几个浏览器,随机使用浏览器。总之,就是更接近人浏览网页的模样越不容易被捕获。这个也遇到一些,最后我手动补充上了,不算特别多,还是可以接受的。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2020-10-21 10:33:21
支持,看着楼主的正则表达式很是激动,可是自己就写不出来
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2020-10-21 19:37:19
dm41343 发表于 2020-10-21 10:33
支持,看着楼主的正则表达式很是激动,可是自己就写不出来
主要是看源代码的规律,逐步筛选出自己需要的变量~
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2020-10-22 17:06:55
楼主,你这个代码爬取的时候,整个爬取完大概需要多长时间?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群