全部版块 我的主页
论坛 提问 悬赏 求职 新闻 读书 功能一区 经管文库(原现金交易版)
5877 10
2020-09-24
爬虫!本数据为中国情报网A股上市企业数据,时点为2020年3月。本帖目的在于帮助大家学会如何用Stata进行爬虫(而非数据本身)。目前,爬虫应用较多是使用Python和R语言,但是很多做实证研究和计量分析的小伙伴对Stata情有独钟,那么Stata是否完成高效快捷的爬虫任务呢?其实,Stata也可以完成大多数格式的爬虫,并不会麻烦特别多,本帖也是希望大家可以学习一点Stata爬虫的知识,如正则表达式等。本文提供了全部的Stata代码,并对其中的命令进行了讲解和注释(见下图),同时,本帖只是象征性收取1元钱,希望更多的人可以学习到附件采取网盘链接方式,大家遇到爬虫的一些问题可以相互交流讨论,欢迎大家留言。
附件包含文件说明:
1.process文件夹:为数据处理过程中的生成的文件夹(可以忽略)
2.中国A股上市公司数据(原).dta:爬取的原始dta数据
3.中国A股上市公司数据(新).dta:爬取的处理之后的dta数据(最终)
4.中国A股上市公司数据(新).xlsx:爬取的处理之后导出的xlsx数据(最终)
5.爬虫代码.do:为爬取的Stata代码(重要!!!)
6.说明.txt:本说明文件
提示:中国情报网A股上市企业数据的省份和城市变量原始数据存在一定的问题,应该是城市和区县,笔者这里并没有修改,保持和原始数据一致,原因在于本帖的目的主要帮助大家学会用Stata爬取数据!
Stata爬取上市公司数据(含代码)
大小:(76 Bytes)

只需: RMB 1元  马上下载


图片1.png

楼主2020年8月更新数据集集锦

1.(更新)1990-2019年中国上市公司数据(最全!1130个变量,含数据处理)

https://bbs.pinggu.org/thread-9401341-1-1.html

2.(更新)2003-2019中国上市公司公司治理和股权性质数据(126个变量)

https://bbs.pinggu.org/thread-9432575-1-1.html

3.(更新)2000-2019中国上市公司盈余管理数据(含处理过程)

https://bbs.pinggu.org/thread-9417872-1-1.html

4.(更新)中国上市公司基本信息(含所在省市及行政代码经纬度)

https://bbs.pinggu.org/thread-9418143-1-1.html

5.(更新)1990-2020中国上市公司人物特征(含处理过程)

https://bbs.pinggu.org/thread-9363631-1-1.html

6.(更新)2010-2019和讯网上市公司社会责任报告(含代码)

https://bbs.pinggu.org/thread-9538071-1-1.html

7.(更新)2010-2019和讯网上市公司社会责任报告明细(含代码)

https://bbs.pinggu.org/thread-9550203-1-1.html

8.(更新)1995-2020中国上市公司并购重组数据(含代码)

https://bbs.pinggu.org/thread-9574519-1-1.html








二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2020-9-24 16:06:51
良心价格,必须支持
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2020-9-25 09:24:31
dm41343 发表于 2020-9-24 16:06
良心价格,必须支持
欢迎欢迎
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2020-9-30 17:01:56
zhaozimeng 发表于 2020-9-24 09:54
爬虫!本数据为中国情报网A股上市企业数据,时点为2020年3月。本帖目的在于帮助大家学会如何用Stata进行爬虫 ...
<span style=\"color:#800080;\"><b>关于数据爬取的小经验:</b></span>Stata爬取大家可以参考cnstock的爬取方法(大家可以学习源代码,输入adoedit cnstock。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2020-11-8 10:56:32
zhaozimeng 发表于 2020-9-24 09:54
爬虫!本数据为中国情报网A股上市企业数据,时点为2020年3月。本帖目的在于帮助大家学会如何用Stata进行爬虫 ...
正如本帖正文所说,本帖的目的并不在于数据本身,而在于提供利用stata爬取静态网页的代码和数据处理思路。我也看到中情网一些原始数据存在错误,但我并未调整,原因也在于此。如果仅仅是为了获取数据的话,大家可以查阅其他帖子,如上市公司数据大全等。最后,希望大家对stata爬虫有所了解和掌握哈,再次感谢光临~
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2020-12-16 10:00:46
zhaozimeng 发表于 2020-9-24 09:54
爬虫!本数据为中国情报网A股上市企业数据,时点为2020年3月。本帖目的在于帮助大家学会如何用Stata进行爬虫 ...
请问 允许copy网址那个代码时出现Java installation not found要怎么解决呀,谢谢!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群