全部版块 我的主页
论坛 提问 悬赏 求职 新闻 读书 功能一区 经管文库(原现金交易版)
3653 6
2024-05-13
更新!【更新至2023】2001-2023上市公司年报文本分析与数字经济词频统计(全套代码+数据)
更新时间:2024年5月13日
处理软件:Python 3.11
年度区间:2001-2023
变量个数:64(详见样本数据——免费下载查阅)
年报数量:58448(筛选后58237)


说明:本数据为2001-2023上市公司年报文本分析与数字经济词频统计。本套数据包含内容如下:

1.2001-2023上市公司年报文本(txt格式,pdf较大可向楼主索取)
2.数字经济词频统计与指标构建全过程及代码
3.2001-2023数字经济词频统计数据(xlsx格式+dta格式——含各个维度及维度内部数字经济词典词频统计)
由于数据量较大,数据采取百度网盘链接形式,大家可以先在附件中免费下载查看样本数据

数字经济词频统计构建过程:
1.巨潮年报爬虫代码 —— 爬取上市公司年报(pdf格式);
2.PDF转换TXT ——批量将爬取的上市公司年报从 pdf 格式转化为 txt 格式;
3.筛选并标准化年报文本 ——规范年报 txt 格式 方便后续操作,这一步其实很繁琐但却非常关键,原始的年报名字五花八门并不规范,而且年报经常会有更正、更新等,需要保留最新版本的年报,标准化之后格式为“股票代码_年度_发布日期_****年年度报告.txt”,例如,“000002_2024_20240331_2023年年度报告.txt”。
4.jieba分词代码——根据 jieba 库,并结合数字经济字典进行分词,本数据数字经济字典参考文献——唐要家等,数字经济、市场结构与创新绩效,中国工业经济2022年第10期。
数字经济选用以下四方面关键词:一是反映数据要素存量,包括大数据、数据集成、数据融合、数据信息、数据管理、数据资产、数字化;二是反映数据开发能力,包括自动化、5G、智能、机器人、机器学习、3D 打印、3D 技术、3D 工具、AI、物联网、边缘计算、云计算、云服务、云端、数字科技、数字技术、计算机技术、信息时代、信息化、信息技术、信息集成、信息通信;三是反映数据驱动商业应用,包括 O2O、B2B、C2C、P2P、C2B、B2C、电子技术、电子科技、线上、网络、线上线下、互联网、电子商务、跨境电商、电商平台、智慧时代、智慧建设、智慧业务、数字运营、数字终端、数字经济、数字体系、数字供应链、数字营销;四是反映数据价值变现,包括数字货币、区块链、数字贸易。
5.数字经济词频统计代码 ——根据分词结果进行数字经济各个维度的词频统计;
6.年报文本总词频统计 ——统计 txt 年报各上市公司各个年度的总词频;
7.年报文本总字数统计 ——统计 txt 年报各上市公司各个年度的总字数;
8.合并数字经济词频统计数据 ——合并第5步中的数字经济词频统计数据;
9.合并数字经济词频与年报文本字数和词频——将第8步中的数字经济词频数据与第6、7步的年报总词频和总字数数据合并,并生成最终面板数据。


各年度观测值:
年度Freq.PercentCum.
200050.010.01
20011,0091.731.74
20021,0781.853.59
20031,1411.965.55
20041,2332.127.67
20051,2362.129.79
20061,3182.2612.05
20071,4382.4714.52
20081,5002.5817.1
20091,6492.8319.93
20101,9973.4323.36
20112,2323.8327.19
20122,3554.0431.24
20132,4004.1235.36
20142,5194.3339.68
20152,7174.6744.35
20163,0105.1749.52
20173,3865.8155.33
20183,4855.9861.31
20193,7026.3667.67
20204,1737.1774.84
20214,6868.0582.88
20224,8928.491.28
20235,0768.72100
Total58,237100

描述性统计:
variableNmeansdminp50max
年报总字数582371392985148647137981774674
年报总词频582373367313056833353134167
维度1_数据要素存量582374.413.6700378
维度2_数据开发能力5823733.1776.98081705
维度3_数据驱动商业应用5823717.5838.8506768
维度4_数据价值变现582370.232.3100126
数字经济词频合计5823755.38103.770181715

数据代码展示:
1.png
2.png




【更多帖子链接】:点击此处


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2024-5-13 09:32:23
精品数据集集锦2022

经典数据集:


中国上市公司数据大全(代码+数据  1372变量)
https://bbs.pinggu.org/thread-11500926-1-1.html

中国上市公司年报文本(爬虫代码+年报txt)
https://bbs.pinggu.org/thread-11492351-1-1.html

中国上市公司年报文本分析与数字经济词频统计(全套代码+数据)
https://bbs.pinggu.org/thread-11493097-1-1.html

中国地级市面板数据大全(代码+数据)
https://bbs.pinggu.org/thread-11227402-1-1.html

中国县域面板数据大全(代码+数据)
https://bbs.pinggu.org/thread-11233627-1-1.html
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2024-5-13 09:32:45
上市公司基础数据:

中国上市公司数据大全(代码+数据  1372变量)https://bbs.pinggu.org/thread-11500926-1-1.html
上市公司行业分类面板数据(多子库补全)https://bbs.pinggu.org/thread-11510505-1-1.html
上市公司ST、ST*、PT及板块筛选面板数据https://bbs.pinggu.org/thread-11510662-1-1.html
上市公司中央国企和地方国企及非国企划分(数据+代码)https://bbs.pinggu.org/thread-11509834-1-1.html
上市公司所在地区省市县及经纬度面板数据https://bbs.pinggu.org/thread-11509903-1-1.html
上市公司股权性质与公司治理数据https://bbs.pinggu.org/thread-11509885-1-1.html
上市公司审计相关变量(审计意见、是否是四大审计等)https://bbs.pinggu.org/thread-11510730-1-1.html
上市公司报表科目和财务指标面板数据https://bbs.pinggu.org/thread-11510609-1-1.html
上市公司财务报表与指标季度数据(数据+代码)https://bbs.pinggu.org/thread-10257876-1-1.html
上市公司名义企业所得税税率面板数据(多子库补齐 代码+数据)https://bbs.pinggu.org/thread-11506876-1-1.html
和讯网上市公司社会责任数据(爬虫代码+数据)https://bbs.pinggu.org/thread-10646429-1-1.html
高管(董监高)个人特征数据(代码+数据)https://bbs.pinggu.org/thread-11593107-1-1.html
上市公司CEO任期与高管个人任职数据(数据+处理代码)https://bbs.pinggu.org/thread-11509220-1-1.html
上市公司董事联结数据大全(代码+数据)https://bbs.pinggu.org/thread-11269306-1-1.html


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2024-5-13 09:33:06
金融财会数据:

上市公司应计盈余管理-修正Jones模型(代码+数据)

https://bbs.pinggu.org/thread-11504702-1-1.html

上市公司应计盈余管理-扩展Jones模型+KWL模型(代码+数据)

https://bbs.pinggu.org/thread-11504748-1-1.html

上市公司应计盈余管理-DD模型+BS模型(代码+数据)

https://bbs.pinggu.org/thread-11504832-1-1.html

上市公司真实盈余管理(代码+数据)

https://bbs.pinggu.org/thread-11504836-1-1.html

上市公司投资效率-Richardson模型(代码+数据)

https://bbs.pinggu.org/thread-11505395-1-1.html

上市公司投资效率-Biddle模型(代码+数据)

https://bbs.pinggu.org/thread-11505407-1-1.html

上市公司投资效率-Chen模型(代码+数据)

https://bbs.pinggu.org/thread-11505424-1-1.html

上市公司融资约束KZ指数(代码+数据)

https://bbs.pinggu.org/thread-11505475-1-1.html

上市公司融资约束WW指数(代码+数据)

https://bbs.pinggu.org/thread-11505604-1-1.html

上市公司融资约束SA指数(代码+数据)

https://bbs.pinggu.org/thread-11505628-1-1.html

上市公司融资约束FC指数(代码+数据)

https://bbs.pinggu.org/thread-11505638-1-1.html

上市公司超额雇员两种算法(代码+数据)

https://bbs.pinggu.org/thread-11506061-1-1.html

上市公司超额雇员-拓展模型(代码+数据)

https://bbs.pinggu.org/thread-11506083-1-1.html

上市公司过度负债-分年度Tobit回归(代码+数据)

https://bbs.pinggu.org/thread-11506206-1-1.html

上市公司过度负债-固定效应回归(代码+数据)

https://bbs.pinggu.org/thread-11506220-1-1.html

上市公司超额在职消费(代码+数据)

https://bbs.pinggu.org/thread-11506129-1-1.html

上市公司税收规避(代码+数据)

https://bbs.pinggu.org/thread-11506963-1-1.html

上市公司管理层权力-主成分分析(代码+数据)

https://bbs.pinggu.org/thread-11509180-1-1.html

上市公司公司治理指数-主成分分析(代码+数据)

https://bbs.pinggu.org/thread-11506981-1-1.html

上市公司高管超额薪酬-基础模型(代码+数据)

https://bbs.pinggu.org/thread-11507029-1-1.html

上市公司高管超额薪酬-拓展模型(代码+数据)

https://bbs.pinggu.org/thread-11507041-1-1.html

上市公司薪酬差距(薪酬数据集+代码+数据)

https://bbs.pinggu.org/thread-10908381-1-1.html

上市公司破产风险Zscore及其修订指标(代码+数据)

https://bbs.pinggu.org/thread-11507083-1-1.html

上市公司董事会多样性指标构建(代码+数据)

https://bbs.pinggu.org/thread-11594064-1-1.html

上市公司超额商誉(多个指标  代码+数据)

https://bbs.pinggu.org/thread-11507099-1-1.html

上市公司并购溢价指标计算(代码+数据)

https://bbs.pinggu.org/thread-11507521-1-1.html

上市公司违规处罚(代码+数据)https://bbs.pinggu.org/thread-11509117-1-1.html
上市公司超额现金持有-回归残差法(代码+数据)https://bbs.pinggu.org/thread-11510811-1-1.html

补充更新2022
上市公司劳动投资效率/冗余雇佣/雇佣不足(代码+数据)https://bbs.pinggu.org/thread-11511441-1-1.html
上市公司绝对/相对薪酬差距(代码+数据)https://bbs.pinggu.org/thread-11511528-1-1.html

补充更新2023
1.中国A股上市公司基本信息-某浪财经和某眼查
https://bbs.pinggu.org/thread-11554120-1-1.html
2.中国AI人工智能企业工商登记数据(128万+观测值 含代码)
https://bbs.pinggu.org/thread-11554198-1-1.html

3.2000-2023中国各省市县AI人工智能企业数量面板数据
https://bbs.pinggu.org/thread-11555595-1-1.html

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2024-5-13 09:33:22
爬虫系列:

中国上市公司年报文本(爬虫代码+年报txt)https://bbs.pinggu.org/thread-11787621-1-1.html
中国城市数字经济指数(爬虫代码+数据)https://bbs.pinggu.org/thread-11281532-1-1.html
和讯网上市公司社会责任数据(爬虫代码+数据)https://bbs.pinggu.org/thread-10646429-1-1.html
新浪财经上市公司高管个人特征及简历数据(爬虫代码+数据)https://bbs.pinggu.org/thread-10725251-1-1.html
2000-2021土地交易数据(275万+ 含爬虫代码)https://bbs.pinggu.org/thread-10491869-1-1.html
2000-2021土地转让数据(81万+ 含爬虫代码)https://bbs.pinggu.org/thread-10516466-1-1.html
2000-2021土地抵押数据(41万+ 含爬虫代码)https://bbs.pinggu.org/thread-10550946-1-1.html

2023补充更新:
中国A股上市公司基本信息-某浪财经和某眼查(含爬虫代码)https://bbs.pinggu.org/thread-11554120-1-1.html
某浪财经董监高个人特征扩展数据(148万+观测值 含处理代码)https://bbs.pinggu.org/thread-11592248-1-1.html


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2024-5-13 09:33:48
上市公司董监高系列:

【更新至2022】某浪财经高管个人特征数据(177万+观测值数据+Python爬虫代码)https://bbs.pinggu.org/thread-11537700-1-1.html
【更新至2022】某浪财经董监高个人特征扩展数据(148万+观测值 含处理代码)https://bbs.pinggu.org/thread-11592248-1-1.html
【更新至2022】某安董监高个人特征处理结果数据(300万+观测值 代码+数据)https://bbs.pinggu.org/thread-11593107-1-1.html
【更新至2022】上市公司CEO任期与高管个人任职数据(数据+处理代码)https://bbs.pinggu.org/thread-11509220-1-1.html
【更新至2022】上市公司董事会多样性指标构建(代码+数据)https://bbs.pinggu.org/thread-11594064-1-1.html
【更新至2022】上市公司管理层权力-主成分分析(代码+数据)https://bbs.pinggu.org/thread-11509180-1-1.html
【更新至2021】上市公司董事联结数据大全(联结薪酬等945变量 代码+数据)https://bbs.pinggu.org/thread-11269306-1-1.html


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群