全部版块 我的主页
论坛 提问 悬赏 求职 新闻 读书 功能一区 经管文库(原现金交易版)
2206 1
2023-04-23
上市公司年报文本语气指标


指标说明

证券代码证券代码
年份年报所属会计年度
年报字数年报全文总字数
年报词汇数年报文本词汇数量
年报句子数年报文本句子数量
LM词典积极词汇数基于LM词典计算年报文本中的积极词汇数
LM词典消极词汇数基于LM词典计算年报文本中的消极词汇数
台大词典积极词汇数基于台湾大学《中文情感极性词典》计算年报文本中的积极词汇数
台大词典消极词汇数基于台湾大学《中文情感极性词典》计算年报文本中的消极词汇数
基于LM词典的TONE1LM_TONE1=(积极词汇数-消极词汇数)/年报词汇数,LM_TONE1值越大,表示年报文本信息语气越积极
基于LM词典的TONE2LM_TONE2=(积极词汇数-消极词汇数)/(积极词汇数+消极词汇数),LM_TONE2值越大,表示年报文本信息语气越积极
基于台大词典的TONENTUSD_TONE=(积极词汇数量-消极词汇数量)/(积极词汇数量+消极词汇数量),NTUSD_TONE值越大,表示年报文本信息语气越积极


数据库设计了积极词汇数、消极词汇数、年报语调等多个字段。由于目前主流研究均基于年报文本中的正、负面词汇数量以及比例来判断年报的整体语调 (曾庆生等,2018;王华杰和王克敏,2018),因此,情感词典的建立及其准确性对年报文本语气的判断过程显得至关重要。

ARTD 采用包括 LM 词典和台湾大学情感词典在内的前沿词典,运用多种方法计算年报文本语气,为该领域的深度研究提供了数据支撑。ARTD 对年报文本语气判断方法如下:

一是参照曾庆生等 (2018) 的研究,以 Loughran 和 McDonald (2011) 提供的金融情感英文词汇列表为基础,依据有道词典和金山词霸对 LM 词典中的英文词汇进行了翻译。与曾庆生等 (2018) 保留一个英文词汇对应多个中文单词的情况不同,本数据库只保留与该英文词汇表达的中文情感最相关的中文词汇,最终的词汇列表包括 2080 个消极词,1076 个积极词。由此计算:

LM_TONE1 = (积极词汇数 - 消极词汇数) / 年报词汇数
LM_TONE2 = (积极词汇数 - 消极词汇数) / (积极词汇数 + 消极词汇数)
LM_TONE 值越大,表示当年年报文本信息语气越积极。

二是参照王华杰和王克敏 (2018) 的研究,使用台湾大学制作的《中文情感极性词典》,将诸如“积极”、“进步”、“高效”等积极属性词语集作为积极情绪词语列表;将诸如“低迷”、“暗淡”、“不利”等消极属性词语集作为消极情绪词语列表。基于此,计算文本信息语气:

NTUSD_TONE = (积极词汇数量 - 消极词汇数量) / (积极词汇数量 + 消极词汇数量)
NTUSD_TONE 值越大,表示当年年报文本信息语气越积极。

数据说明

数据区间20072022年

结果说明
QQ截图20230524101511.jpg

描述性统计

样本量

均值

标准差

最小值

1%分位

中位数

99分位

最大值

年报字数

47232

211749

175598

3895

76802

155597

881698

2047796

年报词汇数

47232

50375

15706

1124

23165

48909

95192

183154

年报句子数

47232

1125

744

4

517

1065

2297

97412

LM词典积极词汇数

47232

3473

1105

14

1551

3365

6592

13763

LM词典消极词汇数

47232

3438

1125

6

1442

3391

6579

14080

台大词典积极词汇数

47232

3540

1139

14

1559

3430

6709

12075

台大词典消极词汇数

47232

1452

570

3

517

1438

2824

5912

基于LM词典的TONE1

47232

0.001

0.010

-0.084

-0.024

0.001

0.026

0.093

基于LM词典的TONE2

47232

0.007

0.073

-0.457

-0.164

0.007

0.190

0.567

基于台大词典的TONE

47232

0.427

0.091

0.020

0.219

0.436

0.612

0.771



样本量

年份

数据量

2007

1,524

2008

1,590

2009

1,740

2010

2,064

2011

2,331

2012

2,448

2013

2,319

2014

2,569

2015

2,814

2016

3,111

2017

3,426

2018

3,582

2019

3,717

2020

4,230

2021

4,649

2022

5,118

总数据量

47,232



购买数据





二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2023-4-23 09:57:16
优质帖子推荐

【优质】杠杆操纵的测度: XLT-LEVM法(2007-2021年)包含Stata处理代码
https://bbs.pinggu.org/thread-11147374-1-1.html

【优质】高管薪酬粘性、风险承担与企业投资效率——管理者权力与融资约束的调节作用
https://bbs.pinggu.org/thread-11169681-1-1.html

【推荐】上市公司机构交叉持股数据整理Stata代码(2003-2021年)
https://bbs.pinggu.org/thread-11124972-1-1.html

【推荐】机构投资者羊群行为(1998-2021年)
https://bbs.pinggu.org/thread-11176494-1-1.html

上市公司研发背景高管权力数据整理Stata代码(1999-2021年)
https://bbs.pinggu.org/thread-11412607-1-1.html

上市公司年报文本语气指标整理(2007-2022年
https://bbs.pinggu.org/thread-11506146-1-1.html

非金融行业上市公司产融结合数据整理(2007-2021年)
https://bbs.pinggu.org/thread-11235637-1-1.html

环保补助环保补贴(2008-2021年)
https://bbs.pinggu.org/thread-11400645-1-1.html

高管团队稳定性数据计算Stata代码(附2008-2021年数据)
https://bbs.pinggu.org/thread-11400790-1-1.html

国有上市企业混合主体多样性、深入性和制衡度指标整理2003-2022年 提供代码
https://bbs.pinggu.org/thread-11506101-1-1.html

上市公司过度融资比率数据计算Stata代码(1991-2021年)
https://bbs.pinggu.org/thread-11165610-1-1.html

上市公司财务冗余数据2007-2021年(包含原始数据、Stata代码和结果)
https://bbs.pinggu.org/thread-11042434-1-1.html

会计信息披露及时性指标2001-2021年
https://bbs.pinggu.org/thread-11046308-1-1.html

上市公司第一类代理成本和第二类代理成本数据整理(1991-2022年)
https://bbs.pinggu.org/thread-11506074-1-1.html

上市公司数字经济化指标(2007-2020年)
https://bbs.pinggu.org/thread-10961438-1-1.html

经济政策不确定性指数(1985年1月-2022年12月)
https://bbs.pinggu.org/thread-11486778-1-1.html

上市公司金融化程度指标数据计算Stata代码(2007-2021年)
https://bbs.pinggu.org/thread-11198508-1-1.html
https://bbs.pinggu.org/thread-11198538-1-1.html
https://bbs.pinggu.org/thread-11198540-1-1.html

上市银行常用数据整理Excel版本(2000-2020年)
https://bbs.pinggu.org/thread-10961776-1-1.html

1998-2013工业企业数据库面板数据整理
https://bbs.pinggu.org/thread-7124643-1-1.html

社会融资规模及构成-2001-2020年数据 影子银行
https://bbs.pinggu.org/thread-10928920-1-1.html]

上市公司市场地位指标1990-2020年数据(附Stata代码)
https://bbs.pinggu.org/thread-10926839-1-1.html

【调整显著性Stata代码】选择最优的控制变量组合
https://bbs.pinggu.org/thread-10936762-1-1.html

上市公司并购绩效CAR和BHAR计算Stata代码(附2008-2020年数据)
https://bbs.pinggu.org/thread-10939540-1-1.html

中国GDP月度数据1992.1-2022.12(季度数据转换月度数据Eviews)
https://bbs.pinggu.org/thread-11486764-1-1.html

【审计数据】上市公司事务所任期数据整理Stata代码(1990-2020年)
https://bbs.pinggu.org/thread-10949303-1-1.html

【关键审计事项】上市公司关键审计事项数量统计(2016-2021年)
https://bbs.pinggu.org/thread-11147401-1-1.html

各省份专利授权面板数据整理(1998-2020年)
https://bbs.pinggu.org/thread-10960538-1-1.html

【必备】面板门槛回归代码(附示例数据)
https://bbs.pinggu.org/thread-10966780-1-1.html

高管薪酬差距(2005-2021年)
https://bbs.pinggu.org/thread-11147397-1-1.html

周特质收益率的均值Ret周特质收益率的标准差Sigma(1991-2022年)
https://bbs.pinggu.org/thread-11486818-1-1.html

上市公司女性高管比例和虚拟变量(1999-2021年)
https://bbs.pinggu.org/thread-11147380-1-1.html

上市公司女性董事比例和虚拟变量(1999-2021年)
https://bbs.pinggu.org/thread-11147394-1-1.html

1991-2021年 沪深上市公司股价崩盘风险指标NCSKEW DUVOL CRASH
https://bbs.pinggu.org/thread-10990264-1-1.html

[color=#ff00001998-2021年 沪深上市公司股价同步性指标SYN

https://bbs.pinggu.org/thread-10990291-1-1.html

上市公司战略冲突指标(2004-2020年)
https://bbs.pinggu.org/thread-11165538-1-1.html

上市公司关联交易指标整理Stata代码(1997-2021年数据)  
https://bbs.pinggu.org/thread-11165491-1-1.html

中证800指数历年成分股数据整理(2007-2021年)
https://bbs.pinggu.org/thread-10995181-1-1.html

中证500指数历年成分股数据整理(2007-2021年)  
https://bbs.pinggu.org/thread-10995161-1-1.html

沪深300指数历年成分股数据整理(2005-2021年)
https://bbs.pinggu.org/thread-10995160-1-1.html

上证50指数历年成分股数据整理(2005-2021年)
https://bbs.pinggu.org/thread-10995156-1-1.html

上证180指数历年成分股数据整理(2005-2021年)
https://bbs.pinggu.org/thread-10995149-1-1.html

各省份实际利用外商直接投资额(更新至2020年)
https://bbs.pinggu.org/thread-9993599-1-1.html




二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群