全部版块 我的主页
论坛 提问 悬赏 求职 新闻 读书 功能一区 经管文库(原现金交易版)
273 0
2025-04-11



一、数据概况
本数据集基于自然语言处理技术构建,涵盖2008-2023年间中国A股5562家上市公司的创新活动测度指标,形成有效观测值5.05万条。数据核心指标包含:
- 基础计量指标:股票代码/公司简称/年份/全文总词数/关键词词频数/关键词词频自然对数
- 创新关键词体系:构建包含39个维度的创新词库,覆盖研发全生命周期(研究→开发→产业化)与创新类型(技术创新/管理创新/模式创新)


二、测度方法
本数据库构建方法参照谢佳松等(2025)发表于《统计研究》的文本分析框架,具体流程包含:
1. 语料处理:提取上市公司年报MD&A(管理层讨论与分析)文本
2. 词典构建:通过TF-IDF算法和专家验证,建立三级创新关键词体系
3. 指标计算:创新强度=Σ(创新关键词词频)/总词数×100%
4. 有效性验证:与研发支出、专利数量等结构化数据相关系数达0.68-0.82


三、创新关键词分类体系
1. 基础研发类:研发/开发/创新/研究/专利/发明等
2. 技术升级类:升级/新工艺/新技术/迭代/革新等
3. 战略转型类:转型/变革/新模式/新业态/推陈出新等
4. 产学协同类:产学研/科技攻关/知识产权等
5. 产品创新类:新品/独创/首创/原创/新一代等
6. 材料能源类:新能源/新材料/新技术等


四、学术应用价值
本数据库突破传统财务指标局限,实现:
1. 创新前导性:较研发支出数据提前1-2年反映创新动向
2. 战略解码:通过关键词结构分析企业创新战略倾向
3. 行业对标:构建跨行业可比创新强度指数


五、文献依据
谢佳松,樊嘉诚,林建浩.我国上市公司创新活动的测度——基于文本分析的方法[J].统计研究,2025,42(02):70-83.


注:本数据已通过年报文本可比性检验、关键词敏感性分析等质量验证,为研究企业创新战略提供量化支持。






附件列表
创新活跃度.png

原图尺寸 204.92 KB

创新活跃度.png

上市公司创新活跃度(2008-2023)

大小:85 Bytes

只需: RMB 34 元  马上下载

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群