年报文本分析—关键词提取
2007-2022
(功能持续更新)
可实现功能:
1.提取关键词频并输出excel文档
2.提取关键词所在的句子并生成所有相关句子的txt文档
1.数据名称:年报文本分析—关键词提取(可用于数字化、创新、共同富裕等)
2.数据区间:2007-2022
3.数据内容:
- 2007-2022年报文本(txt格式)
- 词频爬取代码
- python相关软件(提供下载)
- 超详细使用教程(手把手教学,小白可做)
- 常用的停用词列表
4.数据说明:
①关于词频提取代码:
本数据集提供两个类型的词频爬取代码:
第一,基于jieba库进行爬取的代码,该代码也是文章使用文本分析最为常用的代码
第二,直接提取代码,此代码常用于爬取较长的词汇,如工业互联网,数字化转型平台等长词
②关于年报:
本数据集提取了A股上市公司年报,通过pdf转换成了txt,但其中包含转码失败,请知悉
③关于教程
基本上每个步骤都有使用的说明,包括软件的操作以及代码的基本解释以及常见的问题说明
④关于结果
会输出股票代码以及年份的面板数据
5.部分数据展示: