资料说明:该文件利用python爬虫技术和jieba中文分词库对上市公司年报内容进行提取,可获得上市公司年报中某个或某些关键词出现的频数,除以年报总字数或者总词数可以构建相关数据,例如上市公司数字化转型程度等。本文档的优势:
(1)可将年报替换成任何其他文档,例如减值报告等,实现其他报告中相关指标构建。
(2)可以更改检索公告中的关键词,例如将人工智能换为
深度学习等。若要更换检索报告中的关键词,可将关键词全部写入custom_dictionary.txt文档,然后在代码里更换keyword即可。
(3)在检索上市公司公告中,关键词设置较精确,采用负向否定排除噪音,例如在年报筛选中,设置不出现“摘要”,可减少读取年报摘要带来的数据错误和重复。
(4)程序设置在后台运⾏,即不会影响到你的其他⼯作。
(5)如需更换读取的公告中的范围,设定 start_page或者 end_page以读取指定范围的pdf 以提取关键词。