全部版块 我的主页
论坛 提问 悬赏 求职 新闻 读书 功能一区 经管文库(原现金交易版)
881 1
2023-04-05
1.资料名称:2022-2001年上市公司企业年报文本数据
2.计算方式:使用python将巨潮网上市公司年报进行爬取,下载的pdf文件已经转化为txt格式+Excel格式,方便后续文本分析处理;pdf批量下载过程中存在年报更新的情况,已经对年报进行了筛选,剔除了非年报文件并保留了最新更新或更正的年报;原始地址的文件名称并不统一,本人已经将年报文件名称进行了统一,统一格式为“股票代码_年度_发布日期_****年年度报告.txt”,例如,“999_2001定.txt”)
3.数据来源:巨潮网
4.资料范围:5.3万个年报,近5个G的数据量,数据格式为.txt 格式(记事本),计量软件可以直接导入,提供详细的Python爬虫代码


公司文本1.jpg



附件列表
文本分析1.png

原图尺寸 34 KB

文本分析1.png

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2024-4-23 15:54:35
此帖仅作者可见
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群