立即打开
    
 
                                        数据集:
2001年-2022年A股上市公司年报,pdf版及txt版
数据收集过程如下:1.python下载pdf年报,2022年年报是2023年6月12日统一下载
2.python使用pdfminer库将pdf转成txt文本
3.针对扫描件、图像格式的pdf年报使用嗨格式pdf转换器直接转txt文本,部分加密pdf年报也是使用嗨格式处理,为节约时间2021年及2022年年报是直接使用嗨格式pdf转换器转txt文本
4.对txt文本同一删除换行符和段落符
5.数据集使用分卷压缩,解压缩的时候注意下
6.txt年报示例及每年年报数量如下图所示
                                        
                                     
 
 
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
 
 
 
 
   
  
  
 
 
 
 
 
栏目导航
热门文章
推荐文章
 
 
    
扫码加好友,拉您进群