全部版块 我的主页
论坛 计量经济学与统计论坛 五区 计量经济学与统计软件 Stata专版
5971 3
2021-11-30
使用林乐和谢德仁使用的LM词典进行爬取,中文词典来源于有道翻译(有英文词典也有中文词典,)
1、年报来源于巨潮咨询
2、爬取更新后的年报
3、剔除ST
4、摘取管理层讨论与分析,纯文本部分(有该部分的数据)
5、python爬取,程序为jieba
6、代码展示如下
7、可发邮箱询问a18004817351@163.com
import pdfplumber
import time
import os
import re

def get_page(text):
    for key in ['董事会报告', '董事局报告', '经营情况讨论与分析']:
        r1 = re.compile(key+'.*?(\d{1,3})')
        page1 = re.findall(r1, text)
        if len(page1):
            page1 = page1[0
            break
    else:
        return False
    r = re.compile(f'{key}.*?'+page1+'.*?\n.*?\n*?.+?(\d{1,3})')
    page2 = re.findall(r, text)
    if len(page2):
        page2 = page2[0


附件列表

LM有道翻译正负面词汇汇总(清洗完成)639+1450.xlsx

大小:52.63 KB

只需: 15 个论坛币  马上下载

有道翻译,清洗完成的LM词典

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-1-3 16:03:56
感谢分享
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2023-1-25 14:06:07
请问管理层讨论与分析部分怎么提取呢
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2023-6-5 12:08:34
新手小白啊啊啊 发表于 2023-1-25 14:06
请问管理层讨论与分析部分怎么提取呢
我也想问这个问题,不知您是否解决了
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群