全部版块 我的主页
论坛 提问 悬赏 求职 新闻 读书 功能一区 经管文库(原现金交易版)
329 0
2024-12-04

数据库字段说明

分析师报告基本信息

字段名称

字段说明

编号

分析师报告编号

股票代码

公司股票代码

分析师姓名

分析师姓名,多个分析师以“/ ”号分隔

分析师代码

CNRDS 编制的分析师个人独特 ID,多个分析师以“/ ” 号分隔,多个分析师中没有编号的用“--”表示

报告标题

分析师报告标题

发布日期

分析师报告发布时间

总字数 1

文本总字数,包括英文和数字,单位:个

总字数 2

文本总字数,不包括英文和数字,单位:个

总词数 1

文本总词数,包括停用词,停用词是指英文单词、标 点符号和无意义中文单词(例如:哎呀,不仅,而且) 等,单位:个

总词数 2

文本总词数,不包括停用词,停用词是指英文单词、 标点符号和无意义中文单词(例如:哎呀,不仅,而 且)等,单位:个



文件大小

分析师报告的文件大小,单位 KB

页数

分析师报告 PDF 文件的总页数

句子数

文本的总句子数,统计的是未去除无关内容的文本句 子总数,无关内容是指与文章关联不大的内容(例如: 分析师声明、投资评级的说明)等,单位:个

分析师报告可读性

字段名称

字段说明

编号

分析师报告编号

股票代码

公司股票代码

发布时间

分析师报告发布时间

总字数 1(个)

文本总字数,包括英文和数字,单位:个

总字数 2(个)

文本总字数,不包括英文和数字,单位:个

总词数 1(个)

文本总词数,包括停用词,停用词是指英文单词、标 点符号和无意义中文单词(例如:哎呀,不仅,而且) 等,单位:个

总词数 2(个)

文本总词数,不包括停用词,停用词是指英文单词、 标点符号和无意义中文单词(例如:哎呀,不仅,而 且)等,单位:个

句子数(个)

文本的总句子数,单位:个

分句中的平均字数(个)

文本中分句字数的一个平均数,总字数/分句数,单 位:个

副词和连词的比例(%)

全文副词和连词所占比例,全文的副词和连词/全部 词数,(%)

常用字所占的比例(‰)

每一千字中常用字字数(个):常用字在文本中所占 比例,单位:个

次常用字所占的比例(‰)

每一千字中次常用字字数(个):次常用字在文中所 占的比例,单位,个

总字数 1(个)(去除无

关内容)

文本总字数,包括英文和数字,单位:个。无关内容 是指与文章关联不大的内容(例如:分析师声明、投 资评级的说明)等

总字数 2(个)(去除无

关内容)

文本总字数,不包括英文和数字,单位:个。无关内 容是指与文章关联不大的内容(例如:分析师声明、 投资评级的说明)等

总词数 1(个)(去除无

关内容)

文本总词数,包括停用词,停用词是指英文单词、标 点符号和无意义中文单词(例如:哎呀,不仅,而且) 等,单位:个。无关内容是指与文章关联不大的内容  (例如:分析师声明、投资评级的说明)等

总词数 2(个)(去除无

关内容)

文本总词数,不包括停用词,停用词是指英文单词、 标点符号和无意义中文单词(例如:哎呀,不仅,而 且)等,单位:个。无关内容是指与文章关联不大的 内容(例如:分析师声明、投资评级的说明)等

句子数(个)(去除无关

文本的总句子数,单位:个。无关内容是指与文章关



内容)

联不大的内容(例如:分析师声明、投资评级的说明) 等

分句中的平均字数

(个) (去除无关

内容)

文本中分句字数的一个平均数,总字数/分句数,单 位:个。无关内容是指与文章关联不大的内容(例如: 分析师声明、投资评级的说明)等

副词和连词的比例

(%)(去 除无关内

容)

全文副词和连词所占比例,全文的副词和连词/全部 词数,(%)。无关内容是指与文章关联不大的内容 (例如:分析师声明、投资评级的说明)等

常用字所占的比例

(‰) (去除无关

内容)

每一千字中常用字字数(个):常用字在文本中所占 比例,单位:个。无关内容是指与文章关联不大的内 容(例如:分析师声明、投资评级的说明)等

次常用字所占的比例

(‰) (去除无关

内容)

每一千字中次常用字字数(个):次常用字在文中所 占的比例,单位,个。无关内容是指与文章关联不大 的内容(例如:分析师声明、投资评级的说明)等

分析师报告前瞻性

字段名称

字段说明

编号

分析师报告编号

股票代码

公司股票代码

发布日期

分析师报告发布时间

前瞻性句子数

具有前瞻性句子的总数量,前瞻性是指分析师对企业 未来各方面的预测。随机抽取了一定量的分析师报告 逐句进行人工标注,人工判断每个句子是否属于前瞻 性语句,后通过机器学习算法对带有前瞻性标记的语 句进行训练与测试,统计出带有前瞻性的句子数量, 单位:个

句子数

文本的总句子数,统计的是未去除无关内容的文本句 子总数,无关内容是指与文章关联不大的内容(例如: 分析师声明、投资评级的说明)等,单位:个

分析师报告相似度

字段名称

字段说明

编号

分析师报告编号

股票代码

公司股票代码

发布日期

分析师报告发布时间

平均相似度

计算得出每一份分析师报告与对应目标公司前 3 个 月所有分析师报告的相似度的均值



分析师报告情感语调

分析师报告情感语调(词典法)

字段名称

字段说明

编号

分析师报告编号

股票代码

公司股票代码

发布日期

分析师报告发布时间

LM 词典积极词汇数

基于 LM 情感词典计算分析师报告中带有积极性词汇 数量,单位:个

LM 词典消极词汇数

基于 LM 情感词典计算分析师报告中带有消极性词汇 数量,单位:个

台大词典积极词汇数

基于台大情感词典计算分析师报告中的积极词汇数, 单位:个

台大词典消极词汇数

基于台大情感词典计算分析师报告中的消极词汇数, 单位:个

LM 词典积极语句数量

基于 LM 情感词典计算分析师报告中的积极语句数量, 单位:个

LM 词典消极语句数量

基于 LM 情感词典计算分析师报告中的消极语句数量, 单位:个

台大词典积极语句数量

基于台大情感词典计算分析师报告中的积极语句数 量,单位:个

台大词典消极语句数量

基于台大情感词典计算分析师报告中的消极语句数 量,单位:个

分析师报告情感语调(机器学习)

字段名称

字段说明

编号

分析师报告编号

股票代码

公司股票代码

发布日期

分析师报告发布时间

积极性语句数量

通过机器学习算法对带有积极信息标记的句子进行分 类,得出的句子数量

中性语句数量

通过机器学习算法对带有中性信息标记的句子进行分 类,得出的句子数量,单位:个

消极性语句数量

通过机器学习算法对带有消极信息标记的句子进行分 类,得出的句子数量,单位:个

句子数

文本的总句子数,统计的是未去除无关内容的文本句 子总数,无关内容是指与文章关联不大的内容(例如: 分析师声明、投资评级的说明)等,单位:个

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群