字段说明:
security_code[证券代码]:以上海证券交易所和深圳证券交易所公布的证券代码为准。
security_name[证券简称]:以上海证券交易所和深圳证券交易所公布的公司最新证券简称为准。
rep_period[报告期间]:报告对应会计期间截止日期,格式为“YYYY-MM-DD”。
rep_type[报告类型]:文本数据源类型。
rep_link[报告链接]:报告原文链接,部分公司某年可能存在一份以上报告,可据此字段加以区分。
similarity_wingo_1[WinGo文本相似性1]:利用WinGo方法计算报告文本当期与同一行业其他所有公司报告当期的相似性的中位数大小。
similarity_wingo_2[WinGo文本相似性2]:利用WinGo方法计算报告文本当期与同一行业其他所有公司报告当期的相似性的均值大小。
similarity_wingo_3[WinGo文本相似性3]:利用WinGo方法计算报告文本当期与上一期之间的相似性大小。
similarity_tf_idf_1[TF-IDF文本相似性1]:利用TF-IDF方法计算报告文本当期与同一行业其他所有公司报告当期的相似性的中位数大小。
similarity_tf_idf_2[TF-IDF文本相似性2]:利用TF-IDF方法计算报告文本当期与同一行业其他所有公司报告当期的相似性的均值大小。
similarity_tf_idf_3[TF-IDF文本相似性3]:利用TF-IDF方法计算报告文本当期与上一期报告之间的相似性大小。
similarity_lda_1[LDA文本相似性1]:利用LDA方法计算报告文本当期与同一行业其他所有公司报告当期的相似性的中位数大小。
similarity_lda_2[LDA文本相似性2]:利用LDA方法计算报告文本当期与同一行业其他所有公司报告当期的相似性的均值大小。
similarity_lda_3[LDA文本相似性3]:利用LDA方法计算报告文本当期与上一期报告之间的相似性大小。
数据:
文本相似性.zip
大小:(14.2 MB)
只需: RMB 50元
马上下载
本附件包括:
- IPO招股说明书2001-2020.csv
- 业绩说明会2007-2020.csv
- 内部控制评价报告2007-2020.csv
- 在经管领域如何使用文本分析做研究?—— LDA主题模型.pdf
- 在经管领域如何使用文本分析做研究?——文本相似性(上).pdf
- 在经管领域如何使用文本分析做研究?——文本相似性(下).pdf
- 字段说明.txt
- 审计报告-关键审计事项2016-2020.csv
- 审计报告-报告全文2016-2020.csv
- 数据库说明.pdf
- 社会责任报告2006-2020.csv
- 管理层讨论与分析(全文)2001-2020.csv
- 管理层讨论与分析(未来展望)2016.csv
- 董事会报告章节2001-2014.csv
- 财务报告2001-2020.csv
- 财务报告附注2001-2020.csv