【原创/珍贵/可用于分析企业各类文档】各类信息文本深度与广度指标构建

1788

收藏 2024-04-19

代码说明：本代码⾸先针对⽤户提供的特定语料库，基于 Bert 模型进⾏词汇的编码，⽽后基于Kmeans++ 聚类算法对语料库进⾏分组，其中具体的组数基于silhouette值进⾏判断，以构建⼀个精细化的主题⽹络。通过这种⽅式，研究者能够有效地对企业的信息⽂本（如：年报）进⾏深⼊分析，准确提取出企业在该领域的专业深度和业务⼴度。其中，⼴度的定义是企业的某个⽂档的词汇可以包含⼏个组的词汇，包含的组数即为广度，深度的定义是此⽂档⾥符合该主题的特定词汇的TF-IDF 值之和。
本文档的优势：
（1）可分析任何文档，例如企业年报、报纸信息、企业网站新闻标题等，实现其他报告中相关指标构建。
（2）数据优势：首先，通过运用机器学习BERT算法和K-means聚类，我们能够从词汇的语义相似度和文本主题等多个维度进行分析，获得最佳聚类数，实现对词汇的精确划分，确保同一类别内的词汇联系紧密，而不同类别间的联系则尽可能弱。其次，引入TF-IDF权重，其既考虑了词汇在单个文本中的局部重要性（TF），也反映了其在整个文档集合中的全局重要性（IDF），从而在文本挖掘和信息检索中能够更有效地捕捉关键信息。（3）压缩包中包含help文档，帮你解读代码。

参考文献：Jiang C, Yin C, Tang Q, et al. The value of official website information in the credit risk evaluation of SMEs[J]. Journal of Business Research, 2023, 169: 114290.

附件列表

Kmean算法确定最佳聚类数.png

原图尺寸 102.01 KB