全部版块 我的主页
论坛 提问 悬赏 求职 新闻 读书 功能一区 经管文库(原现金交易版)
1788 2
2024-04-19
代码说明:本代码⾸先针对⽤户提供的特定语料库,基于 Bert 模型进⾏词汇的编码,⽽后基于Kmeans++ 聚类算法对语料库进⾏分组,其中具体的组数基于silhouette值进⾏判断,以构建⼀个精细化的主题⽹络。通过这种⽅式,研究者能够有效地对企业的信息⽂本(如:年报)进⾏深⼊分析,准确提取出企业在该领域的专业深度和业务⼴度。其中,⼴度的定义是企业的某个⽂档的词汇可以包含⼏个组的词汇,包含的组数即为广度,深度的定义是此⽂档⾥符合该主题的特定词汇的TF-IDF 值之和。
本文档的优势:
(1)可分析任何文档,例如企业年报、报纸信息、企业网站新闻标题等,实现其他报告中相关指标构建。
(2)数据优势:首先,通过运用机器学习BERT算法和K-means聚类,我们能够从词汇的语义相似度和文本主题等多个维度进行分析,获得最佳聚类数,实现对词汇的精确划分,确保同一类别内的词汇联系紧密,而不同类别间的联系则尽可能弱。其次,引入TF-IDF权重,其既考虑了词汇在单个文本中的局部重要性(TF),也反映了其在整个文档集合中的全局重要性(IDF),从而在文本挖掘和信息检索中能够更有效地捕捉关键信息。(3)压缩包中包含help文档,帮你解读代码。



参考文献:Jiang C, Yin C, Tang Q, et al. The value of official website information in the credit risk evaluation of SMEs[J]. Journal of Business Research, 2023, 169: 114290.






附件列表
Kmean算法确定最佳聚类数.png

原图尺寸 102.01 KB

Kmean算法确定最佳聚类数.png

文件内容.png

原图尺寸 16.85 KB

文件内容.png

代码及说明文档.zip

大小:2.23 MB

只需: RMB 89 元  马上下载

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2024-4-22 11:15:14
这个有点炫
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2024-4-22 22:18:47
wind-gone 发表于 2024-4-22 11:15
这个有点炫
可自行下单
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群