基于改进卡方统计量的藏文文本表示方法

757

收藏 2018-01-25

摘要：藏文文本表示是将非结构化的藏文文本转换为计算机能够处理的数据形式，是藏文文本分类、文本聚类等领域特征抽取的前提。传统的藏文文本表示方法较少考虑特征项之间的关联度，容易造成语义损失。为此，结合向量空间模型，提出一种新的藏文文本表示方法。提取文本中词频统计TF—IDF值较高的部分词项作为对比词项，对藏文文本进行断句处理，以每个句子作为一个语境主题，利用卡方统计量计算文本中词项与对比词项的关联程度。实验结果表明，与传统的向量空间模型相比，该方法能更准确地表示藏文文本。

原文链接:http://www.cqvip.com//QK/95200X/201406/50016409.html

送人玫瑰，手留余香~如您已下载到该资源，可在回帖当中上传与大家共享，欢迎来CDA社区交流学习。（仅供学术交流用。）

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群