摘要:目的 结合自然语言处理方法,研究可以有效抽取中医古籍中所含症状和药物文本实体信息的方法。方法 以《金匮要略》为例,采用条件随机场(CRF)算法,先将文本进行分词处理,然后以词性、基于键值对的中医诊断标记集作为辅助特征,通过症状-药物BIO标签为训练特征来训练出模型,然后利用该模型对测试集文本进行自动标签标注。结果 基于多特征CRF自动标注的结果准确率达到84.5%,召回率达到70.9%,F测度值达到77.1%。结论 运用CRF方法加入词性、中医诊断标记集特征集进行训练得出的多特征模型,能有效提高CRF算法对中医古籍的实体抽取能力,生成的模型可用来自动化抽取中医古籍文本的症状药物实体信息。
原文链接:http://www.cqvip.com//QK/71859X/201605/670130467.html
送人玫瑰,手留余香~如您已下载到该资源,可在回帖当中上传与大家共享,欢迎来CDA社区交流学习。(仅供学术交流用。)