摘要:鉴于互联网上各种不良网页的影响,提出了一种使用贝叶斯分类算法和领域本体过滤中文网页的方法。该方法根据正反例领域网页计算领域特征词的权重,建立领域特征词库并制作领域本体,根据正例领域网页得到本体元素权重库;使用贝叶斯分类算法得到候选网页;根据领域本体对候选网页进行语义相关度计算并进行网页过滤。该方法可以区分相同领域网页中的正反例网页并可兼顾网页过滤的实时性。通过游戏领域网页的测试,准确率和召回率均在98%以上,语义分析游戏相关网页的平均时间为1~2s,对用户浏览网页速度的影响较小,效果令人满意。
原文链接:http://www.cqvip.com//QK/95548X/201405/661599699.html
送人玫瑰,手留余香~如您已下载到该资源,可在回帖当中上传与大家共享,欢迎来CDA社区交流学习。(仅供学术交流用。)