摘要:网络舆情搜索引擎与通常的网络信息搜索不同,其最终结果要深入到站点和页面内部采集与抽取有效数据,给情报界提出了许多新的研究内容和方法。在对网页信息抽取的模板和页面分析两种方式、基于自然语言处理、包装器归纳和Ontology抽取方法的分析基础上,使用基于包装器归纳方式并在规则生成模块中采用专家模式,设计一种基于样本学习的新闻抽取方法,通过人工分析网页源代码制定和修改抽取规则,然后根据抽取规则进行信息自动抽取,以提高舆情搜索引擎的精度和质量。
原文链接:http://www.cqvip.com//QK/95888X/201110/39766127.html
送人玫瑰,手留余香~如您已下载到该资源,可在回帖当中上传与大家共享,欢迎来CDA社区交流学习。(仅供学术交流用。)