基于GATE语义标注的Web信息的自动抽取

865

收藏 2017-12-30

摘要：重点研究基于语义标注样本的Web信息自动抽取的实现方法。借助自然语言处理框架GATE，首先引入领域本体对样本网页内容进行语义标注，精确定位出待抽取的语义项，并据此将样本网页解析为S-DOM树。从S-DOM树中抽取出语义项的特征描述，形成样本实例并采用机器学习算法归纳抽取规则，自动生成包装器。抽取过程中，通过比较网页结构的相似度，系统能够感知网页的变化，主动学习并扩展规则库。试验结果表明，由于精确定位保障了学习样本的质量，小样本学习生成的包装器能够达到较为理想的查全率和查准率。

原文链接:http://www.cqvip.com//QK/92987X/201005/33130456.html

送人玫瑰，手留余香~如您已下载到该资源，可在回帖当中上传与大家共享，欢迎来CDA社区交流学习。（仅供学术交流用。）

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群