基于关键词聚类和节点距离的网页信息抽取

584

收藏 2018-01-22

摘要：大部分网页信息抽取方法都针对特定的网站，例如基于网站抽取规则和基于训练网页样例的方法。这些方法在某一个网站上可以很好地应用。但当遇到新的网站时，必须人为地增加抽取规则或者提供新的训练网页集。而且，当网站的模版改变时，也要重新设计这些规则或重新输入训练网页集。这些方法难以维护，因此不能应用到从大量不同的网站上进行信息抽取。本文提出了一种新的网页信息抽取方法，该方法基于特定主题的关键词组和节点距离，能够不加区分地对不同的网站页面信息自动抽取。对大量网站的网页进行信息抽取的实验显示，该方法能够不依赖网页的来源而正确和自动地抽取相关信息，并且已经成功应用到电子商务智能搜索和挖掘系统中。

原文链接:http://www.cqvip.com//QK/92817X/200704/24412207.html

送人玫瑰，手留余香~如您已下载到该资源，可在回帖当中上传与大家共享，欢迎来CDA社区交流学习。（仅供学术交流用。）

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群