基于非内容信息的网络关键资源有效定位

582

收藏 2018-01-24

摘要：网络信息的爆炸式增长，使得当前任何搜索引擎都只可能索引到Web上一小部分数据，而其中又充斥着大量的低质量信息．如何在用户查询无关的条件下找到Web上高质量的关键资源，是Web信息检索面临的挑战．基于大规模网页统计的方法发现，多种网页非内容特征可以用于关键资源页面的定位，利用决策树学习方法对这些特征进行综合，即可以实现用户查询无关的关键资源页面定位．在文本信息检索会议（TREC）标准评测平台上进行的超过19G文本数据规模的实验表明，这种定位方法能够利用20％左右的页面覆盖超过70％的Web关键信息；在仅为全部页面24％的关键资源集合上的检索结果，比在整个页面集合上的检索有超过60％的性能提高．这说明使用较少的索引量获取较高的检索性能是完全可能的．

原文链接:http://www.cqvip.com//QK/92035A/200701/24028922.html

送人玫瑰，手留余香~如您已下载到该资源，可在回帖当中上传与大家共享，欢迎来CDA社区交流学习。（仅供学术交流用。）

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群