全部版块 我的主页
论坛 提问 悬赏 求职 新闻 读书 功能一区 经管文库(原现金交易版)
108 0
2024-12-12
本科生毕业论文题目:(中文)
大规模网页模块识别与信息提取系统设计与实现
(英文 )
Design and Implementation of Large Scale Web Template Detection and Information Extraction System
姓名:学号:院系:专业:指导教师:
摘要本文提出了一套基于语义的网页分块和主题内容信息提取算法,在天网搜索
引擎预处理模块中将其实现,并且在
SEWM 2008
会议中,以这套算法为框架, 组织了主题型网页识别和网页主题内容信息块提取两个中文
Web信息检索评测 项目。在这套算法的基础上,基于天网文件系统与
Map-Reduce
计算平台,实现 了分布式的网页块级别
QuarkRank
算法,改进了
PageRank
算法的效果。实际检
验表明,该套算法具有很好的适应性与可扩展性,并达到了很高的精度和召回率。
关键词:
网页分块 信息提取 评测
Map-Reduce PageRank
Abstract
This paper presents a semantic web-page blocking and i ...
附件列表
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群