基于机器学习的扫描图书元数据自动抽取研究

990

收藏 2017-09-16

摘要：在对纸本图书数字化加工过程中，元数据录入是必需的环节，然而手工录入工作量大、效率低，针对这一问题，提出了一种基于机器学习的扫描图书元数据自动获取方法。首先定义元数据的描述、管理和结构元素，然后以扫描页面的DjVuxML文档为数据源，分析页面的格式、结构等特征，以行作为初始特征向量，采用基于有监督的机器学习方法进行元数据抽取。实验表明谊算法能够取得较高的准确率和召回率，能够显著的提高图书数字化的效率。

原文链接:http://www.cqvip.com/QK/95530A/201306/46047173.html

送人玫瑰，手留余香~如您已下载到该资源，可在回帖当中上传与大家共享，欢迎来CDA社区交流学习。（仅供学术交流用。）

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群