摘要:在对纸本图书数字化加工过程中,元数据录入是必需的环节,然而手工录入工作量大、效率低,针对这一问题,提出了一种基于机器学习的扫描图书元数据自动获取方法。首先定义元数据的描述、管理和结构元素,然后以扫描页面的DjVuxML文档为数据源,分析页面的格式、结构等特征,以行作为初始特征向量,采用基于有监督的
机器学习方法进行元数据抽取。实验表明谊算法能够取得较高的准确率和召回率,能够显著的提高图书数字化的效率。
原文链接:http://www.cqvip.com/QK/95530A/201306/46047173.html
送人玫瑰,手留余香~如您已下载到该资源,可在回帖当中上传与大家共享,欢迎来CDA社区交流学习。(仅供学术交流用。)