基于背景间隔的中文版面分析系统
OCR(Optical Character Recognition)系统的中文全称是光学字符识别系统,它广泛应用于文字的自动录入,实际上是一种实现文字自动输入的快捷省力的输入方法,能够极大地减轻数据录入工作的强度、提高数据录入的速度,可广泛应用于电子出版、Internet网上资源数据库和数字图书馆的建设。字符识别系统包括脱机识别和联机识别两种。
本文研究的版面分析是脱机字符识别中的重要组成部分,其主要功能是对整个版面进行分割处理,划分出图像区域,文字区域,空白以及其他区域。版面分析是OCR系统中的一个难点,是后续的行切分,字切分及字符识别的基础。
它的精确程度对整个系统的识别结果有着重要的影响。 本文首先给出OCR系统的整体结构,在对要分析的版面进行必要的预处理之后,比较了现有的版面分析的方法,然后采用白间隔的分割方法对版面进行处理。
该方法基于的一个事实是无论图像区域还是文本区域,均由空白区域所包围。和同类方法比较,该方法具有许多的优点:它对于版面中非规则的复杂图形的处理可以得到和对规则图形处理一样的效是;在模糊参数选取经验值的情况下对于倾斜的版面同样 ...
附件列表