光字符识别技术

由 范文之家 分享时间：2023-09-07 16:36:12 加入收藏我要投稿点赞

光字符识别技术

1.3.6　光字符识别技术

1.光字符识别技术简介

字符识别根据识别对象的不同，相应地分为西文识别、数字识别和汉字识别等。这些字符可以是手写体，也可以是印刷体，因此，字符识别又分为手写体字符识别和印刷体字符识别。根据输入设备的不同，字符识别可以分为联机识别和脱机识别。其中，联机识别是指将字符书写在与计算机相连的书写板上，由计算机根据字符的书写轨迹进行实时识别，因此，联机识别是针对手写体而言的。脱机识别是指将字符书写或打印在纸张上，用扫描仪或其他光电转换装置将其转换成电信号输入到计算机中，再由计算机进行识别。因此，脱机识别又称为光字符识别，就是我们常说的OCR(optical character recognition)，以强调其输入装置是光学设备。

光字符识别通过光学技术对文字进行识别。这种技术能够使设备通过光学机制来识别字符，即利用扫描仪或摄像机等光学设备将各种介质上的字符输入到计算机中，再由计算机对影像进行分析识别，从而得到相应的文本。

1929年，德国的一位科学家率先提出了OCR的概念。50年代初，OCR技术已经进入了商业化应用阶段。到了1975年，全国零售商协会在识别商品标识、信用卡授权和库存控制等领域采用了OCR技术。在过去的几年中，由于相对低成本、高速度的计算机的出现，OCR技术有了可观的改进。近几年，又出现了图像字符识别ICR(image character recognition)和智能字符识别ICR(intelligent character recognition)，这三种字符自动识别技术的基本原理大致相同。

我国在OCR技术方面的研究工作起步较晚，在70年代才开始对数字、英文字母及符号的识别进行研究，70年代末开始进行汉字识别的研究，到1986年，汉字识别的研究进入了一个实质性的阶段，取得了较大的成果，不少研究单位相继推出了中文OCR产品。从80年代开始，OCR的研究开发就一直受到国家“863”计划的资助，我国在信息技术领域付出的努力已经有了初步的回报。目前，我们正在实现将OCR软件针对表格形式的特征设计大量的优化功能，使其识别精度更高，识别速度更快，并且为适应不同环境的使用提供了多种识别方式选项，支持单机和网络操作，极大地方便了使用，使应用范围更加广泛，能达到各种不同用户的应用要求。

OCR用于将数据自动输入计算机。OCR开始主要的应用是处理汽油借记卡。这种应用能够从非打印卡的账号中辨识购买者。早期的设备与打孔处理器一起使用，随着计算机和OCR系统精密程度的提高，OCR技术也影响到了信用卡交易的付款处理过程，就是我们所知道的“汇款”。目前，这两项应用仍是OCR最主要的用途。

OCR系统也多用于财务部门处理支付和票据业务，而且大量用在文档密集的保险业和保健业，同时也常用于图书馆、出版社和其他计算机录入印刷文档的领域。在大型制造环境中，也使用OCR系统阅读直接标记的人读零件编号。医药行业使用光字符检验(OCV)来保证关键的人读标签和日期数字的正确性。

近年来，其他的应用也出现了，包括现金登记、页面浏览等。任何带有重复性、变化性数据的文件都可以应用OCR。一些充满想像的应用也在出现。也许最具有革命性的是1curzuell soanner——一种供盲人阅读的设备。通过这种设备，光字符可以转换成语言。

2.光字符识别的过程

OCR可以说是一种不确定的技术研究，正确率就像是一个无穷趋近函数，知道其趋近值，却只能靠近而无法达到。因为其涉及的因素太多，书写者的习惯或文件印刷品质、扫描仪的扫描品质、识别的方法、学习及测试的样本等都会影响其正确率。

一个OCR识别系统，其目的是把影像作一个转换，使影像内的图形继续保存，表格内的资料及影像内的文字全部变成计算机文字，使影像资料的储存量减少，识别出的文字可再使用及再分析，同时节省因键盘输入的人力与时间。

光字符的处理流程如下:从要处理的目标物的影像获取到结果输出，经过影像输入、影像前处理、文字特征抽取、比对识别，最后经人工校正将错认的文字更正，并将结果输出。

1)影像输入

经OCR处理的目标物需透过光学仪器，如影像扫描仪、传真机或任何摄影器材将影像输入计算机。随着科技的进步，扫描仪等输入装置的品质越来越高，对光字符的识别有相当大的帮助。扫描仪的分辨率使影像更清晰，扫描速度更是能提高OCR处理的效率。

2)影像前处理

影像前处理是OCR系统中要解决问题最多的一个模块。从得到一个黑白的二值化影像或灰阶、彩色的影像，到独立输出一个个的文字影像的过程，都属于影像前处理。影像前处理包含了影像正规化、去除噪声、影像矫正等影像处理，以及图文分析、文字行与字分离的文件前处理。

值得一提的是，如何将独立文字抽取出来。如中文汉字特别的地方在于它有部首，因此不只是上下合成，左右合成的字也特别多，且有可能是两部分(如利、明等)，也有三部分的(如捌、晰等)。当这些汉字与英文或数字同时存在且紧靠在一起时，判断如何连接或切出是相当困难的。

3)文字特征抽取

单以识别率而言，特征抽取可说是OCR的核心，用什么特征、怎么抽取，直接影响识别的好坏。而特征可说是识别的筹码，可分为统计特征和结构特征两类。如文字区域内的黑/白点数比即为统计特征。当文字区分成好几个区域时，这一个个区域黑/白点数比的联合，就成了空间的一个数值向量。在比对时，基本的数学理论就足以应付了。结构特征如字的笔画端点、交叉点的数量及位置、笔画段等特征，配合特殊的比对方法进行比对。

4)比对数据库

当抽取完输入文字的特征后，不管用统计特征或结构特征，都必须有一个比对数据库或特征数据库来进行比对。数据库的内容应包含所有要识别的字集文字及根据与输入文字一样的特征抽取方法所得的特征群组。

5)比对识别

这是可充分发挥数学运算理论的一个模块。根据不同的特征特性选用不同的数学距离函数。较有名的比对方法有欧式空间的比对方法、松弛比对法(relaxation)、动态程序比对法(dynamic programming，DP)，以及类神经网络的数据库建立及比对、HMM(hidden markov model)等著名的方法。为了使识别的结果更稳定，也有所谓的专家系统(experts system)提出。

6)字词后处理

由于OCR的识别率并无法达到百分之百，一些除错甚至更正的功能也成为OCR系统中必要的一个模块，字词后处理就是一例。利用比对后的识别文字与其可能的相似候选字群，根据前后的识别文字找出最合乎的词做更正的功能。

7)字词数据库

字词数据库为字词后处理所建立的词库。

8)人工校正

人工校正是OCR最后的关卡。一个好的OCR软件除了有一个稳定的影像处理及识别核心以降低错误率外，人工校正的操作流程及其功能也影响着OCR的处理效率。

9)结果输出

其实输出是件简单的事，但却需看使用者用OCR的目的是什么。有人只要文本文件作部分文字的再使用之用，所以只要一般的文字文件;有人要和输入文件一模一样，所以要原文重现的功能;有人注重表格内的文字，所以要和Excel等软件结合。无论怎么变化，都只是输出档案格式的变化而已。