扫描仪中的OCR文字识别技术

493 阅读 0 评论 215 点赞

OCR文字识别是现在普遍使用的一种将图片识别转换成可编辑的WORD文档的技术，最常见在扫描仪上，今天筛斗数据小编就来研究研究就OCR文字识别技术。

　　OCR技术是光学字符识别的缩写，是通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其他印刷的文字转化为图像信息，再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。常应用于银行票据、大量文字资料、档案卷宗、文案的录入和处理领域。

　　它是人工智能技术之一，它让计算机和人一样，可以看图识字。它是一种快捷、省力、高效的文字输入方法。

　　【OCR文字识别技术的特点】

　　1.自动判断、拆分、识别和还原各种通用型印刷体表格

　　2.自动分析文稿的版面布局，自动分栏、自动判断标题、横栏、图像、表格等相应属性，并判定识别顺序，可自动识别特定表格的印刷或打印汉子、字母、数字，可识别手写体汉字、手写体字母、数字及多种手写符号，并按表格格式输出，提高了表格录入效率，节省了大量人力。

　　3.可以将表格识别直接还原成PDF、TIFF不压缩、JPEG等格式的文档

　　4.可以对图像嵌入横排文本和竖排文本，对表格文本进行自动排版分析

　　【OCR技术的工作原理】

　　OCR软件主要是由图像处理模块、版面划分模块、文字识别模块和文字编辑模块等4部分组成。

　　1.图像处理模块：主要具有文稿扫描、图像缩放、图像旋转等功能。通过扫描仪输入后，文稿形成图像文件，图像处理模块可对图像进行放大，去除污点和划痕，如果图像放置不正，可以手工或者自动旋转图像，目的是为文字识别创造更好的条件，使识别率更高。

　　2.版面划分模块：主要包括版面划分、更改划分，即对版面的理解、字切分、归一化等，可自动或手动两种版面处理方式。目的是告诉ODR软件将同一版面的文章、表格等分开，以便于分别处理，并按照怎样的顺序进行识别。

　　3.文字识别模块：是OCR软件的核心部分，文字识别模块主要对输入的汉子进行“阅读”，但不能一目多行，必须逐行切割，对于汉子通常也是一个字一个字地辨认，即单字识别，在进行归一化。文字识别模块通过对不同样本汉子的特征进行提取，完成识别，自动查找可疑字，具有前后联想等功能。

　　4.文字编辑模块：主要对OCR识别后的文字进行修改、编辑，如系统识别认为有误，则文字会以醒目的红色或者别的颜色显示，并提供相似的文字供选择供编辑器输出等。

　　【OCR文字识别的步骤】

　　1.文稿扫描后，刚开始出现在视窗中的要识别的文字画面很小，首先选择“放大”工具，对画面进行适当放大，使画面看的更加清楚，必要时还可以选择“缩小”工具，将画面适当缩小。

　　2.如果画面需旋转90°、180°或270°，可使用“旋转图像”工具旋转图像。如果文字画面倾斜，可选择“倾斜校正”工具，将画面调正。

　　3.识别时选择“设定识别区域”工具，在文字画面上框出要识别的区域，这是也可根据画面情况框出多个区域，如果所框区域有误，则可使用“删除识别区域”工具，删除所选识别区域。

　　4.为了提高识别率，如果所选识别区有杂点或有不能识别的图像，则可选择“擦除图像杂点”工具，将杂点一点一点地擦除。如果需要成片地擦除，则可选择“擦拭图像块”工具。

　　5.点击“识别”图像，则OCR显示正在进行文字切分，然后转入“正在识别”画面，将识别的文字逐步显示出来“文稿校对”窗口。

　　6.将识别后的文件存储成文本(TXT)文件或Word的PTF文件。

　　【OCR技术的应用】

　　目前OCR软件与扫描仪的搭配已经应用到信息化时代的多个领域，如数字化图书馆，各种报表的识别、以及银行、税务系统票据的识别等。