OCR文字识别是现在普遍使用的一种将图片识别转换成可编辑的WORD文档的技术,最常见在扫描仪上,今天筛斗数据小编就来研究研究就OCR文字识别技术。
OCR技术是光学字符识别的缩写,是通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其他印刷的文字转化为图像信息,再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。常应用于银行票据、大量文字资料、档案卷宗、文案的录入和处理领域。
它是人工智能技术之一,它让计算机和人一样,可以看图识字。它是一种快捷、省力、高效的文字输入方法。
【OCR文字识别技术的特点】
1.自动判断、拆分、识别和还原各种通用型印刷体表格
2.自动分析文稿的版面布局,自动分栏、自动判断标题、横栏、图像、表格等相应属性,并判定识别顺序,可自动识别特定表格的印刷或打印汉子、字母、数字,可识别手写体汉字、手写体字母、数字及多种手写符号,并按表格格式输出,提高了表格录入效率,节省了大量人力。
3.可以将表格识别直接还原成PDF、TIFF不压缩、JPEG等格式的文档
4.可以对图像嵌入横排文本和竖排文本,对表格文本进行自动排版分析
【OCR技术的工作原理】
OCR软件主要是由图像处理模块、版面划分模块、文字识别模块和文字编辑模块等4部分组成。
1.图像处理模块:主要具有文稿扫描、图像缩放、图像旋转等功能。通过扫描仪输入后,文稿形成图像文件,图像处理模块可对图像进行放大,去除污点和划痕,如果图像放置不正,可以手工或者自动旋转图像,目的是为文字识别创造更好的条件,使识别率更高。
2.版面划分模块:主要包括版面划分、更改划分,即对版面的理解、字切分、归一化等,可自动或手动两种版面处理方式。目的是告诉ODR软件将同一版面的文章、表格等分开,以便于分别处理,并按照怎样的顺序进行识别。
3.文字识别模块:是OCR软件的核心部分,文字识别模块主要对输入的汉子进行“阅读”,但不能一目多行,必须逐行切割,对于汉子通常也是一个字一个字地辨认,即单字识别,在进行归一化。文字识别模块通过对不同样本汉子的特征进行提取,完成识别,自动查找可疑字,具有前后联想等功能。
4.文字编辑模块:主要对OCR识别后的文字进行修改、编辑,如系统识别认为有误,则文字会以醒目的红色或者别的颜色显示,并提供相似的文字供选择供编辑器输出等。
【OCR文字识别的步骤】
1.文稿扫描后,刚开始出现在视窗中的要识别的文字画面很小,首先选择“放大”工具,对画面进行适当放大,使画面看的更加清楚,必要时还可以选择“缩小”工具,将画面适当缩小。
2.如果画面需旋转90°、180°或270°,可使用“旋转图像”工具旋转图像。如果文字画面倾斜,可选择“倾斜校正”工具,将画面调正。
3.识别时选择“设定识别区域”工具,在文字画面上框出要识别的区域,这是也可根据画面情况框出多个区域,如果所框区域有误,则可使用“删除识别区域”工具,删除所选识别区域。
4.为了提高识别率,如果所选识别区有杂点或有不能识别的图像,则可选择“擦除图像杂点”工具,将杂点一点一点地擦除。如果需要成片地擦除,则可选择“擦拭图像块”工具。
5.点击“识别”图像,则OCR显示正在进行文字切分,然后转入“正在识别”画面,将识别的文字逐步显示出来“文稿校对”窗口。
6.将识别后的文件存储成文本(TXT)文件或Word的PTF文件。
【OCR技术的应用】
目前OCR软件与扫描仪的搭配已经应用到信息化时代的多个领域,如数字化图书馆,各种报表的识别、以及银行、税务系统票据的识别等。