【光学字符识别】OCR 浅述

原创

青橙.

修改于 2023-08-25 17:21:29

4950

修改于 2023-08-25 17:21:29

文章被收录于专栏：橙、橙、

0. 序

文字是信息的重要载体之一。通过书写、印刷、电子设备等方式，文字可以被记录下来并传递给他人。文字也是语言的重要组成部分，人们可以通过文字来表达自己的思想、感情和意图。在信息化时代，文字仍然是最基本、最重要的信息传递方式之一，也有着其不可替代的优势，如：简短明了、方便快捷、易于编辑、可归纳整理等。

光学字符识别（OCR）是一种通过将打字、手写或印刷文本的图像转换为数字化文本的技术，这种数字化的文本可以通过扫描文档、文档照片、场景照片，或者来自图像上叠加的字幕文本来获得。

OCR 广泛应用于数字化印刷纸质数据记录，如护照文件、发票、银行对账单、电子收据、名片、邮件、印刷数据等。这种数字化方法可以提高数据的处理效率和准确性，同时也可以实现电子编辑、搜索、存储、在线显示以及机器处理，如认知计算、机器翻译、（提取的）文本转语音、关键数据和文本挖掘。

早期的OCR系统需要通过训练每个字符的图像来识别每个字符，而且只能处理一种字体。然而，现在已经有了更高级、更准确的OCR系统，它们可以处理多种字体，并支持各种图像文件格式的输入。此外，一些先进的OCR系统能够生成与原始页面非常接近的格式化输出，包括图像、栏目和其他非文本组件。

1. 光学字符识别的发展

最早的 OCR 应用在了帮助视障人群方面，1914 年，Emanuel Goldberg 开发了可以读取字符并将其转换为电报代码机器；几乎同时，Edmund Fournier d'Albe 开发了手持式扫描仪 Optophone ，会输出与特定字母或单次相对应的音调；1929 年德国的 Tausheck 取得光学字符识别的专利。

在1996年《中文OCR的发展现状及其最新技术》一文中，提到了中文OCR识别的困难：

汉字识别的最终目标是趋近人类识字的能力。由于人类识字的机理及过程并不清楚，汉字识别的研究还只能停留在一般模式识别问题的研究上，汉字识别的特别困难在于汉字的类别数量极为巨大，以及汉字字形的剧烈变化，这是其它模式识别问题很少遇到的，而且汉字识别的对象来自实际的文本图像，随机的噪声和干扰更是无所不在、无处不有，处理这些问题利用一般的人工智能符号处理技术也是难以解决的。

同时为早年 OCR 的发展进行了归纳总结，并提出了发展阶段：

1966 年 IBM 公司 Casey 和 Nagy 首次提出了一个识别1000汉字的识别方案。而中国大陆的汉字识别研究工作始于70年代末。
从 70 年代末到 80 年代末期。汉字识别的算法和方案探索，研究人员用如特征点方法、汉字周边特征、脱壳透视分类法、汉字微结构特征、汉字的结构元和外形形态特征等方法为基础研究成功一批汉字识别系统；
从 90 年代初期开始到 90 年代中期，研究成果推向市场，有了实质性的产品；
第三阶段从 90 年代中期开始，致力于中文技术和中文系统性能的提高。

传统 OCR 流程主要分为如下步骤：

预处理。主要包括对图片的降噪、灰度化、二值化、倾斜校正。
文本区域定位。将图片中的文本区域定位出来以便后续进行识别。
文字识别。对单字符提取特征，基于特征利用分类器分类，并基于一定策略进行后优化处理。

在 2005 年《低质量文本图像 OCR 技术的研究》中，提到，传统 OCR 面临一系列问题，包括：

如二值化、灰度化等预处理损失了大量信息；
定位和分割错误，难以处理连笔、断笔的字；
相似字符识别率低；

2. 人工智能环境下的 OCR

随着近年深度学习的不断发展，基于卷积神经网络的 OCR 技术打破了传统 OCR 技术的框架，在识别效率以及准确率上都有了质的飞跃。

通过文字区域检测，字符切割，识别，三个问题结合深度学习进行优化，可以有效提高在部分场景下的识别、拆分正确率。

随着技术的发展，除了逐个字词识别的 OCR，还有了 ICR 和 IWR：

ICR（Ink Character Recognition，墨水字符识别）是一种能够在墨水文字上进行字符识别的技术。相对于OCR，ICR更加注重识别字符的笔画和笔画之间的空间关系，以及字符的书写风格等因素。ICR在实际应用中有着广泛的应用场景，例如手写体文件的识别、数字签名的识别等。

IWR（Image Writer Recognition，图像作者识别）是一种能够对图像作者进行识别的技术。通过分析图像的笔迹特征，IWR可以准确地识别出图像的作者。IWR在一些文件归档、版权保护等方面有着重要的应用价值。

随着 2012 年 Imagenet 竞赛采用深度学习技术的AlexNet夺得冠军，深度学习算法开始应用于图像视频领域。

通过应用卷积神经网络（CNN）、循环神经网络（RNN）和长短期记忆网络（LSTM）等深度学习技术，我们可以实现高效准确的 OCR 定位与识别。这项技术可以自动识别灰度图像中的文字区域，并在整行文字中进行高效准确的识别。与传统的 OCR 技术不同的是，我们的方法可以通过上下文信息来判断形似字，避免了单字识别无法解决的问题。这种新颖的 OCR 技术不仅提高了准确率，而且还能大幅度减少人工干预的需求，使得 OCR 操作更加便捷高效，有以基于 CRNN 的整行识别技术（CNN+LSTM+

CTC）和联合CTC和Attention机制的整行识别等识别方案让识别准确性、可信程度获得进一步提升。

同时，以往自然环境下的光学字符识别相比于传统的光学字符识别, 自然场景文字图像的前景文字和背景物体的变化很大, 光照情况也相当复杂，检测自然场景图像中的文字更具挑战，随着机器学习算法的引入，这一部分内容变得可信，在《基于深度学习的场景文字检测与识别》中提出的卷积循环神经网络就较好的完成了就吐想到文字序列识别。

3. 特定场景下的字符识别

智能OCR技术不仅可以用于文档识别，还可以应用于广告推荐、UCG图片和视频筛选、医学影像识别和街景路牌识别等场景。OCR技术是一种多分类问题，处理中文时字符集达到20,000类，而英文只有62类。影响OCR效果的因素很多，比如背景复杂度、字体种类、分辨率、语言混合、字体排列和变形等。

以腾讯云提供的文字识别类服务来看，特定场景下的字符识别需求大致有：

通用文字识别 (General OCR)

这种技术使用深度学习，能够识别各种形式的文字，包括通用印刷体、手写体、英文以及表格等。它可以将图片上的文字内容智能转换为可编辑的文本，适用于多种情景，如随手拍摄扫描、将纸质文档电子化、电商广告审核等。

卡证文字识别 (Card OCR)

这项技术专门用于卡证类文档，例如身份证、银行卡、驾驶证等。它同样基于深度学习，可以智能地将卡证上的文字内容转化为结构化文本，适用于用户注册、银行开户、交通出行、政务办事等多种场景。

票据单据识别 (Invoice OCR)

这一技术主要应用于票据，包括增值税发票、火车票、出租车票等。它也能智能地将票据上的文字内容转化为结构化文本，适用于企业票据报销、金融票据识别、快递单据录入等多种情境。

特定场景识别 (Specific Scenario OCR)

这种技术专注于特定场景，如车牌识别、车辆 VIN 码识别和印章识别。它同样可以将图像中的文字内容智能转化为结构化文本，适用于汽车保险理赔、车辆租赁和企业方案管理等行业场景。

除了以上这些场景的 OCR 之外，还延伸出了 OCR 的其他一些应用，如：

智能结构化 (SmartStructure OCR)

这项技术采用深度学习和图像检测技术，可用于提取任何具有固定版式的卡证票据上的结构化文字。它可以预学习智能建立键值对应关系，或由客户自主设置键值对关系定制模板，从而提高信息数据的提取和录入效率。它可用于政府事务办理、特殊票据核销、行业表单定制等多种场景。

智能扫码 (Intelligent Scan，IS)

这项技术包括二维码和条形码识别 API，以及智能扫码 SDK，提供全方位的扫码服务。智能扫码 SDK 还针对不同扫码场景进行了优化，如一图多码和大图小码等。

文本图像增强 (Text Image Enhancement)

这种技术基于计算机视觉技术，用于处理文件类图片，提供切边增强、弯曲矫正、阴影去除、摩尔纹去除、图像提亮等功能。它的目标是帮助客户获取更清晰、更可读的文档图片，从而更好地支持后续的业务流程。

4. OCR 离我们很近

从几十年前的邮编自动识别，到专用 OCR 软件，再到 OCR 集成到了日常使用的设备当中，OCR 离我们越来越近。使用 OCR 相关技术也变得越来越简单。

微信，QQ 等软件已经可以在打开图片的过程中直接选择图片中的文字，苹果设备在拍摄过程中可以实现动态文字识别、翻译等多项工作，在需要输入证卡信息过程中，从以往反复小心地多次核对，到如今的打开摄像头快速识别填入，OCR 已经走进了千家万户，很多时候，使用 OCR，已经成为习以为常的举动，虽然其对世界的影响，不如大语言模型一般带来巨大的震撼，但很多核心是相近的，也终将带来信息化程度更高的社会。

5. 附

参考文献

1郭繁夏,丁晓青.中文OCR的发展现状及其最新技术J.微电脑世界,1996(03):28-30.

2王栋.人工智能OCR技术的应用研究J.电子技术与软件工程,2022(01):122-125.

3.中文OCR综述J.科技与出版,1997(01):23.DOI:10.16510/j.cnki.kjycb.1997.01.016.

4王珂,杨芳,姜杉.光学字符识别综述J.计算机应用研究,2020,37(S2):22-24.

5孙羽菲. 低质量文本图像OCR技术的研究D.中国科学院研究生院（计算技术研究所）,2007.

6 Optical character recognitionZ/OL//Wikipedia. (2023-08-24)2023-08-25. https://en.wikipedia.org/w/index.php?title=Optical_character_recognition&oldid=1172052573.

7白翔,杨明锟,石葆光等.基于深度学习的场景文字检测与识别J.中国科学:信息科学,2018,48(05):531-544.

8黄攀. 基于深度学习的自然场景文字识别D.浙江大学,2016.

9王日花.基于深度学习的智能OCR识别关键技术及应用研究J.邮电设计技术,2021(08):20-24.

10 文字识别简介文字识别购买指南文字识别操作指南-腾讯云EB/OL. 2023-08-25. /document/product/866.

11 Recognizing Text in ImagesEB/OL//Apple Developer Documentation. 2023-08-25. https://developer.apple.com/documentation/vision/recognizing_text_in_images.

注：本文部分内容由 AI 辅助整理完成。

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

ocr

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

ocr

#光学字符识别

登录后参与评论

0 条评论

热度