冰山數據

什么是光学字符识别(OCR)?

在去年的WWDC发布会上,苹果IOS15系统新增了实况文本功能。用户可以通过实况文本功能在图片中复制文字,比如拍摄快递单并直接提取收件信息,或者拍摄一本笔记,并直接将文字复制到word中,令人大呼过瘾。但这一切是如何实现的呢?实际上,在实况文本功能的背后是OCR技术,下文中我们将详细讲述OCR技术的基础知识。

IOS15实况文本功能

什么是OCR技术?

OCR也称为光学字符识别,是一种从图像、视频或扫描文件中读取文本并将其转换成可编辑和可搜索的数字格式的技术。

OCR技术属于人工智能领域,与计算机视觉和模式识别紧密相关。从个人应用到公共安全领域,OCR技术的应用范围十分广泛。

OCR技术通常可以分为两类——印刷体识别和手写体识别。本质上这两者期望结果是相同的,但是他们识别的信息有所不同。

和手写体识别相比,印刷体识别较为简单,它可以从系统中提取计算机常见字体并进行训练,能够轻松识别计算机文本并提取。和计算机输入文本不同,手写字体的字母和样式有很大差别,系统无法准别读取风格不同的手写笔迹。因此需要研发人员投入大量的时间来训练系统的识别精度,攻克手写体识别的难关。

OCR技术的工作原理

OCR通过将硬件和软件相结合的方式,使用硬件设备对文档进行扫描,然后利用软件将文档中的字符转换成代码,最后进行数据处理。

OCR系统的工作流程主要分为以下三个步骤:

1.预处理

首先,利用硬件(光学扫描仪)将文档的物理形式转换成数字图像。在此过程中,最重要的部分是定义图像。通常OCR技术将图像转换成黑白格式,空白的背景显示为亮区域,字符显示为暗区域。

2.字符识别

将背景和字符区分开后,OCR系统可以开始识别字符的具体内容。通过分析暗区域来区分数字和字母。字符分析通常不能批量完成,如果想要精准的识别文本,只能进行单词识别。字符识别的方法分为模式识别和特征提取。

  • 模式识别

人工智能进行大量的文本训练,以便将扫描到的文本和学习过的字符自动匹配。

  • 特征提取

系统使用一套规则来检测字符或数字的特征,规则通常包括字符的角度、直线和曲线的数量。

3.后处理

识别完文档中的字符,系统将它们转换为可以存储和编辑的ASCII代码。最后,在后处理阶段,OCR系统需要检测输出的结果是否存在错误。例如,字符“O”和“0”在手写体中很难区分,因此后处理阶段能够通过纠正错误来提升准确性。

因此,OCR的大致流程如下:

输入图像->预处理 -> 文本检测 -> 文本识别 -> 后处理 -> 输出文本

OCR技术的优点和局限性

OCR具有许多显著的优点,包括:

  • 自动化流程

OCR技术基本消除了手动输入数据的流程,在简单文本处理中,它可以轻松地将纸质文本格式转换为数字格式,比手动输入快得多。

  • 减少劳动时间

除去手动输入,将文档扫描并转换成数字也需要花费很长时间,OCR技术同样为人们节省了一大部分时间。

  • 开辟创新之路

几十年前我们甚至无法想象OCR能够应用在车辆追踪和无障碍AI技术中。但是随着对OCR技术研究的深入,未来它在提高技术和简化流程上会有更广泛的应用。

OCR技术的局限性:

  • 在识别模糊和运动中场景存在限制

当OCR检测到图像处于未静止状态或者图像模糊时,识别精度就会降低,因此需要进一步完善来提高系统识别能力。

  • 可提升空间

OCR系统本身需要识别和标注文本,因此在投入使用前需要进行数据集训练。对于更为复杂的应用程序和附加功能,OCR技术需要和机器学习深度学习相结合。

在获取OCR训练数据的环节,需要借助OCR标注工具的功能以提高工作效率,通常情况下,先通过算法预处理,再进行人工校对可以达到最高的标注效率。

在冰山标注平台上,我们通过多语言OCR引擎对文本进行预识别(下图为阿拉伯语预识别效果),再通过人工校验修改错误识别数据。

使用冰山标注平台进行OCR文本标注

OCR技术的应用场景

数字化存储

在数字化时代来临前,一些古籍、历史文件、个人档案等重要信息都以纸质形式储存,OCR技术能够实现内容数字化,将这些信息永久存储。

银行和金融业

银行系统需要维护大量的数据,包括签订合同、支票、贷款、发票、报表等。OCR技术简化了工作流程,能够将这些数据轻松存储并且可以随时调取。

车牌识别

车牌识别技术伴随着人工智能技术的成熟而不断发展,其应用场景也在不断细分。由于车牌由少量的数字和字母组成且字体清晰,所以识别车牌十分容易。

车牌识别技术能够通过识别车牌,帮助公安部门跟踪犯罪嫌疑人的行动轨迹,从而维护国家安全。同时将车牌和驾驶证数字化,简化了对车主的识别过程。

文本转语音

OCR系统能够帮助视障者解决生活中的许多难题,OCR技术应用于文本转语音技术,通过扫描文本,朗诵出文本内容,帮助视障人群体验数字化时代,助力建立无障碍社会。

结论

OCR技术可以简单理解为将扫描文档中的文本数据提取后,转换为机器模型可以读取的数据类型。OCR技术旨在让用户更便捷地处理信息。它能够为公司减少人工成本、简化搜索流程,提高运营效率。因此OCR技术是人工智能化时代不可缺少的一项技术。