欢迎登录中国视觉网!
应用案例频道
APPLICATION OF CASE
位置导航:首页 >> 应用案例 >> 应用案例 >> 什么是 Deep OCR

什么是 Deep OCR


时间:2021-07-16

应用领域:机器视觉


在工业生产和物流过程中,OCR在物品识别方面起着重要作用。MVTec 现今提供一种全新的机器视觉功能,借助深度学习算法改善字符识别效果。用户由此可通过改善的可用性和更加稳定的识别率获益。

光学字符识别 (Optical Character Recognition / OCR) 不仅用于办公室通信,例如识别扫描文件中的文本,该技术在工业领域同样也发挥着重要作用。例如可以检测和自动读取盖印的序列号,从而在物流过程中可靠识别和跟踪产品。

OCR 软件必须能够在恶劣的工业条件下精确读取数字或字母代码,以便可以明确分配物品。例如,必须能够可靠识别难以辨认、走样、模糊、不清晰或歪斜的字符,即便是在强烈反光的背景下,也不能出错。

借助先进的机器视觉技术,这些严苛要求均不在话下。集成有基于人工智能的各项功能,可轻松达到符合要求的识别率。在此过程中,深度学习尤其有助于完成要求严苛的 OCR 任务。

通过借助于大量图像数据的综合训练,软件算法可以独立学习在不同的条件下可靠识别各种各样的字符。OCR 分类器用于确保精确读取大量预训练的字体,如点阵字体、SEMI 字体、工业字体和基于文档的字体。

图 1:借助 OCR 可以读取工业应用中的各种不同字型


传统方法中各种不同的参数需要进行繁琐的调整

传统的基于规则的光学字符识别技术存在一些缺陷。例如需要大量的参数,主要用于根据实际应用调整各个字母的切分。

在后续过程中,必须将已找出的逐个读取的字母拼凑成特定的单词–当待读取文本没有上下文参考时,这并不是一件轻而易举的事情。因此,传统解决方案无法提供令人满意的识别效果,但人工智能可以做到这一点。

MVTec 就此探索出一种全新的途径:通过集成在最新的 20.11 版 MVTec HALCON 机器视觉标准软件中的“Deep OCR”功能,现在无需切分各个字符。该项技术利用两个经过专门预训练的深度学习网络:一个深度学习网络用于在图像中找出完整的单词,而非单个字母。

最后用一个矩形框(限位框)标识单词的准确位置。而第二个深度学习网络专门就读取单词接受过训练。与传统方法的本质性差异在于,字符识别的两个步骤(即找出以及读取单词)基于深度学习算法,并且是读取整个单词,而非单个字母。

与字型和旋转无关的字符识别图片

这种对偶法的主要优势在于:只需根据实际应用调整少量参数。例如该项技术的工作原理与字型完全无关,不论是点阵字体、斜体,还是标题数字。

图像中文本的旋转和对齐以及对立性(是白底黑字还是黑底白字)也同样与该项技术的工作原理无关。由于深度学习网络已针对这些参数接受过训练,因此无需再手动执行相应的设置。

图 2:Deep OCR 自动读取点阵字体,并自动对相关联的字符进行分组

两个深度学习网络也可以彼此独立使用。例如当已知单词在图像中的准确位置时,这一点尤其具有现实意义。在这种情况下,深度学习只能用于读取文本。人工智能技术性能极高,因而可以大幅精简计算机容量。

在低性能的硬件上运行 Deep OCR 时,这一优势尤为突出。如果可以凭借先验信息而无需找出文本,则可以在标准 CPU 上实现约十毫秒的运行时间。在中端 GPU 上,运行时间甚至只有五毫秒,这对于深度学习应用而言非常快速。

总结

借助 Deep OCR,MVTec HALCON 首次提供了一种完全基于深度学习的 OCR 方法,从而将字符识别提升到一个全新的水平。OCR 应用也因此变得更加简单、易用、稳定。此外,还可通过字符的自动分组识别整个单词,从而从根本上提高字符识别效率,同时避免错误解读相似字符。