多目慧眼：让机器视觉像人眼一样智能--专访--机器视觉网

　　“这一次我们要做点改变机器视觉行业的事情”。与不少硅谷创业者的经历类似，这已经是曹亮和周之琪这对同学第二次合作创业了。八年前，他们共同联手，操作了RPC（活性粉末混凝土）在中国高铁的的全球首次大规模应用推广。不过这次，他们想在风口上的人工智能领域玩点大的，信心十足！
　　“从通过今日头条收集的 1000 多份表单中，我们已经梳理出了大约 200 多份意向需求”，如果说 6 月底，两人创办的北京清影机器视觉技术有限公司在深圳国际机器视觉展上首次公开“多目慧眼”项目时，曹亮还有些忐忑的话，那么，收到来自市场越来越多的需求，曹亮总算松了口气，毕竟没有人比曹亮更清楚的知道，摆在他面前的是一条什么样的研发道路。
　　“多目慧眼”的完整学术名称是“通用式三维即时视觉传感技术”，这个名称中的每个关键词都浓缩了这项研究背后针对的难点和北京清影的研发目标。
在介绍技术之前，曹亮向我们展示了清影的研发成果：一部四个镜头的照相机联接一台电脑，点击拍摄之后，仅仅数秒钟，屏幕上就出现了一幅清晰生动的三维立体点云轮廓图。

【配图：多目慧眼拍摄之后生成的立体轮廓深度伪彩图】

　　看上去简单的设备，实际上已经耗费了曹亮这个团队整整一年的时间。在曹亮的构想中，机器视觉应该具备高等生物视觉一样的智能特征，而机器视觉目前在智能化和自动化方面还远达不到这个目标。
机器无法像人类一样观察周围的世界，是因为缺乏一双与人一样的眼睛，机器可以在某些单项能力方面远远超过人类，但综合起来却与人类又有很大的差别。机器视觉就是这样，从“感”的角度来说，某些单项性能完全可以超过人眼，例如：显微镜对于微观物体的观察、望远镜对于宏观世界的观察、超声波和红外成像、高速摄影、精确测量、大容量和长时间的视觉记忆，等等。但机器视觉在很多地方又远远无法与人眼相比，因为目前国内外还没有研发出一项技术，能够让机器具备像人眼一样的三维、高速、被动成像的视觉感知功能。
这样一项技术，曹亮称之为“机器眼”。在他的构想中，机器眼就像高等智慧生物的眼睛一样，能够快速、直观地获得外界空间的各类视觉信息，实现所见即所得。而具备这样能力的机器眼，曹亮认为必须具有这样6项特征，即成像过程自动化、生成数据三维化、生成方法被动化、生成过程实时化、生成结构小型化、生成算法通用化，尤其是最后一项特征：三维算法通用化，只有突破了这一点，“机器眼”才真正有实现的可能。“只有基于三维数据的‘机器眼’，才能在后续的视觉识别和视觉理解方面能够最终达到智慧生物的水平。”
　　研究是为了让现有的技术上升到更高的层次，一项能够称之为“革命性”的技术，要么是技术本身突破了原有的局限，要么是技术应用有里程碑式变化。研发多目慧眼，曹亮想做前者，这本身也是技术出身的他所擅长的。
从现有机器视觉的应用来看，很大一方面的问题是应用受客观条件限制太多。比如说场景、被视物的位置距离、光照条件等，任何一项客观条件限制都会对成像效果产生影响，最终都会直接影响到目标任务的处理。
　　在研发过程中，曹亮对机器视觉的定义进行了细致梳理，总结出两个观点：首先，系统对于外界需要具有感知能力，能够自动生成可以直观观察的二维或三维图像；其次，系统针对图像必须具有一定的智能识别功能。只有符合以上两个条件，才可以认为达到了机器视觉的基本要求。

QQ截图20171016095438.jpg

　　基于这两点认识，曹亮认为目前的机器视觉相比智慧生物视觉还有很大的差距。在他看来，这种差距体现在以下五个方面：
　　1.现有视觉系统功能的单一性。以智能交通系统为例：抓拍车号的相机只能拍车号，不能测速，不能自动辨别车型，而且必须在固定位置，必须有外部辅助光源和拍照触发和启动传感装置；对于闯红灯和超速的车辆检测和识别，必须要另行配置相机完成。
　　2.现有视觉系统的专业局限性和复杂性。现有的机器视觉系统，都需要有专业技术人员进行专门的编程和系统设计。一个功能对应一套软件和一套专门的系统，这样的系统一般都对应着高昂的价格和高级的人才，无法为普通用户所掌握。
　　3.现有视觉系统与被摄物和环境的强相关性。不同的被摄物，不同的功能要求，需要不同的软件，同时系统需要配备专用的相机、专用的镜头、专用的辅助流水线和专用的辅助灯光和对背景进行特定设置等等。只要被摄物发生任何改变，例如：规格、大小、型号、摆放位置、标签等发生改变，都必须对程序进行修改和重新设计。
　　4.现有视觉系统一般都是基于二维图像的视觉感知，基本不具备三维实时感知能力。对于三维感知，目前一般采用激光扫描或双目加结构光的方式，这些方式有时还需要提前标定，还需要完成长时间的三维建模运算，有时还要固定应用场景或提前对被视物建模，另外，大部分需要一些人工干预以及延时和后期处理。
　　5.现有的图像识别采用的机器学习方法，对于图像的理解，一般针对特定图像类别和固定的应用场景，还不具有智能生物的真正意义上的视觉感知和视觉理解能力。而且，智能生物对于外部空间和物体是依靠三维感觉而形成，目前的图像机器学习算法，一般都是基于二维图像数据，在对空间的感知和理解能力来说，具有先天的缺陷和弱点。
　　这些不足和问题，不仅局限了机器视觉的应用范围，还让已有的技术应用复杂而困难。“我们之前所做的铁路车辆在线测量就是这样，复杂而又辛苦”，作为一个技术研发人员，曹亮希望通过技术改变些什么。曹亮说，纵观现有的机器视觉应用和技术，目前通用的“机器视觉”多数是由人工智能计算来实现的，一种视觉对应一种特有的软件和系统，完成一种固定的视觉任务，在算法和数据层面无法实现各视觉系统在机器视觉上的统一。而且，对于图像内容的理解方面，由于神经网络存在的黑箱性质，机器无法达到令人信服的对视觉的理解要求。
　　所以，曹亮的目标是：做成一台真正意义上的机器眼，它在三维成像上的应用要能像工业传感器一样，只要接上电源，就可以通过标准输出接口采集到传感器的测量数据，无需另外编制专用程序和采用任何辅助措施，就能够快速、方便地由非专业人员操作，完成随时随地的三维成像。
　　创新就是要敢想、敢干。多目慧眼项目从去年6月份启动，目前已经取得了突破性进展，也就是文章开篇我们看到的那个成果，当然，后期还有很多技术难关需要突破，尤其是在具体应用的落地方面，但曹亮坚信，按照目前的方法继续前进，未来有无限可能。
　　每一个技术研发人员内心都存着一个改变行业的梦想，“当我们在研究之前的技术过程中想到了这样一个新的可能，就抑制不住的冲动要实现它，人到中年，最后再拼一次！”

QQ截图20171016095515.jpg

　　曹亮和他同学、好友，兼好搭档周之琪已经看到这种理想中的“机器眼”是能够实现的，每一天的努力，都是更接近目标的一步。
　　当工业检测、VR和3D成像领域以双目结构光方案为代表的既有技术在各个应用方向上拼杀得热火朝天的时候，清影这支团队选择了暂时回避商场上的喧嚣，把眼光投向这个行业更加伟大的未来。
　　“远距离、大场景、实时的三维被动成像技术，这是我们的一小步，但是是机器世界的一大步！”曹亮和他的伙伴、他的团队，因为能够做一件推动行业进步的事情而充满了斗志。

邵天兰

梅卡曼德（北京）机器人科技有限公司创始人兼CEO

李仁举

先临三维科技股份有限公司精度实验室主任&先临天远品牌创始人

茹彬鑫 Robin

深圳市识渊科技有限公司联合创始人&首席科学家