日期
09/12
2017
咨询
  • QQ扫一扫

  • Vision小助手
    (CMVU)

面向复杂视觉大数据的深度学习方法
收藏
2017-09-12 16:25:34来源: 中国机器视觉网

  伴随着电子信息技术的高速发展以及各类摄像头的广泛应用,全球图像视频数据爆炸式增长,人类社会正在进入视觉信息的大数据时代。海量的图像和视频在方便人们生产与生活的同时,也对智能视觉技术提出了新的挑战。


  伴随着电子信息技术的高速发展以及各类摄像头的广泛应用,全球图像视频数据爆炸式增长,人类社会正在进入视觉信息的大数据时代。海量的图像和视频在方便人们生产与生活的同时,也对智能视觉技术提出了新的挑战。


  目前大多数视觉处理系统可以很好地采集、传输和存储图像视频,但是缺乏对其图像视频内容高效准确的分析、识别和挖掘方法。首先,图像视频内容复杂,包含场景多样、物体种类繁多,这就要求处理方法对纷繁复杂的多种对象具有鲁棒的处理能力;其次,非受控条件下,图像和视频的内容受光照、姿态、遮挡等影响变化大,这就要求处理方法对复杂变化具有鲁棒性;最后,图像视频数据量大,特征维度高,部分应用需实时处理,对海量数据的计算效率有较高的要求。近年来深度学习方法的快速发展,为解决上述问题提供了有效的途径。


 图1视觉大数据的特点、挑战与核心问题


  深度学习方法的前世今生


  深度学习方法(Deeplearning)作为传统神经网络的拓展,近年来在语音、图像、自然语言等的语义认知问题上取得巨大的进展,为解决视觉大数据的表示和理解问题提供了通用的框架。深度学习利用包含多个隐层的深层神经网络,解决需要高度抽象特征的人工智能任务。深度学习借鉴了人脑的多层(通常认为是8-10层)神经细胞处理结构,多层非线性结构使得深度神经网络备对抽象语义特征的抽取能力和对复杂任务的建模能力。传统神经网络受限于过拟合(overfitting)问题,很难训练出泛化能力强的多层网络模型。


  深度学习通过组合低层特征形成更加抽象的高层表示属性类别的特征,以发现数据的分布式特征表示。建立深度学习的一个动机在于模拟人脑的分析处理机制来解释数据,人脑皮质具有多层的结构,信息在人脑中逐层处理,逐步抽象。深度架构看做一种“因子分解”,即从复杂的数据中抽取出可复用的表达本质特性的特征。深度学习模型由于其多层非线性结构,具有强大的能力,特别适合大数据的学习(图2)。这是由于传统浅层模型由于能力有限,在训练数据量增大到一定程度时其能力往往饱和,无法充分利用大规模训练数据所包含的有效信息。与此对应,深度学习方法由于其强大的能力,可以较为充分的利用大规模数据,从中提取有效的特征。


图2深度学习方法与非深度学习方法在训练数据量增加时的性能对比


  深度学习方法在视觉领域的进展


  目前,深度学习已经在人工智能的多个应用领域如图像分类、语音识别、自然语言理解等取得了突破性的进展。深度学习由于其优异的效果,也引起了工业界的广泛兴趣,以谷歌、脸谱、微软、百度等为代表的互联网企业已经成为深度学习技术创新的重要力量。在语音领域,深度学习用深信度网络DBN替换声学模型中的混合高斯模型(GaussianMixtureModel,GMM),获得了相对错误率显著的降低(30%左右),并已经成功的应用于微软、谷歌、讯飞等的语音识别引擎。在机器翻译领域,神经语言模型较传统方法取得了更好的效果。2016年,由谷歌DeepMind开发的AlphaGo围棋程序依靠深度学习和强化学习的强大能力,在围棋人机大战中以3:1战胜了韩国顶级棋手李世乭。


  物体分类


  在图像领域,Krizhevsky等利用多层卷积神经网络,在大规模图像分类ImageNetLSVRC-2012竞赛中(包含1千个类别,120万图像)取得了明显高于传统方法的结果,将Top5错误率由26%大幅降低至15%,该神经网络有7层,包含约65万个神经节点和6千万参数。目前卷积神经网络已经成为该领域的主流方法。在此基础上,研究人员提出了VGGNet、GoogLeNet、残差网络ResidualNet等更深层的网络,并提升了深度学习方法在大规模图像分类领域的性能。深度网络还能准确检测出图像物体的位置,也能预测例如人体部位手、头、足的位置和姿态。

图3AlexNet网络结构


  人像分析


  在人脸识别方面,深度神经网络在人脸识别领域公认困难的LFW数据库上超过了人眼识别的准确度。图4给出了在人脸识别领域取得优秀性能的DeepID网络结构,该网络根据人脸结构的特殊性,提出了使用局部共享卷积,提升了网络对人脸图像的分类能力。提出面向跨年龄人脸识别的隐因子卷积神经网络,该网络将隐因子学习引入深度网络,将深度网络中全连接层特征分解为身份和年龄两个部分(图5),为提升深度网络对年龄变化的鲁棒性提供了一条新途径,实验表明该网络在著名的LFW数据库上取得了99%的正确率,超过了人眼在这一数据库上的表现97%,并在Morph和CACD这两个重要的跨年龄数据库上取得了领先的识别率,分别为88.1%和98.5%,还首次提出面向深度网络的中心损失函数,增强深度特征学习中的聚类效果,实验表明该方法可以提升人脸识别深度网络的性能,在MegaFace百万级人像比对国际测试的FGNet任务中取得了良好的效果。

图4DeepID人像分类网络结构


图5面向跨年龄人脸识别的隐因子卷积神经网络


  场景识别


  场景识别与理解是计算机视觉的一个基本问题。传统的场景识别方法多依赖于SIFT、HOG、SURF等局部特征。近年来,卷积神经网络也被用于场景分类。早期的方法发现微调(Finetune)通过大规模物体数据库Imagenet训练的网络,在场景分类中也有较好的效果。但与物体分类相比,场景类别更加抽象同一个场景类别内图像的内容和布局可能包含复杂的变化。麻省理工学院的AI实验室推出PLACE大规模场景数据库,推动深度神经网络在大规模场景分类的应用,使得研究人员可以直接利用场景数据而无需借助Imagenet训练场景分类的深度模型。许多在物体分类中表现优异的网络结构如AlexNet、VGGNet、GoogLeNet、ResidualNet等也在场景分类中取得了良好的效果。研究表明,Dropout和多尺度数据增强等策略有助于深度网络的训练,可以缓解网络过拟合问题;Relaybackpropagation等方法可以提升场景分类深度网络的性能。与传统手工设计的特征相比,深度神经网络学习的场景特征表达能力丰富,语义性更强,因此可以在识别任务中取得更好的效果。

图6知识引导卷积神经网络


  行为识别


  行为识别是计算机视觉领域的重要问题。近年来,研究人员逐步将深度神经网络引入视频的分析与理解中,使其成为行为识别研究中的一个新的研究方向。Karpathy等提出一个卷积神经网络(ConvolutionalNeuralNetwork,CNN),通过不同的时序融合策略,实现对视频中的行为识别。然而,此模型尽管利用海量数据(sports-1M)进行预训练,行为识别的精准性仍有待提高。


  另一流行的方法是3DCNN,此类方法通过对标准2DCNN在时间轴上的扩展,实现对视频的时空建模。但是,巨大的训练复杂度需要海量数据的支撑或3D卷积核的分解。牛津大学提出一个双流CNN框架以避免3DCNN的训练问题。通过外形流(Appearancestream)与运动流(MotionStream)CNN的独立设计,此框架在标准数据库UCF101与HMDB51中实现了精准的行为识别。然而,运动流CNN的输入为叠加光流,这使得此框架只能捕捉住短时运动信息,而忽略视频长时运动信息的理解。为进一步改进此结构的识别精准性,作者团队提出轨迹池化的深度描述子(Trajectory-pooledDeepDescriptors),该方法为融合深度模型与传统轨迹特征提供了一种新机制,实验表明这种深度轨迹特征TDD较传统手工设计的特征和传统深度模型具有更强的表示能力和区分性,可明显提高视频分类的正确率。人们还开发了视频关键域挖掘的深度模型,以及时间分割神经网络,以提高此类框架的时空建模能力。另外,还开发了增强运动向量卷积神经网络EMV-CNN,利用运动向量替代需要大量运算的光流,提速20倍以上。递归神经网络(RecurrentNeuralNetwork,RNN),特别是长短时记忆模型(LongShort-TermMemory,LSTM)在各种序列建模任务中取得的成功,使得基于深度学习的行为识别方法逐步向序列建模方向发展。一种常见的训练方法是利用双流CNN提取的特征作为LSTM的输入进行序列模型的训练。

图7轨迹采样的深度卷积视频特征


  除此之外,深度学习还在图像恢复和超分辨率、图像质量评价、语义分割与解析、图像内容文本生成、医学图像分析等许多任务中取得了较传统方法更好的结果,大大推动了相互领域技术和方法的发展。


  发展趋势


  深度学习方法虽然取得了重要的进展,但在计算机视觉的许多应用中仍然面临巨大的挑战,这主要体现在以下几个方面:


  首先,目前的深度学习方法往往依赖大规模数据进行训练。但并非所有的视觉问题都有充足的训练样本,如特定人或物体的检索,罕见物种的识别、医学图像中的稀有病例等,训练数据可能非常稀少或者收集大量样本的代价会很大。于此相对应,人的视觉系统仅需要少量样本就可以识别类别,这很多程度是因为人可以复用在其他领域学习所得知识和经验。近年来小数据样本(Smalldataset)的学习越来越引起研究人员的关注,如何利用小数据样本来进行有效的深度学习,是一个有待解决的挑战性问题。


  其次,深度卷积网络采用误差反向传播算法进行参数学习,这就要求训练数据有明确和丰富的监督信息。但在许多实际问题中,对图像进行详细、精确的标定极为耗时(如场景解析中的像素级标签、视频中精细的时空标定等);并且,许多训练数据中监督信息缺失或监督信息包含噪声(如从互联网中收集的照片)。如何利用弱监督、噪声监督、非监督统信息来训练深度网络,对利用大量标定不完全的数据具有重要的实际意义。


  最后,深度神经网络往往规模巨大、参数众多。以AlexNet网络为例,虽然输入图像已经被缩小到224×224,但模型仍包含六千万的参数。这使得深度神经网络较难应用于计算和存储资源受限的场合如移动终端、嵌入式系统等。同时,也使得人们很难把高分辨率的图像直接作为深度网络的输入。如何对复杂深度网络模型进行压缩和加速,降低运算和存储消耗,对解决深度学习方法资源受限的难题具有现实意义。

为你推荐