首页>论文>正文
日期
07/17
2020
咨询
  • QQ扫一扫

  • Vision小助手
    (CMVU)

基于机器视觉的智能巡检相关关键技术
收藏
2020-07-17 16:49:39来源: 中国视觉网

   相比于传统模式的智慧企业对于大数据知识工程和BI的结合,新型智慧企业理念基于AI有了新的智能化提升。结合了人工智领域中机器学习相关理论,使得企业监督、运作、生产效率和识别准确率提高。其中厂区的智能巡检是智慧企业的重要组成部分,智能巡检系统主要是以现代技术预设巡检路线,自动传输设备检测数值,发现异常自动上报,确保巡检人员的真实到位,同时实现巡检全过程的可视化。本文主要介绍巡检系统中重要的几个环节所需的基本知识。

一、目标检测

    目标检测是计算机视觉领域中的重要问题,是人脸识别、车辆检测、路网提取等领域的理论基础。随着深度学习的快速发展,与基于滑窗以手工提取特征做分类的传统目标检测算法相比,基于深度学习的目标检测算法无论在检测精度上还是在时间复杂度上都大大超过了传统算法。

1.1 早期成果

   传统的目标检测一般使用滑动窗口的框架,主要包括三个步骤:

   1.利用不同尺寸的滑动窗口框住图中的某一部分作为候选区域

   2.提取候选区域相关的视觉特征。比如人脸检测常用的Harr特征;行人检测和普通目标检测常用的HOG[1]特征等;

   3.利用分类器进行识别,比如常用的SVM[2]模型。

   传统的目标检测中,多尺度形变部件模型DPM(Deformable Part Model)[3]是出类拔萃的。DPM把物体看成了多个组成的部件(比如人脸的鼻子、嘴巴等),用部件间的关系来描述物体,这个特性非常符合自然界很多物体的非刚体特征。DPM可以看做是HOG+SVM的扩展,很好的继承了两者的优点,在人脸检测、行人检测等任务上取得了不错的效果,但是DPM相对复杂,检测速度也较慢,从而也出现了很多改进的方法。

1.2 相关研究

1.2.1 选择性搜索

区域提名可能的方法有:

   1.滑动窗口——滑动窗口本质上就是穷举法,利用不同的尺度和长宽比把所有可能的大大小小的块都穷举出来,然后送去识别,识别出来概率大的就留下来。这样的方法复杂度太高,产生了很多的冗余候选区域,在现实当中不可行。

   2.规则块——在穷举法的基础上进行了一些剪枝,只选用固定的大小和长宽比。这在一些特定的应用场景是很有效的。但是对于普通的目标检测来说,规则块依然需要访问很多的位置,复杂度高。

   3.选择性搜索——其实冗余候选区域大多是发生了重叠,选择性搜索利用这一点,自底向上合并相邻的重叠区域,从而减少冗余。

1.2.2 OverFeat

    OverFeat[4]是用CNN统一来做分类、定位和检测的经典之作。

核心思想有三点:

    1.区域提名:结合滑动窗口和规则块,即多尺度(multi-scale)的滑动窗口;

    2.分类和定位:统一用CNN来做分类和预测边框位置,模型与AlexNet类似,其中1-5层为特征抽取层,即将图片转换为固定维度的特征向量,6-9层为分类层(分类任务专用),不同的任务(分类、定位、检测)公用特征抽取层(1-5层),只替换6-9层;

    3.累积:因为用了滑动窗口,同一个目标对象会有多个位置,也就是多个视角;因为用了多尺度,同一个目标对象又会有多个大小不一的块。这些不同位置和不同大小块上的分类置信度会进行累加,从而使得判定更为准确。

Overfeat是CNN用来做目标检测的早期工作,主要思想是采用了多尺度滑动窗口来做分类、定位和检测,虽然是多个任务但重用了模型前面几层,这种模型重用的思路也是后来R-CNN系列不断沿用和改进的经典做法。

1.3 基于区域提名的方法

1.3.1  R-CNN

     早期的目标检测,大都使用滑动窗口的方式进行窗口提名,这种方式本质是穷举法,R-CNN[5.6.7]采用的是Selective Search。

R-CNN的主要步骤:

    1.区域提名:通过Selective Search从原始图片提取2000个左右区域候选框;

    2.区域大小归一化:把所有侯选框缩放成固定大小;

    3.特征提取:通过CNN网络,提取特征;

    4.分类与回归:在特征层的基础上添加两个全连接层,再用SVM分类来做识别,用线性回归来微调边框位置与大小,其中每个类别单独训练一个边框回归器。

1.3.2  SPP-net

    SPP-net[8]是MSRA何恺明等人提出的,其主要思想是去掉了原始图像上的crop/warp等操作,换成了在卷积特征上的空间金字塔池化层(Spatial Pyramid Pooling,SPP),

SPP-net做目标检测的主要步骤为:

    1.区域提名:用Selective Search从原图中生成2000个左右的候选窗口;

    2.区域大小缩放:SPP-net不再做区域大小归一化,而是缩放到min(w, h)=s,即统一长宽的最短边长度,s选自{480,576,688,864,1200}中的一个,选择的标准是使得缩放后的候选框大小与224×224最接近;

    3.特征提取:利用SPP-net网络结构提取特征;

    4.分类与回归:类似R-CNN,利用SVM基于上面的特征训练分类器模型,用边框回归来微调候选框的位置。

1.3.3  Fast R-CNN

    GIRSHICK 等[9]提出的 Fast R-CNN 算法相比于R-CNN 算法和 SPP-NET 算法进一步提高了检测精度和检测速度。

Fast R-CNN的主要步骤如下:

    1.特征提取:以整张图片为输入利用CNN得到图片的特征层;

    2.区域提名:通过Selective Search等方法从原始图片提取区域候选框,并把这些候选框一一投影到最后的特征层;

   3.区域归一化:针对特征层上的每个区域候选框进行RoI Pooling操作,得到固定大小的特征表示;

    4.分类与回归:然后再通过两个全连接层,分别用softmax多分类做目标识别,用回归模型进行边框位置与大小微调。

1.3.4  Faster R-CNN

    REN 等[10]提出的 Faster R-CNN 算法真正实现了端到端计算,检测精度与检测速度都有了大幅度的提升。Faster R-CNN直接利用RPN(Region Proposal Networks)网络来计算候选框。RPN以一张任意大小的图片为输入,输出一批矩形区域提名,每个区域对应一个目标分数和位置信息。

主要步骤如下:

    1.特征提取:同Fast R-CNN,以整张图片为输入,利用CNN得到图片的特征层;

    2.区域提名:在最终的卷积特征层上利用k个不同的矩形框(Anchor Box)进行提名,k一般取9;

   3.分类与回归:对每个Anchor Box对应的区域进行object/non-object二分类,并用k个回归模型(各自对应不同的Anchor Box)微调候选框位置与大小,最后进行目标分类。

1.4 端到端的方法

    本小节介绍端到端(End-to-End)的目标检测方法,这些方法无需区域提名,包括YOLO和SSD。

1.3.1 YOLO

    YOLO的全拼是You Only Look Once,顾名思义就是只看一次,进一步把目标判定和目标识别合二为一,所以识别性能有了很大提升,达到每秒45帧,而在快速版YOLO(Fast YOLO,卷积层更少)中,可以达到每秒155帧。YOLO算法通过对原图像进行稀疏采样,将含有该对象的中心点区域进行坐标和类别的损失计算。

针对一张图片,YOLO的处理步骤为:

     1.把输入图片缩放到448×448大小;

     2.运行卷积网络;

     3.对模型置信度卡阈值,得到目标位置与类别。

1.3.2 YOLO V2 算法、YOLO 9000 算法和 YOLO V3 算法

    REDMON 等[11]在 2017 年改进了 YOLO 算法,并提出了 YOLO V2 算法和 YOLO 9000 算法。YOLO V2 算法在输出层使用卷积层替代 YOLO V1 算法中的全连接层,目的是消除全连接层对图片尺寸的要求。并且通过对卷积层加入批归一化层( Batch Normalization,BN) ,去掉dropout、引入锚点( Anchor) 、采用K均值聚类的方式对训练集的边界框( Bounding Box) 做聚类,在位置精确性和召回率两个问题上有了显著的提高。但是对于目标重叠度高以及小目标物体待检的场景,检测精度有待提高。

    YOLO 9000 [12]算法提出一种分类和检测数据的联合训练机制,使用有标记的检测数据集精确定位,使用分类数据增加类别的多样性和鲁棒性。相比 YOLO V1算法,YOLO 9000 算法在识别种类、精度、速度和定位准确性等方面都有很大提升,可检测出高达9418类物体。

    YOLO V3 算法[13]使用了新的更深层的神经网络,并加入了多尺度预测,在检测精度上有所提高。虽然网络体量变大,但是检测速度仍然很快,YOLO V3 算法能够在22ms 内完成一张 320 × 320 像素级别图片的检测及分类任务,平均检测精度( m AP) 达到28.2%,与 SSD算法的精度相近,并且速度快了3倍。但是当 IOU 阈值大于0.5 并逐渐增加时,YOLO V3 算法的性能开始同步下降,预测的边界框不能准确对齐,同时由于增加多尺度预测,对于小尺寸目标物体检测效果明显提升,但是对于中等及大尺寸目标物体的检测效果也会变差。

1.3.3 SSD

   SSD[14]的全拼是Single Shot MultiBox Detector,冲着YOLO的缺点来的。SSD的网络分为两部分,前面的是用于图像分类的标准网络(去掉了分类相关的层),后面的网络是用于检测的多尺度特征映射层,从而达到检测不同大小的目标。

SSD在保持YOLO高速的同时效果也提升很多,主要是借鉴了Faster R-CNN中的Anchor机制,同时使用了多尺度。但是从原理依然可以看出,Default Box的形状以及网格大小是事先固定的,那么对特定的图片小目标的提取会不够好。

二、目标跟踪

    目标跟踪分为两个部分,一个是对指定目标寻找可以跟踪的特征,常用的有颜色,轮廓,特征点,轨迹等,另一个是对目标特征进行跟踪。

2.1 运动目标检测技术

2.1.1背景差

    对背景的光照变化、噪声干扰以及周期性运动等进行建模。通过当前帧减去背景图来捕获运动物体的过程。

2.1.2 帧差

    由于场景中的目标在运动,目标的影像在不同图像帧中的位置不同。该类算法对时间上连续的两帧或三帧图像进行差分运算,不同帧对应的像素点相减,判断灰度差的绝对值,当绝对值超过一定阈值时,即可判断为运动目标,从而实现目标的检测功能。

2.1.3 光流

    光流法中最为常用的便是由与所提出的光流算法。其中光流可分为稠密光流与稀疏光流稠密光流是对视频中的每一个像素进行估计,而稀疏光流则只是针对部分特征点进行估计。光流是由物体或相机的运动引起的图像对象在两个连续帧之间的视在运动模式。它是2D矢量场,其中每个矢量是一个位移矢量,显示点从第一帧到第二帧的移动。

2.2 运动目标跟踪技术

2.2.1 生成(generative)模型方法

1)Kalman 滤波

    Kalman滤波器是通过前一状态预测当前状态,并使用当前观测状态进行校正,从而保证输出状态平稳变化,可有效抵抗观测误差。因此在运动目标跟踪中也被广泛使用。

2)扩展卡尔曼滤波(EKF)和无迹卡尔曼滤波(UKF)

    由于卡尔曼滤波的假设为线性问题,无法直接用在非线性问题上,EKF和UKF解决了这个问题(这个线性问题体现在用测量量来计算预测量的过程中)。

    EKF是通过构建线性函数g(x),与非线性函数相切,并对每一时刻所求得的g(x)做KF,

    UKF与EKF去求解雅可比矩阵拟合线性方程的方法不同,通过对那个先验分布中的采集点,来线性化随机变量的非线性函数。与EKF所用的方法不同,UKF产生的高斯分布和实际高斯分布更加接近,其引起的近似误差也更小。

3)粒子滤波

    1、初始状态:基于粒子滤波的目标追踪方法是一种生成式跟踪方法,所以要有一个初始化的阶段。对于第一帧图像,人工标定出待检测的目标,对该目标区域提出特征;

    2、搜索阶段:现在已经知道了目标的特征,然后就在目标的周围撒点(particle), 如:a)均匀的撒点;b)按高斯分布撒点,就是近的地方撒得多,远的地方撒的少。论文里使用的是后一种方法。每一个粒子都计算所在区域内的颜色直方图,如初始化提取特征一样,然后对所有的相似度进行归一化。文中相似性使用的是巴氏距离;

    3、重采样:根据粒子权重对粒子进行筛选,筛选过程中,既要大量保留权重大的粒子,又要有一小部分权重小的粒子;

    4、状态转移:将重采样后的粒子带入状态转移方程得到新的预测粒子;

    5、测量及更新:对目标点特征化,并计算各个粒子和目标间的巴氏距离,更新粒子的权重;

    6、决策阶段:每个粒子都获得一个和目标的相似度,相似度越高,目标在该范围出现的可能性越高,将保留的所有粒子通过相似度加权后的结果作为目标可能的位置。

4)Meanshift算法

    MeanShift算法属于核密度估计法,它不需要任何先验知识而完全依靠特征空间中样本点的计算其密度函数值。对于一组采样数据,直方图法通常把数据的值域分成若干相等的区间,数据按区间分成若干组,每组数据的个数与总参数个数的比率就是每个单元的概率值;核密度估计法的原理相似于直方图法,只是多了一个用于平滑数据的核函数。采用核函数估计法,在采样充分的情况下,能够渐进地收敛于任意的密度函数,即可以对服从任何分布的数据进行密度估计。

5)Camshift算法

    Camshift算法是MeanShift算法的改进,称为连续自适应的MeanShift算法。Camshift 是由Meanshift 推导而来 Meanshift主要是用在单张影像上,但是独立一张影像分析对追踪而言并无意义,Camshift 就是利用MeanShift的方法,对影像串列进行分析。

    Camshift 关键就在于当目标的大小发生改变的时候,此算法可以自适应调整目标区域继续跟踪。

2.2.2 判别(discriminative)模型方法

1)Struck

    Sam Hare, Amir Saffari, Philip H.S.Torr等人于2011年发表在Computer Vision (ICCV)上的一篇文章关于Struck算法[15],主要提出一种基于结构输出预测的自适应视觉目标跟踪的框架,通过明确引入输出空间满足跟踪功能,能够避免中间分类环节,直接输出跟踪结果。同时,为了保证实时性,该算法还引入了阈值机制,防止跟踪过程中支持向量的过增长。

2)TLD

   Tracking-Learning-Detection(TLD)是Zdenek Kalal提出的一种对视频中单个物体长时间跟踪的算法[16]。

   TLD算法主要由三个模块构成:追踪器(tracker),检测器(detector)和机器学习(learning)。作者提出把追踪器和检测器结合使用,同时加入机器学习来提高结果的准确度。

2.2.3 相关滤波

    MOOSE[17]是目标跟踪领域第一篇相关滤波算法,采用单通道灰度特征,在训练和检测时都没有加padding,速度:615FPS,第一次显示了相关滤波的潜力。

    CSK[18]在MOSSE的基础上扩展了密集采样(加padding)和kernel-trick,速度:362FPS。

    KCF/DCF[19]在CSK基础上扩展了多道通的HOG特征,速度:KCF–172FPS,DCF–292FPS。

CN[20]在CSK的基础上扩展了多通道颜色的Color Names,速度:152FPS。

三、基于视觉的行为分析

   人体行为识别目前处在动作识别阶段,而动作识别可以看成是特征提取和分类器设计相结合的过程。特征提取过程受到遮挡,动态背景,移动摄像头,视角和光照变化等因素的影响而具有很大的挑战性。

3.1行为识别特征提取

3.1.1 全局特征提取

  全局特征是对检测出来的整个感兴趣的人体进行描述,一般是通过背景减图或者跟踪的方法来得到,通常采用的是人体的边缘,剪影轮廓,光流等信息。而这些特征对噪声,部分遮挡,视角的变化比较敏感。

1)二维全局特征提取

    Davis[21]等人最早采用轮廓来描述人体的运动信息,其用MEI和MHI 2个模板来保存对应的一个动作信息,然后用马氏距离分类器来进行识别。MEI为运动能量图,用来指示运动在哪些部位发生过,MHI为运动历史图,除了体现运动发生的空间位置外还体现了运动的时间先后顺序。这2种特征都是从背景减图中获取的。

    当背景差法不能很好的工作时,我们往往可以采用光流法,但是这样经常会引入运动噪声,Effos[22]只计算以人体中心点处的光流,这在一定程度上减少了噪声的影响。

2)三维全局特征提取

    在三维空间中,通过给定视频中的数据可以得到3D时空体(STV),STV的计算需要精确的定位,目标对齐,有时还需背景减图。

    Blank[23][24]等人首次从视频序列中的剪影信息得到STV。然后用泊松方程导出局部时空显著点及其方向特征,其全局特征是通过对这些局部特征加权得到的,为了处理不同动作的持续时间不同的问题,

    Achard[25]对每一个视频采用了一系列的STV ,并且每个STV只是覆盖时间维上的一部分信息。

    Batra[26]存储了STV的剪影,并且用很小的3D二进制空间块来采样STV。

    Yilmaz[27]提取了STV表面的不同几何特征,比如说其极大值点和极小值点。

    Keel[28]将剪影的STV和光流信息结合起来,作为行为识别的全局特征。

3.1.2 局部特征提取

  人体行为识别局部特征提取是指提取人体中感兴趣的点或者块。因此不需要精确的人体定位和跟踪,并且局部特征对人体的表观变化,视觉变化和部分遮挡问题也不是很敏感。因此在行为识别中采用这种特征的分类器比较多。

1)局部特征点的检测

  Laptev[29]将Harris角点扩展到3D Harris,这是时空兴趣点(STIP)族中的一个。这些时空特征点邻域的像素值在时间和空间都有显著的变化。在该算法中,邻域块的尺度大小能够自适应时间维和空间维。

   Dollar[30]指出上述那种方法存在一个缺点,即检测出来稳定的兴趣点的数量太少,因此Dollar单独的在时间维和空间维先采用gabor滤波器进行滤波,这样的话检测出来兴趣点的数目就会随着时间和空间的局部邻域尺寸的改变而改变。

   Rapantzikos[31]在3个维度上分别应用离散小波变换,通过每一维的低通和高通的滤波响应来选择时空显著点。

2)局部特征点的描述

   局部特征描述是对图像或者视频中的一个块进行描述,其描述子应该对背景的杂乱程度,尺度和方向变化等均不敏感。一个图像块的空间和时间尺寸大小通常取决于检测到的兴趣点的尺寸。

   特征块也可以用基于局部特征的网格来描述,因为一个网格包括了局部观察到的领域像素,将其看成一个块,这样就减少了时间和空间的局部变化的影响。

   二维的SURF特征被Willems[32]扩展到了3维,这些eSURF特征的每个cell都包含了全部Harr-wavelet特征。

   Laotev[33]使用了局部HOG(梯度直方图)和HOF(光流直方图)。

   Klaser[34]将HOG特征扩展到3维,即形成了3D-HOG。3D-HOG的每个bin都是由规则的多面体构成,3D-HOG允许在多尺度下对cuboids进行快速密度采样。这种将二维特征点检测的算法扩展到3维特征点类似的工作还有是将SIFT算法[35]扩展到3维SIFT Scovanner。

3.1.3 全局、局部特征融合

   全局和局部特征的融合,结合了全局特征的足够信息量和局部特征的对视角变化,部分遮挡问题不敏感,抗干扰性强的优点。

   Thi[36]的全局特征是采用前面介绍的MHI算子,并且采用AIFT算法进一步选择更好的MHI。局部特征也是采用前面提到的STIP特征,并且采用SBFC(稀疏贝叶斯特征选择)算法过滤掉一些噪声比较大的特征点。最后将2种特征送入到扩展的3维ISM模型中,其ISM是一种目标识别常用算法,即训练出目标的隐式形状模型。

3.2 行为识别常见数据库

3.2.1 Weizmann

  Weizmann数据库包含了10个动作分别是走,跑,跳,飞跳,向一侧移动,单只手挥动,2只手挥动,单跳,2只手臂挥动起跳,每个动作有10个人执行。在这个视频集中,其背景是静止的,且前景提供了剪影信息。该数据集较为简单。

3.2.2 KTH

  KTH行人数据库包含了6种动作,分别为走,慢跑,跑挥手和鼓掌。每种动作由25个不同的人完成。每个人在完成这些动作时又是在4个不同的场景中完成的,4个场景分别为室外,室内,室外放大,室外且穿不同颜色的衣服。

3.2.3 PETS

  PETS,其全称为跟踪与监控性能评估会议,它的数据库是从现实生活中获取的,主要来源于直接从视频监控系统拍摄的视频,比如说超市的监控系统。从2000年以后,基本上每年都会组织召开这个会议。

3.2.4 UCF

   UCF包含个数据集,这里是指UCF的运动数据库,该视频数据包括了150个视频序列,共有13个动作。因为是现实生活中的视频数据,所以其背景比较复杂,这些种类的动作识别起来有些困难。

3.2.5 INRIA XMAS

  INRIA XMAS数据库是从5个视角拍摄的,室内的4个方向和头顶的1个方向。总共有11个人完成14种不同的动作,动作可以沿着任意方向执行。摄像机是静止的,环境的光照条件也基本不变。另外该数据集还提供有人体轮廓和体积元等信息。

3.2.6 Hollywood

  Hollywood电影的数据库包含有几个,其一的视频集有8种动作,分别是接电话,下轿车,握手,拥抱,接吻,坐下,起立,站立。这些动作都是从电影中直接抽取的,由不同的演员在不同的环境下演的。其二在上面的基础上又增加了4个动作,骑车,吃饭,打架,跑。并且其训练集给出了电影的自动描述文本标注,另外一些是由人工标注的。因为有遮挡,移动摄像机,动态背景等因素,所以这个数据集非常有挑战。

引用文献

[1] 陈翠霞. 基于多特征级联分类器的车辆检测技术研究与实现[D].吉林大学,2014.

[2] 高幸. 基于SVM的图像分类与标注方法的研究[D].北京交通大学,2015.

[3] Felzenszwalb P F, Girshick R B, McAllester D, et al. Object detection with discriminatively trained part-based models[J].

[4] P. Sermanet, D. Eigen, X.Zhang, M. Mathieu, R. Fergus, and Y. LeCun. OverFeat: Integrated recognition, localization and detection using convolutional networks. In ICLR, 2014.

[5] R. Girshick, J. Donahue, T. Darrell, J. Malik. Rich feature hierarchies for accurate object detection and semantic segmentation. ImageNet Large-Scale Visual Recognition Challenge workshop, ICCV, 2013.

[6] R. Girshick, J. Donahue, T. Darrell, J. Malik. Rich feature hierarchies for accurate object detection and semantic segmentation. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2014.

[7] R. Girshick, J. Donahue, T. Darrell, J. Malik. Region-Based Convolutional Networks for Accurate Object Detection and Segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence, May. 2015.

[8] K. He, X. Zhang, S. Ren, and J. Sun. Spatial pyramid pooling in deep convolutional networks for visual recognition. In ECCV. 2014.

[9] GIRSHICK R. Fast R-CNN[C]/ /Proceedings of the IEEE Computer Society Conference on Computer Vision & Pattern Recognition( CVPR)  2015: 1440-1448.

[10] REN S Q HE K M GIRSHICK R et al. Faster R-CNN: to-wards real-time object detection with region proposal net-works[C]/ / Advances in Neural Information Processing Systems 2015: 91-99.

[11]REDMON J DIVVALA S GIRSHICK R, et al. You only look once: unified real-time object detection[C]/ / Pro-ceedings of the IEEE Computer Society Conference on Computer Vision & Pattern Recognition( CVPR)  2016:779-788.

[12] REDMON J FARHADI A. YOLO9000: better fasterstronger[C]/ / Proceedings of the IEEE Computer Society Conference on Computer Vision & Pattern Recognition( CVPR) 2017: 7263-7271.

[13] REDMON J FARHADI A. Yolov3: an incremental im-provement[J]. ar Xiv Preprint ar Xiv: 1804. 02767 2018.

[14] Liu W, Anguelov D, Erhan D, et al. SSD: Single Shot MultiBox Detector[J]. arXiv preprint arXiv:1512.02325, 2015.

[15] Hare Sam,Golodetz Stuart,Saffari Amir,Vineet Vibhav,Cheng Ming-Ming,Hicks Stephen L,Torr Philip H S. Struck: Structured Output Tracking with Kernels.[J]. IEEE transactions on pattern analysis and machine intelligence,2016,38(10).

[16] Kalal Zdenek,Mikolajczyk Krystian,Matas Jiri. Tracking-Learning-Detection.[J]. IEEE transactions on pattern analysis and machine intelligence,2012,34(7).

[17] Bolme D S, Beveridge J R, Draper B A, et al. Visual object tracking using adaptive correlation filters [C]// CVPR, 2010.

[18] Henriques J F, Caseiro R, Martins P, et al. Exploiting the circulant structure of tracking-by- detection with kernels [C]// ECCV, 2012.

[19] Henriques J F, Rui C, Martins P, et al. High-Speed Tracking with Kernelized Correlation Filters [J]. IEEE TPAMI, 2015.

[20] Danelljan M, Shahbaz Khan F, Felsberg M, et al. Adaptive color attributes for real-time visual tracking [C]// CVPR, 2014.

[21] Bobick, A. F. and J. W. Davis (2001). "The recognition of human movement using temporal templates." Pattern Analysis and Machine Intelligence,  IEEE Transactions on 23(3): 257-267.

[22] Efros, A. A., A. C. Berg, et al. (2003). Recognizing action at a distance, IEEE.

[23] Blank, M., L. Gorelick, et al. (2005). Actions as space-time shapes, IEEE.

[24] Gorelick, L., M. Blank, et al. (2007). "Actions as space-time shapes." Pattern Analysis and Machine Intelligence, IEEE Transactions on 29(12):  2247-2253.

[25] Achard, C., X. Qu, et al. (2008). "A novel approach for recognition of human actions with semi-global features." Machine Vision and Applications        19(1): 27-34.

[26] Batra, D., T. Chen, et al. (2008). Space-time shapelets for action recognition, IEEE.

[27] Yilmaz, A. and M. Shah (2008). "A differential geometric approach to representing the human actions." Computer vision and image understanding           109(3): 335-351.

[28] Ke, Y., R. Sukthankar, et al. (2007). Spatio-temporal shape and flow correlation for action recognition, IEEE.

[29] Laptev, I. (2005). "On space-time interest points." International journal of computer vision 64(2): 107-123.

[30]. Dollár, P., V. Rabaud, et al. (2005). Behavior recognition via sparse spatio-temporal features, IEEE.

[31]. Rapantzikos, K., Y. Avrithis, et al. (2007). Spatiotemporal saliency for event detection and representation in the 3D wavelet domain: potential in    human action recognition, ACM.

[32] Willems, G., T. Tuytelaars, et al. (2008). "An efficient dense and scale-invariant spatio-temporal interest point detector." Computer Vision–ECCV    2008: 650-663.

[33] Laptev, I., M. Marszalek, et al. (2008). Learning realistic human actions from movies, IEEE.

[34] Klaser, A. and M. Marszalek (2008). "A spatio-temporal descriptor based on 3D-gradients."

[35]. Scovanner, P., S. Ali, et al. (2007). A 3-dimensional sift descriptor and its application to action recognition, ACM.

[36] Thi, T. H., L. Cheng, et al. (2011). "Integrating local action elements for action analysis." Computer vision and image understanding.