光学 精密工程  2018, Vol.26 Issue (10): 2584-2591   PDF    
利用几何特征和时序注意递归网络的动作识别
李庆辉, 李艾华, 郑勇, 方浩     
火箭军工程大学 保障学院, 陕西 西安 710025
摘要: 为提高基于人体骨架(Skeleton-based)的动作识别准确度,提出一种利用骨架几何特征与时序注意递归网络的动作识别方法。首先,利用旋转矩阵的向量化形式描述身体部件对之间的相对几何关系,并与关节坐标、关节距离两种特征融合后作为骨架的特征表示;然后,提出一种时序注意方法,通过与之前帧加权平均对比来判定当前帧包含的有价值的信息量,采用一个多层感知机实现权值的生成;最后,将骨架的特征表示乘以对应权值后输入一个LSTM网络进行动作识别。在MSR-Action3D和UWA3D Multiview Activity Ⅱ数据集上该方法分别取得了96.93%和80.50%的识别结果。实验结果表明该方法能对人体动作进行有效地识别且对视角变化具有较高的适应性。
关键词: 动作识别      部件相对几何关系      时序注意      LSTM神经网络     
Action recognition using geometric features and recurrent temporal attention network
LI Qing-hui , LI Ai-hua , ZHENG Yong , FANG Hao     
Academy of Operational Support, Rocket Force Engineering University, Xi'an 710025, China
*Corresponding author: LI Qing-hui, E-mail:mailto:lqhuiu1212@126.com
Abstract: To improve the accuracy of action recognition based on the human skeleton, an action recognition method based on geometric features and a recurrent temporal attention network was proposed. First, a vectorized form of the rotation matrix was defined to describe the relative geometric relationship between body parts. The vectorized form was fused with joint coordinates and joint distances to represent a skeleton in a video. A temporal attention method was then introduced. By considering the weighted average of the previous frame, a multi-layer perceptron was used to learn the weight of the current frame. Finally, the product of the feature vector and corresponding weight was propagated through three layers of long short-term memory to predict the class label. The experimental results show that the recognition accuracy of the proposed algorithm was superior to that of existing algorithms. Specifically, experiments with the MSR-Action3D and UWA3D Multiview Activity Ⅱ datasets achieved 96.93 and 80.50% accuracy, respectively.
Key words: action recognition     relative geometry of body parts     temporal attention modal     LSTM neural network    
1 引言

人体动作识别在人机交互、智能监控、视频检索和视频理解等领域具有广泛的应用价值,已经成为计算机视觉和模式识别领域的研究热点[1-2]。计算机通过动作识别技术可以自动地理解和描述视频中的人体动作,从而实现底层视频数据与高层语义的关联。由于人体骨架的高层次表达能力以及对视角、表观和背景干扰的鲁棒性,基于骨架的动作识别方法近年来受到了广泛地关注[3]。此外,Kinect、RealSense等高性价比深度相机的普及和骨架实时估计算法的成熟也极大促进了这项技术的发展[4]

基于骨架的动作识别方法将人体视为由关节连接身体部件的铰接系统,并利用该系统的空间结构变化来描述运动。因此,利用原始骨架的关节、部件参数建立有效的特征表示是视频动作识别的前提。Rahmani等[5]在全局坐标系下以骨架中心点坐标为参考定义了空间关节位移向量,在此基础上利用关节运动体特征(Joint Motion Volume)编码不同关节对动作识别的重要程度;Yang等[6]基于关节位置变化提出一种融合静态姿势、运动和偏移特征的本征关节(EigenJoints),并采用累积运动能量(Accumulated Motion Energy, AME)筛选骨架序列;Boubou等[7]通过计算关节的运动方向建立了方向速度向量直方图(HOVV)作为骨架表示;Zhang等[8]采用递归神经网络作为时序数据建模方法,提取一组简单的几何特征(如关节坐标、关节距离、关节所构成的平面间角度等)作为网络输入。

获得骨架的特征表示后,传统方法通常采用傅里叶时间金字塔(FTP)、动态时间规整(DTW)或隐马尔科夫模型(HMM)建模骨架序列的时间动态。递归神经网络(Recurrent Neural Net, RNN)由于引入了定向循环,能够处理输入之间前后关联的问题,在多项时序数据处理任务中取得了优于传统方法的效果,如自然语言理解、动作识别和视频摘要等。Du等[9]根据人体物理结构将骨架划分成5个部位,分别利用一个RNN建模低层身体部件表示,然后通过分层递归神经网络不断融合成骨架整体的表示,最后输入单层感知机进行分类;Zhu等[10]设计了一种端到端全连接的深度LSTM(Long Short-Term Memory)网络,采用新的正则化方法对骨架关节的共生特征进行学习;Liu等[11]在LSTM中引入信任门(Trust Gate)来学习顺序数据的可靠性,并相应地更新存储单元内保存的长时上下文信息。

研究表明,结合注意力机制的递归神经网络模型能够高度关注与识别任务有关的高辨识性信息,挖掘输入序列中更多的有用信息[12]。基于上述思想,本文提出一种利用骨架几何特征与时序注意递归网络的动作识别方法。算法首先利用旋转矩阵的向量化形式描述身体部件对之间的相对几何关系,再与骨架关节坐标、关节距离两种特征级联作为人体骨架的特征向量;然后计算当前帧与之前帧加权平均的差值,作为一个多层感知机的输入来学习当前帧的权值,权值大小反映了该帧信息对识别任务的重要程度;最后将每帧骨架的特征向量乘以对应权值后输入一个LSTM网络进行动作识别。

2 特征提取 2.1 数据预处理

原始骨架序列的所有数据记录在以相机原点的全局坐标系下,相机视角的变化会导致人体骨架呈现不同的形态,从而影响动作识别的结果。为解决这个问题,将骨架序列转换到以人为中心的坐标系中[13],实现视角无关(View-Invariant)。新坐标系以左右髋关节连线中心为原点,x轴平行于髋关节连线在xOy平面的投影。选定其中一帧骨架为参考对其他骨架进行归一化,这种归一化操作确保其他骨架的身体部件长度与参考骨架对应相等,实现尺度无关(Scale-Invariant)。

2.2 骨架表示

定义S=(J, P)为一个人体骨架,其中J={j1, …, jM}表示关节,P={p1, …, pN}表示连接关节的部件,图 1为一个包含20个关节和19个部件的人体骨架示例。本文提取每帧骨架的3种几何特征,级联后作为该帧骨架的特征向量:

图 1 人体骨架示例 Fig.1 An example of human skeleton

(1) 关节坐标(Joint Coordinate),Jc(ji)=(xi, yi, zi);

(2) 关节距离(Joint-Joint Distance),Jd(ji, jj)=‖jijj‖=|xj-xi, yj-y, zj-zi|, 1≤ijM

(3) 部件相对几何关系(Relative Geometry of Body Parts),Prg(pi, pj), 1≤ijN

人体动作可以被解释为不同身体部件的相互作用[8],提取部件之间的相对几何关系特征可以有效描述动作。给定两个身体部件pipj的位置,如图 2所示,可以认为pj是由pi经过平移、旋转而来,先将pi平移至与pj起点重合位置得到pi′再旋转角度θ可以得到pj,因此可用旋转矩阵来描述部件pipj的相对几何关系Prg(pi, pj)。

图 2 部件相对几何关系描述 Fig.2 Relative geometry of body parts

本文以转轴-角度方法表示旋转矩阵Ri, j,首先以pj的起点为原点、以pi′的方向为x轴正方向建立局部坐标系,再计算旋转轴的单位向量ω(xω, yω, zω)和旋转角度θ。由旋转过程可知,旋转角所在的平面为pi′和pj所构成的平面,那么旋转轴必垂直于该平面,如公式(1)、(2)所示:

(1)
(2)

根据罗德里格旋转公式(Rodrigues' rotation formula)可得旋转矩阵Ri, j

(3)

公式(3)可以进一步简化为:

(4)

由公式(4)可知,对于任意两个身体部件之间的旋转矩阵,指数部分是固定形式的斜对称矩阵,并且只与旋转轴的单位向量ω(xω, yω, zω)和旋转角度θ有关,因此本文直接取旋转矩阵Ri, j的向量化形式为:

(5)

部件pipj的相对几何关系可以表达为3维向量Prg(pi, pj)=vec(Ri, j)=[xωθ, yωθ, zωθ]。对于一个包含N个身体部件的骨架,所有部件对的相对几何关系组成3N(N-1)/2维的特征向量[Prg(p1, p2), Prg(p1, p2)…, Prg(pN-1, pN]。

3 时序注意递归网络结构 3.1 时序注意

对于一段动作骨架序列,不同帧包含的有价值的信息量是不相等的,通常只有部分帧提供最具辨识性的信息,而其余帧提供上下文信息[14]。研究发现,人类通过观察部分关键帧即可识别骨架序列中的动作,所以序列中存在着大量的冗余帧。时序注意机制通过给不同的帧分配不同的权值引导分类器高度关注序列中包含强辨识性信息的帧。本文认为这些包含强辨识性信息的帧应当是与之前帧存在较大差异的帧,并通过比较当前帧与之前帧的加权平均来确定这种差异,采用一个多层感知机(Multilayer Perceptron, MLP)来实现权值的生成。最后将每帧骨架的特征向量乘以对应权值后输入一个LSTM网络进行动作识别,网络架构如图 3所示。

图 3 时序注意LSTM网络架构 Fig.3 Architecture of LSTM network with temporal attention

设级联3种特征向量后得到的骨架序列表示为X=[x1, x2, …, xT],对每帧骨架分别分配一个权值αt∈[0, 1],权值大小取决于该帧骨架包含的对动作识别任务有价值的信息量。采用一个3层MLP学习生成权值,网络由输入层、隐含层和输出层组成。对于第t帧骨架,网络输入为当前帧特征向量xt与之前帧加权平均I(t-1)的差,隐含层和输出层的激活函数分别为tanh(·)和sigmoid(·),则:

(6)
(7)

其中:W1b1W2b2分别为隐含层、输出层的权值矩阵和偏置项,βt为隐含层的输出向量,σ为sigmoid激活函数。生成权值后,可以利用递归公式(8)计算I(t)用于计算下一帧骨架的权值αi+1

(8)
3.2 LSTM网络

传统RNN在利用BP算法进行训练时会出现梯度消失现象,LSTM的引入解决了这个问题。如图 4所示,LSTM使用记忆单元ct存储和输出信息,能够学习输入序列的长期依赖关系。LSTM单元的输入为当前数据xt和上一时刻输出状态ht-1,并通过输入门(Input Gate)、遗忘门(Forget Gate)、输出门(Output Gate)3个门来选择性添加当前信息和删除历史信息,单元输出为当前时刻状态htLSTM的计算原理如公式(9)~(14)所示:

(9)
(10)
(11)
(12)
(13)
(14)
图 4 LSTM单元结构图 Fig.4 Schema of a long short-term memory (LSTM) unit

式中:itftot分别为LSTM单元t时刻输入门、遗忘门和输出门的输出,σ为sigmoid激活函数,W*b*分别为对应门的权值矩阵和偏置项,表示向量对应位置元素乘运算。

为充分挖掘多层网络的优势,本文使用了一个3层LSTM网络,如图 4所示。第1层以每帧骨架的特征向量与对应权值的乘积为输入,第2、3层分别以其下一层的输出ht为输入,最后将第3层的输出送入一个softmax层进行分类识别。这种多层结构可以学习输入序列更长时间的依赖关系。

3.3 损失函数

本文利用一个交叉熵损失(Cross Entropy Loss)项和两个正则化项组成时序注意LSTM网络的损失函数,定义如下:

(15)

式中:y=(y1, …, yC)T为实际动作类别标签(One-Hot Label Vector),表示序列被预测为第i类的概率,C为动作类别总数,λ为注意力惩罚系数,γ为权值衰减系数,T代表模型所有参数。第2项是一个L1正则化项,目的是产生稀疏权值矩阵,确保模型尽可能关注骨架序列中最具判别力的帧;第3项是一个L2正则化项,可以防止模型过拟合(Overfitting)。

4 实验结果与分析 4.1 实验设置

本文在MSR-Action3D和UWA3D Multiview Activity Ⅱ数据集上验证提出的动作识别方法。实验中,注意力惩罚系数、权值衰减系数γ分别取1e-3、5e-4,网络训练过程中采用Adam自动调整学习速率[15],加权平均I(t)的初始值取为第一帧的特征向量。

为充分验证算法性能,设计3种实验方案。第1种LSTM(JC+JJD)作为对比基准,特征采用关节坐标(JC)和关节距离(JJD)两种,网络采用常规LSTM网络;第2种LSTM(JC+JJD+RGBP)验证部件相对几何关系(RGBP)特征的作用;第3种TA-LSTM(JC+JJD+RGBP)进一步验证本文提出的时序注意(Temporal Attention)机制的效果。

4.2 MSR-Action3D的结果与分析

MSR-Action3D数据集[16]由类似于Kinect的深度传感器捕获,包含20类共557个动作序列,每类动作分别由10个对象执行2~3次。每帧骨架包含20个关节,并提供了每个关节的三维坐标。数据集的主要挑战性在于许多行为是高度相似的。

MSR-Action3D数据集上的实验采用文献[16]中提供的标准评价方案,将数据集分成3组:Action Set1 (AS1)、Action Set2 (AS2)和Action Set3 (AS3)。对象1、3、5、7、9的动作视频用于训练,而对象2、4、6、8、10的动作视频用于测试。

表 1为MSR-Action3D数据集的实验结果对比,本文算法的平均识别准确率为96.93%,较对比算法的最好结果Ref.[11]提高了2.13%。由表 1可知,加入部件相对几何关系(RGBP)特征后平均准确率提高了14.06%,验证了部件相对几何关系特征能够有效描述人体骨架的空间结构;在LSTM网络中加入本文的时序注意机制后,平均准确率进一步提高了6.15%,说明本文提出的时序注意方法能够引导网络有效利用骨架序列中的强辨识性信息并排除冗余信息的干扰,提升行为识别准确率。

表 1 MSR-Action3D数据集结果对比 Tab. 1 Results comparison on MSR-Action3D dataset

此外,本文算法在3组动作集上均取得了最优(AS1、AS3)或与最优相近的结果(AS2),验证了算法的适应性。

图 5为本文算法在AS1、AS2和AS3上识别结果的混淆矩阵。错误分类主要发生在几个非常相似的动作之间。如图 5(a)所示,在AS1上“Pickup & throw”和“Bend”两个动作序列之间重叠较多,误分类情况最严重,类似的动作还有“Forward-punch”和“Tennis serve”、“Hammer”和“High throw”等;如图 5(b)所示,在AS2上存在误分类情况的动作主要是“Draw X”和“Draw tick”、“Hand catch”和“High arm wave”;如图 5(c)所示,在AS3上“High throw”动作会被误分类为“Tennis serve”动作,这两个动作的骨架空间结构高度相似,即便对于人类自身也较难区分。

图 5 MSR-Action3D数据集的混淆矩阵 Fig.5 Confusion matrices on MSR-Action3D dataset
4.3 UWA3D Multiview Activity Ⅱ的结果与分析

UWA3D Multiview Activity Ⅱ数据集[19]是由10个外形差异较大的对象执行30种日常动作,如挥手,抱胸和咳嗽等。每个对象将这30种动作分别执行4次,每次以不同的视角(front, top, left and right)拍摄视频。视角变化、自遮挡以及行为之间的高度相似性导致该数据集挑战性较大。

UWA3D Multiview Activity Ⅱ数据集上的实验采用文献[19]的交叉视角(Cross View)评价方案,使用两个视角的视频作为训练样本,其余两个视角的视频作为测试样本。表 2为在该数据集上本文算法与对比算法的实验结果总结。由表可知,本文算法在所有对比算法中取得了最高的平均识别率,并且在多数交叉视角测试中也取得了最优结果。视角的变化使得很多动作的深度表观(Depth Appearance)产生很大的差异,从而导致多数基于深度信息的方法(如Ref.[20])和基于深度信息+骨架信息(Depth+Skeleton)的方法(如Ref.[21])整体识别精度偏低。本文算法在引入部件相对几何关系特征和时序注意机制后,在UWA3D Multiview Activity Ⅱ数据集上达到了80.5%的平均识别准确率,比对比算法中取得最好结果的Ref.[22]高出3.6%。

表 2 UWA3D Multiview Activity Ⅱ数据集结果对比 Tab. 2 Results comparison on UWA3D Multiview Activity Ⅱ dataset

图 6为本文算法与Ref.[22]算法的每类动作识别准确率对比。由图中可以看出,除了“standing up”和“jumping jack”两类动作,本文算法的识别准确率在其余所有动作类别上均超过了HPM+TM,尤其在“drinking”和“irregular walking”两类动作上分别比Ref.[22]提高了18%和10%。对比结果验证了本文算法的有效性和适应性。

图 6 本文算法与Ref.[22]算法的类识别准确率 Fig.6 Per class recognition accuracy of our method and Ref.[22] on the UWA3D Multiview ActivityII dataset
5 结论

本文提出一种基于几何特征与时序注意递归网络的动作识别方法。算法首先利用旋转矩阵的向量化形式描述身体部件对之间的相对几何关系,并与骨架关节坐标、关节距离两种特征融合作为骨架的特征表示;然后引入计算当前帧与之前帧加权平均的差值,作为一个多层感知机的输入来学习当前帧的权值;最后将每帧骨架的特征向量乘以对应权值后输入一个LSTM网络进行动作识别。本文算法在MSR-Action3D和UWA3D Multiview Activity Ⅱ数据集上分别取得了96.93%和80.50%的识别结果,并在多数单类动作识别上超过现有算法,验证了算法的有效性和适应性。

参考文献
[1]
王世刚, 鲁奉军, 赵文婷, 等. 应用在线随机森林投票的动作识别[J]. 光学 精密工程, 2016, 24(8): 2010-2017.
WANG SH G, LU F J, ZHAO W T, et al. Action recognition based on on-line random forest voting[J]. Opt. Precision Eng., 2016, 24(8): 2010-2017. (in Chinese)
[2]
刘智, 黄江涛, 冯欣. 构建多尺度深度卷积神经网络行为识别模型[J]. 光学 精密工程, 2017, 25(3): 799-805.
LIU ZH, HUANG J T, FENG X. action recognition model construction based on multi-scale deep convolution neural network[J]. Opt. Precision Eng., 2017, 25(3): 799-805. (in Chinese)
[3]
HAN F, REILY B, HOFF W, et al. Space-time representation of people based on 3D skeletal data[J]. Computer Vision & Image Understanding, 2017, 158(C): 85-105.
[4]
李庆武, 席淑雅, 王恬, 等. 结合位姿约束与轨迹寻优的人体姿态估计[J]. 光学 精密工程, 2017, 25(4): 528-537.
LI Q W, XI SH Y, WANG T, et al. Human pose estimation based on configuration constraints and trajectory optimization[J]. Opt. Precision Eng., 2017, 25(4): 528-537. (in Chinese)
[5]
RAHMANI H, MAHMOOD A, HUYNH D Q, et al.. Real time action recognition using histograms of depth gradients and random decision forests[C]. Proceedings of IEEE Winter Conference on Applications of Computer Vision, 2014: 626-633. http://ieeexplore.ieee.org/xpls/icp.jsp?arnumber=6836044
[6]
YANG X, TIAN Y L. Effective 3D action recognition using EigenJoints[J]. Journal of Visual Communication & Image Representation, 2014, 25(1): 2-11.
[7]
BOUBOU S, SUZUKI E. Classifying actions based on histogram of oriented velocity vectors[J]. Journal of Intelligent Information Systems, 2015, 44(1): 49-65. DOI:10.1007/s10844-014-0329-0
[8]
ZHANG S, LIU X, XIAO J. On geometric features for skeleton-based action recognition using multilayer lstm networks[C]. Proceedings of IEEE Winter Conference on Applications of Computer Vision, Los Alamitos: IEEE Computer Society Press, 2017: 148-157. http://ieeexplore.ieee.org/document/7926607/
[9]
DU Y, WANG W, WANG L. Hierarchical recurrent neural network for skeleton based action recognition[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, New York, USA: IEEE Press, 2015: 1110-1118. http://www.irgrid.ac.cn/handle/1471x/1062399?mode=full&submit_simple=Show+full+item+record
[10]
ZHU W, LAN C, XING J, et al. Co-occurrence feature learning for skeleton based action recognition using regularized deep LSTM networks[C]. AAAI Conference on Artificial Intelligence, Palo Alto, USA: AAAI Press, 2016: 3697-3703. http://dl.acm.org/citation.cfm?id=3016423
[11]
LIU J, SHAHROUDY A, XU D, et al.. Spatio-temporal LSTM with trust gates for 3D human action recognition[C]. Proceedings of the European Conference on Computer Vision, Heidelberg: Springer, 2016: 816-833. http://www.springerlink.com/openurl.asp?id=doi:10.1007/978-3-319-46487-9_50
[12]
SHARMA S, KIROS R, SALAKHU R. Action Recognition using Visual Attention[C]. Proceedings of the International Conference on Learning Representations, 2016: 1-11. http://cn.arxiv.org/abs/1511.04119
[13]
LEE I, KIM D, KANG S, et al.. Ensemble deep learning for skeleton-based action recognition using temporal sliding LSTM networks[C]. Proceedings of the IEEE International Conference on Computer Vision, Los Alamitos: IEEE Computer Society Press, 2017: 1012-1020. https://www.computer.org/csdl/proceedings/iccv/2017/1032/00/1032b012-abs.html
[14]
KAR A, RAI N, SIKKA K, et al.. Adascan: Adaptive scan pooling in deep convolutional neural networks for human action recognition in videos[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Los Alamitos: IEEE Computer Society Press, 2017: 3376-3385. https://www.computer.org/csdl/proceedings/cvpr/2017/0457/00/0457f699-abs.html
[15]
SONG S, LAN C, XING J, et al.. An end-to-end spatio-temporal attention model for human action Recognition from Skeleton Data[C]. AAAI Conference on Artificial Intelligence, Palo Alto, USA: AAAI Press, 2017: 4263-4270. http://cn.arxiv.org/abs/1611.06067
[16]
LI W, ZHANG Z, LIU Z. Action recognition based on a bag of 3d points[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Los Alamitos: IEEE Computer Society Press, 2010: 9-14. http://www.researchgate.net/publication/224165257_Action_recognition_based_on_a_bag_of_3D_points
[17]
XIA L, CHEN C C, AGGARWAL J K. View invariant human action recognition using histograms of 3D joints[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Los Alamitos: IEEE Computer Society Press, 2012: 20-27. http://www.researchgate.net/publication/261421353_View_invariant_human_action_recognition_using_histograms_of_3D_joints
[18]
VEMULAPALLI R, ARRATE F, CHELLAPPA R. Human action recognition by representing 3D skeletons as points in a Lie group.[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Los Alamitos: IEEE Computer Society Press, 2014: 588-595. https://www.computer.org/csdl/proceedings/cvpr/2014/5118/00/5118a588-abs.html
[19]
RAHMANI H, MAHMOOD A, HUYNH D, et al. Histogram of oriented principal components for cross-view action recognition[J]. IEEE transactions on pattern analysis and machine intelligence, 2016, 38(12): 2430-2443. DOI:10.1109/TPAMI.2016.2533389
[20]
RAHMANI H, MAHMOOD A, HUYNH D, et al.. HOPC: Histogram of oriented principal components of 3D point louds for action recognition[C]. European Conference on Computer Vision, 2014: 742-757. https://link.springer.com/chapter/10.1007%2F978-3-319-10605-2_48
[21]
WANG J, LIU Z, WU Y, et al. Learning actionlet ensemble for 3D human action recognition[J]. IEEE transactions on pattern analysis and machine intelligence, 2014, 36(5): 914-927. DOI:10.1109/TPAMI.2013.198
[22]
RAHMANI H, MIAN A. 3d action recognition from novel viewpoints[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Los Alamitos: IEEE Computer Society Press, 2016: 1506-1515. http://ieeexplore.ieee.org/document/7780536/