您现在的位置：贸商网 > 资讯中心 > 物联网 > 深度学习助力实现智能行为分析和事件识别

深度学习助力实现智能行为分析和事件识别

时间：2017-07-10 作者：贸商网点击：85 评论：字体：T|T

深度学习助力实现智能行为分析和事件识别

作者：赵放、杜勇、王洪松、吴子丰

行为识别是指通过分析视频、深度传感器等数据，利用特定的算法，对行人的行为进行识别、分析的技术。这项技术被广泛应用在视频分类、人机交互、安防监控等领域。行为识别包含两个研究方向：个体行为识别与群体行为（事件）识别。近年来，深度摄像技术的发展使得人体运动的深度图像序列变得容易获取，结合高精度的骨架估计算法，能够进一步提取人体骨架运动序列。利用这些运动序列信息，行为识别性能得到了很大提升，对智能视频监控、智能交通管理及智慧城市建设等具有重要意义。同时，随着行人智能分析与群体事件感知的需求与日俱增，一系列行为分析与事件识别算法在深度学习技术的推动下应运而生。

图1 行为识别的定义及应用领域

基于层级化循环神经网络的人体骨架运动序列行为识别

目前基于人体骨架的行为识别方法主要可分为两类：1）基于局部特征的方法：该类方法是对序列中的各时刻的人体骨架的局部几何结构做特征提取，然后利用词包（Bag of Words, BoW）模型结合时间金字塔（Temporal Pyramid, TP）或是结合动态时间规整（Dynamic Time Warping, DTW）进行识别，该类方法没有或是只能局部考虑运动序列的时序信息，其识别过程更多地依赖局部静态结构特征；2）基于序列状态转移的方法：该类方法主要是利用HMM 对行为演化的动态过程进行建模，其两个主要不足是不仅需要对序列做预对齐，同时还需要估计状态转移过程的迁移概率，这本是两个比较困难的问题，其识别的精度也往往偏低。本研究主要基于微软的Kinect 和运动捕获系统提取的人体骨架运动序列，结合人体运动的相对性，提出了基于递归神经网络的人体骨架运动序列的行为识别模型。提出的模型首先对已经提取好的人体骨架姿态序列中节点坐标进行归一化，以消除人体所处绝对空间位置对识别过程的影响，利用简单平滑滤波器对骨架节点坐标做平滑滤波以提高信噪比，最后将平滑后的数据送入一个层次化双向递归神经网络同步进行深度特征表达提取、融合及识别，同时提供了一种层次化单向递归神经网络模型以应对实际中的实时分析需求。该方法主要优点是根据人体结构特征及运动的相对性，设计端到端的分析模式，在实现高精度识别率的同时避免复杂的计算，便于实际应用。本工作及其扩展版本先后发表在CVPR-2015及IEEE TIP-2016上。

图2 基于层级化RNN的人体骨架序列行为识别示意图

基于双流循环神经网络的行为识别

由于深度传感器的成本的降低和实时的骨架估计算法的出现，基于骨架的行为识别研究越来越受欢迎。传统方法主要基于手工特征设计，对行为中运动的表达能力有限。最近出现了一些基于循环神经网络的算法，可以直接处理原始数据并预测行为。这些方法只考虑了骨架坐标随着时间的动态演变，而忽略了它们在某一个时刻的空间关系。在本文中，我们提出一种基于双流循环神经网络的方法如图三，分别对骨架坐标的时间动态特性和空间相对关系建模。对于时间通道，我们探索了两种不同的结构：多层循环神经网络模型和层次化的循环神经网络模型。对于空间通道，我们提出两种有效的方法把坐标的空间关系图转换为关节点的序列，以方便输入到循环神经网络中。为了提高模型的泛化能力，我们探究了基于三维坐标变换的数据增强技术，包括旋转、缩放和剪切变换。在深度视频的行为识别标准数据库的测试结果显示，我们的方法对于一般行为，交互式行为和手势的识别结果都有相当大的提高。该工作已被CVPR-2017接收。

图3 基于双流RNN的骨架的行为识别方法

基于类相关玻尔兹曼机的视频事件分析

我们研究了有监督模型中的视频表达学习，以期望利用类标签学到更有区分力的表达，可同时用于视频分类和检索。我们知道，由于低层视觉特征与类标签之间的语义鸿沟、高维低层特征对后续分析所产生的计算代价以及有标签训练样本的缺乏，在不受控制的网络视频中分析无结构的群体行为和事件是一个非常具有挑战性的任务，如图四所示。为了克服这些困难，我们希望能够学习一个含有语义信息的紧凑中层视频表达。因此，我们提出了一种新的有监督概率图模型：类相关受限玻尔兹曼机(Relevance Restricted Boltzmann Machine, ReRBM)，学习一种低维的隐语义表达用于复杂行为和事件分析。提出的模型在受限玻尔兹曼机（RBM）的基础上进行了一些关键性扩展：1）将稀疏贝叶斯学习与RBM结合来学习具有区分力的与视频类相关的隐含特征；2）将RBM中的二进制随机隐含单元替换为非负线性单元来更好的解释复杂视频内容，并使得变分推理能够适用于提出的模型；3）开发了有效的变分EM算法用于模型的参数估计和推理。我们在三个具有挑战性的标准视频数据集(Unstructured Social Activity Attribute、Event Video和Hollywood2)上对提出的模型进行了评估。实验结果表明，相比其他的一些隐变量概率图模型如图五所示，提出的模型所学到的类相关特征提供了对视频数据更具有区分力的语义描述，在分类准确率和检索精度上获得了最好结果，特别是在使用很少有标签训练样本的情况下。这项工作发表在机器学习、神经信号处理领域顶级国际会议NIPS 2013上，其扩展后的版本被计算机视觉领域顶级国际期刊IJCV 2016发表。

人工智能爆炒中的冷思维，深度学习的地板和天花板在哪里？

机器学习算法在自动驾驶领域的应用大盘点

索尼免费开放其深度学习工具核心库

Pytorch学习笔记之自定义Module

如何选择深度学习优化器

史上最全的机器学习和Python（包括数学）速查表

【原创深度】超越父辈：下一代混合动力汽车堪称绝佳

人工智能飞入寻常百姓家

人工智能的三个阶段：我们正从统计学习走向语境顺应

技术 | 使用Python来学习数据科学的完整教程

(责任编辑：ioter)