首页> 中国专利> 一种基于动作子空间与权重化行为识别模型的行为识别方法

一种基于动作子空间与权重化行为识别模型的行为识别方法

摘要

本发明公开了一种基于动作子空间与权重化行为识别模型的行为识别方法,包括以下步骤:A1,输入待测试的行为视频序列,利用动态背景检测方法或静态背景检测方法来检测背景图像,利用减背景方法来获取前景图像;A2,提取运动目标的轮廓并对轮廓特征进行相应表示;A3,利用KPCA算法在核引导子空间中对高维特征实现非线性降维,在低维空间中进行行为轨迹的映射;A4,利用行为识别模型即WCRF模型进行行为识别。实验结果表明,提出的框架不仅能够准确地识别随时间、区域内外人员变化的人类行为,而且对噪声和其它影响因素鲁棒性强。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-11-03

    未缴年费专利权终止 IPC(主分类):G06K9/62 授权公告日:20160518 终止日期:20160911 申请日:20120911

    专利权的终止

  • 2016-05-18

    授权

    授权

  • 2016-01-06

    著录事项变更 IPC(主分类):G06K9/62 变更前: 变更后: 申请日:20120911

    著录事项变更

  • 2016-01-06

    专利申请权的转移 IPC(主分类):G06K9/62 登记生效日:20151216 变更前: 变更后: 申请日:20120911

    专利申请权、专利权的转移

  • 2015-09-16

    文件的公告送达 IPC(主分类):G06K9/62 收件人:王智文 文件名称:视为未提出通知书 申请日:20120911

    文件的公告送达

  • 2013-03-27

    实质审查的生效 IPC(主分类):G06K9/62 申请日:20120911

    实质审查的生效

  • 2013-02-20

    公开

    公开

查看全部

说明书

技术领域

本发明涉及的是一种基于动作子空间与权重化行为识别模型的行为识别方法。

背景技术

人类行为识别有着广泛的应用前景,如视频监控和监测、对象视频摘要、智能接 口、人机交互、体育视频分析、视频检索等。吸引了越来越多计算机视觉研究者的关注。 通常,行为识别涉及两个重要问题。其一是如何从原始视频数据中提取有用的运动信息, 其二是如何建立运动参考模型,使训练和识别方法能有效地处理空间和时间尺度变化的 类内类似行为。

行为识别可以利用各种线索,例如,关键姿势、光流、局部描述符、运动轨迹或 特征跟踪、轮廓等。但是使用关键帧缺乏运动信息。根据光流或兴趣点的行为识别在平 滑的表面,运动奇异性和低质量的视频情况下是不可靠的。由于人体外表和关节出现大 的变化,特征跟踪也并非容易实现。

由于人类行为是一种时空行为,时空模型(如Hidden Markov Models,HMMs及其 变种)已被广泛用于人体动作建模。然而,该生成模型通常使用了强烈的独立性假设, 这使得它很难适应多种复杂的特征或观测中的远距离依赖关系。由Lafferty提出的条 件随机场模型(CRFs)避免观察之间的独立性假设,同时将复杂的特征和远距离依赖关 系融合进模型中。

参考文献:

[1]S.Wang,Q.Ariadna,L.P.Morency,et al.Hidden conditional random fields  for gesture recognition[C].CVPR,US:New York,2006,2:1521-1527.

[2]Z.W.Wang,S.Z.Li,S.Z.Su,et al.A quickly-speed running watermarking algorithm based on quantum evolutionary algorithm[J].Journal of  Optoelectronics Laser,2010,21(5):737-742.

[3]G.V.Veres,L.Gordon,J.N.Carter,et al.What image information is important  in silhouette-based gait recognition?[C].CVPR,US:Washington,DC, 2004,2:776-782.

[4]Y.Dedeoglu,B.U.U.Güdükbay,et al.Silhouette-based method for object classification and human action recognition in video[C].ECCV 2006 Workshop on HCI,Austria:Graz,2006:64-77.

[5]L.wang,d.suter.Recognizing Human Activities from Silhouettes:Motion  Subspace and Factorial Discriminative Graphical Model[C].US:Minneapolis,MN, CVPR,2007:1-8.

[6]C.Schuldt,I.Laptev,and B.Caputo.Recognizing human actions:a local  SVM approach[C].ICPR,UK:Cambridge,2004,3:32-36.

[7]N.Nguyen,D.Phung,S.Venkatesh,et al.Learning and detecting activities  from movement trajectories using the hierarchical hidden Markov models[C],CVPR, US:San Diego,CA,2005,2:955-960.

[8]J.Ben-Arie,Z.Wang,P.Pandit,et al.Human activity recognition using  multidimensional indexing[J].IEEE Transactions on Pattern Analysis and Machine  Intelligence,2002,24(8):1091-1104.

[9]A.Bobick and J.Davis,The recognition of human movement using temporal  templates[J].IEEE Transactions on Pattern Analysis and Machine Intelligence, 2001,23(3):257-267.

[10]L.Gorelick,M.Blank,E.Shechtman,et al.Action as space-time shapes[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2007,29(12): 2247-2253.

[11]M.Brand,N.0liver and A.Pentland.Coupled hidden Markov models for complex action recognition[C].CVPR,US:San Juan,PR,1997:994-999.

[12]C.Sutton,A.McCallum,K.Rohanimanesh.Dynamic conditional random fields: Factorized probabilistic models for labeling and segmenting sequence data[J]. Journal of Machine Learning Research,2007,8:693-723.

[13]B.Scholkopf,A.Smola,and K.Muller.Nonlinear component analysis as a  kernel eigenvalue problem[J].Neural Computation,1998,10(5):1299-1319.

[14]J.C.Niebles,H.C.Wang,F.F.Li.Unsupervised learning of human action  categories using spatial-temporal words[J].International Journal of Computer  Vision,2008,79(3):299-318.

[15]A.Veeraraghavan,R.Chellappa,and A.K.Roy-Chowdhury,The function space  of an activity[C].CVPR,US:New York,2006,1:959-966.

发明内容

本发明在此基础上提出了具有联合判别学习能力的基于动作子空间与权重化行为 识别模型的行为识别方法。使用KPCA来发现关节动作空间的内在结构,并利用权重化 条件随机场从简单的轮廓观察中识别人类行为。实验结果证明了提出方法的有效性和鲁 棒性。

本发明的技术方案如下:

一种基于动作子空间与权重化行为识别模型的行为识别方法,包括以下步骤:A1, 输入待测试的行为视频序列,利用动态背景检测方法或静态背景检测方法来检测背景图 像,利用减背景方法来获取前景图像;A2,提取运动目标的轮廓并对轮廓特征进行相应 表示;A3,利用KPCA算法在核引导子空间中对高维特征实现非线性降维,在低维空间 中进行行为轨迹的映射;A4,利用行为识别模型即WCRF模型进行行为识别。

所述的行为识别方法,所述步骤A2具体方法为,等距划分每个轮廓图像为h×w个 互不重叠的子块;然后用Ni=b(i)/mv,i=1,2,…,h×w计算每个子块的归一化值,其中, b(i)是第i个分块的前景像素数目,mv是所有b(i)的最大值;在空间中,第t帧的 轮廓描述符是ft=[N1,N2,…,Nh×w]T,整个视频相应表示为vf={f1,f2,…fT}。

所述的行为识别方法,所述步骤A3具体方法为,设k是一个半正定核函数,通过 式(1)定义两个向量和之间的非线性关系。

k(xi,xj)=(φ(xi)·φ(xj))---(1)

在H空间寻找主成分的系数问题可以归结为内核矩阵κ的对角化:

γλe=κe---(2)

其中,κij=k(xi,xj),e=[e1,e2,···,eγ]T,所以Z=Σi=1γeiφ(xi).

将新点X映射到第j个主轴Zj可表示为:

(Zj·φ(x))=Σi=1γeij(φ(xi)·φ(xj))=Σi=1γeijk(xi,xj)---(3)

实验中使用高斯核函数;

获得包括第一个d主成分的嵌入空间后,任何一个视频v可以被映射为d维特征空间 的一个关联轨迹To={O1,O2,…,OT}。

所述的行为识别方法,所述步骤A4中所述的WCRF模型,利用下述方法进行行为建 模:

设sl,t是L链的WCRF中链l在时间t的变量,隐状态的分布定义为:

p(s|o)=1Z(o)[Πt=1T-1Πl=1lΦl(sl,t,sl,t+1,o,t)]

(6)

[Πt=1TΠl=1l-1Ψl(sl,t,sl+1,t,o,t)]

其中,{Φl}是内链节点的隐函数,Ψl是链轮节点的隐函数,并根据特征{fk}和G的权 重λk权重化这些隐函数:

Φl(·)=exp[Σkλkfk(sl,t,sl,t+1,o,t)]

(7)。

Ψl(·)=exp[Σkλkfk(sl,t,sl+1,t,o,t)]

该方法结合了基于特征提取的核主成分分析(KPCA)与基于运动建模的权重化条件 随机场(WCRF)模型。通过非线性降维探讨了行为空间的基本结构,并在运动轨迹投影 过程中保留清晰的时间顺序,使得轮廓数据表示更紧凑。WCRF通过多种交互途径对时间 序列建模,从而提高了信息共享的联合精确度,具有超越生成模型的优势(如放宽观察 之间独立性的假设,有效地将重叠的特征和远距离依存关系合并起来的能力)。实验结 果表明,提出的框架不仅能够准确地识别随时间、区域内外人员变化的人类行为,而且 对噪声和其它影响因素鲁棒性强。

附图说明

图1本发明为行为识别的框图;

图2为本发明中行走的轮廓序列和块特征表示图;

图3为线性链CRF的图形表示;

图4为共时标签的两链之间WCRF的图形表;

图5为行为数据集实例图像;文献[10]中的数据集如图5-1;文献[15]中的数据集 图5-2;

图6为本发明的方法在不同噪声和不同噪声密度下的行为识别精度。

具体实施方式

以下结合具体实施例,对本发明进行详细说明。

1.1行为识别

本发明提出如图1所示的行为识别综合概率框架,该框架由高维图像空间的特征 提取和描述、低维嵌入空间中的行为建模和识别两个模块组成。

训练过程:输入待训练的行为视频序列,利用动态背景检测方法或静态背景检测方 法来检测背景图像,利用减背景方法来获取前景图像;利用1.2.1介绍的方法提取运动 目标的轮廓并对轮廓特征进行相应表示,其中轮廓特征可以表示为不同大小的块特征; 利用KPCA算法在核引导子空间中对高维特征实现非线性降维(见1.2.2介绍),在低维 空间中进行行为轨迹的映射;利用1.3.2介绍的方法对行为进行建模。

测试过程:输入待测试的行为视频序列,利用动态背景检测方法或静态背景检测方 法来检测背景图像,利用减背景方法来获取前景图像;利用1.2.1介绍的方法提取运动 目标的轮廓并对轮廓特征进行相应表示,其中轮廓特征可以表示为不同大小的块特征; 利用KPCA算法在核引导子空间中对高维特征实现非线性降维(见1.2.2介绍),在低维 空间中进行行为轨迹的映射;利用本发明介绍的行为识别模型——WCRF模型进行行为识 别。

1.2.特征选择

对成功的行为识别模型而言,信息特征的选择是至关重要的。本发明选择运动目 标的轮廓特征作为基本的输入,并通过非线性降维方式来更紧凑地表示行为。

1.2.1.轮廓提取和表示

给定一个T帧的行为视频v={I1,I2,…,IT},可从原始视频中获得与之相关的行为轮 廓序列Ss={s1,s2,…,sT}。前景区域的大小和位置随运动目标与相机的距离、目标的大小 和已经完成的行为变化。在保持轮廓宽高比的基础上,对轮廓图像进行中心化和归一化, 使所产生的结果图像RI={R1,R2,…,RT}包含尽可能多的前景。在不使动作发生形变的情 况下,所有输入帧有相同的维数ri×ci。归一化的轮廓图像如图2所示。如果以行扫描 方式在空间用向量ri来表示原始轮廓图像Ri,整个视频将相应表示为 vr={r1,r2,…,rT}。

为了提高计算效率,本发明等距划分每个轮廓图像为h×w个互不重叠的子块。然 后用Ni=b(i)/mv,i=1,2,…,h×w计算每个子块的归一化值,其中,b(i)是第i个分块的 前景像素数目,mv是所有b(i)的最大值。在空间中,第t帧的轮廓描述符是 ft=[N1,N2,…,Nh×w]T,整个视频相应表示为vf={f1,f2,…fT}。事实上,原始轮廓表示vr可以被视为一种基于块特征的特例,即分块大小是1×1,一个像素。

1.2.2.非线性降维

为了获得紧凑的描述和有效的计算,本发明使用核主成分分析(Kernel Principle  Component Analysis,KPCA)算法进行非线性降维。主要考虑两个方面:1)KPCA提供 了一种有效的子空间学习方法来发现“行为空间”的非线性结构。2)KPCA能简单地应 用于任何新的数据点,而ISOMAP、LLE等非线性降维方法对如何描述新的数据点仍不 清楚。

在空间中,给定一个M个元素的训练样本集Tx={X1,X2,…,XM},子空间学习的 目的是在低维空间找到一个嵌入数据集Ey={Y1,Y2,…,YM}。对于核主成分分析 方法而言,每一个矢量Xi首先通过被非线性映射到希尔伯特空间H中。然后, 在H上主成分分析应用到映射数据Tφ={φ(X1),φ(X2),…,φ(XM)}。由于使用了“内核技 巧”,这个映射过程根本不需要。设k是一个半正定核函数,通过式(1)定义两个向量 和之间的非线性关系。

k(xi,xj)=(φ(xi)·φ(xj))---(1)

在腔间寻找主成分的系数问题可以归结为内核矩阵κ的对角化:

γλe=κe---(2)

其中,κij=k(xi,xj),e=[e1,e2,···,eγ]T,所以Z=Σi=1γeiφ(xi).

将新点X映射到第j个主轴Zj可表示为:

(Zj·φ(x))=Σi=1γeij(φ(xi)·φ(xj))=Σi=1γeijk(xi,xj)---(3)

实验中使用高斯核函数。

获得包括第一个d主成分的嵌入空间后,任何一个视频v可以被映射为d维特征空间 的一个关联轨迹To={O1,O2,…,OT}。

1.3.行为建模与识别

CRFs的判别性质和基本的图形结构非常适合人体行为分析。本发明探讨在嵌入空间中 用权重化的CRF来标签人类行为序列。

1.3.1.普通的条件随机场(CRF)

设G是一个建立在随机变量S和O数据集上的无向模型。设t=1,2,…T, S为观察序列O的标签序列。设是G中的类集,CRFs定义观察序列给定的状态(或 标签)序列的条件概率为:

pθ(s|o)=1Z(o)ΠcCΦ(sc,oc)---(4)

其中,是所有状态序列的一个归一化因子,Φ是由特征集{fn}权重 化的隐函数。

Φ(sc,oc)=exp[Σt=1TΣnλnfn(sc,oc,t)]---(5)

其中,模型参数θ={λn}是一个实权重集,每一个特征被赋予一个权重。

CRFs的一般框架如图3所示。其中一阶马尔科夫假设一般是在标签生成。因此,这 种条件模型的类是节点和边,每个标签转换和每个标签的特征函数分别为和

1.3.2.权重化条件随机场(WCRF)

动态CRFs是线性链CRFs的一般化,它是状态向量序列的结构和参数的重复。允许 一个标签代表分布的隐状态和复杂的相互作用。WCRF具有标签线性链,如图4所示,这 种线性链中的共时标签之间有连接,从而通过信息共享提高了联合准确性。WCRF同时完 成关键姿势分类和行为分类。

设sl,t是L链的WCRF中链l在时间t的变量,隐状态的分布定义为:

p(s|o)=1Z(o)[Πt=1T-1Πl=1lΦl(sl,t,sl,t+1,o,t)]

(6)

[Πt=1TΠl=1l-1Ψl(sl,t,sl+1,t,o,t)]

其中,{Φl}是内链节点的隐函数,Ψl是链轮节点的隐函数,并根据特征{fk}和G的权 重λk权重化这些隐函数:

Φl(·)=exp[Σkλkfk(sl,t,sl,t+1,o,t)]

(7)

Ψl(·)=exp[Σkλkfk(sl,t,sl+1,t,o,t)]

1.3.3.训练与推理

给定一个训练样本集参数θ={λn}可以通过优化以下条件对数似然 函数来估计:

Ω(θ)=Σilogpθ(s(i)|o(i))---(8)

式(8)对λk的导数是与类索引C相关的:

Ωλk=ΣiΣtfk(st,c(i),o(i),t)

(9)

-ΣiΣtΣcCΣscpθ(sc(i)|ot(i))fk(st,c(i),o(i),t)

其中,指在时间步长t,WCRF的类C中S的变量,范围分配到c。

一般来说,为了减少过度拟合,用惩罚似然函数来训练参数,即 logp(θ|Tr)=Ω(θ)+logp(θ),p(θ)是参数的高斯先验这样, 梯度变为:

p(θ|Tr)λk=Ωλk-λkϵ2---(10)

凸面函数可以通过许多技巧来优化,如拟牛顿优化方法。

通常情况下需要计算所有类的边缘概率和维特比解码 前者用于参数估计,后者用来标记一个新的序列。

创建关键姿势数据集的基本点就是具体行为尽可能包括更多关键帧,同时,尽量使 不同的行为之间的相互关键帧尽可能距离远。在整个数据集中,使用MDL(最小描述长 度)规则来确定的关键姿势的数目K,并使用K-均值聚类算法来为训练过程获取这些关 键姿势kp={p1,p2,…,pk}。

为了处理远距离的依存关系,本发明修改式(7)中的核函数包括一个窗口参数W, 在时间t预测状态时,定义了要使用的过去和未来为式(11),并用 权重化成对特征。其中,前者是分配的一个二元函数,而后 者则是一个纯粹的输入特征函数。

1.4.实验结果

使用文献[10]和[15]分别报道的两个数据库进行实验,如图5所示。其中,文献[10] 中的数据集(图5-1)包括拾物、慢跑、推、下蹲、挥手、踢、侧弯、摔、转身、手机 通话10种不同行为,是用来系统地检测行为识别实现的时间的影响;文献[15]中的数 据集(图5-2)包括弯曲、开合跳、双腿并拢向前跳、原地双腿跳、跑、横跑、走、单 手挥动、双手挥动、跳过10种不同行为,是用来系统地检测行为识别实现的时间和空 间尺度变化的影响。实验中直接使用文献[10]和[15]获得的人的轮廓。先将所有轮廓图 像中心和归一化到相同的尺寸(即64×48像素),并将它们表示为基于块特征的不同 的分块大小(如8×8,4×4,1×1)。然后学习WCRFs来建模各个角度、远距离依赖关 系的观测(如ω=0或1)。在监督识别率下,凭经验调节降维D和核主成分分析的核宽 参数。采用留一法(leaving-one-out)来计算识别准确性整体无偏估计,将数据集分 割成10个不相交的数据集,每个数据集含每一行为的一个实例。每次留一数据集用来 测试,利用剩下的9个数据集来学习子空间和模型参数。因此,如果留出测试集中一个 视频被正确地分类,它必须与不同人完成同样行为的视频具有很高的相似性。实验结果 如表1所示。和其它方法比较实验结果如表2所示。

表1.使用WCRF方法行为分类的精度

从表1中可以得出以下结论:1)动态轮廓变化对人类行为分析来说的确是有益的。 2)提出的框架可以有效地识别由不同人以不同身体部位构建和不同运动方式及速度完 成的行为。3)当子块大小增加时,识别正确率普遍下降,特别是子块大小为8×8。4) 尽管计算过于密集,原始轮廓表示识别效果最好。这是因为它保留了充分的信息,而其 它较大尺寸的基于块特征的方法丢失相当多的轮廓形状信息。引入一些离散误差是基于 块的特征在实际应用中如何选择计算精度和计算开销之间较好的折中方法。5)在WCRF 模型中引入远距离观测普遍提高了识别的准确率(表中粗体例外,可能是由于训练参数 的过度拟合)。

表2.使用不同方法的行为分类

从表2中可以看出:1)模板匹配方法性能最差。这可能是由于其对噪声特征的敏感 性和无法获取时空转换;2)虽然计算开销大,但状态空间方法一般优于模板匹配方法; 3)CRF和WCRF都具有比HMM更好的性能,这表明判别模型一般优于产生式模型;4)即使 不考虑远距离的相关性,WCRF比CRF性能更好,这表明通过不同标签的序列之间的信息 交流学习的共同判别的优势;5)CRF及WCRF性能随窗口大小的增加而得到改进,这表明 结合远距离的依赖关系是有益的。

为了测试提出方法的鲁棒性,本发明往轮廓图像中加入各种人工合成噪声,以模拟 损坏的轮廓。实验使用原始(未受噪声污染的)轮廓序列进行训练,用噪声污染的轮廓 序列进行测试。行为识别结果如图6所示。从中可以看出提出的方法能够容忍相当程度 的噪声(如25%)。这可能是因为WCRF的统计特性补偿了表示与识别的整体鲁棒性。

服装、遮挡和运动风格等因素对本发明提出方法的鲁棒性的影响实验结果如表3所 示。表3总结包括最匹配的测试结果,从中可以看出,除了四个序列,其他所有测试序 列是“走”动作的正确分类。这表明,在尺寸变化相当大,服装,部分遮挡,步行形式 不规则的情况下该方法的识别准确率相对较低。

表3.其它因素影响下的鲁棒性评价

本发明介绍了基于动作子空间与权重化行为识别模型的行为识别的有效概率框架。 该方法的创新之处在于两方面:a)特征提取和表示方面,本发明选择简单而易于提取的 时空轮廓作为输入,并将它们嵌入到一个低维的内核空间;b)行为建模和识别方面, 本发明提出在视觉领域第一次使用WCRF,与HMM和一般CRF比较表现出优势。提出的框 架是不依赖于使用的特征,可以很容易地扩展到其它类型的视频行为分析。

应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换, 而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号