首页> 中国专利> 一种基于多角度步态信息融合的行人性别分类方法

一种基于多角度步态信息融合的行人性别分类方法

摘要

本发明公开了一种基于多角度步态信息融合的行人性别分类方法,该方法包括:采用0度、90度和180度三个角度步态图像,这里0度对应着行人的正面,90度对应着行人的侧面,180度对应着行人的背面;对图像进行区域划分,对每个划分的区域用椭圆进行拟合,计算椭圆参数作为步态特征;计算步态特征的男性和女性相似度;采用支持向量机方法对三个角度的相似度进行融合和分类。本发明方法的优点在于,具有较高分类正确率,对步态图像中存在的噪声具有鲁棒性,所用特征数较少,分类速度快。

著录项

  • 公开/公告号CN101388080A

    专利类型发明专利

  • 公开/公告日2009-03-18

    原文格式PDF

  • 申请/专利权人 北京航空航天大学;

    申请/专利号CN200810224684.8

  • 发明设计人 王蕴红;黄国昌;

    申请日2008-10-23

  • 分类号G06K9/62(20060101);G06K9/46(20060101);

  • 代理机构11121 北京永创新实专利事务所;

  • 代理人周长琪

  • 地址 100083 北京市海淀区学院路37号

  • 入库时间 2023-12-17 21:36:28

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-12-07

    未缴年费专利权终止 IPC(主分类):G06K9/62 授权公告日:20100811 终止日期:20151023 申请日:20081023

    专利权的终止

  • 2010-08-11

    授权

    授权

  • 2009-05-13

    实质审查的生效

    实质审查的生效

  • 2009-03-18

    公开

    公开

说明书

技术领域

本发明涉及一种基于多角度步态信息融合的行人性别分类方法,属于计算机视觉中的智能监控技术,特别是步态分类技术。

背景技术

步态分类致力于依据获取的步态信息,识别出目标的性别、年龄、衣着、携带状况等类别属性。

在一些监控环境中,由于环境限制不能准确识别出目标的身份,或者不需要识别出具体的目标身份,而对目标的一些类别属性更感兴趣,例如:性别,年龄,携带状况,步行姿态是否正常等。具体的,如在大使馆、油库、飞机场周围,对行人的携带状况感兴趣;在人口密集和海关、机场等场所,对步行姿态是否正常感兴趣;在危险作业区域内,对步行者的年龄感兴趣;在商场中,对行人的性别感兴趣。

性别分类便是步态分类中的一个重要问题。因为性别是人们自身所具有的属性特征,所以正确的性别分类,不但对于人口学统计具有很大的促进作用,而且对于确保敏感场合的安全和做出正确安全预警具有重要意义。另外,在商业应用调查中,对于商品的用户定位分析也具有潜在应用。

医学界最早开始展开基于步态特征的性别分类研究,Kozlowski和Cutting最早进行了一系列重要实验,在参考文献[1]:Kozlowski L. T and Cutting J.E..Recognizing the sexof a walker from dynamic point-light display[J].Perception & Psychophysics,1977,V21(6):575-580中可以看到。

Kozlowski和Cutting于1977年开始了基于步态的性别分类研究,他们证明观察者有能力区分出由点光源表示的个体性别属性。在他们的实验中,记录了3位男性和3位女性行走时身体侧面的发光点位置变化信息。实验结果表明性别分类平均正确率为63%。他们还发现晃动手臂,改变行走速度,或是遮挡一部分身体都会对识别率产生较大影响。当个体不自然地摆动上肢时,分类正确率几乎下降到随机选择的水平。只显示上半身对分类正确率的影响比只显示下半身更为强烈。这些变化都没有使得分类结果向某一特定性别倾斜,只有速度的变化使得对个体的判断更倾向于女性,但是,这并没有达到统计的显著程度。

Barclay等对点光源表示的步态数据进行了进一步研究,分析了其中四个参数对分类正确率的影响,在参考文献[2]:Barclay C.D,Cutting J.E,and Kozlowski L.T..Temporaland spatial actors in gait perception that influence gender recognition[J].Perception & Psychophysics,1978,V23(2):145-152中可以看到。第一个实验主要关注的是显示给观察者观看的时间长短产生的影响,结果显示,要正确识别出个体性别,至少需要显示两个完整步态周期。在第二个实验中,他们改变了个体行走的速度,不同于Kozlowski和Cutting的实验,他们是在正常速度下采集个体的步态数据,然后通过快速播放的模拟方法使得看起来个体行走速度变快。这一变化使得性别正确分类率下降到随机选择的水平。在第三个实验中,他们将点光源变模糊,使得它们看起来像一个个光斑,这同样也使得正确分类率下降到随机选择的水平。最后,他们将图像上下颠倒显示,这使得正确识别率急剧下降。如果一个女性个体点光源表示图像被上下颠倒,那么她容易被认为是男性;而男性个体则容易被认为是女性。Barclay指出,这一现象是由于男性和女性身体结构不同造成的。男性肩比臀宽,而女性则臀比肩宽,因此颠倒点光源图像会使得肩部和臀部位置颠倒,观察者容易将男性认为是女性,而女性认为是男性。实验中他们给出的最好性别正确分类率为86%。

Mather和Murdoch进行的一系列实验,找出了运动中的结构信息和动态信息在性别识别中的不同作用,在参考文献[3]:Mather G.and Murdoch L..Gender discrimination inbiological motion displays based on dynamic cues[J].Proceedings of the RoyalSociety:Biological Sciences,1994,V258(1353):273-279中可以看到。实验中他们所关注的结构信息是肩部和臀部的宽度比,而动态信息则是身体的横向摆动。在动态信息方面,他们的实验有别于Cutting所做的实验,Cutting实验中关注的动态信息是径向平面上肩部和臀部的运动差异。而在Mather和Murdoch的实验中,他们发现男性上半身横向摆动的幅度比女性大,并且在使用点光源图像使得动态信息和静态信息发生冲突时,动态信息比静态结构信息更占优势,即人们更多的依据动态信息做出性别判断。实验中他们给出的性别分类正确率为79%。

Troje将生物运动特征分析作为一个线性特征识别问题来对待,并在处理过程中两次采用主成分分析(Principle Component Analysis,简称为PCA)方法对步态信息进行特征提取,在参考文献[4]:Troje N.F..Decomposing biological motion:A framework foranalysis and synthesis of human gait patterns[J].Journal of Vision,2002,V2(5):371-387中可以看到。首先使用PCA方法对所有个体的步态数据进行处理,然后再一次使用PCA方法对所有个体被处理后的数据进行处理,最后采用线性分类器进行分类,得到的分类正确率为92.5%。他的实验也证明了动态信息比运动过程中的静态结构信息包含更多的有用信息。他们的实验数据包含20个男性和20个女性个体,同样也使用点光源表示法。

以上提到的方法都是基于点光源表示法的,这种方法的优点在于定位准确,而缺点一是采集设备昂贵,二是在实际监控场景中有其不可克服的局限性,即不可能在被监控个体的关节都贴上发光/反光器。因此,近来Lee和Grimson采用视频处理的方法,使用从图像序列中提取出的特征进行性别分类。他们设计了一种独特的步态表示方法,首先将二值图像归一化,使得每个个体在图像中具有相同的高度;其次计算每幅图像的重心位置,依据重心位置将图像划分为7个区域,7个区域大致分别对应:头部,前部躯干,后部躯干,前大腿,后大腿,前小腿,后小腿;然后使用椭圆去逼近每个区域,计算出椭圆的四个参数,包括:中心坐标,长轴短轴比,长轴倾角;最后对图像序列中的对应区域、对应参数求平均值,以此来代表个体的步态信息。提取出相应特征后,使用支持向量机(Support Vector Machine,简称为SVM)方法对性别进行分类,在包含24个个体的数据库中,他们得到的分类正确率为84%,在参考文献[5]:Lee L. and Grimson W.E.L..Gait analysis for recognition andclassification[C].In IEEE International Conference on Automatic Face & GestureRecognition(FG),2002:148-155中可以看到。

视频处理的方法有着很强的实用性,并且和智能监控紧密相连。在智能监控环境中,会有多个摄像头从不同的角度来拍摄被监控个体的行走状态。Lee和Grimson只分析了一个角度下的步态信息的性别分类能力,因此分类正确率不高。

发明内容

为了更接近于真实的监控场景去进行分析,提高基于步态的性别分类正确率,本发明分析了三个不同角度下的步态信息对性别的区分能力,并且有效融合了这三个角度的步态信息来进行性别分类,提供了一种有较高分类正确率的基于步态的性别分类方法。融合的结果与单个角度下的结果相比,分类正确率有了明显的提高。

本发明提供的一种基于多角度步态信息融合的行人性别分类方法的实现过程如下:

步骤一:背景建模;

输入步态序列,采用高斯混合模型方法进行背景建模。

步骤二:步态轮廓提取;

选取0度、90度和180度三个角度下的行走视频,从这些视频中提取人的步态轮廓。这里0度对应着行人的正面,90度对应着行人的侧面,180度对应着行人的背面。

首先,采用高斯混合模型方法进行自适应更新背景。

然后,把视频中每一帧图像与背景相减,可以确定出运动前景的区域。相减后的差影图像包含了步态轮廓,对此图像进一步执行二值化操作,得到二值化差影图像,即二值步态轮廓图像。二值化操作需要一个阈值,本发明使用最大方差比方法来确定最佳阈值。二值步态轮廓图像包含有背景噪声和前景空洞。

接着,重复采用形态学中的闭运算直到没有新增点出现;

最后,使用中值滤波的方法移除前景中面积小的连通区域,从而得到平滑的二值步态轮廓图像。

步骤三:归一化二值步态轮廓图像;

对二值步态轮廓图像进行归一化处理。首先使所有个体轮廓都具有相同的高度,然后计算个体轮廓的重心位置,依据重心位置对所有二值步态轮廓图像进行对齐。

步骤四:用椭圆模型提取步态特征;

采用基于椭圆模型的步态特征提取方法,对上一步骤得到的二值步态轮廓图像进行区域划分,划分后的人体的每个部分用椭圆去建模,提取椭圆参数,组成步态特征向量。

步骤五:计算相似度;

根据上一步骤得到的步态特征向量,计算男性和女性相似度。

首先,选取训练集,依据性别属性,将训练集进一步划分为男性训练集和女性训练集;

然后,分别计算每个角度下的男性训练集和女性训练集的特征向量平均值;

最后,计算相应角度的测试集中每个样本的特征向量与男性训练集的相似度以及与女性训练集的相似度。

步骤六:使用SVM方法进行融合和分类;

使用SVM方法对三个角度的相似度进行融合和分类。

上述技术方案中,步态轮廓提取的效果将对性别分类的正确率有影响,即目标轮廓提取越准确和清晰,最后得到的分类正确率越高。

上述技术方案中,将0度和180度的二值步态轮廓图像划分为5个区域,而将90度的二值步态轮廓图像划分为7个区域。

上述技术方案中,椭圆参数包括椭圆区域的中心坐标、长轴短轴比和主轴倾角。

上述技术方案中,SVM方法采用多项式核函数。

本发明的优点在于:

(1)对步态图像中存在的噪声具有鲁棒性;

(2)分类正确率高;

(3)所用特征数较少,分类速度快。

附图说明

图1为基于多角度步态信息融合的行人性别分类方法流程;

图2为三个角度下的行走视频进行步态轮廓提取和归一化的结果;

图3为0度和180度二值步态轮廓图像区域划分示意图;

图4为90度二值步态轮廓图像区域划分示意图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步详细说明。

图1示出了本发明的基于多角度步态信息融合的行人性别分类具体实施流程。

步骤一:背景建模;

输入步态序列,从步态序列中提取人的步态轮廓。这实际上是运动目标提取的问题。运动目标提取的第一步就是背景建模。本发明中采用可以进行自适应背景更新的高斯混合建模方法,详见参考文献[6]:Staffer C.and Grimson W.E.L..Adaptive backgroundmixture models for real-time tracking[A].In IEEE International Conference onComputer Vision and Pattern Recognition[C],1999,2:246-252。对每个像素点建立K个多维高斯分布来混合模拟该点的背景值,根据Staffer和Grimson的建议,K一般取值为5~7。通过在线估计来更新背景模型,从而可以处理光照变化、背景混乱运动的干扰等影响。

步骤二:步态轮廓提取;

得到背景模型之后,把步态序列中每一帧图像与背景相减,可以确定出运动前景的区域。相减后的差影图像包含了步态轮廓,对此图像进一步执行二值化操作,得到二值化差影图像,即二值步态轮廓图像。二值化操作需要一个阈值,本发明使用最大方差比方法来确定最佳阈值。下面介绍一下最大方差比方法。

根据灰度分布,差影图像分为背景残差和目标两类,其类概率为ω1和ω2,类灰度平均值为μ1和μ2,类方差为和,差分图像平均灰度值为μτ。可以计算差影图像的类内方差和类间方差分别为:

σW2=ω1σ12+ω2σ22

σB2=ω1(μ1-μτ)2+ω2(μ2-μτ)2

然后由下式来确定最佳阈值:

η=max{σB2σW2}

二值步态轮廓图像包含有背景噪声和前景空洞。重复采用形态学中的闭运算直到没有新增点出现,然后使用中值滤波的方法移除前景中面积小的连通区域,从而得到平滑的二值步态轮廓图像。闭运算的功能是用来填充物体内细小空洞,连接邻近物体,平滑其边界,同时总的位置和形状不变。闭运算的数学表达式是:

S=(XB)B

其中,S表示进行闭运算后的二值图像,X表示原二值图像,B表示用来进行闭运算的结构元素,结构元素内的每一个元素取值为0或1,它可以组成任何一种形状的图像,在图形中有一个中心点。表示形态学中的膨胀运算,表示形态学中的腐蚀运算。

中值滤波是一种非线性的信号处理方法,它在一定的条件下,可以克服线性滤波带来的图像细节模糊,而且对滤波脉冲干扰及图像扫描噪声最为有效。中值滤波一般采用一个含有奇数个点的滑动窗口,将窗口中各点灰度值的中值来代替指定点的灰度值。指定点一般是窗口的中心点。本发明使用了5×5的中值滤波器。

步骤三:归一化二值步态轮廓图像;

对二值步态轮廓图像进行归一化处理。归一化过程如下:

对每个二值步态轮廓图像,使用前景轮廓的最高和最低像素点位置之差来求得轮廓的高度。设轮廓的高度为h,生成一幅每个像素值都为0的二值图像,该图像高度为h,宽度为h×5/7。接下来,把二值步态轮廓图像中的轮廓部分复制到生成的全0二值图像的左上角位置。然后对该二值图像进行按其高度与宽度的比例7:5缩放,我们将其缩放为高度140个像素,宽度100个像素的图像。设该缩放后的图像为P(x,y),x,y为相对坐标,假设前景像素值为1,背景像素值为0,用下面的公式来计算P(x,y)的重心坐标:

x=1NΣx,yP(x,y)x

y=1NΣx,yP(x,y)y

N为前景像素的个数。

接下来生成一幅较大的二值图像,其高度和宽度大于最大的轮廓高度和宽度即可。本发明中,我们令该二值图像高度为240个像素,宽度为320个像素,则其中心点坐标为(120,160)。将图像P(x,y)的重心坐标对应这个中心点坐标,把P(x,y)复制到这个较大的二值图像中。这时,我们就把所有的二值步态轮廓图像中的轮廓都按比例进行了缩放,并且都使用同样的中心点坐标进行了对齐。最后,我们剪切掉这幅较大的二值图像中轮廓周围多余的背景,得到大小为高度155个像素,宽度100个像素的归一化的二值步态轮廓图像。图2中例示了同一个人在三个角度下的归一化后的二值步态轮廓图像。其中,第一行是0度下的图像,第二行是90度下的图像,第三行是180度下的图像。

步骤四:用椭圆模型提取步态特征;

提取步态特征采用的是椭圆模型的方法。对于0度和180度图像,依据人体身体比例,将其划分为5个区域。每个区域大致对应人体的:头部,左躯干,右躯干,左腿,右腿,每个区域用一个椭圆去拟合。图3说明了将0度和180度图像划分为5个区域的情况。

对于90度图像,依据人体身体比例,将其划分为7个区域。每个区域大致对应于人体的:头部,前躯干,后躯干,前大腿,后大腿,前小腿,后小腿,每个区域用一个椭圆去拟合。图4说明了将90度图像划分为7个区域的情况。

对每个拟合的椭圆,计算4个椭圆参数作为该区域的特征,包括:重心(x,y),长轴与短轴的比例l和主轴倾角α。设D(x,y)为二值化前景图像中某一划分区域,x,y为相对坐标,假设前景像素值为1,背景像素值为0。重心坐标的计算公式为:

x=1NΣx,yD(x,y)x

y=1NΣx,yD(x,y)y

N表示前景图像像素总数目。

N=Σx,yD(x,y)

前景区域的协方差矩阵为:

accb=1N·Σx,yD(x,y)·(x-x)2(x-x)(y-y)(x-x)(y-y)(y-y)2

该协方差矩阵可分解为特征值λ1,λ2和特征向量v1,v2,它们可用来表示椭圆长轴和短轴的长度及倾斜角度。

accbv1v2=v1v2λ100λ2

长轴与短轴的比例l为:

l=λ1λ2

主轴倾角α为:

α=angle(v1)=arccos(v1·X|v1|)

X表示单位向量[1,0],α需要对π求模,使得每个区域的主轴倾角α值都落在(0,π)的区间内。

每个区域都提取出4个特征,分别是重心(x,y),长轴与短轴的比例l,和主轴倾角α,这4个特征组成了区域特征向量Ri

Ri=(xi,yi,li,αi)

其中,在0度和180度的情况下,i=1,2,...,5,在90度的情况下,i=1,2,...,7。所以,每一个0度或180度二值步态轮廓图像对应的特征向量为20维,即每区域4维特征5个区域;每一个90度二值步态轮廓图像的特征向量为28维,即每区域4维特征7个区域。特征向量使用Ij表示:

Ij=(R1,...,R5)或(R1,...,R7)

其中,j表示二值步态轮廓图像序列中图像的序号。

计算一个序列中所有图像特征向量的平均值,将此平均值作为该序列的特征向量Sp

Sp(k)=mean(I1(k),...,In(k))p

其中p表示步态图像序列,n表示该序列中所有图像的数目,k表示特征编号,在度或180度的情况下,k=1,2,...,20,在90度的情况下,k=1,2,...,28。每个度或180二值步态轮廓图像序列将被表示为一个20维的特征向量,每个90度二值步态轮廓图像序列将被表示为一个28维的特征向量。

步骤五:计算相似度;

在计算相似度的过程中,先随机选取一些样本作为训练集,注意在训练集中男性样本数和女性样本数应该相等。依据性别属性,将训练集进一步划分为男性训练集和女性训练集,分别计算男性或女性训练集的二值步态轮廓图像序列特征向量平均值。设M表示男性或女性训练集中二值步态轮廓图像序列总数,St(k)表示第t个序列特征向量中的第k个特征,DFt(k)表示第t个序列特征向量的第k个特征与女性训练集的平均欧式距离,DMt(k)表示第t个序列特征向量的第k个特征与男性训练集的平均欧式距离。

DFt(k)=1MΣn=1MEuclidean(St(k),Sn(k))

其中,Sn属于女性训练集,St属于测试集。

DMt(k)=1MΣn=1MEuclidean(St(k),Sm(k))

其中,Sm属于男性训练集,St属于测试集。

平均欧式距离向量DFt和DMt被分别作为第t个步态序列的女性和男性相似度,它表示了测试序列与男性和女性训练集的相似性。在0度和180度的情况下,DFt和DMt是20维的向量;在90度的情况下,DFt和DMt是28维的向量。

步骤六:使用SVM方法进行融合和分类;

把三个角度0度、90度和180度下的平均欧式距离向量DFt和DMt分别表示为和。然后分别把表示女性和男性的平均欧式距离向量连接成特征向量CFt和CMt

CFt=concatenate(DFt0,DFt90,DFt180)

CMt=concatenate(DMt0,DMt90,DMt180)

接下来,把连接后的特征向量的每一维的值都归一化到[0,1]之间:

CFt(k)=CFt(k)-minmax-min

CMt(k)=CMt(k)-minmax-min

其中,max和min表示由训练集中的步态序列得到的CFt或者CMt的第k维的最大值和最小值。

然后再把每一维的值相加起来,得到和

CFt=Σk=1NCFt(k)

CMt=Σk=1NCMt(k)

其中,N表示或者的维数。

将和连接成一个特征向量Gt:

Gt=concatenate(CFt,CMt)

然后,将训练集中的Gt作为SVM方法的输入,训练SVM分类器。把测试集中每个样本所对应的特征向量Sp输入训练好的分类器就可以得到性别分类的结果。SVM的基本思想是通过选择适当的核函数,将原始输入空间变换到一个高维的空间,一般是Hilbert空间。在这个新的空间中寻找具有最大边界的最优化线性分类面。目前的SVM算法中,使用最多的核函数主要有三种:多项式核函数、径向基函数和Sigmoid函数。本发明中,分别使用这三个核函数进行了多次实验,实验结果表明采用多项式核函数时,分类结果最好。所以,这里决定采用多项式核函数,其表示形式如下:

K(x,y)=[(x,y)+1]d

d表示多项式的阶数。经过多次实验,结果表明d取2的时候,程序运行速度最快,分类结果也最好。

在CASIA步态数据库和BHU-IRIP步态数据库上对该方法进行了实验。

CASIA步态数据库是中科院自动化所在室内采集的步态数据库。该数据库包含124个个体,其中男性93人,女性31人。步态的采集数据来自于11个不同角度的摄像机,行走方向是从右向左,每个个体正常情况下行走6次,穿大衣时行走2次,背双肩包行走2次。

BHU-IRIP步态数据库是北京航空航天大学智能识别与图像处理实验室采集的步态数据库。该数据库包含63个个体,其中男性33人,女性30人。步态的采集数据来自于8个不同角度的摄像机,行走方向包括从右到左和从左到右,每个个体正常情况下行走5次,背双肩包时行走2次,拖拉杆箱时行走2次。

本发明的实验中只使用数据库中0度、90度和180度三个角度下从右向左方向正常行走的步态视频数据。从数据库中随机选取30个男性和30个女性个体,再从中随机选取25个男性和25个女性组成训练集,剩下的5个男性和5个女性组成测试集。为得到准确的实验结果,需要多次随机选取训练集和测试集,最后求得平均实验结果。

表1 显示的是分别在三个角度下得出的性别分类正确率:

表1

表2 显示的是采用SVM策略融合三个角度特征得到的实验结果:

表2

 

数据库核函数分类正确率CASIA步态数据库Polynomial89.5%BHU-IRIP步态数据库                      Polynomial      89.5%

该实验得到了该方法分类结果89.5%,在两个数据库上的到相同数值的分类结果,仅仅是巧合,但反映出该方法在不同数据库上都能得到较好的性别分类正确率。

表3显示的是该方法的实验结果与其他方法实验结果的比较,从中可以看出,该方法仅仅比Troje和Davis and Gao的方法差一些,但是也应该注意到,Troje和Davis and Gao的方法都是基于发光点采集的步态数据,即属于点光源表示法,而本发明的方法是基于视频序列。点光源表示法的优点在于定位准确,其缺点在于采集设备昂贵,而且,点光源表示法在监控场景中有其不可克服的局限性,即不可能为被监控个体的每个关节都贴上发光/反光器。应该说,本发明的方法比以上两种方法的应用性更强,具有更好的实用价值。

表3

 

分类正确率作者数据库大小数据表达方法视角63.0%Kozlowski和Cutting(1977)           6人基于发光点侧面92.5%Troje(2002)40人基于发光点多角度84.0%Lee和Grimson(2002)24人基于视频侧面

 

95.5%Davis和Gao(2004)40人基于发光点正面89.5%本发明方法124/63人基于视频多角度

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号