首页> 中国专利> 基于先进音视频编码标准的视频监控方法及系统

基于先进音视频编码标准的视频监控方法及系统

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明属于视频监控技术领域，具体为一种基于AVS(先进音视频编码标准)的视频监控方法及其实现系统。本发明顺应视频监控发展潮流，将自动化处理和AVS标准引入视频监控，结合背景/非背景分类、人脸检测与识别等技术，预先对监控视频通过计算机系统的自动处理，在保证返回内容的有效性的前提下，反馈给操作人员的信息量将远小于传统监控系统，从而大大节省了人力资源，同时也提高了视频监控系统的可靠性。首创利用AVS在视频监控技术方面和专利应用优势，随着国家和地方政府大力支持对AVS的应用推广，本发明在数字监控、门禁控制以及身份识别等应用领域有一定的应用价值。

著录项

公开/公告号CN101419670A

专利类型发明专利
公开/公告日2009-04-29

原文格式PDF
申请/专利权人复旦大学;
展开▼

申请/专利号CN200810203202.0
发明设计人王新;路红;宋元征;陈桂财;
展开▼

申请日2008-11-21
分类号G06K9/00;G06K9/62;H04N7/18;
代理机构上海正旦专利代理有限公司;
代理人陆飞
地址 200433 上海市邯郸路220号
入库时间 2023-12-17 21:49:12

法律信息

法律状态公告日

法律状态信息

法律状态
2016-01-06

未缴年费专利权终止 IPC(主分类):G06K9/00 授权公告日:20111102 终止日期:20141121 申请日:20081121

专利权的终止
2011-11-02

授权

授权
2010-09-15

实质审查的生效 IPC(主分类):G06K9/00 申请日:20081121

实质审查的生效
2009-04-29

公开

公开

说明书

技术领域

本发明属于视频监控技术领域，具体为一种基于AVS(先进音视频编码标准)的视频监控方法及其实现系统。

背景技术

如今安全问题已经受到广泛关注，涌现了越来越多的视频监控系统，如门禁系统、考勤系统以及身份识别系统等等。视频监控系统可以让管理人员在控制室中观察到前端防范区域内所有人员活动情况并做记录，为保安系统提供实时的图像、声音信息。但是，传统的视频监控系统需要大量的人力资源开销，对监控视频内容的检测、识别和理解完全依靠人工，降低了视频监控系统的工作效率，安全性与准确性也缺乏保证，而且作为视频监控系统核心技术的视频压缩标准目前还没有专用的数字视频监控系统视频压缩标准，在网络传输和系统通用性上造成了比较大的问题。

发明内容

本发明的目的在于提出一种工作效率高、安全性好的视频监控方法及系统。

本发明顺应视频监控发展潮流，将自动化处理和AVS标准引入视频监控，结合背景/非背景分类、人脸检测与识别等技术，预先对监控视频通过计算机系统的自动处理，在保证返回内容的有效性的前提下，反馈给操作人员的信息量将远小于传统监控系统，从而大大节省了人力资源，同时也提高了视频监控系统的可靠性。首创利用AVS在视频监控技术方面和专利应用优势，随着国家和地方政府大力支持对AVS的应用推广，本发明在数字监控、门禁控制以及身份识别等应用领域有一定的应用价值。

本发明首先通过AVS网络摄像机采集按照AVS码流，使用AVS码流解码过程中的压缩域信息来进行背景和非背景的分类。当分类结果表明当前的帧不是背景时，进行人脸检测。当检测到人脸时，进行人脸识别，即将人脸数据进行变换后与训练数据进行比较。在识别结果被反馈给用户之前，先计算置信度t，t表明当前识别结果的可信程度。当置信度t小于阈值t_min时(t_min由经验数据统计获得，t_min越高则准确率越高，t_min越低则查全率越高，通过权衡根据系统实际情况设定一个合适的t_min)，我们认为该人脸不属于当前库中的数据，认定为陌生人，并将这个结果反馈给用户，经用户确认后将此新的人脸添加进库中。当置信度大于等于阈值t_min时，表明识别结果有较高的可信度，然后记录识别结果并对视频进行标注。图1是本视频监控系统的流程图，其中体现了本发明两个特点，AVS应用和自动化处理。

具体实现的系统主要由三个部分组成，训练模块、标注模块和检索模块。

训练模块，包括监控环境背景的训练模块和人脸库的训练模块，分别实施对环境背景训练和对人脸训练，输入为人脸样本库和背景样本库，输出为各人脸特征和背景特征。

标注模块，包括背景检测模块、人脸检测模块、人脸识别模块和索引结构建立部分，对输入的监控视频进行自动标注。输入为训练模块得到的背景特征、人脸特征和待标注的监控视频，输出为待标注监控视频的检索索引。

检索模块，是对指定监控视频进行检索，包括图片查询、文本查询和视频查询。输入为指定监控视频的索引，用户提交的图片、文本或小段视频，得到用户所提交内容在监控视频中相应的图像内容。图2所示为系统的主要组成模块、工作流程以及各个模块之间的逻辑关系。如图所示，系统的最初输入是人脸库以及背景样本，经过训练后得到背景模型以及人脸特征变换矩阵和人脸特征库。然后对监控视频进行标注，标注的过程首先是背景检测，对不是背景的图像进行人脸检测，对其中出现的人脸进行特征变换并创建索引结构下的索引。最终用户通过用户界面提交文本，图片或者视频，系统根据用户提交内容的不同来分别进行处理，最终反馈给用户的是相关信息在监控数据中出现的位置。

下面是系统主要模块的设计：

1)背景训练模块：对输入的背景视频样本进行计算，得到背景模型。采用算法是基于HSV颜色空间，计算各像素属于背景的取值范围。

输入：背景视频样本。

输出：背景模型，用于背景的比对。

2)人脸训练模块：对人脸库中的人脸进行处理。采用算法是fisher-face。

输入：人脸库。

输出：由人脸库中人脸数据计算得到的变换矩阵，该矩阵的目的是将输入人脸变换得到一维向量，用以识别。在得到变换矩阵的同时输出各人脸的中心，用以识别。

3)背景检测模块：将输入帧图像与背景模型进行比对，目的是获知该输入帧是否为背景，若不是背景，那些区域属于前景范围。

输入：背景模型，帧图像。

输出：获知该输入帧是否为背景，若不是背景，那些区域属于前景范围。

4)人脸检测模块：对于非背景的帧图像，在其中检测人脸。

输入：帧图像。

输出：检测到的人脸图像。

5)人脸识别模块：对于检测到的人脸图像，使用训练得到的变换矩阵，得到一位向量，采用欧式距离计算与各中心的相似度，以实现识别的目的。

输入：人脸图像，变换矩阵。

输出：识别结果。

6)索引结构模块：对输入视频进行标注，依照人脸识别的结果，得到视频索引，并对索引建立索引结构。

输入：监控视频。

输出：视频索引。

7)检索模块：用户通过用户界面输入查询内容，检索模块根据用户提交内容格式的不同进行检索，并通过用户界面反馈信息。

输入：用户提交的查询。

输出：反馈给用户的视频片断等信息。

本发明有特别针对AVS视频流的预处理，不管是在门禁实时监控还是离线处理存储的视频，都不对AVS码流进行完全的解码，而是使用AVS的压缩域信息来进行背景/非背景分类，判断当前图像是否为背景，如果为背景就不进行后续的工作，以此来提高系统的处理效率。在实时应用中，还可以加入使用硬件处理来加速这一过程。

在AVS的压缩域当中，宏块的运动向量可以反映视频当中物体的运动。在背景片断中，图像是相对静止的，当有人出现时会使视频中引入更多的运动信息。文献[1]中提出使用H.264的运动预测技术来进行背景/非背景的分类。本发明将类似的算法用于AVS码流。设为当前图像中的一个宏块的运动向量，0≤i≤N-1。N为当前图像中宏块总数。用下式来计算当前图像中的运动强度：

公式(1)

其中，size_i表示第i个宏块的面积。

单纯使用运动强度并不能完全表征当前图像中物体的运动状态，因此引入另一个参数MS表示图像中运动的范围：

$MS = Σ_{i = 0}^{N - 1} b_s_{i},$ $b_s_{i} = (\begin{matrix} {size}_{i}, \vec{m_{i}} \neq 0 \\ 0, else \end{matrix})$ 公式(2)

在背景图像序列中，图像中不存在剧烈的运动，运动强度和运动范围都被限制在较小的数值。设MV的阈值为mv_min，ms的阈值为ms_min，mv_min和ms_min由经验数据统计获得，mv_min和ms_min越小则背景分辨准确率越高，mv_min和ms_min越大则查全率越高，通过权衡根据系统实际情况设定一个合适的mv_min和ms_min。当满足下列条件时，判定当前图像属于背景：

MV<mv_min且MS<ms_min。

进行背景和非背景分类的意义不仅仅在于提高了系统的效率，另一方面也搜集各监控点的统计信息，从而推断监控点的环境信息。例如通过统计非背景帧在监控序列当中的分布，就可以得知该监控点在什么时间段处于人流密集的状态，从而进一步对该监控点做出适当的部署，例如在人流相对密集的时间段提高录制的帧率，而在人流稀少的时间段降低录制的帧率等等。

经过背景检测，对判断不为背景的图像进行人脸检测。人脸检测采用AdaBoost算法[2]。但是为了提高系统的处理效率，我们不进行全局检测，而是进行局部检测。

从人脸检测中，检测出的人脸图像进行尺寸统一缩放后，按照由左至右，由上至下扫描成样本向量，然后对样本向量进行降维。我们采用经典的PCA与LDA结合的Fisher-Face算法进行人脸投影特征的抽取^[3](PCA：Principal Components Analysis，结合主元分析；LDA：Linear Discriminant Analysis，线性鉴别分析)。在使用PCA降维后的空间上使用LDA，得到所检测人脸的特征向量。特征抽取后采用最小距离分类器与库中的人脸进行比对与识别。

设人脸f经过Fi sher-Face特征抽取后的样本向量为f’，f’＝(u0，u1…uk)，然后计算其与训练样本的距离：

$d (f', f_{i}^{'}) = \sqrt{Σ_{i = 0}^{k} [{(u_{i} - v_{i})}^{2}]}$ 公式(3)

其中fi’＝(v0，v1…vk)表示库中的第i个训练样本，k为样本维数。d(f’，fi’)表示当前待识别样本与库中第i个训练样本的距离。

计算完f’与库中所有样本后，找出距离最小的前5个样本，fi1’，fi2’…fi5’。其中多数样本属于类c，类c任指属于同一个人的样本类，数量较多那种即为c类。若5个样本各属一类，则以与f’距离最小的样本fi1’所属类作为c。我们用下列公式计算识别的置信度t：

$t = \frac{Σd (f', f_{ij}^{'} | f_{ij}^{'} \in c)}{Σ_{j = 1}^{5} d (f', f_{ij}^{'})}$ 公式(4)

当置信度t小于阈值t_min时，说明人脸为陌生人，将结果f反馈给用户，经用户确认后将此新的人脸添加进库中，否则表示识别结果可靠并记录结果。t_min由经验数据统计获得，t_min越高则准确率越高，t_min越低则查全率越高，通过权衡根据系统实际情况设定一个合适的t_min。

根据上述内容，概括出本发明提出的基于AVS的视频监控系统及其实现方法的步骤为：1、利用AVS摄像机取得AVS码流；2、对AVS码流进行背景分类、人脸检测、背景训练、人脸训练；3、对人脸进行比对识别；4、获得查询结果。

附图说明

图1为本视频监控系统的核心部分流程图。

图2为系统主要模块及工作流程。

图中标号：1训练模块；2标注模块；3检索模块；4人脸库；5背景样本库；6背景训练模块；7人脸训练模块；8背景模型；9人脸特征变换矩阵；10背景检测模块；11人脸检测模块；12人脸识别模块；13索引结构模块；14监控视频；15检索索引；16检索模块。

具体实施方式

例如，本发明在门禁系统的应用中，系统可以分成五部分：前端摄像机、AVS视频数据库、视频处理和比对识别、人脸数据库、进入信息查询。在门禁系统中，摄像机位置比较固定，拍摄的角度和背影都是固定的，而且在写字楼这种室内环境中光线的变化也不是很剧烈。由于摄像机自带的驱动并不支持分段和远程存储，所以要根据应用要求在摄像头自带驱动的基础上编写驱动程序，在摄像过程中自动实现视频的分段，并将拍摄所得的AVS分段视频存储于指定的数据库。同时，实时的顺序对分段的AVS码流进行处理。首先进行背景分类，如果小段视频均为背影，则不进行下一步处理。经过背景检测，对判断不为背景的图像进行人脸检测。但是为了提高系统的处理效率，我们不进行全局检测，而是进行局部检测，检测方法在前文中有详细的阐述，在这就不重复。通过人脸检测当置信度t(计算方法前文有述)小于阈值t_min(前文有述)时，系统实际实现中可以将t_min设为0.85，小于这个值反馈类似“此人脸不在库中，为陌生人”的信息给用户，提醒用户，还可以经用户确认后将此新的人脸添加进库中，可以将结果存在人脸数据库中。如果大于t_min，表示识别结果可靠且原人脸数据库中有此人，自动查询并报告此人的姓名，记录其进入的时间。这是本发明在实际中的一种应用。

参考文献：

[1]Hui H.，Liu H.，Wu Y.，Liang Y.Video surveillance method based on H.264 standard[J].Computer Applications，2005，25(11)，131-133.[惠鏸，刘涵，吴亚丽，梁炎明.一种基于视频编码标准H.264的智能视频监控技术[J].《计算机应用》，2005，25(11)，131-133]

[2]Freund Y.，Schapire R.E.A Decision-Theoretic Generalization of Online Learning and anApplication to Boosting.Journal of Computer and System Sciences，1997，55(1)：119-139

[3]Belhumeur P.，Hespanha J.Eigenfaces vs Fisherfaces：recognition using class specific linearprojection[C]，1997，IEEE Transactions on Pattern Analysis and Machine Intelligence，20(7)，711-720

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于先进音视频编码标准的视频监控方法及系统 [P] . 中国专利： CN101419670B . 2011.11.02
2. 基于3G视频电话的无线音视频远程监控系统及监控方法 [P] . 中国专利： CN102348103A . 2012-02-08
3. Audio-video output device, audio output device, audio-video reproduction device, audio-video data reproduction system, and audio-video data reproduction method [P] . 欧洲知识产权局专利： EP2104351B1 . 2014-08-06

机译：音视频输出设备，音频输出设备，音视频再现设备，音视频数据再现系统和音视频数据再现方法
4. Audio-video output device, audio output device, audio-video reproduction device, audio-video data reproduction system, and audio-video data reproduction method [P] . 美国专利： US7933485B2 . 2011-04-26

机译：音视频输出设备，音频输出设备，音视频再现设备，音视频数据再现系统和音视频数据再现方法
5. AUDIO AND VIDEO PUSHING METHOD AND AUDIO AND VIDEO STREAM PUSHING CLIENT BASED ON WEBRTC PROTOCOL [P] . 世界知识产权组织专利： WO2020124725A1 . 2020-06-25

机译：基于WEBRTC协议的音视频推送方法及音视频流客户端