首页> 中国专利> 基于非线性动力系统的音频恢复方法及视频麦克风系统

基于非线性动力系统的音频恢复方法及视频麦克风系统

摘要

本发明提供一种基于非线性动力系统的音频恢复方法及视频麦克风系统,方法包括:获取物体与周围声源共振的高帧率视频,所述高频率视频用于记录物体基于共振产生的震动;将所述高帧率视频中的每帧图像按顺序带入非线性动力系统内进行迭代,从而产生代表图像特征的二维交织映射矩阵;将每帧图像产生的二维交织映射矩阵降维转化为一维信息;对所述一维信息进行滤波去噪以恢复音频。本发明的视频麦克风相比于激光麦克风不依赖于主动照明同时基于混沌的视频麦克风算法相比于现有的复杂可操控金字塔的视频麦克风,其算法复杂度较低,可修改性较强。且本发明对相位特征直接进行提取,减少了对视频处理的误差。

著录项

  • 公开/公告号CN114885255A

    专利类型发明专利

  • 公开/公告日2022-08-09

    原文格式PDF

  • 申请/专利权人 大连大学;

    申请/专利号CN202210492474.7

  • 发明设计人 张奕;林泓辰;于万波;

    申请日2022-04-29

  • 分类号H04R3/00(2006.01);G06V10/77(2022.01);G06K9/62(2022.01);

  • 代理机构大连东方专利代理有限责任公司 21212;大连东方专利代理有限责任公司 21212;

  • 代理人吴婷婷;李洪福

  • 地址 116622 辽宁省大连市金州新区学府大街10号

  • 入库时间 2023-06-19 16:19:08

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-08-26

    实质审查的生效 IPC(主分类):H04R 3/00 专利申请号:2022104924747 申请日:20220429

    实质审查的生效

  • 2022-08-09

    公开

    发明专利申请公布

说明书

技术领域

本发明涉及信号处理领域,更进一步涉及一种基于非线性动力系统的音频恢复方法及视频麦克风系统。

背景技术

传统麦克风的工作原理是将内部膜片的运动转换为电信号。隔膜被设计为容易移动与声压,以便将其运动记录和解释为音频。随着近年来科学进步的发展,人们对数据的处理更加复杂,对技术的要求也需要提高。突破传统方式进行声音恢复成为一项研究内容。20世纪70年代开始,用激光干涉实现声音恢复成为可能。1977年,GSmeets提出将激光光束照到被声音作用的物体上,被物体反射并返回到接收器,通过干涉检测来回光路的细微差别,可以由干涉仪将这些变化转化为强度的变化,并最后转换成音频信号。在随后到现在的时间里,RP Muscatell、JT Veligdan、GWilliamson等都在此基础上进行了通过激光对声音进行恢复的研究,并提出了这种技术在军事和安全部门应用于监听等领域的可能性。20世纪80年代,随着光纤通讯的成功,利用光纤实现声音的恢复也随之成为可能。1991年,DGarthe介绍了通过光纤对声音进行恢复的方法,主要是利用声波对光纤中的相位进行调制,根据反射光的相位变化,实现声音信号到光信号的转换,再经过信号处理还原成声音信号。光纤麦克风主要分为强度型和干涉型,具有优秀的抗电磁干扰性能、高灵敏度、设计简单和体积小以及高可靠性等优点,因此在航空和水下等恶劣环境的作业、医疗和军事等方面都有着不可或缺的应用。20世纪10年代,ZWang等人使用了一种简单快速的光学方法证明音频信息可以从高速相机拍摄的视频中提取。2014年,ADavis等人首次提出了“视频麦克风”的概念,就是通过对高速视频的处理提取出声音的振动信息从而实现对声音的恢复,运用方向可控的图像金字塔,将高速视频的每一帧图像进行分解,分别提取幅值和相位信息,最后进行求和,可以将声音信息提取并放大和还原出来,实现了高速摄像机拍摄对声音恢复。

目前已经有公司将通过光学方法对声音进行恢复的技术用于实际的应用,成功研制出达到实用标准的光学麦克风。以色列科学家莫蒂·塞格夫和他的团队研制出一种光学麦克风,它可以检测出人说话时声带的振动信息,将其和背景噪声分离并转化为电信号传递,人们就可以不受干扰地清楚听到电话里对面的声音消除了电话中的噪音。奥地利公司XARION公司开发并制造了一款基于激光器的光学麦克风,可以完成空气或水中的超声波测量,拥有非常平坦的频率响应,响应范围从5Hz的次声到25MHz范围的超声,其应用领域包括激光焊接、工业控制和医疗诊断等。但是现在产品整体还存在成本过高、尺寸过大等问题,需要进行进一步的改进才能进行批量生产和进入消费应用市场。

最基本类型的激光麦克风记录了反射激光器的相位,这使物体的距离调制为激光器的波长。激光多普勒振动计(LDV)通过测量反射激光器的多普勒频移来确定反射表面的速度,解决了相位包裹的模糊性。这两种类型的激光麦克风都可以恢复高质量的音频,但依赖于激光和接收器相对于具有适当反射率的表面的精确定位。2009年扎列耶夫斯基等人通过使用一个失焦的高速相机来记录反射激光的散斑模式的变化,解决了其中的一些限制。他们的工作使接收机的定位具有更大的灵活性,但仍然依赖于记录反射激光。

发明内容

根据上述提出的现有音频恢复方法应用限制过多且产品尺寸过大等技术问题,而提供一种基于非线性动力系统的音频恢复方法及视频麦克风系统。本发明可以通过房间外放置的高帧率摄像机拍摄的房间内物体的无声视频内容对房间中的声音进行还原,这在安防、监听等领域拥有着实际意义。

本发明采用的技术手段如下:

一种基于非线性动力系统的音频恢复方法,包括:

S1、获取物体与周围声源共振的高帧率视频,所述高帧率视频的频率范围为2kHz-20kHz,且用于记录物体基于共振产生的震动;

S2、基于所述高帧率视频获取单帧图像,将每幅单帧图像与二维对数交织辅助函数进行像素坐标和图像亮度的非线性交织映射,生成交织映射矩阵;

S3、将每幅单帧图像对应的交织映射矩阵降维转化为一维信息;

S4、对所述一维信息进行滤波去噪以恢复音频。

进一步地,S2中将每幅单帧图像与二维对数交织辅助函数进行像素坐标和图像亮度的非线性交织映射,生成单帧图像交织映射矩阵,包括:

S201、将二维对数交织辅助函数F(x,y)=axlnx+blny作为非线性动力系统的交织辅助函数,其中0

其中m、n的取值范围为100-256;

S202、基于所述二维交织辅助函数矩阵F的大小对单帧图像进行剪裁,基于剪裁后的图像中每个坐标点Z(i,j)的图像灰度值构建非线性动力系统中的目标图像矩阵Z:

其中,1≤i≤m,1≤j≤n;

S203、构造大小为m×n的单帧图像交织映射矩阵I:

其中,交织映射矩阵I的迭代点数目W=m×n,迭代次数N的取值范围为5-20,mod为取余数运算。

进一步地,S3中将每幅单帧图像对应的交织映射矩阵降维转化为一维信息,包括:

S301、将每一个大小为m×n的二维交织映射矩阵生成行向量

其中floor为向下取整,mod为取余数,Q=m×n;

S302、将所有P个单帧图像得到的P个行向量

S303、将矩阵S进行Z-score0均值标准化,经过处理的数据的均值为0,标准差为1,转化公式为:

其中

S303、求取标准化后的矩阵S的协方差矩阵covS;

S304、求取所述协方差矩阵covS的全部特征值,并求出协方差矩阵的特征向量按列组成特征向量矩阵V;

S305、将特征值进行从大到小排列,占比前三位的特征值对应的特征向量

将三段H

K

求K

对所述自相关特征进行归一化并计算积分:

取最大r值对应的一维数据H作为转化后的一维信息,40

进一步地,S4、中对所述一维信息进行滤波去噪以恢复音频,包括:

将所述一维信息依次通过巴特沃斯高通滤波器和IIR巴斯特沃低通滤波器。

本发明还公开了一种视频麦克风系统,包括音频恢复单元,所述音频恢复单元用于执行上述任意一项所述的基于非线性动力系统的音频恢复方法。

较现有技术相比,本发明具有以下优点:

本发明的基于混沌的视频麦克风算法相比于现有的复杂可操控的金字塔的视频麦克风,其算法复杂度较低,可修改性较强。

本发明对相位特征直接进行提取,不需要为了提取更明显的相位差异而放大物体的震动幅度。

本发明的视频麦克风相比于激光麦克风不依赖于主动照明,仅需要一台高帧摄像机和房间内任何可以产生震动的物体即可。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明基于非线性动力系统的音频恢复方法流程图。

图2为实施例中音频恢复方法实现过程图。

图3为实施例中生成的音频图与原音频图对比图。

图4为实施例中生成的音频图与其他方法生成的音频图对比图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。

需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

如图1所示,本实施例提供了一种基于非线性动力系统的音频恢复方法,首先采集物体与周围声源共振的高帧率视频,将视频的每帧图像按顺序带入构造的非线性动力系统内迭代产生代表图像特征的二维交织映射矩阵。使用PCA技术将每帧图像产生的二维交织映射矩阵降维转化为一维信息。将一维信息进行滤波去噪以恢复音频。具体步骤如下:

1.采集高帧率视频

在密闭的房间内,放置声源(如音响设备等)、任何适于震动的物体和高帧率摄像机。当声源发声(如音响播放音乐)时,物体会与音频发生共振产生微小的震动,使用高帧率摄像机来对振动物体进行无损地采集,获取高帧率视频。

2.构造非线性动力系统

2a)构造二维交织辅助函数矩阵

选取函数F(x,y)为非线性动力系统的二维交织辅助函数,因对数函数的特殊性,提出函数如下,其中a、b取值范围为0-1:

F(x,y)=axlnx+blny

将该二维交织辅助函数重构造矩阵作为交织辅助函数矩阵F,F大小为m×n,通常m的数值为256,n的数值为256:

2b)构造目标图像矩阵

将视频的每一帧存储为一幅单帧图像,将单帧图像作为目标图像,更改目标图像为m×n的大小,读取每一张目标图像在Z(i,j)坐标对应的灰度值Gray构成一个二维矩阵,其中图像灰度值Gray由彩色图像RGB图像的三元色加权得到Gray=0.299R+0.587G+0.114B。则每个二维矩阵为非线性动力系统中的目标图像矩阵Z:

2c)迭代产生二维交织映射矩阵

选取矩阵迭代范围内从上到下从左到右顺序下的W(W=m×n)个点迭代N(N取值5-20)次得到W×N个坐标。其中W个初值点为:

对应每个初值点,进行N次交织迭代生成N个二维点,如下:

构造一个大小为m×n的矩阵I

根据设定的每帧目标图像由W个初始点进行N次迭代,生成交织映射矩阵中的置1点坐标,将交织映射矩阵中对应该坐标元素置1,其他元素置0,即:

由此得到的01二维交织映射矩阵I

3.二维信息转化为一维信息

3a)构造适于处理的矩阵

将每一个大小为m×n的二维交织映射矩阵生成行向量

其中floor为向下取整,mod为取余数,Q=m×n;

将P个目标图像(所选高帧视频包含P帧)得到的P个行向量

按顺序上下合并成大小为P×Q的矩阵S:

3b)PCA技术处理矩阵

将矩阵S进行Z-score0均值标准化,经过处理的数据的均值为0,标准差为1。经过标准化处理,原始数据均转换为无量纲化指标测评值,即各指标值都处于同一个数量级别上,可以进行测评分析。转化公式为:

其中

此时矩阵S为(其中

根据协方差公式得到协方差矩阵的第i,j项被定义如下形式:

其中E为求期望值,μ

得到协方差矩阵为:

covS=E[(S-E[S])(S-E[S])

求生成的协方差矩阵covS的全部特征值λ

成立(λ

将特征值进行从大到小排列,占比前三位的特征值对应的特征向量

将三段H

K

求K

归一化并计算积分:

取最大r值对应的一维数据H作为后续的语音输出。

4.滤波器

4a)使用高通滤波器进行处理

通过阶数为3的高通滤波器。

4b)使用低通滤波器进行处理

设计并通过IIR巴斯特沃低通滤波器。

下面通过一个具体的应用实例,对本发明的方案和效果做进一步说明。

本实施例选择在一个相对密闭房间,放置一枚可以产生震动的薯片袋,在房间内使用音响设备播放英文儿歌《Mary had a little lamb》。在距离薯片袋0.5米到2米的距离放置一台高帧率摄像机间隔隔音玻璃对薯片袋的震动进行采集。

对所采集的无声视频进行声音的恢复。如图2-4所示,所采集的薯片袋视频帧率为2200hz,分辨率为700x400像素,选取视频中的8000帧作为处理视频。使用二维对数交织辅助函数F(x,y)=0.6xlnx+0.5lny生成交织辅助函数矩阵与获取的高帧率视频帧图像构造非线性动力系统。选取10000个点分别迭代20次得到代表其相位特征的二维交织映射矩阵。在将其二维交织映射矩阵使用PCA技术降维处理得到一维数据。使用阶数为3高通滤波器进行初步音频处理,再使用通带波纹系数rp=1,阻带波纹系数rs=20,阻带频率Ft=1000,通带频Fp=5000,抽样频率Fs=22000的低通滤波器处理还原音频。从图4和播放的恢复音频可以得到该方法可以恢复一定的初始声源内容。

综上所述,本发明的视频麦克风系统进行还原音频使用了非线性动力系统进行提取视频的相位差异,代码更加简易修改性高,可以根据不同场景选择不同的交织辅助函数来构造非线性动力系统,应用更灵活。在实际应用中,不同于激光麦克风需要主动将激光照射到物体上,而只需观察场景中已经存在的光即可。与其他算法相比,也不需要更改视频物体运动——放大物体震动幅度来提取相位差异。

本发明还提供了一种视频麦克风系统,包括音频恢复单元,所述音频恢复单元用于执行上述任一项所述的基于非线性动力系统的音频恢复方法。

对于本发明实施例的而言,由于其与上面实施例中的相对应,所以描述的比较简单,相关相似之处请参见上面实施例中部分的说明即可,此处不再详述。

最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号