首页> 中国专利> 带相位自校正功能的声聚焦麦克风阵列长距离拾音装置

带相位自校正功能的声聚焦麦克风阵列长距离拾音装置

摘要

带相位自校正功能的声聚焦麦克风阵列长距离拾音装置,涉及拾音设备。设有声聚焦机构、麦克风阵列、相位自校正模块、波束对准模块和语音增强模块;声聚焦机构用于麦克风声场的聚焦,声聚焦机构安装在麦克风前端;麦克风阵列用于多通道采集语音信号、前置处理和模数转换;相位自校正模块用于对每个麦克风阵列单元声聚焦引入的相位差进行自校正;波束对准模块用于根据目标说话人方向调整各通道时延进行声源方向对准;语音增强模块用于运行麦克风阵列语音增强算法增强语音。结合声聚焦机构进行语音增强,具有对远距离语音的高质量拾音效果。采用相位自校正方法校正声聚焦机构引入的相位差,在形成声场聚焦效果的同时,保证麦克风阵列语音增强效果。

著录项

  • 公开/公告号CN105702261A

    专利类型发明专利

  • 公开/公告日2016-06-22

    原文格式PDF

  • 申请/专利权人 厦门大学;

    申请/专利号CN201610080008.2

  • 发明设计人 童峰;周跃海;洪青阳;

    申请日2016-02-04

  • 分类号G10L21/0216(20130101);H04R1/32(20060101);

  • 代理机构厦门南强之路专利事务所(普通合伙);

  • 代理人马应森

  • 地址 361005 福建省厦门市思明南路422号

  • 入库时间 2023-12-18 15:32:47

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-08-27

    授权

    授权

  • 2016-07-20

    实质审查的生效 IPC(主分类):G10L21/0216 申请日:20160204

    实质审查的生效

  • 2016-06-22

    公开

    公开

说明书

技术领域

本发明涉及一种拾音设备,尤其是涉及一种带相位自校正功能的声聚焦麦克风阵列长距离拾音装置。

背景技术

在智能家居、演出、演讲、会议等领域,具备长距离语音采集功能的拾音装置可远距离获取说话人的语音从而极大地提高远距离语音质量和后端语音信号处理性能。但在实际复杂背景噪声条件下进行远距离语音采集具有极大困难。语音长距离传输造成的严重衰减,加上环境噪声的存在,使得远距离语音采集装置需利用高指向性来保证远距离语音的采集质量。

目前的长距离拾音装置主要采用干涉管结构的枪式麦克风或声学聚焦结构(喇叭型、抛物型)形成高指向性。

中国专利ZL2010105911582公开了一种视频定位的长距离拾音装置,该装置在以摄像机为中心的圆周安装2个指向麦克风构成高指向性声聚焦桶,并在桶侧壁外安装2个全向麦克风用于获取参考噪声,该装置随摄像头转动时操作员可根据视频图像内容进行对焦、视频定位后获取与摄像头同方向的长距离语音信号。

但由于利用固定波束高指向性的长距离拾音装置只能形成固定的指向性波束,必须依赖云台等装置的回转来对准远距离目标说话人,增加了云台及随动回转部分的系统复杂度,使得安装和使用均比较复杂;同时,对于快速、频繁移动的远距离目标说话人,机械回转装置往往无法及时进行跟踪。

麦克风阵列通过组成多个麦克风可对不同方向上的信号形成不同响应,具有波束扫描、声源定位、跟踪等功能,可提高背景噪声下的语音采集质量,且无需机械转动装置即可利用波束扫描算法来实现波束扫描。

中国专利ZL2012103200049公开了一种带声源方向跟踪功能的麦克风阵列语音增强装置,该装置利用平行滤波器结构结合波束扫描可以实现对移动声源的语音增强处理。

但是,对于上述安保、安防、刑侦、维稳等领域室外场距离语音采集场合,由于距离远造成的严重信号衰减,微弱的麦克风阵列接收信号往往被严重背景噪声掩盖,无法采集到较高质量的远距离语音。

通过结合声聚焦机构和麦克风阵列形成声聚焦麦克风阵列可首先进行声信号聚焦,然后再利用麦克风阵列技术改善远距离噪声条件下室外远距离语音采集的性能。但是,由于常规麦克风阵列语音增强算法均基于平面波假设提出,以入射波为平面波的远场情况为前提,即以来自远场的入射语音及噪声均以平行波的形式入射到麦克风阵列各接收麦克风单元中作为增强算法有效的前提条件。而声聚焦机构的安装使得平行入射声波被声聚焦机构聚焦的同时,平行波之间原本相同的相位经过声聚焦后发生变化,产生了相位差。此时,由于已不满足平行入射的前提条件,仍然采用传统的麦克风阵列语音增强算法将无法对声聚焦机构聚焦后的麦克风阵列语音信号获得理想的语音增强性能。

从上述分析可知,直接结合声聚焦机构和麦克风阵列将无法达到聚焦声场后增强麦克风阵列语音的理想效果。

发明内容

本发明的目的在于针对现有仍然采用传统的麦克风阵列语音增强算法将无法对声聚焦机构聚焦后的麦克风阵列语音信号获得理想的语音增强性能等问题,提供一种带相位自校正功能的声聚焦麦克风阵列长距离拾音装置。

本发明设有:

声聚焦机构,所述声聚焦机构用于麦克风声场的聚焦,声聚焦机构安装在麦克风前端;

麦克风阵列,所述麦克风阵列用于多通道采集语音信号、前置处理和模数转换;

相位自校正模块,所述相位自校正模块用于对每个麦克风阵列单元声聚焦引入的相位差进行自校正;

波束对准模块,所述波束对准模块用于根据目标说话人方向调整各通道时延进行声源方向对准;

语音增强模块,所述语音增强模块用于运行麦克风阵列语音增强算法增强语音。

所述声聚焦机构可采用抛物型反射面,用于罩在麦克风阵列的每个麦克风单元上达到声场聚焦的目的,声聚焦机构材料为不锈钢以适应室外使用;

所述麦克风阵列设有通道语音信号采集电路、前置放大电路、模数转换器和端点检测粗判模块;通道语音信号采集电路的输出端依次经前置放大电路和模数转换器后,通过数据线直接与端点检测粗判模块的信号输入端连接;麦克风阵列可设有多个等间距排列的麦克风。

所述相位自校正模块信号输入端接麦克风阵列输出端,相位自校正模块输出端输出相位校正结果;

所述波束对准模块信号输入端接相位自校正模块的相位校正信号输出端,输入的各通道信号经时延调整后进行累加并输出波束对准结果;

所述语音增强模块设有信号输入端和波束对准输入端,信号输入端接相位自校正模块的相位校正信号输出端和波束对准模块的波束对准结果信号输出端,经过语音增强模块进行麦克风阵列语音增强处理后输出远距离语音增强结果。

采用本发明进行带相位自校正的声聚焦麦克风阵列语音增强方法,包括以下步骤:

1个相位自校正学习步骤:在装置安装、使用前,根据不同方向入射声音对声聚焦进行自校正学习,获得各个角度对应的校正系数并保存;

1个初始化步骤:各模块参数初始化设置;

1个相位自校正步骤:根据给定的目标方向调出预先保存的相位校正系数,对各通道麦克风阵列信号进行相位自校正,输出相位校正结果;

1个波束对准步骤:根据给定的目标方向对相位校正后的麦克风阵列各通道信号进行时延补偿并累计,输出波束对准结果;

1个语音增强步骤:利用输入的校正后麦克风阵列个通道信号通过阻塞矩阵获得参考噪声,与波束对准结果进行麦克风阵列语音增强技术,获取增强语音。

本发明要解决的问题是带相位自校正功能的声聚焦麦克风阵列长距离拾音,本发明提供的带相位自校正功能的声聚焦麦克风阵列长距离拾音装置的具体思路为:首先对带声聚焦麦克风阵列接收信号进行相位自校正学习,针对不同角度入射情况预先技术相位自校正系数并保存,然后在实际使用中根据给出的目标方向调出相应的预先保存相位校正系数,对声聚焦麦克风阵列各通道信号首先进行相位自校正。完成相位自校正后根据给定的目标方向进行麦克风阵列语音增强。

本发明针对远距离语音采集需求中改进声聚焦机构和麦克风阵列结合的拾音装置性能,提出采用相位自校正的处理在通过声聚焦时,不仅可实现聚焦功能,而且可以把声聚焦机构引入的相位差进行校正,改善声聚焦后麦克风阵列语音增强的性能。

与目前已有的固定高指向麦克风装置或常规麦克风阵列相比,本发明具有以下突出优点:

第一,由于结合了声聚焦机构进行声场聚焦和麦克风阵列进行语音增强,具有对远距离语音的高质量拾音效果。

第二,由于采用相位自校正方法校正了声聚焦机构引入的相位差,在形成声场聚焦效果的同时,可以保证麦克风阵列语音增强的效果。

附图说明

图1为本发明实施例的结构组成框图。

图2为本发明实施例采用的麦克风声聚焦机构示意图。

图3为声聚焦机构造成平行入射声波聚焦后产生相位差示意图。

图4为相位自校正学习原理图。

图5为本发明实施例的5元麦克风阵列及其与微处理器连接电路图。

图6为本发明实施例中声聚焦麦克风阵列进行波束对准原理图。

图7为本发明实施例中声聚焦麦克风阵列波束对准时各通道时延补偿值计算原理图。

具体实施方式

为了使本发明的技术内容、特征、优点更加明显易懂,以下实施例将结合附图对本发明作进一步的说明。

如图1所示,本发明实施例设有:

声聚焦机构1,所述声聚焦机构用于麦克风声场的聚焦,声聚焦机构安装在麦克风前端;

麦克风阵列2,所述麦克风阵列用于多通道采集语音信号、前置处理和模数转换;

相位自校正模块3,所述相位自校正模块用于对每个麦克风阵列单元声聚焦引入的相位差进行自校正;

波束对准模块4,所述波束对准模块用于根据目标说话人方向调整各通道时延进行声源方向对准;

语音增强模块5,所述语音增强模块用于运行麦克风阵列语音增强算法增强语音。

所述声聚焦机构1可采用抛物型反射面,用于罩在麦克风阵列的每个麦克风单元上达到声场聚焦的目的,声聚焦机构材料为不锈钢以适应室外使用;

所述麦克风阵列2设有通道语音信号采集电路、前置放大电路、模数转换器和端点检测粗判模块;通道语音信号采集电路的输出端依次经前置放大电路和模数转换器后,通过数据线直接与端点检测粗判模块的信号输入端连接;麦克风阵列可设有多个等间距排列的麦克风。

所述相位自校正模块3信号输入端接麦克风阵列输出端,相位自校正模块输出端输出相位校正结果;

所述波束对准模块4信号输入端接相位自校正模块的相位校正信号输出端,输入的各通道信号经时延调整后进行累加并输出波束对准结果;

所述语音增强模块5设有信号输入端和波束对准输入端,信号输入端接相位自校正模块3的相位校正信号输出端和波束对准模块4的波束对准结果信号输出端,经过语音增强模块进行麦克风阵列语音增强处理后输出远距离语音增强结果。

所述带相位自校正功能的声聚焦麦克风阵列长距离拾音装置实施例中麦克风阵列由5个等间距排列的麦克风(m0,m1,…,m4)组成麦克风线列阵,阵列中各麦克风单元均安装声聚焦机构进行上聚焦。

麦克风阵列由本领域通用的麦克风单元及硬件电路组成,其中麦克风阵列由体积小、结构简单、电声性能好的压强式驻极体麦克风m0,…,m4,NJM2100运算放大器芯片构成的前置放大电路及MAX118模数转换芯片构成(如图2所示),在本实施例中麦克风间距d=30cm。

相位自校正模块、波束对准模块、语音增强模均属于数字信号处理模块,在本实施例中采用本领域通用的ARM9S3C2440微处理器进行编程实现。

麦克风阵列与微处理器的连接采用本领域通用的连接方式:麦克风阵列中5个麦克风输出信号经过图2所示运算放大器构成的2级前置放大电路放大后输入多通道模数转换芯片MAX118,S3C2440微处理器通过IO口GPB2,3,4控制MAX118的输入通道端A1、A2、A3,通过定时器输出脚TOUT0、TOUT1控制MAX118的读出/写入端口WR、RD进行采样频率16ksps的模数转换,通过数据线DATA0至DATA7进行8bit模数转换结果到S3C2440微处理器的传送。

所述声聚焦麦克风阵列长距离拾音装置实施例中多通道语音信号模数转换进入微处理器后,以软件编程形式运行的各数字信号处理模块间的数据、控制流连接方式如图3所示,具体说明如下:

相位自校正系数学习步骤:在所述声聚焦麦克风阵列长距离拾音装置安装和使用前需事先进行相位自校正系数学习。相位自校正系统学习在室外空旷、安静的实验场地进行,如图4所示,在远场利用喇叭播放已知的训练信号d(n)(本实施例中训练信号为伪随机噪声信号,训练信号长度为1600),安装有声聚焦机构的5通道麦克风阵列各通道输入信号xi(n),i=0,1,2,…,4。由于如图3所示远场平行波以不同入射角入射后声聚焦机构产生的相位差模式并不相同,相位自校正需要在麦克风阵列工作的每个角度以固定的角度间隔(本实施例中角度间隔设置为为2.5度)分别进行,形成每个角度对应的相位自校正系数并保存。由于考虑的是远场入射,因此可认为对应每个入射角度入射时声聚焦机构麦克风阵列各通道的相位差模式是相同的,因此,相位自校正系数学习仅需在中间通道即i=2通道进行。本实施例中相位自校正系数学习过程以软件编程的方式在ARM9S3C2440中进行。

具体的相位自校正系数学习过程结合图4描述如下:

以在θT度入射角进行相位自校正系数学习为例,在室外空旷、安静的实验场地,在远场(本实施例中喇叭放置距离声聚焦麦克风阵列中心为30米)利用喇叭播放已知训练信号d(n)。此时,中间通道输入信号xi(n),i=2为已知训练信号d(n)以θT度入射角经过声聚焦机构后形成相位差传递函数产生了相位差,则相位自校正学习的目的是构造一个L阶的相位校正滤波器系数WθT=[w1w2w3w4……wL],通过自适应算法(本实施例中L=100,采用本领域通用的最小均方误差LMS自适应算法)以已知训练信号d(n)作为目标信号进行系数WθT的自适应迭代学习,迭代学习的目的是使各通道误差e(n)的均方最小:

>Wn+1=Wn+μϵ+||Rn2||·en·Rnn=1,2,...N---(1)>

>e(n)=d(n)-WnRnT---(2)>

Rn=x3(n,n+1,...,n+L-1)(3)

算法收敛后形成的系数WθT即为θT度入射时各通道的相位校正系数,将此系数保存用于进行相位自校正。以2.5度角度间隔完成声聚焦麦克风阵列正前方0~180度范围内各角度训练和对应的相位自校正系数保存后即完成自校正系数学习步骤。

相位自校正步骤:完成相位自校正系数学习后及可安装、使用本装置进行远距离拾音。声源方向的确定可以采用视频监控定位或其他本领域通用的方向估计方法以获取声源方向θT。在获得声源方向θT后,将各通道信号按照给定的声源方向调出相应的预先存储相位自校正系数Wi,a进行相位自校正。经过相位自校正后的各通道语音为:

>xi(n)=[xi(n)xi(n+1)...xi(n+L-1)]×WTθT,i=0,1,...,4:>

声源对准步骤:在本实施例中,按照实际使用中给定的声源目标方向采用实现本领域通用的时延补偿-相加波束成形方法进行声源方向估计,其原理结合图例进行如下说明:

对经过相位自校正后的各通道输入信号x'i(n),i=0,1,2,…,4行时延值补齐,对补齐后的各通道信号加权叠加,得到对准相应方位角θT的波束形成输出信号。设各通道时延调整值为τiT),i=0,1,2,…,4代表实施例麦克风阵列的各通道,则经过时延补偿后的各通道语音为:

x”i(n,θT)=x'i[n+τiT)],i=0,1,…,4

各通道信号的时延补偿值可通过下式来确定:

>τ(θj)=(2-i)round[fs·d>cosθjC],i=0,1,...,4>

其中i为线阵中各通道的编号,C为空气中的声速(本实施例中取340m/s),θT为选定的声源方向。fs为麦克风阵列语音信号的采样频率(单位为Hz,本实施例中为16000Hz),round()代表取整运算。

对时延补齐后的信号进行加权叠加,可得波束对准声源方向θT的输出信号:

y(n,θT)=WaTX”(n,θT)

其中权向量Wa=[w1,w2,…,w4]T,且X”(n,θT)=[x”0(n,θT),x”1(n,θT)…,x”4(n,θT)]。

因为本发明实施例中采用声聚焦麦克风阵列波束形成的方式对不同方向的远距离声源进行拾音,因此无需采用云台、回转平台等辅助装置进行机械对准。

语音增强步骤:采用波束对准声源方向的输出信号作为带噪信号,采用固定系数组成的阻塞矩阵对时延补偿后的各通道输入信号进行阻塞处理后作为参考入端,采用本领域通用的自适应噪声消除处理。

本发明实施例的5元麦克风阵列及其与微处理器连接电路图参见图5;本发明实施例中声聚焦麦克风阵列进行波束对准原理图参见图6;本发明实施例中声聚焦麦克风阵列波束对准时各通道时延补偿值计算原理图参见图7。

本发明最大的特点在于结合声聚焦机构和麦克风阵列进行远距离语音采集,并通过相位自校正功能克服声聚焦机构在聚焦声场时造成的相位差问题,改善麦克风阵列语音增强算法在声聚焦机构麦克风阵列中使用时的语音增强效果,从而实现对远距离语音的高质量拾音。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号