法律状态公告日
法律状态信息
法律状态
2016-08-10
授权
授权
2014-03-12
实质审查的生效 IPC(主分类):G10L17/02 申请日:20131014
实质审查的生效
2014-02-05
公开
公开
技术领域
本发明涉及语音信号处理和模式识别技术,尤其涉及一种基于说话人分割 的会议主持人语音提取方法。
背景技术
会议主持人是指在多人会话的会议中,使会议进程有序进行的说话人。在 经常召开的讨论会、新闻发布会、演讲等会议中,一般都有一个会议主持人。 主持人往往是整个会议的第一个发言人,他组织并引导与会者有序地参与会议 议程的讨论。从会议主持人的发言中,可以得到该会议的主题、与会人员人数 及身份、主要议程、会议决议等重要信息。这些信息是人们在浏览分析会议语 音时最希望获取的。因此,快速有效地提取出会议主持人的语音,对于会议语 音的快速浏览、主题提取、说话人检索等应用都具有非常重要的意义。目前的 会议主持人语音提取方法流程如下:先对会议语音进行说话人分割,再对分割 结果进行说话人聚类得到各个说话人语音,最后进行说话人角色分析得到会议 主持人语音。目前的方法在说话人分割之后还需要进行说话人聚类和说话人角 色分析才能得到会议主持人语音。因此,目前的方法存在步骤多、计算量大的 缺点,难以实现快速的会议主持人语音提取。
发明内容
本发明的目的在于克服现有技术存在的缺点与不足,提供一种基于说话人 分割的会议主持人语音提取方法,该方法能快速有效地提取出会议主持人的语 音。
本发明的目的通过以下技术方案实现:一种基于说话人分割的会议主持人 语音提取方法,包括如下步骤:
S1、读入记录有会议语音的音频文件;
S2、说话人分割:检测上述会议语音中的说话人改变点,将相邻两个改变 点之间的语音样点作为一个语音段,将音频文件分成多个语音段,所述语音段 的个数等于改变点个数加1;
S3、语音段距离比较:将说话人分割之后的第一个语音段作为会议主持人 的语音,并比较该语音段与其他语音段的距离,将距离小于门限的语音段也判 为会议主持人语音,从而得到会议主持人的所有语音段。
进一步地,所述S2说话人分割:检测上述会议语音中的说话人改变点,将 相邻两个改变点之间的语音样点作为一个语音段,将音频文件分成多个语音段, 具体为:
S2.1、利用门限判决的语音检测算法从上述音频文件中找出静音段和语音 段;
S2.2、将上述语音段按时间顺序拼接成一个长语音段,并从长语音段中提 取音频特征;
S2.3、利用上述提取的音频特征,根据贝叶斯信息准则,判断长语音段中 相邻数据窗之间的相似度来检测说话人改变点;
S2.4、依次把相邻两个改变点之间的语音样点作为一个语音段,从而将音 频文件分割成多个语音段,且每个语音段包含一个说话人。
进一步地,所述S2.1利用门限判决的语音检测算法从上述音频文件中找出 静音段和语音段,具体包括如下步骤:
S2.1.1、对读入的会议语音进行分帧,并计算每帧语音的能量,得到会议 语音的能量特征矢量;
S2.1.2、计算每帧语音的能量门限;
S2.1.3、将每帧语音的能量与能量门限比较,低于能量门限的帧为静音帧, 否则为语音帧,将静音帧按时间顺序拼接成一个静音段,将语音帧按时间顺序 拼接成一个语音段。
进一步地,所述S3中比较第一个语音段X1与其他语音段Xi(i≥2)之间 的距离,将距离小于门限的语音段也判为会议主持人语音,包括如下步骤:
S3.1、将第一个语音段X1与其他语音段Xi都分为语音帧,再从每帧语音中 提取梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCCs)及其一阶 差分(Delta-MFCCs)的音频特征,各个语音段的特征构成一个特征矩阵,语音 段X1的特征矩阵为F1,Xi的特征矩阵为Fi(i≥2);
S3.2、计算语音段X1与Xi之间的BIC距离,BIC距离计算公式如下:
其中,Z是将语音段X1和Xi合并之后得到的语音段,n1和ni分别是语音段 X1和Xi的帧数,F1、Fi和Fz分别是语音段X1、Xi和Z的特征矩阵,cov(F1)、 cov(Fi)和cov(Fz)分别是特征矩阵F1、Fi和Fz的协方差矩阵,det(·)表示求矩阵 的行列式值,α是惩罚系数且实验取值为2.0;
S3.3、如果BIC距离ΔBIC大于零,则这两个语音段被视为属于两个不同的 说话人(即Xi不是主持人语音),否则这两个语音段被视为属于主持人并将它们 合并;
S3.4、不断地判断其他语音段Xi与第一个语音段X1之间的BIC距离是否大 于零,直到所有Xi与X1之间的BIC距离都被判断完为止。
本发明的优点与效果(有益效果):
1、无需进行说话人聚类和角色分析,步骤简单,计算速度快。
2、基于说话人分割的结果,提取出会议主持人的语音,为会议语音的快速 浏览、主题提取、说话人检索等奠定了基础。
附图说明
图1为本发明的会议主持人语音提取方法的主持人语音提取流程示意图。
具体实施方式
下面结合实施例及附图,对本发明作进一步地详细说明,但本发明的实施 方式不限于此。
实施例
如图1所示,一种基于说话人分割的会议主持人语音提取方法,包括如下 步骤:
S1、读入记录有会议语音的音频文件,会议语音可以是各种格式的音频文 件,例如WAV、RAM、MP3、VOX等。
S2、利用基于门限判决的语音检测方法找出语音流中的静音段和语音段, 将上述语音段按时间顺序拼接成一个长语音段,并从长语音段中提取音频特征, 利用上述提取出来的音频特征,根据贝叶斯信息准则,判断长语音段中相邻数 据窗之间的相似度来检测说话人改变点;最后根据上述说话人改变点,把音频 文件分割成多个语音段,且每个语音段只包含一个说话人,所述语音段的个数 等于改变点个数加1。
所述门限判决的语音检测方法从上述音频文件中找出静音段和语音段,具 体包括以下步骤:
S2.1.1、将读入的音频文件分成T帧,帧长为32毫秒(帧长对应的采样点个 数N=0.032×fs,其中fs为语音信号的采样频率),帧移为16毫秒,如果最后 一帧语音的采样点个数小于N,则将其舍去;计算第t(1≤t≤T)帧语音信号 xt(n)的能量Et:
得到语音流的能量特征矢量E=[E1,E2,...,ET],其中T为总帧数;
S2.1.2、用固定的能量门限判断静音与语音有很大的局限性,因为各种环境 下的语音能量相差很大,但语音与静音之间能量大小的相对关系是不变的,所 以定义每帧语音的能量门限TE:
TE=min(E)+0.3×[mean(E)-min(E)],
其中,min(E)是各帧能量的最小值,mean(E)是各帧能量的平均值。
S2.1.3、将每帧语音的能量与能量门限比较,低于能量门限的帧为静音帧, 否则为语音帧,将所有静音帧都舍弃,并将相邻的语音帧按时间顺序拼接成一 个语音段。
所述步骤S2中的利用贝叶斯信息准则确定说话人改变点的方法具体包括以 下步骤:
S2.3.1、将经过语音检测得到的各个语音段按顺序拼接成一个长语音段,将 长语音段切分成数据窗,窗长为2秒,窗移为0.1秒。对每个数据窗进行分帧, 帧长为32毫秒,帧移为16毫秒,从每一帧语音信号中提取MFCCs与 Delta-MFCCs特征,MFCCs与Delta-MFCCs的维数M都取12,每个数据窗的 特征构成一个特征矩阵F,特征矩阵F的维数d=2M为24;
S2.3.2、计算两个相邻数据窗(x和y)之间的BIC距离,BIC距离计算公 式如下:
其中,z是将数据窗x和y合并之后得到的数据窗,nx和ny分别是数据窗x和 y的帧数,Fx、Fy和Fz分别是数据窗x、y和z的特征矩阵,cov(Fx)、cov(Fy) 和cov(Fz)分别是特征矩阵Fx、Fy和Fz的协方差矩阵,det(·)表示求矩阵的行列 式值,α是惩罚系数且实验取值为2.0;
S2.3.3、如果BIC距离ΔBIC大于零,则这两个数据窗被视为属于两个不同 的说话人(即它们之间存在说话人改变点),否则这两个数据窗被视为属于同一 个说话人并将它们合并;
S2.3.4、不断地滑动数据窗判断两个相邻数据窗之间的BIC距离是否大于 零,并保存说话人改变点,直到长语音段的所有相邻数据窗之间的BIC距离都 被判断完为止。
上述提取音频特征包括梅尔频率倒谱系数(MFCCs)及其一阶差分 (Delta-MFCCs)特征的步骤包括:
S2.2.1、将语音信号分成T帧,帧长为32毫秒(帧长对应的采样点个数 N=0.032×fs,其中fs为语音信号的采样频率),帧移为16毫秒,如果最后一 帧语音的采样点个数小于N,则将其舍去;
S2.2.2、对第t(1≤t≤T)帧语音信号xt(n)做离散傅立叶变换(Discrete Fourier Transformation,DFT)得到线性频谱Xt(k):
S2.2.3、将上述线性频谱Xt(k)通过梅尔频率滤波器组得到梅尔频谱,再进 行对数运算得到对数频谱St(m),其中梅尔频率滤波器组为若干个带通滤波器 Hm(k),0≤m<M,M为滤波器的个数,每个滤波器具有三角形滤波特性,其 中心频率为f(m),当m值较小时相邻f(m)之间的间隔也较小,随着m的增加 相邻f(m)的间隔逐渐变大,每个带通滤波器的传递函数为:
其中,f(m)定义如下:
其中,fl、fh为滤波器的频率应用范围的最低频率和最高频率,B-1为B的 逆函数:B-1(b)=700(eb/1125-1),因此由线性谱Xt(k)到对数谱St(m)的函数 式为:
S2.2.4、将上述对数频谱St(m)经过离散余弦变换(Discrete Cosine Transformation,DCT)变换到倒谱域,得到第t帧MFCCs,Ct(p):
S2.2.5、计算第t帧MFCCs的一阶差分(Delta‐MFCCs),C't(p):
其中,Q为常数,实验时取值为3。
S2.2.6、对每帧语音信号重复上述步骤2)~5),得到所有T帧语音信号的 MFCCs与Delta-MFCCs,将它们按帧的顺序组合成一个MFCC矩阵与 Delta-MFCC矩阵,再将MFCC矩阵与Delta-MFCC矩阵合并构成特征矩阵F。
所述步骤S3中,比较第一个语音段X1与其他语音段Xi(i≥2)之间的距 离,将距离小于门限的语音段也判为会议主持人语音,包括如下步骤:
S3.1、将第一语音段X1与其他语音段Xi都分为语音帧,帧长为32毫秒(帧 长对应的采样点个数N=0.032×fs,其中fs为语音信号的采样频率),帧移为 16毫秒,如果最后一帧语音的采样点个数小于N,则将其舍去;
S3.2、按照步骤S2.2.2至S2.2.5的方法从每帧语音中提取MFCCs及 Delta-MFCCs的音频特征,各个语音段的特征构成一个特征矩阵,语音段X1的 特征矩阵为F1,Xi的特征矩阵为Fi(i≥2);
S3.3、计算语音段X1与Xi之间的BIC距离,BIC距离计算公式如下:
其中,Z是将语音段X1和Xi合并之后得到的语音段,n1和ni分别是语音段X1和Xi的帧数,F1、Fi和Fz分别是语音段X1、Xi和Z的特征矩阵,cov(F1)、cov(Fi) 和cov(Fz)分别是特征矩阵F1、Fi和Fz的协方差矩阵,det(·)表示求矩阵的行列 式值,α是惩罚系数且实验取值为2.0;
S3.4、如果BIC距离ΔBIC大于零,则这两个语音段被视为属于两个不同的 说话人(即Xi不是主持人语音),否则这两个语音段被视为属于主持人并将它们 合并;
S3.5、不断地判断其他语音段Xi与第一个语音段X1之间的BIC距离是否大 于零,直到所有Xi与X1之间的BIC距离都被判断完为止。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受所述实 施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、 替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
机译: 融合了人工智能秘书服务中基于文本的说话人识别和基于文本的说话人识别的说话人识别方法及其中使用的语音识别装置
机译: 同时语音识别,说话人分割和说话人分类的方法及装置
机译: 用于同时语音识别,说话人分割和说话人分类的方法和设备