CN102044243A - 语音激活检测方法与装置、编码器 - Google Patents
语音激活检测方法与装置、编码器 Download PDFInfo
- Publication number
- CN102044243A CN102044243A CN2009102073114A CN200910207311A CN102044243A CN 102044243 A CN102044243 A CN 102044243A CN 2009102073114 A CN2009102073114 A CN 2009102073114A CN 200910207311 A CN200910207311 A CN 200910207311A CN 102044243 A CN102044243 A CN 102044243A
- Authority
- CN
- China
- Prior art keywords
- noise
- snr
- ratio
- thr
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Noise Elimination (AREA)
- Telephonic Communication Services (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明实施例公开了一种语音激活检测方法与装置、编码器,其中,语音激活检测方法包括:输入信号为背景噪声时,获取所述背景噪声的波动特征值,该波动特征值用于表示所述背景噪声的波动大小;根据所述波动特征值,对语音激活检测VAD的判决准则相关参数进行自适应调整;利用自适应调整后的判决准则相关参数,对所述输入信号进行VAD判决。本发明实施例可以自适应于背景噪声的波动性进行VAD判决,从而提高VAD判决性能,节省有限的信道带宽资源,实现信道带宽的高效利用。
Description
技术领域
本发明实施例涉及通信技术,尤其是一种语音激活检测方法与装置、编码器。
背景技术
在通信系统中,尤其是无线通信系统或者移动通信系统中,信道带宽是稀缺资源。据统计,双向通话中通话双方说话的时间大概只占总通话时间的一半左右,另一半处于静音状态。由于通信系统只在人说话的时候传输信号,在静音时停止信号的传输,却无法将静音时占用的带宽分配给其它通信业务,严重浪费了有限的信道带宽资源。
为了实现信道资源的充分利用,现在技术中,通过语音激活检测(voice activity detection,以下简称:VAD)技术,来检测通话双方何时开始说话,何时停止说话,即:获知语音在何时激活,以便在语音未激活时将信道带宽分配给其它通信业务使用。随着通信网络的发展,VAD技术还可以检测彩铃等输入信号。在基于VAD技术的VAD系统中,通常根据预先设置的判断准则,包括判决参数与判决逻辑,将输入信号判断为前景信号或背景噪声。其中,前景信号包括语音信号、音乐信号、双音多频(Dual Tone Multi Frequency,以下简称:DTMF)信号等,背景噪声不包括这些信号,该过程也称为VAD判决。
在VAD技术发展初期,采用静态的判决准则,即:无论输入信号的特性如何,VAD的判决参数与判决逻辑都固定不变。例如:在基于G.729标准的VAD技术中,无论输入信号为何种类型,信噪比(signal to noise ratio,以下简称:SNR)多大,背景噪声的特性如何,都使用同样的一组判决参数,以同样的一组判决逻辑与判决门限来进行VAD判决。由于G.729标准的VAD技术基于高SNR条件下设计、提出,其在低SNR条件下的性能较差。随着VAD技术的发展,提出了动态的判决准则,VAD技术可以根据输入信号的不同特性,选择不同的判决参数和/或不同的判决逻辑,将输入信号判断为前景信号或背景噪声。由于采用动态的判决准则根据输入信号的具体特征来制定判决参数或者判决逻辑,优化了判决流程,提高了判决效率与判决准确率,因此,提高了VAD判决性能。并且,采用动态的判决准则可以根据具体的应用需求,为不同特性的输入信号设定不同的VAD输出。例如:运营商希望在VAD系统也能一定程度上传递某些说话人背景的信息时,可以在背景噪声含信息量较大的情况下设定VAD的判决倾向,使其更容易将含信息量较大的背景噪声也判为语音帧。目前,在自适应多码率语音编码器(Adaptive Multi-rate,以下简称:AMR)中已经实现了动态判决。AMR可以依据输入信号中背景噪声的电平来动态调整VAD的判决门限、拖尾长度与拖尾触发条件。
但是,在实现本发明的过程中,发明人发现,由于不同类型的背景噪声具有不同的波动性,即:波动大小,即使在同一电平下,不同类型的背景噪声也会对VAD的判决效率与判决准确率产生较大影响。而现有的AMR进行VAD判决时,只能自适应于背景噪声的电平大小,尚无法自适应于背景噪声的波动性,因此,对拥有不同类型背景噪声的输入信号的VAD判决性能大相径庭。例如:同一背景噪声的电平下,AMR在背景噪声为汽车噪声的情况下有非常较高的VAD判决性能,而在背景噪声为串音(babble)噪声的情况下,VAD判决性能大大降低,造成了信道带宽资源的巨大浪费。
发明内容
本发明实施例所要解决的技术问题是:提供一种语音激活检测方法与装置、编码器,以自适应于背景噪声的波动性进行VAD判决,从而提高VAD判决性能,节省有限的信道带宽资源,实现信道带宽的高效利用。
本发明实施例提供的一种语音激活检测方法,包括:
输入信号为背景噪声时,获取所述背景噪声的波动特征值,该波动特征值用于表示所述背景噪声的波动大小;
根据所述波动特征值,对语音激活检测VAD的判决准则相关参数进行自适应调整;
利用自适应调整后的判决准则相关参数,对所述输入信号进行VAD判决。
本发明实施例提供的一种语音激活检测装置,包括:
获取模块,用于在输入信号为背景噪声时,获取所述背景噪声的波动特征值,该波动特征值用于表示所述背景噪声的波动大小;
调整模块,用于根据所述波动特征值,对VAD的判决准则相关参数进行自适应调整;
判决模块,用于利用自适应调整后的判决准则相关参数,对所述输入信号进行VAD判决。
本发明实施例提供的一种编码器,包括本发明上述实施例提供的语音激活检测装置。
基于本发明上述实施例提供的语音激活检测方法与装置、编码器,可以在输入信号为背景噪声时,获取用于表示背景噪声的波动大小的波动特征值,根据该波动特征值对VAD的判决准则相关参数进行自适应调整,并利用自适应调整后的判决准则相关参数,对输入信号进行VAD判决,与现有技术相比,由于VAD的判决准则相关参数可以自适应于背景噪声的波动性,可以在不同类型背景噪声的情况下获得较高的VAD判决性能,提高VAD的判决效率与判决准确率,从而提高有限的信道带宽资源的利用率。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获取其他的附图。
图1为本发明VAD方法一个实施例的流程图;
图2为本发明获取背景噪声的波动特征值一个实施例的流程图;
图3为本发明获取背景噪声的波动特征值另一个实施例的流程图;
图4为本发明获取背景噪声的波动特征值又一个实施例的流程图;
图5为本发明根据背景噪声的电平动态调整VAD的判决准则相关参数一个实施例的流程图;
图6为本发明VAD装置第一实施例的结构示意图;
图7为本发明VAD装置第二实施例的结构示意图;
图8为本发明VAD装置第三实施例的结构示意图;
图9为本发明VAD装置第四实施例的结构示意图;
图10为本发明VAD装置第五实施例的结构示意图;
图11为本发明VAD装置第六实施例的结构示意图;
图12为本发明VAD装置第七实施例的结构示意图;
图13为本发明VAD装置第八实施例的结构示意图;
图14为本发明VAD装置第九实施例的结构示意图;
图15为本发明VAD装置第十实施例的结构示意图;
图16为本发明VAD装置第十一实施例的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获取的所有其他实施例,都属于本发明保护的范围。
图1为本发明VAD方法一个实施例的流程图。如图1所示,该实施例的VAD方法包括:
步骤101,输入信号为背景噪声时,获取该背景噪声的波动特征值,该波动特征值用于表示背景噪声的波动大小。
步骤102,根据背景噪声的波动特征值对VAD的判决准则相关参数进行自适应调整。
步骤103,利用自适应调整后的判决准则相关参数,对输入信号进行VAD判决。
本发明上述实施例提供的VAD方法,可以在输入信号为背景噪声时,获取用于表示背景噪声的波动大小的波动特征值,根据该波动特征值对VAD的判决准则相关参数进行自适应调整,使VAD的判决准则相关参数自适应于背景噪声的波动性,这样,利用自适应调整后的判决准则相关参数对输入信号进行VAD判决时,便可以在不同类型背景噪声的情况下获得较高的VAD判决性能,提高VAD的判决效率与判决准确率,从而提高有限的信道带宽资源的利用率。
根据本发明的一个具体实施例,VAD的判决准则相关参数可以包括主判决门限、拖尾触发条件、拖尾长度与背景噪声相关长时参数的更新速率中的任意一种或多种。
当VAD的判决准则相关参数包括主判决门限时,根据本发明的一个实施例,步骤102中具体可以通过以下方式实现:
查询波动特征值与判决门限噪声波动偏移量thr_bias_noise之间的对应关系,获取与背景噪声的波动特征值对应的判决门限噪声波动偏移量thr_bias_noise,该判决门限噪声波动偏移量thr_bias_noise用于表示不同波动大小的背景噪声下门限的偏移值。其中的对应关系可以预先或者临时设置,也可以从其它网络实体中获取;
根据公式vad_thr=f1(snr)+f2(snr)·thr_bias_noise,获取VAD的主判决门限Vad_thr。其中,f1(snr)为当前背景噪声帧的信噪比snr对应的基准门限,f2(snr)为当前背景噪声帧的信噪比snr对应的判决门限噪声波动偏移量thr_bias_noise的加权系数。具体地,可以根据经验值设置f1(snr)与f2(snr)对snr的函数形式;
将VAD的判决准则相关参数中的主判决门限更新为获取到的主判决门限vad_thr,从而实现了根据背景噪声的波动特征值对VAD的主判决门限vad_thr的自适应调整。
当VAD的判决准则相关参数包括拖尾触发条件时,根据本发明的一个实施例,步骤102中具体可以通过以下方式实现:
从连续语音帧长度噪声波动映射表burst_cnt_noise_tbl[]中查询与背景噪声的波动特征值对应的连续语音帧长度
burst_cnt_noise_tbl[波动特征值],以及从确定语音门限噪声波动偏移表
burst_thr_noise_tbl[]中查询与背景噪声的波动特征值对应的确定语音门限
burst_thr_noise_tbl[波动特征值]。其中的连续语音帧长度噪声波动映射表
burst_cnt_noise_tbl[]与确定语音门限噪声波动偏移表burst_thr_noise_tbl[]
也可以预先或者临时设置,或者从其它网络实体中获取;
根据公式M=f3(snr)+f4(snr)·burst_cnt_noise_tbl[波动特征值],获取连续语音帧的数量门限M,根据公式
burst_thr=f5(snr)+f6(snr)·burst_thr_noise_tbl[波动特征值],获取确定语音帧门限burst_thr。其中,f3(snr)为当前背景噪声帧的信噪比snr对应的基准数量门限,f4(snr)为当前背景噪声帧的信噪比snr对应的连续语音帧长度burst_cnt_noise_tbl[波动特征值]的加权系数,f5(snr)为当前背景噪声帧的信噪比snr对应的基准语音帧门限,f6(snr)为当前背景噪声帧的信噪比snr对应的确定语音门限burst_thr_noise_tbl[波动特征值]的加权系数。具体地,都可以根据经验值,设置f3(snr)、f4(snr)、f5(snr)与f6(snr)对snr的函数形式。作为一个具体实例,f3(snr)、f4(snr)、f5(snr)与f6(snr)对snr的具体函数形式可以使得连续语音帧的数量门限M与确定语音帧门限burst_thr随着得到的波动特征值的减小而增大;
根据获取的连续语音帧的数量门限M与确定语音帧门限burst_thr更新VAD的判决准则相关参数中的拖尾触发条件,从而实现了根据背景噪声的波动特征值对VAD的拖尾触发条件的自适应调整。
当VAD的判决准则相关参数包括拖尾长度时,根据本发明的一个实施例,步骤102中具体可以通过以下方式实现:
从拖尾长度噪声波动映射表hangover_noise_tbl[]中查询与背景噪声的波动特征值对应的拖尾长度hangover_nosie_tbl[波动特征值]。该拖尾长度噪声波动映射表hangover_noise_tbl[]可以预先或者临时设置,也可以从其它网络实体中获取;
根据公式
hangover_max=f7(snr)+f8(snr)·hangover_nosie_tbl[波动特征值],获取拖尾计数器的重置最大值hangover_max。其中,f7(snr)为当前背景噪声帧的信噪比snr对应的基准重置值,f8(snr)为当前背景噪声帧的信噪比snr对应的拖尾长度hangover_nosie_tbl[波动特征值]的加权系数。具体地,都可以根据经验值,设置f7(snr)与f8(snr)对snr的函数形式。作为一个具体实例,f7(snr)与f8(snr)对snr的具体函数形式可以使得拖尾计数器的重置最大值hangover_max随着得到的波动特征值的增大而增大;
将VAD的判决准则相关参数中的拖尾长度更新为获取到的拖尾计数器的重置最大值hangover_max,从而实现了根据背景噪声的波动特征值对VAD的拖尾长度的自适应调整。
根据本发明VAD方法的一个具体实施例,可以采用白化后背景噪声谱熵的长时滑动平均值hb_noise_mov来表示背景噪声的波动大小。图2为本发明获取背景噪声的波动特征值一个实施例的流程图。在该实施例中,波动特征值具体为白化后背景噪声谱熵的长时滑动平均值hb_noise_mov的量化值idx。如图2所示,该实施例的流程包括以下步骤:
步骤201,接收输入信号的当前帧。
步骤202,将输入信号的当前帧在频域上划分为N个子带,N为大于1的整数,例如:N可以取32,并分别计算N个子带的能量enrg(i),i=0,1,......,N-1。
具体地,N个子带可以等宽或不等宽,或者N个子带中的任意多个子带可以等宽。
步骤203,根据VAD的判决准则,判决当前帧是否为背景噪声帧。若当前帧为背景噪声帧,执行步骤204;否则,不执行本实施例后续流程。
步骤204,根据公式enrg_n(i)=α·enrg_n+(1-α)·enrg(i),计算背景噪声帧分别在N个子带上的长时滑动平均能量enrg_n(i)。其中,α为用于控制背景噪声帧分别在N个子带上的长时滑动平均能量enrg_n(i)更新速率的遗忘系数,enrg_n为背景噪声帧的能量。
步骤205,根据公式enrg_w(i)=enrg(i)/enrg_n(i),对当前背景噪声帧的频谱进行白化,得到白化后背景噪声在第i个子带上的能量enrg_w(i)。
步骤207,根据公式hb_noise_mov=β·hb_noise_mov+(1-β)·hb,获取白化后背景噪声谱熵的长时滑动平均值hb_noise_mov。其中,β为控制白化后背景噪声谱熵的长时滑动平均值hb_noise_mov更新速率的遗忘因子。
本实施例中,白化后背景噪声谱熵的长时滑动平均值hb_noise_mov表示背景噪声的波动大小。hb_noise_mov越大,表示背景噪声的波动越小,反之,hb_noise_mov越小,则表示背景噪声的波动越大。
步骤208,根据公式idx=|(hb_noise_mov-A)/B|,对白化后背景噪声谱熵的长时滑动平均值hb_noise_mov进行量化,得到量化值idx。其中,A、B分别为预设数值。例如:A可以取经验值3.11,B可以取经验值0.05。
与图2所示的实施例相应,波动特征值具体为白化后背景噪声谱熵的长时滑动平均值hb_noise_mov的量化值idx时,作为本发明的一个实施例,背景噪声相关长时参数的更新速率可以包括背景噪声的长时滑动平均能量enrg_n(i)的更新速率。相应的,步骤102中具体可以通过以下方式实现:
查询背景噪声更新速率表alpha_tbl[],获取与背景噪声的量化值idx对应的长时滑动平均能量enrg_n(i)更新速率的遗忘系数α。具体地,该背景噪声更新速率表alpha_tbl[]可以预先或者临时设置,也可以从其它网络实体中获取。作为一个具体实例,背景噪声更新速率表alpha_tbl[]的设置,可以使长时滑动平均能量enrg_n(i)更新速率的遗忘系数α随着背景噪声的量化值idx的减小而减小;
以获取到的遗忘系数α作为控制背景噪声帧分别在N个子带上的长时滑动平均能量enrg_n(i)更新速率的遗忘系数,从而实现了根据背景噪声的波动特征值对背景噪声帧分别在N个子带上的长时滑动平均能量enrg_n(i)更新速率的自适应调整。
另外,与图2所示的实施例相应,波动特征值具体为白化后背景噪声谱熵的长时滑动平均值hb_noise_mov的量化值idx时,作为本发明的另一个实施例,背景噪声相关长时参数的更新速率也可以包括白化后背景噪声谱熵的长时滑动平均值hb_noise_mov的更新速率。相应的,步骤102中具体可以通过以下方式实现:
查询背景噪声波动性更新速率表beta_tbl[],获取与背景噪声的量化值idx对应的长时滑动平均值hb_noise_mov更新速率的遗忘因子β。具体地,该背景噪声波动性更新速率表beta_tbl[]可以预先或者临时设置,也可以从其它网络实体中获取。作为一个具体实例,背景噪声波动性更新速率表beta_tbl[]的具体设置,可以使长时滑动平均值hb_noise_mov更新速率的遗忘因子β随着背景噪声的量化值idx的减小而增大;
以获取到的遗忘因子β作为控制白化后背景噪声谱熵的长时滑动平均值hb_noise_mov更新速率的遗忘因子,从而实现了根据背景噪声的波动特征值对白化后背景噪声谱熵的长时滑动平均值hb_noise_mov更新速率的自适应调整。
针对具有不同波动特征值的背景噪声,对背景噪声帧分别在N个子带上的长时滑动平均能量enrg_n(i)和白化后背景噪声谱熵的长时滑动平均值hb_noise_mov,采用不同的速率更新,可以有效的提高对背景噪声的检测率。
根据本发明VAD方法的另一个具体实施例,可以采用背景噪声帧信噪比的长时滑动平均值SNRn_mov作为背景噪声的波动特征值,来表示背景噪声的波动大小。图3为本发明获取背景噪声的波动特征值另一个实施例的流程图。在该实施例中,背景噪声的波动特征值具体为背景噪声帧信噪比的长时滑动平均值SNRn_mov。如图3所示,该实施例的流程包括以下步骤:
步骤301,接收输入信号的当前帧。
步骤302,根据VAD的判决准则,判决当前帧是否为背景噪声帧。若当前帧为背景噪声帧,执行步骤303;否则,不执行本实施例的后续流程。
步骤303,根据公式snrn_mov=k·snrn_mov+(1-k)·snr,获取背景噪声帧信噪比的长时滑动平均值snrn_mov。
其中,snr为当前背景噪声帧的信噪比,snrn为输入信号中,包括当前背景噪声帧在内的最后n个背景噪声帧的信噪比的平均值,k为控制背景噪声帧信噪比的长时滑动平均值snrn_mov更新速率的遗忘因子。
与图3所示的实施例相应,背景噪声的波动特征值具体为背景噪声帧信噪比的长时滑动平均值snrn_mov时,作为本发明的一个实施例,背景噪声相关长时参数的更新速率可以包括长时滑动平均值snrn_mov的更新速率。相应的,步骤102中具体可以通过以下方式实现:在当前背景噪声帧的信噪比snr大于最后n个背景噪声帧的信噪比的平均值snrn时,和在当前背景噪声帧的信噪比snr小于最后n个背景噪声帧的信噪比的平均值snrn时,为控制背景噪声帧信噪比的长时滑动平均值snrn_mov更新速率的遗忘因子k取不同的数值。例如:snrn_mov<snr时,k的取值为x,snrn_mov≥snr时,k的取值为y。
对背景噪声帧信噪比的长时滑动平均值snrn_mov采用不同的更新速率向上和向下更新,可以避免背景噪声帧信噪比的长时滑动平均值snrn_mov受突变影响,从而使得背景噪声帧信噪比的长时滑动平均值snrn_mov更为稳定。根据本发明的一个实施例,在利用当前背景噪声帧的信噪比snr更新背景噪声相关长时参数的更新速率可以包括长时滑动平均值snrn_mov之前,可以根据预先设定,将当前背景噪声帧的信噪比snr限制在一个范围内,例如:在当前背景噪声帧的信噪比snr小于10时,限定当前背景噪声帧的信噪比snr为10。
根据本发明VAD方法的又一个具体实施例,可以采用背景噪声帧的修正分段信噪比MSSNR的长时滑动平均值fluxbgd作为背景噪声的波动特征值,来表示背景噪声的波动大小。图4为本发明获取背景噪声的波动特征值又一个实施例的流程图。在该实施例中,背景噪声的波动特征值具体为背景噪声帧的修正分段信噪比MSSNR的长时滑动平均值fluxbgd。如图4所示,该实施例的流程包括以下步骤:
步骤401,接收输入信号的当前帧。
步骤402,根据VAD的判决准则,判决当前帧是否为背景噪声帧。若当前帧为背景噪声帧,执行步骤403;否则,不执行本实施例的后续流程。
步骤403,将当前背景噪声帧的快速傅立叶变换(Fast FourierTransform,以下简称:FFT)频谱划分为H个子带,H为大于1的整数,并根据公式分别计算i个子带的能量Eband(i),i=0,1,......,H-1。其中,l(i)与h(i)分别表示第i个子带中频率最低的FFT频点与频率最高的FFT频点,Sj表示FFT频谱上第j个频点的能量,Eband_old(i)表示当前背景噪声帧的前一个帧中第i个子带的能量。p为预设常数。在一个实施例中,p的取值为0.55。作为本发明的一个具体应用实例,H的取值可以为16。
步骤405,根据公式分别对当前背景噪声帧中第i个子带的信噪比snr(i)进行修正。其中,msnr(i)为修正后第i个子带的信噪比,C1与C2为大于零的预设实常数,第一集合与第二集合中数值的构成集合[0,H-1]。
步骤407,根据公式fluxbgd=r·fluxbgd+(1-r)·MSSNR,计算当前背景噪声帧的修正分段信噪比MSSNR的长时滑动平均值fluxbgd。其中,r为用于控制当前背景噪声帧的修正分段信噪比MSSNR的长时滑动平均值fluxbgd更新速率的遗忘系数。
在一个实施例中,具体可以按照以下方式对r进行取值:在从输入信号中第一帧开始的预设初始期内且MSSNR>fluxbgd时,r=0.955;在从输入信号中第一帧开始的预设初始期内且MSSNR≤fluxbgd时,r=0.995;在从输入信号中第一帧开始的预设初始期之后且MSSNR>fluxbgd时,r=0.997;在从输入信号中第一帧开始的预设初始期之后且MSSNR≤fluxbgd时,r=0.9997。
与图4所示的实施例相应,当VAD的判决准则相关参数包括主判决门限时,根据本发明的一个实施例,步骤102中具体也可以通过以下方式实现:
查询波动特征值与判决门限噪声波动偏移量thr_bias_noise之间的对应关系,获取与背景噪声的波动特征值对应的判决门限噪声波动偏移量thr_bias_noise,该判决门限噪声波动偏移量thr_bias_noise用于表示不同波动大小的背景噪声下门限的偏移值。其中的对应关系可以预先或者临时设置,也可以从其它网络实体中获取;
根据公式vad_thr=f1(snr)+f2(snr)·thr_bias_noise,获取VAD的主判决门限vad_thr。其中,f1(snr)为当前背景噪声帧的信噪比snr对应的基准门限,f2(snr)为当前背景噪声帧的信噪比snr对应的判决门限噪声波动偏移量thr_bias_noise的加权系数。具体地,可以根据经验值设置f1(snr)与f2(snr)对snr的函数形式;
将VAD的判决准则相关参数中的主判决门限更新为获取到的主判决门限vad_thr。
另外,与图4所示的实施例相应,当VAD的判决准则相关参数包括主判决门限时,根据本发明的另一个实施例,步骤102中具体还可以通过以下方式实现:
获取当前背景噪声帧的修正分段信噪比MSSNR的长时滑动平均值fluxbgd对应的波动性级别flux_idx,以及获取当前背景噪声帧的信噪比snr对应的信噪比级别snr_idx;
查询同时与获取到的波动性级别flux_idx及信噪比级别snr_idx对应的主判决门限thr_tbl[snr_idx][flux_idx];
将判决准则相关参数中的主判决门限更新为查询到的主判决门限thr_tbl[snr_idx][flux_idx]。
将当前背景噪声帧的修正分段信噪比MSSNR的长时滑动平均值fluxbgd与信噪比snr对应到相应的级别后,VAD装置中只需要存储波动性级别、信噪比级别与主判决门限之间的对应关系即可,由于波动性级别、信噪比级别数据量远小于其可以涵盖的fluxbgd与snr数据,大大减小了对应关系占用的VAD装置的存储空间,从而实现存储空间的高效利用。
例如:可以将当前背景噪声帧的修正分段信噪比MSSNR的长时滑动平均值fluxbgd按照大小分为三个波动性级别,以flux_idx表示fluxbgd的波动性级别,flux_idx可以取值0、1、2,分别表示低波动性,中波动性和高波动性。根据一个实施例,通过如下方式确定flux_idx的取值:
若fluxbgd<3.5,flux_idx=0;
若3.5<=fluxbgd<6,flux_idx=1;
若fluxbgd>=6,flux_idx=2。
同样,将信号长时当前背景噪声帧的信噪比snr按照大小分为四个信噪比级别,以snr_idx表示snr的信噪比级别,snr_idx可以取值0、1、2、3,来分别表示低信噪比、中信噪比、高信噪比与很高信噪比。
进一步地,获取当前背景噪声帧的修正分段信噪比MSSNR的长时滑动平均值fluxbgd对应的波动性级别flux_idx,以及获取当前背景噪声帧的信噪比snr对应的信噪比级别snr_idx时,还可以获取对输入信号进行VAD判决的VAD装置当前的工作性能对应的判决倾向op_idx,即:倾向于判决当前帧为语音帧或背景噪声帧。具体地,该VAD装置当前的工作性能可以包括VAD开启后的语音编码质量与VAD对带宽的节省。相应的,可以查询同时与波动性级别flux_idx、信噪比级别snr_idx及性能级别op_idx对应的主判决门限vad_thr=thr_tbl[snr_idx][flux_idx][op_idx],并将VAD的判决准则相关参数中的主判决门限更新为主判决门限vad_thr=thr_tbl[snr_idx][flux_idx][op_idx]。
进一步结合VAD装置当前的工作性能对应的判决倾向对VAD的判决准则相关参数中的主判决门限进行适应性更新,使VAD的判决准则更适用于具体的VAD装置,从而获得更适用于具体环境的更高的VAD判决性能,进一步提高VAD的判决效率与判决准确率,从而提高有限的信道带宽资源的利用率。
在本发明上述各实施例的VAD方法中,还可以根据输入信号中背景噪声的电平,动态调整VAD的主判决门限、拖尾长度与拖尾触发条件中的任意一个或多个VAD的判决准则相关参数。图5为本发明根据背景噪声的电平动态调整VAD的判决准则相关参数一个实施例的流程图,该实施例具体可以由AMR实现。如图5所示,其包括以下步骤:
步骤501,将输入信号在频域上划分为N个子带,对于每帧输入信号,分别计算其在每个子带上的电平level(i),i=0,1,2...N-1。同时,持续的估计输入信号中的背景噪声在每个子带上的电平bckr_level(i),i=0,1,2...N-1。则表示当前背景噪声帧的电平。
步骤502,通过公式snr(i)=level(i)2/bckr_level(i)2,计算当前帧在每个子带上的信噪比snr(i)。
步骤503,通过公式snr_sum=∑snr(i),获得当前帧的信噪比之和snr_sum,该当前帧的信噪比之和snr_sum即为VAD的主判决参数。同时,根据背景噪声电平noise_level的大小,调整VAD的拖尾触发条件与拖尾长度。
通过将当前帧的信噪比之和snr_sum与一个预先设置的判决门限vad_thr进行比较,便可得到VAD的中间判决结果或称为第一步判决结果。具体地,若当前帧的信噪比之和snr_sum大于判决门限vad_thr,VAD中间判决结果为1,即:判决当前帧为语音帧;否则,VAD中间判决结果为0,即:判决当前帧为背景噪声帧。
判决门限vad_thr的大小由背景噪声电平noise_level控制,具体通过公式vad_thr=[(VAD_THR_HIGH-VAD_THR_LOW)/(p2-p1)]·(noise_level-p1)+VAD_THR_HIGH决定。其中,VAD_THR_HIGH与VAD_THR_LOW分别为判决门限vad_thr取值范围的上、下限,p2与p1分别表示判决门限vad_thr的上、下限所对应的背景噪声电平。可见,判决门限thr_vad是根据背景噪声电平noise_level的大小在一个上、下限之间内插出来的,与noise_level是个线性的关系。背景噪声电平noise_level越高,判决门限thr_vad就越低,从而在背景噪声较大的情况下也能够确保足够的VAD的准确率。
VAD的拖尾触发条件也由背景噪声电平noise_level控制。所谓拖尾触发条件,是指当满足该拖尾触发条件时,拖尾计数器会被设置为一个拖尾的最大长度。当中间判决结果为0时,根据拖尾计数器是否大于0判断是否拖尾。若拖尾计数器大于0,则VAD最终输出由0变为1且拖尾计数器减1,否则,VAD最终输出维持0不变。在AMR的VAD中,拖尾触发条件为出现连续语音帧的个数N是否大于一个预设门限。若出现连续语音帧的个数N大于该预设门限,则满足拖尾触发条件,拖尾计数器被重置。当noise_level大于另一个预设门限时,认为当前背景噪声比较大,触发条件中的N取一个较小值,以促使拖尾可以比较容易的发生。否则,当noise_level不大于该另一个预设门限时,认为当前背景噪声较小,N取一个较大值,使拖尾较难发生。
另外,拖尾的最大长度,即:拖尾计数器的最大值,也由背景噪声电平noise_level控制。当背景噪声电平noise_level大于又一个预设门限时,认为背景噪声比较大,当拖尾被触发时,拖尾计数器会被设置为一个较大的数值。否则,当背景噪声电平noise_level不大于又一个预设门限时,认为背景噪声比较小,当拖尾被触发时,拖尾计数器被设置为一个较小的数值。
图6为本发明VAD装置第一实施例的结构示意图。该实施例的VAD装置可用于实现本发明上述各实施例的VAD方法。如图6所示,该实施例的VAD装置包括获取模块601、调整模块602与判决模块603。
其中,获取模块601用于在输入信号为背景噪声时,获取背景噪声的波动特征值,该波动特征值用于表示背景噪声的波动大小。调整模块602用于根据获取模块601获取到的波动特征值,对VAD的判决准则相关参数进行自适应调整。判决模块603用于利用调整模块602自适应调整后的判决准则相关参数,对输入信号进行VAD判决。
进一步地,再参见图6,本发明实施例的VAD装置还可以包括存储模块604,用于存储VAD的判决准则相关参数,该判决准则相关参数可以包括主判决门限、拖尾触发条件、拖尾长度、背景噪声相关长时参数的更新速率中的任意一种或多种。相应的,调整模块602对存储模块604中存储的VAD的判决准则相关参数进行自适应调整;判决模块603利用存储模块604中存储的自适应调整后的判决准则相关参数,对输入信号进行VAD判决。
图7为本发明VAD装置第二实施例的结构示意图。与图6所示的实施例相比,该实施例的VAD装置中,在VAD的判决准则相关参数包括主判决门限时,调整模块602包括第一存储单元701、第一查询单元702、第一获取单元703与第一更新单元704。其中,第一存储单元701用于存储波动特征值与判决门限噪声波动偏移量thr_bias_noise之间的对应关系。第一查询单元702用于从第一存储单元701中查询波动特征值与判决门限噪声波动偏移量thr_bias_noise之间的对应关系,获取与背景噪声的波动特征值对应的判决门限噪声波动偏移量thr_bias_noise,其中,判决门限噪声波动偏移量thr_bias_noise用于表示不同波动大小的背景噪声下门限的偏移值。第一获取单元703用于根据公式vad_thr=f1(snr)+f2(snr)·thr_bias_noise,获取主判决门限vad_thr。其中,f1(snr)为当前背景噪声帧的信噪比snr对应的基准门限,f2(snr)为当前背景噪声帧的信噪比snr对应的判决门限噪声波动偏移量thr_bias_noise的加权系数。第一更新单元704用于将VAD的判决准则相关参数中的主判决门限更新为第一获取模块703获取到的主判决门限vad_thr。
图8为本发明VAD装置第三实施例的结构示意图。与图6所示的实施例相比,该实施例的VAD装置中,在在VAD的判决准则相关参数包括拖尾触发条件时,调整模块602包括第二存储单元711、第二查询单元712、第二获取单元713与第二更新单元714。其中,第二存储单元711用于存储连续语音帧长度噪声波动映射表burst_cnt_noise_tbl[]与确定语音门限噪声波动偏移表burst_thr_noise_tbl[],其中,连续语音帧长度噪声波动映射表burst_cnt_noise_tbl[]中包括波动特征值与连续语音帧长度之间的对应关系,确定语音门限噪声波动偏移表burst_thr_noise_tbl[]中包括波动特征值与确定语音门限之间的对应关系。第二查询单元712用于从第二存储单元711中存储的连续语音帧长度噪声波动映射表burst_cnt_noise_tbl[]中查询与背景噪声的波动特征值对应的连续语音帧长度burst_cnt_noise_tbl[波动特征值],从确定语音门限噪声波动偏移表burst_thr_noise_tbl[]中查询与背景噪声的波动特征值对应的确定语音门限burst_thr_noise_tbl[波动特征值]。第二获取单元713用于根据公式N=f3(snr)+f4(snr)·burst_cnt_noise_tbl[波动特征值],获取连续语音帧的数量门限M,根据burst_thr=f5(snr)+f6(snr)·burst_thr_noise_tbl[波动特征值],获取确定语音帧门限burst_thr,其中,f3(snr)为当前背景噪声帧的信噪比snr对应的基准数量门限,f4(snr)为当前背景噪声帧的信噪比snr对应的连续语音帧长度burst_cnt_noise_tbl[波动特征值]的加权系数,f5(snr)为当前背景噪声帧的信噪比snr对应的基准语音帧门限,f6(snr)为当前背景噪声帧的信噪比snr对应的确定语音门限burst_thr_noise_tbl[波动特征值]的加权系数。第二更新单元714用于根据第二获取单元713获取的连续语音帧的数量门限M与确定语音帧门限burst_thr更新VAD的判决准则相关参数中的拖尾触发条件。
图9为本发明VAD装置第四实施例的结构示意图。与图6所示的实施例相比,该实施例的VAD装置中,在VAD的判决准则相关参数包括拖尾触发条件时,调整模块602包括第三存储单元721、第三查询单元722、第三获取单元723与第三更新单元724。其中,第三存储单元721用于存储拖尾长度噪声波动映射表hangover_noise_tbl[],该拖尾长度噪声波动映射表hangover_noise_tbl[]中包括波动特征值对应的拖尾长度之间的对应关系。第三查询单元722用于从第三存储单元721中存储的拖尾长度噪声波动映射表hangover_noise_tbl[]中查询与背景噪声的波动特征值对应的拖尾长度hangover_nosie_tbl[波动特征值]。第三获取单元723用于根据公式hangover_max=f7(snr)+f8(snr)·hangover_nosie_tbl[波动特征值],获取拖尾计数器的重置最大值hangover_max。其中,f7(snr)为当前背景噪声帧的信噪比snr对应的基准重置值,f8(snr)为当前背景噪声帧的信噪比snr对应的拖尾长度hangover_nosie_tbl[idx]的加权系数。第三更新单元724用于将VAD的判决准则相关参数中的拖尾长度更新为第三获取模块723获取到的计算出的拖尾计数器的重置最大值hangover_max。
图10为本发明VAD装置第五实施例的结构示意图,该实施例的VAD装置可用于实现本发明图2所示实施例的VAD方法。该实施例中,波动特征值具体为白化后背景噪声谱熵的长时滑动平均值hb_noise_mov的量化值idx。相应的,获取模块601包括接收单元731、第一划分处理单元732、判决单元733、第一计算单元734、白化处理单元735、第四获取单元736、第五获取单元737与量化处理单元738。其中,接收单元731用于接收输入信号的当前帧。第一划分处理单元732用于将接收单元731接收到的输入信号的当前帧在频域上划分为N个子带,N为大于1的整数,并分别计算N个子带的能量enrg(i),i=0,1,......,N-1。判决单元733用于根据VAD的判决准则,判决接收单元731接收到的输入信号的当前帧是否为背景噪声帧。第一计算单元734用于根据判决单元733的判决结果,在当前帧为背景噪声帧时,根据公式enrg_n(i)=α·enrg_n+(1-α)·enrg(i),计算背景噪声帧分别在N个子带上的长时滑动平均能量enrg_n(i)。其中,α为用于控制背景噪声帧分别在N个子带上的长时滑动平均能量enrg_n(i)更新速率的遗忘系数,enrg_n为背景噪声帧的能量。白化处理单元735用于根据公式enrg_w(i)=enrg(i)/enrg_n(i),对当前背景噪声帧的频谱进行白化,得到白化后背景噪声在第i个子带上的能量enrg_w(i)。第四获取单元736用于根据公式获取白化后背景噪声谱熵hb,其中,第五获取单元737用于根据公式hb_noise_mov=β·hb_noise_mov+(1-β)·hb,获取白化后背景噪声谱熵的长时滑动平均值hb_noise_mov,其中,β为控制白化后背景噪声谱熵的长时滑动平均值hb_noise_mov更新速率的遗忘因子。量化处理单元738用于根据公式idx=|(hb_noise_mov-A)/B|,对白化后背景噪声谱熵的长时滑动平均值hb_noise_mov进行量化,得到量化值idx,其中,A、B分别为预设数值,可以根据实际需要选取经验值。
图11为本发明VAD装置第六实施例的结构示意图。在背景噪声相关长时参数的更新速率包括背景噪声的长时滑动平均能量enrg_n(i)的更新速率时,与图10所示的实施例相比,该实施例的VAD装置中,调整模块602包括第四存储单元741、第四查询单元742与第四更新单元743。其中,第四存储单元741用于存储背景噪声更新速率表alpha_tbl[],该背景噪声更新速率表alpha_tbl[]包括量化值与长时滑动平均能量enrg_n(i)更新速率的遗忘系数之间的对应关系。第四查询单元742用于从第四存储单元741中查询背景噪声更新速率表alpha_tbl[],获取与背景噪声的量化值idx对应的长时滑动平均能量enrg_n(i)更新速率的遗忘系数α。第四更新单元743以第四查询单元742获取到的遗忘系数α作为控制背景噪声帧分别在N个子带上的长时滑动平均能量enrg_n(i)更新速率的遗忘系数。
图12为本发明VAD装置第七实施例的结构示意图。在背景噪声相关长时参数的更新速率包括白化后背景噪声谱熵的长时滑动平均值hb_noise_mov的更新速率时,与图10所示的实施例相比,该实施例的VAD装置中,调整模块602包括第五存储单元744、第五查询单元745与第五更新单元746。其中,第五存储单元744用于存储背景噪声波动性更新速率表beta_tbl[],该背景噪声波动性更新速率表beta_tbl[]包括量化值与长时滑动平均值hb_noise_mov更新速率的遗忘因子之间的对应关系。第五查询单元745用于从第五存储单元744中查询背景噪声波动性更新速率表beta_tbl[],获取与背景噪声的量化值idx对应的长时滑动平均值hb_noise_mov更新速率的遗忘因子β。第五更新单元746用于以第五查询单元745获取到的遗忘因子β作为控制白化后背景噪声谱熵的长时滑动平均值hb_noise_mov更新速率的遗忘因子。
图13为本发明VAD装置第八实施例的结构示意图,该实施例的VAD装置可用于实现本发明图3所示实施例的VAD方法。该实施例中,波动特征值具体为波动特征值具体为背景噪声帧信噪比的长时滑动平均值SNRn_mov。相应的,获取模块601包括接收单元731、判决单元733与第六获取单元751。其中,接收单元731用于接收输入信号的当前帧。判决单元733用于根据VAD的判决准则,判决接收单元731接收到的输入信号的当前帧是否为背景噪声帧。第六获取单元751用于根据判决单元733的判决结果,在当前帧为背景噪声帧时,根据公式snrn_mov=k·snrn_mov+(1-k)·snr,获取背景噪声帧信噪比的长时滑动平均值snrn_mov。其中,snr为当前背景噪声帧的信噪比,snrn为输入信号中,包括当前背景噪声帧在内的最后n个背景噪声帧的信噪比的平均值,k为控制背景噪声帧信噪比的长时滑动平均值snrn_mov更新速率的遗忘因子。
进一步地,再参见图13,背景噪声相关长时参数的更新速率包括长时滑动平均值snrn_mov的更新速率时,调整模块602可以包括控制单元752,用于在当前背景噪声帧的信噪比snr大于最后n个背景噪声帧的信噪比的平均值snrn时,和在当前背景噪声帧的信噪比snr小于最后n个背景噪声帧的信噪比的平均值snrn时,为控制背景噪声帧信噪比的长时滑动平均值snrn_mov更新速率的遗忘因子k取不同的数值。
图14为本发明VAD装置第九实施例的结构示意图,该实施例的VAD装置可用于实现本发明图4所示实施例的VAD方法。该实施例中,波动特征值具体为背景噪声帧的修正分段信噪比MSSNR的长时滑动平均值fluxbgd。相应的,获取模块601包括接收单元731、判决单元733、第二划分处理单元761、第二计算单元762、第三计算单元763、修正单元764、第七获取单元765与第四计算单元766。其中,接收单元731用于接收输入信号的当前帧。判决单元733用于根据VAD的判决准则,判决接收单元731接收到的输入信号的当前帧是否为背景噪声帧。第二划分处理单元761用于根据判决单元733的判决结果,在当前帧为背景噪声帧时,将当前背景噪声帧的FFT频谱划分为H个子带,H为大于1的整数,并根据公式分别计算i个子带的能量Eband(i),i=0,1,......,H-1。其中,l(i)与h(i)分别表示第i个子带中频率最低的FFT频点与频率最高的FFT频点,Sj表示FFT频谱上第j个频点的能量,Eband_old(i)表示前一个背景噪声帧中第i个子带的能量。P为预设常数,具体可以根据经验值设置。第二计算单元762用于根据公式使用前一个背景噪声帧中第i个子带的能量更新背景噪声的长时滑动平均值其中,q为预设常数,具体可以根据经验值设置。第三计算单元763用于根据公式分别计算当前背景噪声帧中第i个子带的信噪比snr(i)。修正单元764用于根据公式分别对当前背景噪声帧中第i个子带的信噪比snr(i)进行修正,其中,msnr(i)为修正后第i个子带的信噪比,C1与C2为大于零的预设实常数,第一集合与第二集合中数值的构成集合[0,H-1]。第七获取单元765用于根据公式获取当前背景噪声帧的修正分段信噪比MSSNR。第四计算单元766用于根据公式fluxbgd=r·fluxbgd+(1-r)·MSSNR,计算当前背景噪声帧的修正分段信噪比MSSNR的长时滑动平均值fluxbgd,其中,r为用于控制当前背景噪声帧的修正分段信噪比MSSNR的长时滑动平均值fluxbgd更新速率的遗忘系数。
图15为本发明VAD装置第十实施例的结构示意图,与图14所示的实施例相比,该实施例的VAD装置中,在VAD的判决准则相关参数包括主判决门限时,调整模块602包括第一存储单元701、第一查询单元702、第一获取单元703与第一更新单元704。其中,第一存储单元701用于存储波动特征值与判决门限噪声波动偏移量thr_bias_noise之间的对应关系。第一查询单元702用于从第一存储单元701中查询波动特征值与判决门限噪声波动偏移量thr_bias_noise之间的对应关系,获取与背景噪声的波动特征值对应的判决门限噪声波动偏移量thr_bias_noise,其中,判决门限噪声波动偏移量thr_bias_noise用于表示不同波动大小的背景噪声下门限的偏移值。第一获取单元703用于根据公式vad_thr=f1(snr)+f2(snr)·thr_bias_noise,获取主判决门限vad_thr。其中,f1(snr)为当前背景噪声帧的信噪比snr对应的基准门限,f2(snr)为当前背景噪声帧的信噪比snr对应的判决门限噪声波动偏移量thr_bias_noise的加权系数。第一更新单元704用于将VAD的判决准则相关参数中的主判决门限更新为第一获取模块703获取到的主判决门限vad_thr。
图16为本发明VAD装置第十一实施例的结构示意图,与图14所示的实施例相比,该实施例的VAD装置中,在VAD的判决准则相关参数包括主判决门限时,调整模块602包括第六存储单元767、第八获取单元768、第六查询单元769与第六更新单元770。其中,第六存储单元767用于存储主判决门限表thr_tbl[],该主判决门限表thr_tbl[]包括波动性级别、信噪比级别与主判决门限vad_thr之间的对应关系。第八获取单元768用于获取第四计算单元766计算出的当前背景噪声帧的修正分段信噪比MSSNR的长时滑动平均值fluxbgd对应的波动性级别flux_idx,以及获取当前背景噪声帧的信噪比snr对应的信噪比级别snr_idx。第六查询单元769用于从第六存储单元767中存储的主判决门限表thr_tbl[]中查询同时与波动性级别flux_idx及信噪比级别snr_idx对应的主判决门限thr_tbl[snr_idx][flux_idx]。第六更新单元770用于将判决准则相关参数中的主判决门限更新为第六查询单元查询到的主判决门限thr_tbl[snr_idx][flux_idx]。
进一步地,在图16所示的VAD装置中,主判决门限表thr_tbl[]具体可以包括波动性级别、信噪比级别、判决倾向与主判决门限vad_thr之间的对应关系。相应的,第八获取单元768还用于获取进行VAD判决的VAD装置当前的工作性能对应的判决倾向op_idx,即:倾向于判决当前帧为语音帧或背景噪声帧。具体地,该VAD装置当前的工作性能可以包括VAD开启后的语音编码质量与VAD对带宽的节省。第六查询单元769具体用于从第六存储单元767中存储的主判决门限表thr_tbl[]中查询同时与波动性级别flux_idx、信噪比级别snr_idx及性能级别op_idx对应的主判决门限vad_thr=thr_tbl[snr_idx][flux_idx][op_idx]。第六更新单元770具体用于将判决准则相关参数中的主判决门限更新为第六查询单元769查询到的主判决门限vad_thr=thr_tbl[snr_idx][flux_idx][op_idx]。
进一步地,在本发明上述各实施例提供的VAD装置中,还可以包括调整模块605,用于根据输入信号中背景噪声的电平,动态调整主判决门限、拖尾长度与拖尾触发条件中的任意一个或多个VAD的判决准则相关参数,如图16所示为其中一个实施例。具体地,可以采用图5所示实施例的流程,来动态调整主判决门限、拖尾长度与拖尾触发条件中的任意一个或多个VAD的判决准则相关参数。
本发明实施例还提供了一种编码器,其具体可以包括本发明图6至图16任意一个实施例提供的VAD装置。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例可以在输入信号为背景噪声时,获取用于表示背景噪声的波动大小的波动特征值,根据该波动特征值对VAD的判决准则相关参数进行自适应调整,并利用自适应调整后的判决准则相关参数,对输入信号进行VAD判决,与现有技术相比,由于VAD的判决准则相关参数可以自适应于背景噪声的波动性,可以在不同类型背景噪声的情况下获得较高的VAD判决性能,提高VAD的判决效率与判决准确率,从而提高有限的信道带宽资源的利用率。
最后所应说明的是:以上实施例仅用以说明本发明的技术方案,而非对本发明作限制性理解。尽管参照上述较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解:其依然可以对本发明的技术方案进行修改或者等同替换,而这种修改或者等同替换并不脱离本发明技术方案的精神和范围。
Claims (36)
1.一种语音激活检测方法,其特征在于,包括:
输入信号为背景噪声时,获取所述背景噪声的波动特征值,该波动特征值用于表示所述背景噪声的波动大小;
根据所述波动特征值,对语音激活检测VAD的判决准则相关参数进行自适应调整;
利用自适应调整后的判决准则相关参数,对所述输入信号进行VAD判决。
2.根据权利要求1所述的方法,其特征在于,所述判决准则相关参数包括:主判决门限、拖尾触发条件、拖尾长度与背景噪声相关长时参数的更新速率中的任意一种或多种。
3.根据权利要求2所述的方法,其特征在于,所述判决准则相关参数包括所述主判决门限时,根据所述波动特征值,对VAD的判决准则相关参数进行自适应调整包括:
查询波动特征值与判决门限噪声波动偏移量thr_bias_noise之间的对应关系,获取与所述背景噪声的波动特征值对应的判决门限噪声波动偏移量thr_bias_noise,所述判决门限噪声波动偏移量thr_bias_noise用于表示不同波动大小的背景噪声下门限的偏移值;
根据公式vad_thr=f1(snr)+f2(snr)·thr_bias_noise,获取主判决门限vad_thr,其中,f1(snr)为当前背景噪声帧的信噪比snr对应的基准门限,f2(snr)为当前背景噪声帧的信噪比snr对应的判决门限噪声波动偏移量thr_bias_noise的加权系数;
将所述判决准则相关参数中的主判决门限更新为获取到的所述主判决门限vad_thr。
4.根据权利要求2所述的方法,其特征在于,所述判决准则相关参数包括所述拖尾触发条件时,根据所述波动特征值,对VAD的判决准则相关参数进行自适应调整包括:
从连续语音帧长度噪声波动映射表burst_cnt_noise_tbl[]中查询与所述背景噪声的波动特征值对应的连续语音帧长度burst_cnt_noise_tbl[波动特征值],从确定语音门限噪声波动偏移表burst_thr_noise_tbl[]中查询与所述背景噪声的波动特征值对应的确定语音门限burst_thr_noise_tbl[波动特征值];
根据公式N=f3(snr)+f4(snr)·burst_cnt_noise_tbl[波动特征值],获取连续语音帧的数量门限M,根据公式burst_thr=f5(snr)+f6(snr)·burst_thr_noise_tbl[波动特征值],获取确定语音帧门限burst_thr,其中,f3(snr)为当前背景噪声帧的信噪比snr对应的基准数量门限,f4(snr)为当前背景噪声帧的信噪比snr对应的连续语音帧长度burst_cnt_noise_tbl[波动特征值]的加权系数,f5(snr)为当前背景噪声帧的信噪比snr对应的基准语音帧门限,f6(snr)为当前背景噪声帧的信噪比snr对应的确定语音门限burst_thr_noise_tbl[波动特征值]的加权系数;
根据获取的所述连续语音帧的数量门限M与所述确定语音帧门限burst_thr更新所述判决准则相关参数中的拖尾触发条件。
5.根据权利要求4所述的方法,其特征在于,所述连续语音帧的数量门限M与所述确定语音帧门限burst_thr随着所述背景噪声的波动特征值的减小而增大。
6.根据权利要求2所述的方法,其特征在于,所述判决准则相关参数包括所述拖尾长度时,根据所述波动特征值,对VAD的判决准则相关参数进行自适应调整包括:
从拖尾长度噪声波动映射表hangover_noise_tbl[]中查询与所述背景噪声的波动特征值对应的拖尾长度hangover_nosie_tbl[波动特征值];
根据公式
hangover_max=f7(snr)+f8(snr)·hangover_nosie_tbl[波动特征值],获取拖尾计数器的重置最大值hangover_max,其中,f7(snr)为当前背景噪声帧的信噪比snr对应的基准重置值,f8(snr)为当前背景噪声帧的信噪比snr对应的拖尾长度hangover_nosie_tbl[波动特征值]的加权系数;
将所述判决准则相关参数中的拖尾长度更新为获取到的所述拖尾计数器的重置最大值hangover_max。
7.根据权利要求6所述的方法,其特征在于,所述拖尾计数器的重置最大值hangover_max随着所述得到的波动特征值的增大而增大。
8.根据权利要求2至7任意一项所述的方法,其特征在于,所述波动特征值具体为白化后背景噪声谱熵的长时滑动平均值hb_noise_mov的量化值idx;
输入信号为背景噪声时,获取所述背景噪声的波动特征值包括:
接收所述输入信号的当前帧;
将所述输入信号的当前帧在频域上划分为N个子带,N为大于1的整数,并分别计算所述N个子带的能量enrg(i),i=0,1,......,N-1;
根据VAD的判决准则,判决所述当前帧是否为背景噪声帧;
在所述当前帧为背景噪声帧时,根据公式
enrg_n(i)=α·enrg_n+(1-α)·enrg(i),计算所述背景噪声帧分别在N个子带上的长时滑动平均能量enrg_n(i),其中,α为用于控制所述背景噪声帧分别在N个子带上的长时滑动平均能量enrg_n(i)更新速率的遗忘系数,enrg_n为所述背景噪声帧的能量;
根据公式enrg_w(i)=enrg(i)/enrg_n(i),对当前背景噪声帧的频谱进行白化,得到白化后背景噪声在第i个子带上的能量enrg_w(i);
根据公式hb_noise_mov=β·hb_noise_mov+(1-β)·hb,获取所述白化后背景噪声谱熵的长时滑动平均值hb_noise_mov,其中,β为控制所述白化后背景噪声谱熵的长时滑动平均值hb_noise_mov更新速率的遗忘因子;
根据公式idx=|(hb_noise_mov-A)/B|,对所述白化后背景噪声谱熵的长时滑动平均值hb_noise_mov进行量化,得到量化值idx,其中,A、B分别为预设数值。
9.根据权利要求8所述的方法,其特征在于,所述背景噪声相关长时参数的更新速率包括所述背景噪声的长时滑动平均能量enrg_n(i)的更新速率;
根据所述波动特征值,对VAD的判决准则相关参数进行自适应调整包括:查询背景噪声更新速率表alpha_tbl[],获取与所述背景噪声的量化值idx对应的所述长时滑动平均能量enrg_n(i)更新速率的遗忘系数α;以获取到的所述遗忘系数α作为控制所述背景噪声帧分别在N个子带上的长时滑动平均能量enrg_n(i)更新速率的遗忘系数;和/或
所述背景噪声相关长时参数的更新速率包括白化后背景噪声谱熵的长时滑动平均值hb_noise_mov的更新速率;
根据所述波动特征值,对VAD的判决准则相关参数进行自适应调整包括:查询背景噪声波动性更新速率表beta_tbl[],获取与所述背景噪声的量化值idx对应的所述长时滑动平均值hb_noise_mov更新速率的遗忘因子β;以获取到的所述遗忘因子β作为控制所述白化后背景噪声谱熵的长时滑动平均值hb_noise_mov更新速率的遗忘因子。
10.根据权利要求9所述的方法,其特征在于,所述长时滑动平均能量enrg_n(i)更新速率的遗忘系数α随着所述得到的波动特征值的减小而减小;所述长时滑动平均值hb_noise_mov更新速率的遗忘因子β随着所述得到的波动特征值的减小而增大。
11.根据权利要求8所述的方法,其特征在于,还包括:
根据输入信号中背景噪声的电平,动态调整所述主判决门限、所述拖尾长度与所述拖尾触发条件中的任意一个或多个判决准则相关参数。
12.根据权利要求2至7任意一项所述的方法,其特征在于,所述波动特征值具体为背景噪声帧信噪比的长时滑动平均值SNRn_mov;
输入信号为背景噪声时,获取所述背景噪声的波动特征值包括:
接收所述输入信号的当前帧;
根据VAD的判决准则,判决所述当前帧是否为背景噪声帧;
在所述当前帧为背景噪声帧时,根据公式
snrn_mov=k·snrn_mov+(1-k)·snr,获取背景噪声帧信噪比的长时滑动平均值snrn_mov,其中,snr为当前背景噪声帧的信噪比,snrn为输入信号中,包括当前背景噪声帧在内的最后n个背景噪声帧的信噪比的平均值,k为控制所述背景噪声帧信噪比的长时滑动平均值snrn_mov更新速率的遗忘因子。
13.根据权利要求12所述的方法,其特征在于,所述背景噪声相关长时参数的更新速率包括所述长时滑动平均值snrn_mov的更新速率。
14.根据权利要求13所述的方法,其特征在于,根据所述波动特征值,对VAD的判决准则相关参数进行自适应调整包括:在当前背景噪声帧的信噪比snr大于最后n个背景噪声帧的信噪比的平均值snrn时,和在当前背景噪声帧的信噪比snr小于最后n个背景噪声帧的信噪比的平均值snrn时,为控制所述背景噪声帧信噪比的长时滑动平均值snrn_mov更新速率的遗忘因子k取不同的数值。
15.根据权利要求14所述的方法,其特征在于,还包括:
根据输入信号中背景噪声的电平,动态调整所述主判决门限、所述拖尾长度与所述拖尾触发条件中的任意一个或多个判决准则相关参数。
16.根据权利要求2、4、5、6或7所述的方法,其特征在于,所述波动特征值具体为背景噪声帧的修正分段信噪比MSSNR的长时滑动平均值fluxbgd;
输入信号为背景噪声时,获取所述背景噪声的波动特征值包括:
接收所述输入信号的当前帧;
根据VAD的判决准则,判决所述当前帧是否为背景噪声帧;
在所述当前帧为背景噪声帧时,将当前背景噪声帧的快速傅立叶变换FFT频谱划分为H个子带,H为大于1的整数,并根据公式分别计算i个子带的能量Eband(i),i=0,1,......,H-1,其中,l(i)与h(i)分别表示第i个子带中频率最低的FFT频点与频率最高的FFT频点,Sj表示所述FFT频谱上第j个频点的能量,Eband_old(i)表示前一个背景噪声帧中第i个子带的能量。P为预设常数;
根据公式分别对当前背景噪声帧中第i个子带的信噪比snr(i)进行修正,其中,msnr(i)为修正后第i个子带的信噪比,C1与C2为大于零的预设实常数,第一集合与第二集合中数值的构成集合[0,H-1];
根据公式fluxbgd=r·fluxbgd+(1-r)·MSSNR,计算当前背景噪声帧的修正分段信噪比MSSNR的长时滑动平均值fluxbgd,其中,r为用于控制所述当前背景噪声帧的修正分段信噪比MSSNR的长时滑动平均值fluxbgd更新速率的遗忘系数。
17.根据权利要求16所述的方法,其特征在于,在从输入信号中第一帧开始的预设初始期内且MSSNR>fluxbgd时,r=0.955;在从输入信号中第一帧开始的预设初始期内且MSSNR≤fluxbgd时,r=0.995;在从输入信号中第一帧开始的预设初始期之后且MSSNR>fluxbgd时,r=0.997;在从输入信号中第一帧开始的预设初始期之后且MSSNR≤fluxbgd时,r=0.9997。
18.根据权利要求16所述的方法,其特征在于,所述判决准则相关参数包括所述主判决门限时,根据所述波动特征值,对VAD的判决准则相关参数进行自适应调整包括:
查询长时滑动平均值与判决门限噪声波动偏移量thr_bias_noise之间的对应关系,获取与所述背景噪声帧的修正分段信噪比MSSNR的长时滑动平均值fluxbgd对应的判决门限噪声波动偏移量thr_bias_noise,所述判决门限噪声波动偏移量thr_bias_noise用于表示不同波动大小的背景噪声下门限的偏移值;
根据公式vad_thr=f1(snr)+f2(snr)·thr_bias_noise,获取主判决门限vad_thr,其中,f1(snr)为当前背景噪声帧的信噪比snr对应的基准门限,f2(snr)为当前背景噪声帧的信噪比snr对应的判决门限噪声波动偏移量thr_bias_noise的加权系数;
将所述判决准则相关参数中的主判决门限更新为获取到的所述主判决门限vad_thr。
19.根据权利要求16所述的方法,其特征在于,所述判决准则相关参数包括所述主判决门限时,根据所述波动特征值,对VAD的判决准则相关参数进行自适应调整包括:
获取所述当前背景噪声帧的修正分段信噪比MSSNR的长时滑动平均值fluxbgd对应的波动性级别flux_idx,以及所述当前背景噪声帧的信噪比snr对应的信噪比级别snr_idx;
查询同时与所述波动性级别flux_idx及所述信噪比级别snr_idx对应的主判决门限thr_tbl[snr_idx][flux_idx];
将所述判决准则相关参数中的主判决门限更新为所述主判决门限thr_tbl[snr_idx][flux_idx]。
20.根据权利要求19所述的方法,其特征在于,还包括:获取对所述输入信号进行VAD判决的VAD装置当前的工作性能对应的判决倾向op_idx;
查询同时与所述波动性级别flux_idx及所述信噪比级别snr_idx对应的主判决门限thr_tbl[snr_idx][flux_idx]具体为:查询同时与所述波动性级别flux_idx、所述信噪比级别snr_idx及所述判决倾向op_idx对应的主判决门限vad_thr=thr_tbl[snr_idx][flux_idx][op_idx];
将所述判决准则相关参数中的主判决门限更新为所述主判决门限thr_tbl[snr_idx][flux_idx]具体为:将所述判决准则相关参数中的主判决门限更新为所述主判决门限vad_thr=thr_tbl[snr_idx][flux_idx][op_idx]。
21.根据权利要求16所述的方法,其特征在于,还包括:
根据输入信号中背景噪声的电平,动态调整所述主判决门限、所述拖尾长度与所述拖尾触发条件中的任意一个或多个判决准则相关参数。
22.一种语音激活检测装置,其特征在于,包括:
获取模块,用于在输入信号为背景噪声时,获取所述背景噪声的波动特征值,该波动特征值用于表示所述背景噪声的波动大小;
调整模块,用于根据所述波动特征值,对VAD的判决准则相关参数进行自适应调整;
判决模块,用于利用自适应调整后的判决准则相关参数,对所述输入信号进行VAD判决。
23.根据权利要求22所述的装置,其特征在于,还包括:
存储模块,用于存储所述VAD的判决准则相关参数,所述判决准则相关参数包括:主判决门限、拖尾触发条件、拖尾长度与背景噪声相关长时参数的更新速率中的任意一种或多种。
24.根据权利要求23所述的装置,其特征在于,所述判决准则相关参数包括所述主判决门限时,所述调整模块包括:
第一存储单元,用于存储波动特征值与判决门限噪声波动偏移量thr_bias_noise之间的对应关系;
第一查询单元,用于查询波动特征值与判决门限噪声波动偏移量thr_bias_noise之间的对应关系,获取与所述背景噪声的波动特征值对应的判决门限噪声波动偏移量thr_bias_noise,所述判决门限噪声波动偏移量thr_bias_noise用于表示不同波动大小的背景噪声下门限的偏移值;
第一获取单元,用于根据公式
vad_thr=f1(snr)+f2(snr)·thr_bias_noise,获取所述主判决门限vad_thr,其中,f1(snr)为当前背景噪声帧的信噪比snr对应的基准门限,f2(snr)为当前背景噪声帧的信噪比snr对应的判决门限噪声波动偏移量thr_bias_noise的加权系数;
第一更新单元,用于将所述判决准则相关参数中的主判决门限更新为所述第一获取模块获取到的所述主判决门限vad_thr。
25.根据权利要求23所述的装置,其特征在于,所述判决准则相关参数包括所述拖尾触发条件时,所述调整模块包括:
第二存储单元,用于存储连续语音帧长度噪声波动映射表burst_cnt_noise_tbl[]与确定语音门限噪声波动偏移表burst_thr_noise_tbl[],所述连续语音帧长度噪声波动映射表burst cnt noise tbl[]中包括波动特征值与连续语音帧长度之间的对应关系,所述确定语音门限噪声波动偏移表burst_thr_noise tb1[]中包括波动特征值与确定语音门限之间的对应关系;
第二查询单元,用于从连续语音帧长度噪声波动映射表burst_cnt_noise tbl[]中查询与所述背景噪声的波动特征值对应的连续语音帧长度burst_cnt_noise_tbl[波动特征值],从确定语音门限噪声波动偏移表burst_thr_noise_tbl[]中查询与所述背景噪声的波动特征值对应的确定语音门限burst_thr_noise_tbl[波动特征值];
第二获取单元,用于根据公式N=f3(snr)+f4(snr)·burst_cnt_noise_tbl[波动特征值],获取连续语音帧的数量门限M,根据burst_thr=f5(snr)+f6(snr)·burst_thr_noise_tb1[波动特征值],获取确定语音帧门限burst_thr,其中,f3(snr)为当前背景噪声帧的信噪比snr对应的基准数量门限,f4(snr)为当前背景噪声帧的信噪比snr对应的连续语音帧长度burst_cnt_noise_tbl[波动特征值]的加权系数,f5(snr)为当前背景噪声帧的信噪比snr对应的基准语音帧门限,f6(snr)为当前背景噪声帧的信噪比snr对应的确定语音门限burst_thr_noise_tbl[波动特征值]的加权系数;
第二更新单元,用于根据所述第二获取单元获取的所述连续语音帧的数量门限M与所述确定语音帧门限burst_thr更新所述判决准则相关参数中的拖尾触发条件。
26.根据权利要求23所述的装置,其特征在于,所述判决准则相关参数包括所述拖尾长度时,所述调整模块包括:
第三存储单元,用于存储拖尾长度噪声波动映射表hangover_noise_tb1[],该拖尾长度噪声波动映射表hangover_noise_tbl[]中包括波动特征值对应的拖尾长度之间的对应关系;
第三查询单元,用于从拖尾长度噪声波动映射表hangover_noise_tb1[]中查询与所述背景噪声的波动特征值对应的拖尾长度
hangover_nosie_tbl[波动特征值];
第三获取单元,用于根据公式
hangover_max=f7(snr)+f8(snr)·hangover_nosie_tbl[波动特征值],获取拖尾计数器的重置最大值hangover_max,其中,f7(snr)为当前背景噪声帧的信噪比snr对应的基准重置值,f8(snr)为当前背景噪声帧的信噪比snr对应的拖尾长度hangover_nosie_tbl[波动特征值]的加权系数;
第三更新单元,用于将所述判决准则相关参数中的拖尾长度更新为所述第三获取模块获取到的计算出的所述拖尾计数器的重置最大值hangover_max。
27.根据权利要求23所述的装置,其特征在于,所述波动特征值具体为白化后背景噪声谱熵的长时滑动平均值hb_noise_mov的量化值idx;
所述获取模块包括:
接收单元,用于接收所述输入信号的当前帧;
第一划分处理单元,用于将所述输入信号的当前帧在频域上划分为N个子带,N为大于1的整数,并分别计算所述N个子带的能量enrg(i),i=0,1,......,N-1;
判决单元,用于根据VAD的判决准则,判决所述当前帧是否为背景噪声帧;
第一计算单元,用于根据所述判决单元的判决结果,在所述当前帧为背景噪声帧时,根据公式enrg_n(i)=α·enrg_n+(1-α)·enrg(i),计算所述背景噪声帧分别在N个子带上的长时滑动平均能量enrg_n(i),其中,α为用于控制所述背景噪声帧分别在N个子带上的长时滑动平均能量enrg_n(i)更新速率的遗忘系数,enrg_n为所述背景噪声帧的能量;
白化处理单元,用于根据公式enrg_w(i)=enrg(i)/enrg_n(i),对当前背景噪声帧的频谱进行白化,得到白化后背景噪声在第i个子带上的能量enrg_w(i);
第五获取单元,用于根据公式
hb_noise_mov=β·hb_noise_mov+(1-β)·hb,获取所述白化后背景噪声谱熵的长时滑动平均值hb_noise_mov,其中,β为控制所述白化后背景噪声谱熵的长时滑动平均值hb_noise_mov更新速率的遗忘因子;
量化处理单元,用于根据公式idx=|(hb_noise_mov-A)/B|,对所述白化后背景噪声谱熵的长时滑动平均值hb_noise_mov进行量化,得到量化值idx,其中,A、B分别为预设数值。
28.根据权利要求27所述的装置,其特征在于,所述背景噪声相关长时参数的更新速率包括所述背景噪声的长时滑动平均能量enrg_n(i)的更新速率;所述调整模块包括:
第四存储单元,用于存储背景噪声更新速率表alpha_tbl[],该背景噪声更新速率表alpha_tbl[]包括量化值与长时滑动平均能量enrg_n(i)更新速率的遗忘系数之间的对应关系;
第四查询单元,用于查询背景噪声更新速率表alpha_tbl[],获取与所述背景噪声的量化值idx对应的所述长时滑动平均能量enrg_n(i)更新速率的遗忘系数α;
第四更新单元,以所述第四查询单元获取到的所述遗忘系数α作为控制所述背景噪声帧分别在N个子带上的长时滑动平均能量enrg_n(i)更新速率的遗忘系数;和/或
所述背景噪声相关长时参数的更新速率包括白化后背景噪声谱熵的长时滑动平均值hb_noise_mov的更新速率;所述调整模块包括:
第五存储单元,用于存储背景噪声波动性更新速率表beta_tbl[],该背景噪声波动性更新速率表beta_tbl[]包括量化值与长时滑动平均值hb_noise_mov更新速率的遗忘因子之间的对应关系;
第五查询单元,用于查询背景噪声波动性更新速率表beta_tbl[],获取与所述背景噪声的量化值idx对应的所述长时滑动平均值hb_noise_mov更新速率的遗忘因子β;
第五更新单元,用于以所述第五查询单元获取到的所述遗忘因子β作为控制所述白化后背景噪声谱熵的长时滑动平均值hb_noise_mov更新速率的遗忘因子。
29.根据权利要求23所述的装置,其特征在于,所述波动特征值具体为背景噪声帧信噪比的长时滑动平均值snrn_mov;
所述获取模块包括:
接收单元,用于接收所述输入信号的当前帧;
判决单元,用于根据VAD的判决准则,判决所述当前帧是否为背景噪声帧;
第六获取单元,用于根据所述判决单元的判决结果,在所述当前帧为背景噪声帧时,根据公式snrn_mov=k·snrn_mov+(1-k)·snr,获取背景噪声帧信噪比的长时滑动平均值snrn_mov,其中,snr为当前背景噪声帧的信噪比,snrn为输入信号中,包括当前背景噪声帧在内的最后n个背景噪声帧的信噪比的平均值,k为控制所述背景噪声帧信噪比的长时滑动平均值snrn_mov更新速率的遗忘因子。
30.根据权利要求29所述的装置,其特征在于,所述背景噪声相关长时参数的更新速率包括所述长时滑动平均值snrn_mov的更新速率;所述调整模块包括:
控制单元,用于在当前背景噪声帧的信噪比snr大于最后n个背景噪声帧的信噪比的平均值snrn时,和在当前背景噪声帧的信噪比snr小于最后n个背景噪声帧的信噪比的平均值snrn时,为控制所述背景噪声帧信噪比的长时滑动平均值snrn_mov更新速率的遗忘因子k取不同的数值。
31.根据权利要求23所述的装置,其特征在于,所述波动特征值具体为背景噪声帧的修正分段信噪比MSSNR的长时滑动平均值fluxbgd;
所述获取模块包括:
接收单元,用于接收所述输入信号的当前帧;
判决单元,用于根据VAD的判决准则,判决所述当前帧是否为背景噪声帧;
第二划分处理单元,用于根据所述判决单元的判决结果,在所述当前帧为背景噪声帧时,将当前背景噪声帧的快速傅立叶变换FFT频谱划分为H个子带,H为大于1的整数,并根据公式分别计算i个子带的能量Eband(i),i=0,1,......,H-1,其中,l(i)与h(i)分别表示第i个子带中频率最低的FFT频点与频率最高的FFT频点,Sj表示所述FFT频谱上第j个频点的能量,Eband_old(i)表示前一个背景噪声帧中第i个子带的能量。P为预设常数;
修正单元,用于根据公式分别对当前背景噪声帧中第i个子带的信噪比snr(i)进行修正,其中,msnr(i)为修正后第i个子带的信噪比,C1与C2为大于零的预设实常数,第一集合与第二集合中数值的构成集合[0,H-1];
第四计算单元,用于根据公式fluxbgd=r·fluxbgd+(1-r)·MSSNR,计算当前背景噪声帧的修正分段信噪比MSSNR的长时滑动平均值fluxbgd,其中,r为用于控制所述当前背景噪声帧的修正分段信噪比MSSNR的长时滑动平均值fluxbgd更新速率的遗忘系数。
32.根据权利要求31所述的装置,其特征在于,所述判决准则相关参数包括所述主判决门限时,所述调整模块包括:
第一存储单元,用于存储波动特征值与判决门限噪声波动偏移量thr_bias_noise之间的对应关系;
第一查询单元,用于查询波动特征值与判决门限噪声波动偏移量thr_bias_noise之间的对应关系,获取与所述背景噪声的波动特征值对应的判决门限噪声波动偏移量thr_bias_noise,所述判决门限噪声波动偏移量thr_bias_noise用于表示不同波动大小的背景噪声下门限的偏移值;
第一获取单元,用于根据公式
vad_thr=f1(snr)+f2(snr)·thr_bias_noise,获取所述主判决门限vad_thr,其中,f1(snr)为当前背景噪声帧的信噪比snr对应的基准门限,f2(snr)为当前背景噪声帧的信噪比snr对应的判决门限噪声波动偏移量thr_bias_noise的加权系数;
第一更新单元,用于将所述判决准则相关参数中的主判决门限更新为所述第一获取模块获取到的所述主判决门限vad_thr。
33.根据权利要求31所述的装置,其特征在于,所述判决准则相关参数包括所述主判决门限时,所述调整模块包括:
第六存储单元,用于存储主判决门限表thr_tbl[],该主判决门限表thr_tbl[]包括波动性级别、信噪比级别与主判决门限vad_thr之间的对应关系;
第八获取单元,用于获取所述当前背景噪声帧的修正分段信噪比MSSNR的长时滑动平均值fluxbgd对应的波动性级别flux_idx,以及所述当前背景噪声帧的信噪比snr对应的信噪比级别snr_idx;
第六查询单元,用于从所述主判决门限表thr_tbl[]中查询同时与所述波动性级别flux_idx及所述信噪比级别snr_idx对应的主判决门限thr_tbl[snr_idx][flux_idx];
第六更新单元,用于将所述判决准则相关参数中的主判决门限更新为所述第六查询单元查询到的所述主判决门限thr_tbl[snr_idx][flux_idx]。
34.根据权利要求33所述的装置,其特征在于,所述主判决门限表thr_tbl[]具体包括波动性级别、信噪比级别、性能级别与主判决门限vad_thr之间的对应关系;
所述第八获取单元还用于获取进行VAD判决的VAD装置当前的工作性能对应的判决倾向op_idx;
所述第六查询单元具体用于从所述主判决门限表thr_tbl[]中查询同时与所述波动性级别flux_idx、所述信噪比级别snr_idx及所述判决倾向op_idx对应的主判决门限vad_thr=thr_tbl[snr_idx][flux_idx][op_idx];
所述第六更新单元具体用于将所述判决准则相关参数中的主判决门限更新为所述第六查询单元查询到的所述主判决门限vad_thr=thr_tbl[snr_idx][flux_idx][op_idx]。
35.根据权利要求23至34任意一项所述的装置,其特征在于,还包括:
调整模块,用于根据输入信号中背景噪声的电平,动态调整所述主判决门限、所述拖尾长度与所述拖尾触发条件中的任意一个或多个判决准则相关参数。
36.一种编码器,其特征在于,包括权利要求22至35任意一项所述的语音激活检测装置。
Priority Applications (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200910207311A CN102044243B (zh) | 2009-10-15 | 2009-10-15 | 语音激活检测方法与装置、编码器 |
ES16152338.6T ES2684988T3 (es) | 2009-10-15 | 2010-10-14 | Método y aparato para realizar una detección de actividad vocal |
ES10821452.9T ES2609958T3 (es) | 2009-10-15 | 2010-10-14 | Método y aparato para realizar una detección de actividad vocal |
EP16152338.6A EP3142112B1 (en) | 2009-10-15 | 2010-10-14 | Method and apparatus for voice activity detection |
PCT/CN2010/077726 WO2011044842A1 (zh) | 2009-10-15 | 2010-10-14 | 语音激活检测方法与装置、编码器 |
EP10821452.9A EP2346027B1 (en) | 2009-10-15 | 2010-10-14 | Method and apparatus for voice activity detection |
US13/086,099 US7996215B1 (en) | 2009-10-15 | 2011-04-13 | Method and apparatus for voice activity detection, and encoder |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200910207311A CN102044243B (zh) | 2009-10-15 | 2009-10-15 | 语音激活检测方法与装置、编码器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102044243A true CN102044243A (zh) | 2011-05-04 |
CN102044243B CN102044243B (zh) | 2012-08-29 |
Family
ID=43875847
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200910207311A Active CN102044243B (zh) | 2009-10-15 | 2009-10-15 | 语音激活检测方法与装置、编码器 |
Country Status (5)
Country | Link |
---|---|
US (1) | US7996215B1 (zh) |
EP (2) | EP3142112B1 (zh) |
CN (1) | CN102044243B (zh) |
ES (2) | ES2684988T3 (zh) |
WO (1) | WO2011044842A1 (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102592592A (zh) * | 2011-12-30 | 2012-07-18 | 深圳市车音网科技有限公司 | 语音数据的提取方法和装置 |
CN102800322A (zh) * | 2011-05-27 | 2012-11-28 | 中国科学院声学研究所 | 一种噪声功率谱估计与语音活动性检测方法 |
WO2014190641A1 (zh) * | 2013-05-30 | 2014-12-04 | 华为技术有限公司 | 一种媒体数据的传输方法、装置和系统 |
WO2015135344A1 (zh) * | 2014-03-12 | 2015-09-17 | 华为技术有限公司 | 检测音频信号的方法和装置 |
CN105374352A (zh) * | 2014-08-22 | 2016-03-02 | 中国科学院声学研究所 | 一种语音激活方法及系统 |
CN105654947A (zh) * | 2015-12-30 | 2016-06-08 | 中国科学院自动化研究所 | 一种获取交通广播语音中路况信息的方法及系统 |
CN105830152A (zh) * | 2014-01-28 | 2016-08-03 | 三菱电机株式会社 | 集音装置、集音装置的输入信号校正方法以及移动设备信息系统 |
CN106816157A (zh) * | 2015-11-30 | 2017-06-09 | 展讯通信(上海)有限公司 | 语音识别方法及装置 |
CN107358964A (zh) * | 2016-04-07 | 2017-11-17 | 哈曼国际工业有限公司 | 用于检测在变化的环境中的警戒信号的方法 |
CN109119096A (zh) * | 2012-12-25 | 2019-01-01 | 中兴通讯股份有限公司 | 一种vad判决中当前激活音保持帧数的修正方法及装置 |
CN110047519A (zh) * | 2019-04-16 | 2019-07-23 | 广州大学 | 一种语音端点检测方法、装置及设备 |
CN112102818A (zh) * | 2020-11-19 | 2020-12-18 | 成都启英泰伦科技有限公司 | 结合语音活性检测和滑动窗噪声估计的信噪比计算方法 |
CN112270934A (zh) * | 2020-09-29 | 2021-01-26 | 天津联声软件开发有限公司 | 一种nvoc低速窄带声码器的语音数据处理方法 |
CN113330513A (zh) * | 2021-04-20 | 2021-08-31 | 华为技术有限公司 | 语音信息处理方法及设备 |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
BRPI0807703B1 (pt) * | 2007-02-26 | 2020-09-24 | Dolby Laboratories Licensing Corporation | Método para aperfeiçoar a fala em áudio de entretenimento e meio de armazenamento não-transitório legível por computador |
US8374854B2 (en) * | 2008-03-28 | 2013-02-12 | Southern Methodist University | Spatio-temporal speech enhancement technique based on generalized eigenvalue decomposition |
US9838784B2 (en) | 2009-12-02 | 2017-12-05 | Knowles Electronics, Llc | Directional audio capture |
US8831937B2 (en) * | 2010-11-12 | 2014-09-09 | Audience, Inc. | Post-noise suppression processing to improve voice quality |
US8650029B2 (en) * | 2011-02-25 | 2014-02-11 | Microsoft Corporation | Leveraging speech recognizer feedback for voice activity detection |
US20140278393A1 (en) * | 2013-03-12 | 2014-09-18 | Motorola Mobility Llc | Apparatus and Method for Power Efficient Signal Conditioning for a Voice Recognition System |
US9536540B2 (en) | 2013-07-19 | 2017-01-03 | Knowles Electronics, Llc | Speech signal separation and synthesis based on auditory scene analysis and speech modeling |
CN106409313B (zh) | 2013-08-06 | 2021-04-20 | 华为技术有限公司 | 一种音频信号分类方法和装置 |
CN104424956B9 (zh) * | 2013-08-30 | 2022-11-25 | 中兴通讯股份有限公司 | 激活音检测方法和装置 |
US20150378424A1 (en) * | 2014-06-27 | 2015-12-31 | Telefonaktiebolaget L M Ericsson (Publ) | Memory Management Based on Bandwidth Utilization |
WO2016040885A1 (en) | 2014-09-12 | 2016-03-17 | Audience, Inc. | Systems and methods for restoration of speech components |
US9820042B1 (en) | 2016-05-02 | 2017-11-14 | Knowles Electronics, Llc | Stereo separation and directional suppression with omni-directional microphones |
US11189281B2 (en) | 2017-03-17 | 2021-11-30 | Samsung Electronics Co., Ltd. | Method and system for automatically managing operations of electronic device |
US10861484B2 (en) * | 2018-12-10 | 2020-12-08 | Cirrus Logic, Inc. | Methods and systems for speech detection |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5276765A (en) * | 1988-03-11 | 1994-01-04 | British Telecommunications Public Limited Company | Voice activity detection |
US5410632A (en) | 1991-12-23 | 1995-04-25 | Motorola, Inc. | Variable hangover time in a voice activity detector |
US5459814A (en) | 1993-03-26 | 1995-10-17 | Hughes Aircraft Company | Voice activity detector for speech signals in variable background noise |
EP0865187B1 (fr) | 1997-03-11 | 2006-06-28 | Koninklijke Philips Electronics N.V. | "Appareil téléphonique comportant un organe de traitement numérique pour les signaux de parole et procédé mis en oeuvre dans un tel appareil". |
EP0867856B1 (fr) * | 1997-03-25 | 2005-10-26 | Koninklijke Philips Electronics N.V. | "Méthode et dispositif de detection d'activité vocale" |
US6480823B1 (en) * | 1998-03-24 | 2002-11-12 | Matsushita Electric Industrial Co., Ltd. | Speech detection for noisy conditions |
US6424938B1 (en) * | 1998-11-23 | 2002-07-23 | Telefonaktiebolaget L M Ericsson | Complex signal activity detection for improved speech/noise classification of an audio signal |
US6453291B1 (en) * | 1999-02-04 | 2002-09-17 | Motorola, Inc. | Apparatus and method for voice activity detection in a communication system |
US6381570B2 (en) | 1999-02-12 | 2002-04-30 | Telogy Networks, Inc. | Adaptive two-threshold method for discriminating noise from speech in a communication signal |
US7031916B2 (en) * | 2001-06-01 | 2006-04-18 | Texas Instruments Incorporated | Method for converging a G.729 Annex B compliant voice activity detection circuit |
AU2003296196A1 (en) | 2003-03-19 | 2004-10-11 | Institute Of Acoustics, Chinese Academy Of Sciences | Method and system for measuring the velocity of a vessel relative to the bottom using velocity measuring correlation sonar |
CN100456356C (zh) * | 2004-11-12 | 2009-01-28 | 中国科学院声学研究所 | 一种应用于语音识别系统的语音端点检测方法 |
CN101320559B (zh) | 2007-06-07 | 2011-05-18 | 华为技术有限公司 | 一种声音激活检测装置及方法 |
-
2009
- 2009-10-15 CN CN200910207311A patent/CN102044243B/zh active Active
-
2010
- 2010-10-14 ES ES16152338.6T patent/ES2684988T3/es active Active
- 2010-10-14 EP EP16152338.6A patent/EP3142112B1/en active Active
- 2010-10-14 WO PCT/CN2010/077726 patent/WO2011044842A1/zh active Application Filing
- 2010-10-14 ES ES10821452.9T patent/ES2609958T3/es active Active
- 2010-10-14 EP EP10821452.9A patent/EP2346027B1/en active Active
-
2011
- 2011-04-13 US US13/086,099 patent/US7996215B1/en active Active
Cited By (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102800322A (zh) * | 2011-05-27 | 2012-11-28 | 中国科学院声学研究所 | 一种噪声功率谱估计与语音活动性检测方法 |
CN102800322B (zh) * | 2011-05-27 | 2014-03-26 | 中国科学院声学研究所 | 一种噪声功率谱估计与语音活动性检测方法 |
CN102592592A (zh) * | 2011-12-30 | 2012-07-18 | 深圳市车音网科技有限公司 | 语音数据的提取方法和装置 |
CN112992188A (zh) * | 2012-12-25 | 2021-06-18 | 中兴通讯股份有限公司 | 一种激活音检测vad判决中信噪比门限的调整方法及装置 |
CN109119096A (zh) * | 2012-12-25 | 2019-01-01 | 中兴通讯股份有限公司 | 一种vad判决中当前激活音保持帧数的修正方法及装置 |
US9886960B2 (en) | 2013-05-30 | 2018-02-06 | Huawei Technologies Co., Ltd. | Voice signal processing method and device |
WO2014190641A1 (zh) * | 2013-05-30 | 2014-12-04 | 华为技术有限公司 | 一种媒体数据的传输方法、装置和系统 |
CN105225668A (zh) * | 2013-05-30 | 2016-01-06 | 华为技术有限公司 | 信号编码方法及设备 |
US10692509B2 (en) | 2013-05-30 | 2020-06-23 | Huawei Technologies Co., Ltd. | Signal encoding of comfort noise according to deviation degree of silence signal |
CN105225668B (zh) * | 2013-05-30 | 2017-05-10 | 华为技术有限公司 | 信号编码方法及设备 |
CN105830152A (zh) * | 2014-01-28 | 2016-08-03 | 三菱电机株式会社 | 集音装置、集音装置的输入信号校正方法以及移动设备信息系统 |
US10818313B2 (en) | 2014-03-12 | 2020-10-27 | Huawei Technologies Co., Ltd. | Method for detecting audio signal and apparatus |
WO2015135344A1 (zh) * | 2014-03-12 | 2015-09-17 | 华为技术有限公司 | 检测音频信号的方法和装置 |
CN107086043A (zh) * | 2014-03-12 | 2017-08-22 | 华为技术有限公司 | 检测音频信号的方法和装置 |
RU2666337C2 (ru) * | 2014-03-12 | 2018-09-06 | Хуавэй Текнолоджиз Ко., Лтд. | Способ обнаружения звукового сигнала и устройство |
US11417353B2 (en) | 2014-03-12 | 2022-08-16 | Huawei Technologies Co., Ltd. | Method for detecting audio signal and apparatus |
US10304478B2 (en) | 2014-03-12 | 2019-05-28 | Huawei Technologies Co., Ltd. | Method for detecting audio signal and apparatus |
CN105374352A (zh) * | 2014-08-22 | 2016-03-02 | 中国科学院声学研究所 | 一种语音激活方法及系统 |
CN105374352B (zh) * | 2014-08-22 | 2019-06-18 | 中国科学院声学研究所 | 一种语音激活方法及系统 |
CN106816157A (zh) * | 2015-11-30 | 2017-06-09 | 展讯通信(上海)有限公司 | 语音识别方法及装置 |
CN105654947B (zh) * | 2015-12-30 | 2019-12-31 | 中国科学院自动化研究所 | 一种获取交通广播语音中路况信息的方法及系统 |
CN105654947A (zh) * | 2015-12-30 | 2016-06-08 | 中国科学院自动化研究所 | 一种获取交通广播语音中路况信息的方法及系统 |
CN107358964B (zh) * | 2016-04-07 | 2023-08-04 | 哈曼国际工业有限公司 | 用于检测在变化的环境中的警戒信号的方法 |
CN107358964A (zh) * | 2016-04-07 | 2017-11-17 | 哈曼国际工业有限公司 | 用于检测在变化的环境中的警戒信号的方法 |
CN110047519A (zh) * | 2019-04-16 | 2019-07-23 | 广州大学 | 一种语音端点检测方法、装置及设备 |
CN110047519B (zh) * | 2019-04-16 | 2021-08-24 | 广州大学 | 一种语音端点检测方法、装置及设备 |
CN112270934A (zh) * | 2020-09-29 | 2021-01-26 | 天津联声软件开发有限公司 | 一种nvoc低速窄带声码器的语音数据处理方法 |
CN112270934B (zh) * | 2020-09-29 | 2023-03-28 | 天津联声软件开发有限公司 | 一种nvoc低速窄带声码器的语音数据处理方法 |
CN112102818A (zh) * | 2020-11-19 | 2020-12-18 | 成都启英泰伦科技有限公司 | 结合语音活性检测和滑动窗噪声估计的信噪比计算方法 |
CN113330513A (zh) * | 2021-04-20 | 2021-08-31 | 华为技术有限公司 | 语音信息处理方法及设备 |
Also Published As
Publication number | Publication date |
---|---|
EP3142112B1 (en) | 2018-05-23 |
ES2609958T3 (es) | 2017-04-25 |
CN102044243B (zh) | 2012-08-29 |
US20110184734A1 (en) | 2011-07-28 |
EP2346027A1 (en) | 2011-07-20 |
EP2346027B1 (en) | 2016-09-28 |
ES2684988T3 (es) | 2018-10-05 |
EP3142112A1 (en) | 2017-03-15 |
EP2346027A4 (en) | 2012-03-07 |
US7996215B1 (en) | 2011-08-09 |
WO2011044842A1 (zh) | 2011-04-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102044243B (zh) | 语音激活检测方法与装置、编码器 | |
KR101158291B1 (ko) | 음성 활동 검출 디바이스 및 방법 | |
CN102804261B (zh) | 用于语音编码器的方法和语音活动检测器 | |
RU2417456C2 (ru) | Системы, способы и устройства для обнаружения изменения сигналов | |
CN102667927B (zh) | 语音活动检测的方法和背景估计器 | |
KR101721303B1 (ko) | 백그라운드 잡음의 존재에서 음성 액티비티 검출 | |
CN101681619B (zh) | 改进的话音活动性检测器 | |
RU2251750C2 (ru) | Обнаружение активности сложного сигнала для усовершенствованной классификации речи/шума в аудиосигнале | |
CN100573667C (zh) | 用于语音编码和语音识别的噪音抑制器 | |
US8855322B2 (en) | Loudness maximization with constrained loudspeaker excursion | |
AU2010227994B2 (en) | Method and device for audio signal classifacation | |
CN107331386B (zh) | 音频信号的端点检测方法、装置、处理系统及计算机设备 | |
CN1312938A (zh) | 噪声抑制系统和方法 | |
CN103854649A (zh) | 一种变换域的丢帧补偿方法及装置 | |
CN101483416B (zh) | 一种语音的响度均衡处理方法 | |
CN102543092A (zh) | 一种噪声估计方法及装置 | |
RU2237296C2 (ru) | Кодирование речи с функцией изменения комфортного шума для повышения точности воспроизведения | |
CN110600019A (zh) | 基于实时场景下语音信噪比预分级的卷积神经网络计算电路 | |
KR20070084312A (ko) | 적응 시간-기반 잡음 억제 | |
CN103258542A (zh) | 半导体装置和语音通信装置 | |
GB2617366A (en) | Apparatus, methods and computer programs for noise suppression |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |