CN102959625B

CN102959625B - 自适应地检测输入音频信号中的话音活动的方法和设备

Info

Publication number: CN102959625B
Application number: CN201080030027.5A
Authority: CN
Inventors: 王喆
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd; Shanghai Huawei Technologies Co Ltd
Priority date: 2010-12-24
Filing date: 2010-12-24
Publication date: 2014-12-17
Anticipated expiration: 2030-12-24
Also published as: US20130304464A1; US9368112B2; CN102959625B9; DK3493205T3; SI3493205T1; EP2619753A1; ES2860986T3; PL3493205T3; US20160260443A1; HUE053127T2; EP2619753B1; US20180061435A1; US11430461B2; US20210074312A1; EP2619753A4; PT3493205T; EP2743924B1; US10134417B2; EP2743924A1; US20190156854A1

Abstract

本发明提供一种用于自适应地检测由帧组成的输入音频信号中的话音活动的方法和设备，包括以下步骤：至少基于所述所接收的输入音频信号的输入帧而确定所述输入信号的噪声特性(nc)；导出适于所述输入音频信号的所述噪声特性的或根据所述噪声特性而选择的VAD参数(vp)；以及将所述所导出的VAD参数与阈值进行比较，以提供话音活动检测决策。

Description

自适应地检测输入音频信号中的话音活动的方法和设备

技术领域

本发明涉及一种用于自适应地检测由帧组成的输入音频信号中的话音活动的方法和设备，尤其涉及一种使用经非线性处理的子带分段信噪比参数的话音活动检测方法和设备。

背景技术

话音活动检测(VAD)一般来说是一种供检测信号中的话音活动的技术。话音活动检测器广泛用于电信行业中。话音活动检测器的功能是在通信信道中检测例如语音或音乐等有源信号的有无。话音活动检测器可应用于通信网络内，以使所述网络可在不存在有源信号的周期中压缩传输带宽，或者根据指示是否存在有源信号的话音活动检测决策执行其它处理。话音活动检测器可将从输入信号中提取的特征参数或特征参数集与对应的阈值进行比较，并基于比较结果来确定所述输入是否包括有源信号。话音活动检测器的性能在很大程度上取决于所使用的特征参数的选择。已有许多特征参数被提出应用于话音活动检测，例如基于能量的参数、基于谱包络的参数、基于熵的参数或基于较高阶统计的参数。一般来说，基于能量的参数提供良好的话音活动检测性能。近年来，作为一种基于能量的参数的基于子带SNR的参数已广泛用于电信行业中。在基于子带SNR的话音活动检测器中，检测用于输入帧的每一子频带的SNR，并添加所有子带的SNR以提供分段SNR。此分段SNR参数SSNR可与阈值进行比较，以作出话音活动检测决策VADD。所使用的阈值通常为变量，其根据输入信号的长期SNR或背景噪声的电平而自适应。

在最近完成的ITU-T规范G.720.1中，已通过应用非线性处理而改进常规SSNR参数，从而获得经修改的SSNR。还将计算出的经修改的分段SNR与阈值进行比较，所述阈值是从根据输入信号的长期SNR、背景噪声变化以及话音活动检测操作点的阈值表而确定的，其中VAD操作点定义有源检测与无源检测之间的VAD决策的权衡，举例来说，质量优先的操作点将使VAD支持有源信号的决策，且反之亦然。

尽管由G.720.1所使用的经修改的分段SNR参数改进了话音活动检测的性能，但不稳定和低SNR背景环境中的VAD性能仍需要改进。常规话音活动检测器经设计以平衡其在各种背景噪声条件下的性能。因此，常规话音活动检测器在特定条件下尤其是在不稳定和低SNR背景环境中的性能不够理想。

因此，本发明的目的是提供一种具有高VAD性能的用于检测输入音频信号中的话音活动的方法和设备。

发明内容

根据第一，本发明提供一种用于自适应地检测由帧组成的输入音频信号中的话音活动的方法，所述方法包括以下步骤：

(a)至少基于所接收的所接收的输入音频信号的输入帧确定所述输入信号的噪声特性，

(e)确定适于输入音频信号的所述噪声特性的或根据所述噪声特性而选择的VAD参数(vp)；以及

(f)比较所获取的VAD参数及阈值进行，以提供话音活动检测决策。

第一实施方案形式可将基于能量的参数、基于谱包络的参数、基于熵的参数或基于较高阶统计的参数用作VAD参数。

在本发明的第一可实施方案中，本发明提供一种用于自适应性地检测由帧组成的输入音频信号中的话音活动的方法，所述方法包括以下步骤：

(a)所接收的输入音频信号的输入帧至少基于所接收的输入音频信号的输入帧而确定所述输入信号的噪声特性，

(b)将所接收的所述音频信号的输入帧分成若干个子带，

(c)获取所述输入帧的每一子带的SNR，

(d)基于每一子带的所述相应子带的SNR而使用自适应函数来计算子带特定参数，其中，所述自适应函数中的至少一个参数是根据所述噪音特性所选取的，

(e)通过添加子带特定参数而获取作为所述VAD参数的经修改的分段SNR；以及

(f)将所获取的经修改的分段SNR与阈值进行比较，以提供VAD决策。

根据本发明的第一，本发明提供效率更高且质量更好的VAD。VAD的效率是检测噪声特性(例如，背景噪声)的能力，而VAD的质量与检测有源信号(例如，输入音频信号中的语音或音乐)的能力有关。

在本发明的第一可实施方案中，所述所确定输入音频信号的噪声特性由所述输入音频信号的长期SNR形成。

在本发明的第一另一可实施方案中，所述所确定输入音频信号的噪声特性由所述输入音频信号的背景噪声变化形成。

在本发明的第一又一可实施方案中，所述所确定输入音频信号的噪声特性由所述输入音频信号的长期SNR和背景噪声变化的组合形成。

在本发明的第一实施方案中，用于计算子带特定参数的自适应函数由非线性函数形成。

在根据本发明的第一用于自适应地检测输入音频信号中的话音活动的方法的一可实施方案中，通过获取每一子带的信号能量(例如，输入帧的每一子带的信号能量)来获取输入帧的每一子带的SNR。

在根据本发明的第一用于自适应地检测输入音频信号中的话音活动的方法的另一可实施方案中，通过估算每一子带的背景噪声能量来获取所述输入帧的每一子带的SNR。

在根据本发明的第一用于自适应地检测输入音频信号中的话音活动的方法的另一可实施方案中，通过根据相应子带的信号能量和背景噪声能量来计算每一子带的SNR来获取所述输入帧的每一子带的SNR。

在根据本发明的第一用于自适应地检测输入音频信号中的话音活动的方法的另一可实施方案中，所述输入帧的每一子带的信号能量为平滑信号能量，所述平滑信号能量形成所述输入帧与至少一个先前帧之间的加权平均值。

在根据本发明的第一用于自适应地检测输入音频信号中的话音活动的方法的另一可实施方案中，通过如下所示添加子带特定参数来计算所述经修改的SSNR：

mssnr = Σ_{i = 0}^{N} sbsp (i)

其中N为所述输入帧被分成的子频带的数目，

其中sbsp(i)为子带特定参数，子带特定参数是使用自适应函数基于每一子带的子带SNR计算出的。

在根据本发明的第一用于自适应地检测输入音频信号中的话音活动的方法的一可实施方案中，所述修改的分段SNR的计算如下所示：

mssnr = Σ_{i = 0}^{N} {(f (snr (i)) + α)}^{β}

其中snr(i)为输入帧的第i个子带的SNR，

N为所述输入帧被分成的子频带的数目，

(f(snr(i)+α)^β为用以计算子带特定参数sbsp(i)的自适应函数(AF)，且

α、β为所述自适应函数(AF)的两个可配置变量。

在根据本发明的第一用于自适应地检测输入音频信号中的话音活动的方法的一可实施方案中，自适应函数(AF)的第一变量α如下所示取决于输入音频信号的长期SNR(lsnr)：

α＝g(i，lsnr)

其中g为线性或非线性函数，且

其中所述自适应函数(AF)的第二变量β取决于长期SNR(lsnr)和

其中h为非线性函数，且

在根据本发明的第一用于自适应地检测输入音频信号中的话音活动的方法的另一实施方案中，通过以下公式计算自适应函数((AF))的第一变量α：

α＝g(i，lnsr)＝a(i)·lsnr+b(i)

其中a(i)、b(i)为取决于子带索引i的实数，且

通过以下公式计算自适应函数((AF))的第二变量β：

其中β₁＜β₂＜β₃以及β₄和d以及e₁＜e₂为整数或浮点数，且其中lsnr为输入音频信号的长期SNR。

在根据本发明的第一用于自适应地检测输入音频信号中的话音活动的方法的一可实施方案中，将所获取的经修改的分段SNR(mssnr)与阈值(thr)进行比较，所述阈值(thr)被设置为：

thr = \{\begin{matrix} k_{1} & lsnr > e_{2} \\ k_{2} & e_{1} < lsnr \leq e_{2} \\ k_{3} & lsnr \leq e_{1} \end{matrix}

其中k₁＞k₂＞k₃以及e₁＜e₂为整数或浮点数，其中生成话音活动检测决策(VADD)通过下述方式生成：

VADD = \{\begin{matrix} 1 & mssnr > thr \\ 0 & mssnr \leq thr \end{matrix}

其中VADD＝1表示存在话音活动的主动帧，且

VADD＝0表示不存在话音活动的被动帧。

在根据本发明的第一用于自适应地检测话音活动输入音频信号的方法的一可实施方案中，通过以下公式计算自适应函数((AF))的第一变量α：

α＝g(i，lsnr，ε)＝a(i)·lsnr+b(i)+c(ε)

其中a(i)、b(i)为取决于子带索引i的实数，且

c(ε)为取决于估算处得所述输入音频信号的所述背景噪声的波动的实数，且

其中通过以下公式计算所述自适应函数((AF))的第二变量β：

其中且ε为所述估算出的背景噪声的波动，且

d和e₁＜e₂以及p为整数或浮点数。

thr = \{\begin{matrix} q_{1} + r_{1} \cdot Min [\frac{lsnr - v_{1}}{W_{1}}, 1] & lsnr > e_{2} \\ q_{2} + r_{2} Min [\frac{lsnr - v_{2}}{W_{2}}] & e_{1} < lsnr \leq e_{2} \\ q_{3} + r_{3} \cdot Max [Min \frac{lsnr - v_{3}}{W_{3}}, 1] & lsnr \leq e_{1} \end{matrix}

其中q₁、q₂、q₃以及r₁、r₂、r₃以及e₁＜e₂以及

v₁、v₂、v₃以及w₁、w₂、w₃为整数或浮点数，

其中如下所示生成所述话音活动检测决策(VADD)：

VADD = \{\begin{matrix} 1 & mssnr > thr \\ 0 & mssnr \leq thr \end{matrix}

其中VADD＝1表示存在话音活动的主动帧，且

VADD＝0表示不存在话音活动的被动帧。

根据第二，本发明进一步提供一种用于检测由帧组成的输入音频信号中的话音活动的VAD设备，

其中所述VAD设备包括：

基于SNR的VAD参数计算单元，其基于每一子带的所述相应子带SNR(snr)而使用自适应函数(AF)来计算所应用的输入帧的每一子带的SNR(snr)和子带特定参数(sbsp)，并通过添加子带的特定参数而获取经修改的分段SNR(mssnr)；以及

VAD决策生成单元，其通过将所述经修改的分段SNR(mssnr)与阈值进行比较而生成VAD决策(VADD)。

在根据本发明的第二的VAD设备的一可实施方案中，所述设备包括噪声特性确定单元，其所接收的输入音频信号的输入帧至少基于所接收的输入音频信号的输入帧确定输入信号的噪声特性(nc)。

在根据本发明的第二的VAD设备的一可实施方案中，噪声特性确定单元包括长期SNR估算单元，所述长期SNR估算单元计算所述输入音频信号的长期SNR。

在根据本发明的第二的VAD设备的另一可实施方案中，噪声特性确定单元包括背景噪声变化估算单元，所述背景噪声变化估算单元计算所述输入音频信号的背景噪声的稳定性或波动。

在根据本发明的第二的VAD设备的另一可实施方案中，噪声特性确定单元包括长期SNR估算单元和背景噪声变化估算单元，所述长期SNR估算单元计算所述输入音频信号的长期SNR，所述背景噪声变化估算单元计算所述输入音频信号的背景噪声的稳定性或波动。

在根据本发明的第二的VAD设备的另一可实施方案中，根据由所述噪声特性确定单元确定的至少一个噪声特性(nc)来选择自适应函数((AF))。

根据本发明的第三，本发明进一步提供一种音频信号处理装置，其中所述音频信号处理装置包括音频信号处理单元，所述音频信号处理单元用于根据由本发明的第二的VAD设备提供的VAD决策(VADD)来处理音频输入信号。

附图说明

下文参看附图较详细地描述了本发明的不同方面的可实施方案。

图1展示用于说明根据本发明的第一用于自适应地检测输入音频信号中的话音活动的方法的可实施方案的流程图；

图2展示根据本发明的第二的用于检测输入音频信号中的话音活动的VAD设备的框图；

图3展示根据本发明的第三音频信号处理装置的框图。

具体实施方式

图1展示根据本发明的第一用于自适应地检测输入音频信号中的话音活动的方法的可实施方案的流程图。在本发明的第一示范性实施方案的第一步骤S1中，所接收的输入音频信号的输入帧至少基于所接收的输入音频信号的输入帧确定输入音频信号的噪声特性nc。所述输入音频信号包括信号帧。在一可实施方案中，输入信号被分段成具有预定长度(例如20ms)的帧，且被逐帧输入。在其它实施方案中，输入帧的长度可变化。步骤S1中所确定的输入音频信号的噪声特性nc可为由长期SNR估算单元计算出的长期SNR lsnr。在另一可实施方案中，在步骤S1中所确定的噪声特性nc由背景噪声变化估算单元计算出的背景噪声变化形成，所述背景噪声变化估算单元计算输入音频信号的背景噪声bn的稳定性或波动ε。在步骤S1中所确定的噪声特性nc也可能即包含长期SNR lsnr也包括背景噪声变化。

在另一步骤S2中，所接收的输入音频信号的输入帧被分成若干个子频带。

在另一步骤S3中，基于每一子带的子带SNR而使用自适应函数AF来计算子带特定参数sbsp。在一可实施方案中，通过快速傅里叶变换(FFT)为每一输入帧获取功率谱，且所获取的功率谱被分成具有非线性宽度的预定数目的子带。计算每一子带的能量，其中在一可实施方案中，输入帧的每一子带的能量可由平滑能量形成，所述平滑能量是由输入帧与至少一个先前帧之间的同一子带的能量的加权平均值形成的。在本发明的第一可实施方案中，可将子带SNR(snr)作为子频带的经修改的对数SNR而进行计算：

snr (i) = \log_{10} (\frac{E (i)}{E_{n} (i)})

其中E(i)为输入帧的第i个子带的能量，且E_n(i)为背景噪声估算值(background noiseestimate)的第i个子带的能量。可由背景噪声估算单元计算出背景噪声估算值，其中通过对所检测的背景噪声帧中每一子带的能量求移动平均值以计算背景噪声估算值的每一子带的能量。这可表达为：

E_n(i)＝λ·E_n(i)+(1-λ)·E(i)

其中E(i)为经检测后做为背景噪声的帧的第i个子带的能量，λ为通常处于0.9到0.99范围内的“遗忘因子”。

在步骤S3中已获取所述输入帧的每一子带的SNR(snr)之后，在步骤S4中基于相应子带的相应的SNR(snr)而使用自适应函数(AF)来计算子带特定参数(sbsp)。在用于自适应地检测输入音频信号中的话音活动的方法的一可实施方案中，根据所确定输入音频信号的噪声特性而选择自适应函数(AF)的至少一个参数。在步骤S1中所确定的噪声特性nc可包括输入音频信号的长期SNR和/或背景噪声变化。自适应函数AF为非线性函数。

在根据本发明的第一用于自适应地检测输入音频信号中的话音活动的方法的一可实施方案中，在步骤S5中，通过如下所示的添加子带的特定参数(sbsp)而获取经修改的分段SNR(mssnr)：

mssnr = Σ_{i = 0}^{N} sbsp (i)

其中N为由所述输入帧分成的子频带的数目，且

其中sbsp(i)为基于每一子带的子带SNR而使用自适应函数(AF)计算出的子带特定参数。在本发明的第一可实施方案中，所述经修改的分段SNR(mssnr)的计算如下：

mssnr = Σ_{i = 0}^{N} {(f (snr (i)) + α)}^{β}

其中snr(i)为输入帧的第i个子带的SNR，

N为所述输入帧被分成的子频带的数目，且：

AF＝(f(snr(i)+α)^β为用以计算子带特定参数sbsp(i)的自适应函数，

其中α、β为自适应函数(AF)的两个可配置变量。

在本发明的第一可实施方案中，自适应函数(AF)的第一变量α如下所示取决于输入音频信号的长期SNR(lsnr)：

α＝g(i，lsnr)

其中g为线性或非线性函数，且

其中自适应函数((AF))的第二变量β取决于长期SNR(lsnr)和值

其中h为非线性函数，且

在根据本发明的第一可实施方案中，通过以下公式计算自适应函数(AF)的第一变量α：

α＝g(i，lnsr)＝a(i)·lsnr+b(i)

其中a(i)、b(i)为取决于子带索引i的实数，且

通过以下公式计算自适应函数((AF))的第二变量β：

在一具体可实施方案中，β₁＝4、β₂＝10、β₃＝15且β₄＝9。在此具体实施方案中，将d设置为1，且e₁＝8且e₂＝18。

在步骤S5中，通过添加子带的特定参数(sbsp)而获取经修改的分段SNR(msnr)。在用于自适应地检测如图1中所示的输入音频信号中的话音活动的方法的实施方案的另一步骤S6中，将所获取的经修改的分段SNR(mssnr)与阈值thr进行比较，以提供VAD决策(VADD)。

在一可实施方案中，将所获取的经修改的分段SNR(mssnr)与阈值thr进行比较，所述阈值thr被设置为：

thr = \{\begin{matrix} k_{1} & lsnr > e_{2} \\ k_{2} & e_{1} < lsnr \leq e_{2} \\ k_{3} & lsnr \leq e_{1} \end{matrix}

其中k₁＞k₂＞k₃以及e₁＜e₂为整数或浮点数，且其中如下所示生成VAD决策(VADD)：

VADD = \{\begin{matrix} 1 & mssnr > thr \\ 0 & mssnr \leq thr \end{matrix}

其中VADD＝1表示存在话音活动的主动帧，

且VADD＝0表示不存在话音活动的被动帧。

在一可能的具体实施方案中，k₁＝135、k₂＝35、k₃＝10且e₁被设置为8而e₂被设置为18。

在用于自适应地检测输入音频信号中的话音活动的方法的另一可实施方案中，通过以下公式计算自适应函数(AF)的第一变量α：

α＝g(i，lsnr，ε)＝a(i)·lsnr+b(i)+c(ε)

其中a(i)、b(i)为取决于子带索引i的实数，且

c(ε)为取决于输入音频信号的背景噪声bn的估算波动的实数，且

其中通过以下公式计算自适应函数(AF)的第二变量β：

其中和ε估算出的背景噪声bn的波动，且

d和e₁＜e₂以及p为整数或浮点数。

在特定实施方案中，如下所示设置参数：

β₁＝3、β₂＝4、β₃＝7、β₄＝10、β₅＝8、β₆＝15、β₇＝15且

d＝1且e₁＝8且e₂＝18且p＝40。

在根据本发明的第一自适应地检测输入音频信号中的话音活动的方法的一实施方案中，将所获取的经修改的分段SNR(mssnr)与阈值thr进行比较，所述阈值被设置为：

thr = [\begin{matrix} q_{1} + r_{1} \cdot Min [\frac{lsnr - v_{1}}{W_{1}}, 1] lsnr > e_{2} \\ q_{2} + r_{2} Min [\frac{lsnr - v_{2}}{W_{2}}, 1] e_{1} < lsnr \leq e_{2} \\ q_{3} + r_{3} \cdot Max [Min \frac{lsnr - v_{3}}{W_{3}}, 1] lsnr \leq e_{1} \end{matrix}]

其中q₁、q₂、q₃以及r₁、r₂、r₃以及e₁＜e₂以及

v₁、v₂、v₃以及w₁、w₂、w₃为整数或浮点数。

在本发明的第一具体实施方案中，q₁＝20、q₂＝30、q₃＝9且r₁＝30、r₂＝10且r₃＝2。另外，v₁＝18、v₂＝8且v₃＝5且w₁＝8、w₂＝10且w₃＝3。另外，参数e₁、e₂经设置为e₁＝8且e₂＝18。

因此，在一可能的实施例中，不仅执行了背景噪声估算和长期SNR估算，而且还另外执行了背景噪声变化估算，以确定输入音频信号中背景噪声的背景噪声波动ε。

自适应函数(AF)的两个因子α、β调整经修改的分段SNR参数的辨别能力的权衡。不同的权衡表示所述检测更有利于对所接收的帧的主动检测或非主动检测。一般来说，输入音频信号的长期SNR(lsnr)越高，借助于调整自适应函数(AF)的对应的系数α、β而针对主动检测来调整经修改的分段SNR(mssnr)就越有利。

在步骤S6中执行的VAD决策可进一步经历硬释放延迟(hard hang-over)程序。硬释放延迟程序迫使针对若干个帧的VAD决策在步骤S6中所获取的VAD决策从主动变为非主动之后立刻变为主动。

在根据本发明的第一用于自适应地检测输入音频信号中的话音活动的方法的一可实施方案中，分析输入音频信号的背景噪声，并生成表示背景噪声的稳定性或波动(由ε表示)的程度的数字。可通过(例如)以下来计算背景噪声bn的此波动ε：

ε＝ω·ε+(1-ω)·ssnr_n

其中ω为通常介于0.9-0.99之间的遗忘因子，且ssnr_n为在被检测为背景帧的帧的所有子带上的snr(i)的总和乘以(例如)10的因子。

图2展示根据本发明的第二的VAD设备1的框图。所述VAD设备1包括基于SNR的VAD参数计算单元2，所述基于SNR的VAD参数计算单元2接收施加到VAD设备1的入口3的输入音频信号。基于SNR的VAD参数计算单元2基于每一子带的所述相应子带SNR(snr)而使用自适应函数(AF)来计算输入音频信号的输入帧的每一子带的SNR以及子带的特定参数(sbsp)，并通过添加子带的特定参数(sbsp)获取经修改的分段SNR(mssnr)。基于SNR的VAD参数计算单元2将所获取的经修改的分段SNR(mssnr)提供给VAD设备1的VAD决策生成单元4。所述VAD决策生成单元4通过将经修改的分段SNR(mssnr)与阈值(thr)进行比较而生成VAD决策(VADD)。VAD设备1在出口5处输出所生成的VAD决策(VADD)。

在根据本发明的第二的VAD设备1的一可实施方案中，VAD检测设备1进一步包括如图2中所示的噪声特性确定单元6。所述噪声特性确定单元6至少基于提供至到VAD设备1的入口3的所接收的输入音频信号的输入帧而确定输入信号的噪声特性(nc)。在一替代实施方案中，将噪声特性(nc)从外部噪声特性确定实体提供给基于SNR的VAD参数计算单元2。在根据本发明的第二的VAD设备1的一可实施方案中，如图2中所示的噪声特性确定单元6可包括长期SNR估算单元，所述长期SNR估算单元计算输入音频信号的长期SNR(lsnr)。在另一可实施方案中，噪声特性确定单元6还可包括背景噪声变化估算单元，所述背景噪声变化估算单元计算输入音频信号的背景噪声bn的稳定性或波动ε。因此，由噪声特性确定单元6提供的噪声特性(nc)可包括输入音频信号的长期SNR(lsnr)和/或输入音频信号的背景噪声的稳定性或波动(ε)。在一可实施方案中，根据由所述噪声特性确定单元6确定的至少一个噪声特性nc来选择由基于SNR的VAD参数计算单元2所使用的自适应函数(AF)。

图3展示根据本发明的第三音频信号处理装置7的框图，其包括VAD设备1，所述VAD设备1为音频信号处理装置7内的音频信号处理单元8提供VAD决策(VADD)。音频信号处理单元8根据所接收的由本发明的第一VAD设备1生成的VAD决策(VADD)来执行对输入音频信号的音频信号处理。音频信号处理单元8可基于所述VAD决策(VADD)而执行(例如)对输入音频信号的编码。音频信号处理装置7可形成例如移动电话等语音通信装置的一部分。另外，音频信号处理装置7可提供于语音通信系统内，例如，音频会议系统、回声信号消除系统、语音降噪系统、语音识别系统或语音编码系统。在一可实施方案中，由VAD设备1生成的VAD决策(VADD)可控制实体(例如，蜂窝式无线电系统(例如，GSM或LTE或CDMA系统)中的实体)的不连续传输DTX模式。VAD设备1可通过减少共信道干扰来增强例如蜂窝式无线电系统等系统的系统容量。此外，可显著减少蜂窝式无线电系统内的便携式数字装置的功耗。

Claims

1.一种用于自适应地检测由帧组成的输入音频信号中的话音活动的方法，其特征在于:所述方法包括以下步骤：

(a)至少基于所述输入音频信号的输入帧而确定所述输入音频信号的噪声特性；

(b)将所接收的所述音频信号的输入帧分成若干个子带；

(c)获取所述输入帧的每一子带的信噪比；

(d)基于每一子带的对应子带的信噪比使用自适应函数来计算子带特定参数，其中，根据所述输入音频信号的所述噪声特性来选择所述自适应函数的至少一个参数；以及

(e)通过添加所述计算出的子带特定参数获取作为VAD参数的经修改的分段信噪比；

(f)比较所获取的VAD参数及阈值，以提供话音活动检测决策。

2.根据权利要求1所述的方法，其特征在于：

所述输入音频信号的所述噪声特性为长期信噪比和/或背景噪声变化。

3.根据权利要求1所述的方法，其特征在于：

其中所述自适应函数为非线性函数。

4.根据权利要求1或3所述的方法，其特征在于：

通过以下步骤来获取所述输入帧的每一子带的所述信噪比：

获取每一子带的信号能量，

估算每一子带的背景噪声能量，以及

根据相应子带的所述信号能量和所述背景噪声能量来计算每一子带的所述信噪比。

5.根据权利要求4所述的方法，其特征在于：

其中所述输入帧的每一子带的所述信号能量为平滑信号能量，所述平滑信号能量形成所述输入帧与至少一个先前帧之间的加权平均值。

6.根据权利要求1所述的方法，其特征在于：

通过添加子带特定参数来计算所述经修改的分段信噪比具体如下：

mssnr = Σ_{i = 0}^{N} sbsp (i)

其中N为所述输入帧被分成的子频带的数目，

其中sbsp(i)为基于相应子带的所述信噪比而使用自适应函数计算出的子带特定参数。

7.根据权利要求6所述的方法，其特征在于：

通过如下所示的方式来计算所述经修改的分段信噪比：

mssnr = Σ_{i = o}^{N} {(f (snr (i)) + α)}^{β}

其中snr(i)为所述输入帧的第i个子带的信噪比，

N为所述输入帧被分成的子频带的所述数目，

(f(snr(i)+α)^β为用以计算所述子带特定参数的所述自适应函数，且

α、β为所述自适应函数的两个可配置变量。

8.根据权利要求7所述的方法，其特征在于：

其中所述自适应函数的第一变量α如下所示取决于所述输入音频信号的长期信噪比：

α＝g(i,lsnr)

其中g为线性或非线性函数，lsnr为所述输入音频信号的长期信噪比，且

其中所述自适应函数的第二变量β取决于所述长期信噪比和

其中h为非线性函数，且

9.根据权利要求8所述的方法，其特征在于：

其中通过以下公式计算所述自适应函数的所述第一变量α：

α＝g(i,lnsr)＝a(i)·lsnr+b(i)

其中a(i)、b(i)为取决于子带索引i的实数，且

通过以下公式计算所述自适应函数的所述第二变量β：

其中β₁、β₂、β₃、β₄、d、e₁和e₂为整数或浮点数，且β₁<β₂<β₃，e₁<e₂，所述lsnr为所述长期信噪比。

10.根据权利要求9所述的方法，其特征在于：

其中将所述所获取的经修改的分段信噪比与阈值进行比较，所述阈值被设置为：

thr = \{\begin{matrix} k_{1} & lsnr > e_{2} \\ k_{2} & e_{1} < lsnr \leq e_{2} \\ k_{3} & lsnr \leq e_{1} \end{matrix}

其中k₁、k₂、k₃、e₁和e₂为整数或浮点数，且k₁>k₂>k₃，e₁<e₂，其中如下所示方式生成所述话音活动检测决策VADD：

VADD = \{\begin{matrix} 1 & mssnr > thr \\ 0 & mssnr \leq thr \end{matrix}

其中VADD＝1表示存在话音活动的主动帧，

且VADD＝0表示不存在话音活动的被动帧。

11.根据权利要求8所述的方法，其特征在于：

其中通过以下公式计算所述自适应函数的所述第一变量α

α＝g(i,lsnr,ε)＝a(i)·lsnr+b(i)+c(ε)

其中a(i)、b(i)为取决于子带索引i的实数，且

c(ε)为取决于所述输入音频信号的背景噪声的估算波动的实数，且

其中通过以下公式计算所述自适应函数的所述第二变量β：

其中且ε为所述背景噪声的所述估算波动，且

d、e₁、e₂和p为整数或浮点数，且e₁<e₂，β₁＝3、β₂＝4、β₃＝7、β₄＝10、β₅＝8、β₆＝15、β₇＝15。

12.根据权利要求11所述的方法，其特征在于：

thr = \{\begin{matrix} q_{1} + r_{1} \cdot Min [\frac{lsnr - v_{1}}{W_{1}}, 1] lsnr > e_{2} \\ q_{2} + r_{2} Min [\frac{lsnr - v_{2}}{W_{2}}, 1] e_{1} < lsnr \leq e_{2} \\ q_{3} + r_{3} \cdot Max [Min \frac{lsnr - v_{3}}{W_{3}}, 1] lsnr \leq e_{1} \end{matrix}

其中q₁、q₂、q₃、r₁、r₂、r₃、e₁、e₂、

v₁、v₂、v₃、W₁、W₂和W₃为整数或浮点数，且e₁<e₂；

其中如下所示生成所述话音活动检测决策VADD：

VADD = \{\begin{matrix} 1 & mssnr > thr \\ 0 & mssnr \leq thr \end{matrix}

其中VADD＝1表示存在话音活动的主动帧，

且VADD＝0表示不存在话音活动的被动帧。

13.一种用于检测由帧组成的输入音频信号中的话音活动的话音活动检测设备，其特征在于：

所述话音活动检测设备包括：

(a)基于信噪比的VAD参数计算单元，其基于每一子带的相应信噪比而使用自适应函数来计算所应用的输入帧的每一子带的所述信噪比和子带特定参数，并通过添加所述子带特定参数而导出经修改的分段信噪比；所述设备包括噪声特性确定单元，所述噪声特性确定单元至少基于所述输入音频信号的输入帧而确定所述输入音频信号的噪声特性，所述自适应函数是根据由所述噪声特性确定单元确定的至少一个噪声特性而选择的；以及(b)话音活动检测决策生成单元，其通过将所述经修改的分段信噪比与阈值进行比较而生成话音活动检测决策。

14.根据权利要求13所述的话音活动检测设备，其特征在于：

所述噪声特性确定单元包括长期信噪比估算单元，所述长期信噪比估算单元计算所述输入音频信号的长期信噪比。

15.根据权利要求13所述的话音活动检测设备，其特征在于：

所述噪声特性确定单元包括背景噪声变化估算单元，所述背景噪声变化估算单元计算所述输入音频信号的所述背景噪声的稳定性或波动。

16.一种音频信号处理装置，其特征在于，所述音频信号处理装置包括音频信号处理单元，所述音频信号处理单元包括根据前述权利要求13到15中任一权利要求所述的话音活动检测设备，并根据根据所述的话音活动检测设备所提供的话音活动检测决策来处理音频输入信号。