CN102959625B - 自适应地检测输入音频信号中的话音活动的方法和设备 - Google Patents

自适应地检测输入音频信号中的话音活动的方法和设备 Download PDF

Info

Publication number
CN102959625B
CN102959625B CN201080030027.5A CN201080030027A CN102959625B CN 102959625 B CN102959625 B CN 102959625B CN 201080030027 A CN201080030027 A CN 201080030027A CN 102959625 B CN102959625 B CN 102959625B
Authority
CN
China
Prior art keywords
signal
audio signal
subband
voice activity
input audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201080030027.5A
Other languages
English (en)
Other versions
CN102959625B9 (zh
CN102959625A (zh
Inventor
王喆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Shanghai Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of CN102959625A publication Critical patent/CN102959625A/zh
Application granted granted Critical
Publication of CN102959625B publication Critical patent/CN102959625B/zh
Publication of CN102959625B9 publication Critical patent/CN102959625B9/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/0308Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • HELECTRICITY
    • H05ELECTRIC TECHNIQUES NOT OTHERWISE PROVIDED FOR
    • H05KPRINTED CIRCUITS; CASINGS OR CONSTRUCTIONAL DETAILS OF ELECTRIC APPARATUS; MANUFACTURE OF ASSEMBLAGES OF ELECTRICAL COMPONENTS
    • H05K999/00PRINTED CIRCUITS; CASINGS OR CONSTRUCTIONAL DETAILS OF ELECTRIC APPARATUS; MANUFACTURE OF ASSEMBLAGES OF ELECTRICAL COMPONENTS dummy group
    • H05K999/99PRINTED CIRCUITS; CASINGS OR CONSTRUCTIONAL DETAILS OF ELECTRIC APPARATUS; MANUFACTURE OF ASSEMBLAGES OF ELECTRICAL COMPONENTS dummy group dummy group
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • G10L2025/786Adaptive threshold

Abstract

本发明提供一种用于自适应地检测由帧组成的输入音频信号中的话音活动的方法和设备,包括以下步骤:至少基于所述所接收的输入音频信号的输入帧而确定所述输入信号的噪声特性(nc);导出适于所述输入音频信号的所述噪声特性的或根据所述噪声特性而选择的VAD参数(vp);以及将所述所导出的VAD参数与阈值进行比较,以提供话音活动检测决策。

Description

自适应地检测输入音频信号中的话音活动的方法和设备
技术领域
本发明涉及一种用于自适应地检测由帧组成的输入音频信号中的话音活动的方法和设备,尤其涉及一种使用经非线性处理的子带分段信噪比参数的话音活动检测方法和设备。
背景技术
话音活动检测(VAD)一般来说是一种供检测信号中的话音活动的技术。话音活动检测器广泛用于电信行业中。话音活动检测器的功能是在通信信道中检测例如语音或音乐等有源信号的有无。话音活动检测器可应用于通信网络内,以使所述网络可在不存在有源信号的周期中压缩传输带宽,或者根据指示是否存在有源信号的话音活动检测决策执行其它处理。话音活动检测器可将从输入信号中提取的特征参数或特征参数集与对应的阈值进行比较,并基于比较结果来确定所述输入是否包括有源信号。话音活动检测器的性能在很大程度上取决于所使用的特征参数的选择。已有许多特征参数被提出应用于话音活动检测,例如基于能量的参数、基于谱包络的参数、基于熵的参数或基于较高阶统计的参数。一般来说,基于能量的参数提供良好的话音活动检测性能。近年来,作为一种基于能量的参数的基于子带SNR的参数已广泛用于电信行业中。在基于子带SNR的话音活动检测器中,检测用于输入帧的每一子频带的SNR,并添加所有子带的SNR以提供分段SNR。此分段SNR参数SSNR可与阈值进行比较,以作出话音活动检测决策VADD。所使用的阈值通常为变量,其根据输入信号的长期SNR或背景噪声的电平而自适应。
在最近完成的ITU-T规范G.720.1中,已通过应用非线性处理而改进常规SSNR参数,从而获得经修改的SSNR。还将计算出的经修改的分段SNR与阈值进行比较,所述阈值是从根据输入信号的长期SNR、背景噪声变化以及话音活动检测操作点的阈值表而确定的,其中VAD操作点定义有源检测与无源检测之间的VAD决策的权衡,举例来说,质量优先的操作点将使VAD支持有源信号的决策,且反之亦然。
尽管由G.720.1所使用的经修改的分段SNR参数改进了话音活动检测的性能,但不稳定和低SNR背景环境中的VAD性能仍需要改进。常规话音活动检测器经设计以平衡其在各种背景噪声条件下的性能。因此,常规话音活动检测器在特定条件下尤其是在不稳定和低SNR背景环境中的性能不够理想。
因此,本发明的目的是提供一种具有高VAD性能的用于检测输入音频信号中的话音活动的方法和设备。
发明内容
根据第一,本发明提供一种用于自适应地检测由帧组成的输入音频信号中的话音活动的方法,所述方法包括以下步骤:
(a)至少基于所接收的所接收的输入音频信号的输入帧确定所述输入信号的噪声特性,
(e)确定适于输入音频信号的所述噪声特性的或根据所述噪声特性而选择的VAD参数(vp);以及
(f)比较所获取的VAD参数及阈值进行,以提供话音活动检测决策。
第一实施方案形式可将基于能量的参数、基于谱包络的参数、基于熵的参数或基于较高阶统计的参数用作VAD参数。
在本发明的第一可实施方案中,本发明提供一种用于自适应性地检测由帧组成的输入音频信号中的话音活动的方法,所述方法包括以下步骤:
(a)所接收的输入音频信号的输入帧至少基于所接收的输入音频信号的输入帧而确定所述输入信号的噪声特性,
(b)将所接收的所述音频信号的输入帧分成若干个子带,
(c)获取所述输入帧的每一子带的SNR,
(d)基于每一子带的所述相应子带的SNR而使用自适应函数来计算子带特定参数,其中,所述自适应函数中的至少一个参数是根据所述噪音特性所选取的,
(e)通过添加子带特定参数而获取作为所述VAD参数的经修改的分段SNR;以及
(f)将所获取的经修改的分段SNR与阈值进行比较,以提供VAD决策。
根据本发明的第一,本发明提供效率更高且质量更好的VAD。VAD的效率是检测噪声特性(例如,背景噪声)的能力,而VAD的质量与检测有源信号(例如,输入音频信号中的语音或音乐)的能力有关。
在本发明的第一可实施方案中,所述所确定输入音频信号的噪声特性由所述输入音频信号的长期SNR形成。
在本发明的第一另一可实施方案中,所述所确定输入音频信号的噪声特性由所述输入音频信号的背景噪声变化形成。
在本发明的第一又一可实施方案中,所述所确定输入音频信号的噪声特性由所述输入音频信号的长期SNR和背景噪声变化的组合形成。
在本发明的第一实施方案中,用于计算子带特定参数的自适应函数由非线性函数形成。
在根据本发明的第一用于自适应地检测输入音频信号中的话音活动的方法的一可实施方案中,通过获取每一子带的信号能量(例如,输入帧的每一子带的信号能量)来获取输入帧的每一子带的SNR。
在根据本发明的第一用于自适应地检测输入音频信号中的话音活动的方法的另一可实施方案中,通过估算每一子带的背景噪声能量来获取所述输入帧的每一子带的SNR。
在根据本发明的第一用于自适应地检测输入音频信号中的话音活动的方法的另一可实施方案中,通过根据相应子带的信号能量和背景噪声能量来计算每一子带的SNR来获取所述输入帧的每一子带的SNR。
在根据本发明的第一用于自适应地检测输入音频信号中的话音活动的方法的另一可实施方案中,所述输入帧的每一子带的信号能量为平滑信号能量,所述平滑信号能量形成所述输入帧与至少一个先前帧之间的加权平均值。
在根据本发明的第一用于自适应地检测输入音频信号中的话音活动的方法的另一可实施方案中,通过如下所示添加子带特定参数来计算所述经修改的SSNR:
mssnr = Σ i = 0 N sbsp ( i )
其中N为所述输入帧被分成的子频带的数目,
其中sbsp(i)为子带特定参数,子带特定参数是使用自适应函数基于每一子带的子带SNR计算出的。
在根据本发明的第一用于自适应地检测输入音频信号中的话音活动的方法的一可实施方案中,所述修改的分段SNR的计算如下所示:
mssnr = Σ i = 0 N ( f ( snr ( i ) ) + α ) β
其中snr(i)为输入帧的第i个子带的SNR,
N为所述输入帧被分成的子频带的数目,
(f(snr(i)+α)β为用以计算子带特定参数sbsp(i)的自适应函数(AF),且
α、β为所述自适应函数(AF)的两个可配置变量。
在根据本发明的第一用于自适应地检测输入音频信号中的话音活动的方法的一可实施方案中,自适应函数(AF)的第一变量α如下所示取决于输入音频信号的长期SNR(lsnr):
α=g(i,lsnr)
其中g为线性或非线性函数,且
其中所述自适应函数(AF)的第二变量β取决于长期SNR(lsnr)和
其中h为非线性函数,且
在根据本发明的第一用于自适应地检测输入音频信号中的话音活动的方法的另一实施方案中,通过以下公式计算自适应函数((AF))的第一变量α:
α=g(i,lnsr)=a(i)·lsnr+b(i)
其中a(i)、b(i)为取决于子带索引i的实数,且
通过以下公式计算自适应函数((AF))的第二变量β:
其中β1<β2<β3以及β4和d以及e1<e2为整数或浮点数,且其中lsnr为输入音频信号的长期SNR。
在根据本发明的第一用于自适应地检测输入音频信号中的话音活动的方法的一可实施方案中,将所获取的经修改的分段SNR(mssnr)与阈值(thr)进行比较,所述阈值(thr)被设置为:
thr = k 1 lsnr > e 2 k 2 e 1 < lsnr &le; e 2 k 3 lsnr &le; e 1
其中k1>k2>k3以及e1<e2为整数或浮点数,其中生成话音活动检测决策(VADD)通过下述方式生成:
VADD = 1 mssnr > thr 0 mssnr &le; thr
其中VADD=1表示存在话音活动的主动帧,且
VADD=0表示不存在话音活动的被动帧。
在根据本发明的第一用于自适应地检测话音活动输入音频信号的方法的一可实施方案中,通过以下公式计算自适应函数((AF))的第一变量α:
α=g(i,lsnr,ε)=a(i)·lsnr+b(i)+c(ε)
其中a(i)、b(i)为取决于子带索引i的实数,且
c(ε)为取决于估算处得所述输入音频信号的所述背景噪声的波动的实数,且
其中通过以下公式计算所述自适应函数((AF))的第二变量β:
其中且ε为所述估算出的背景噪声的波动,且
d和e1<e2以及p为整数或浮点数。
在根据本发明的第一用于自适应地检测输入音频信号中的话音活动的方法的一可实施方案中,将所获取的经修改的分段SNR(mssnr)与阈值(thr)进行比较,所述阈值(thr)被设置为:
thr = q 1 + r 1 &CenterDot; Min [ lsnr - v 1 W 1 , 1 ] lsnr > e 2 q 2 + r 2 Min [ lsnr - v 2 W 2 ] e 1 < lsnr &le; e 2 q 3 + r 3 &CenterDot; Max [ Min lsnr - v 3 W 3 , 1 ] lsnr &le; e 1
其中q1、q2、q3以及r1、r2、r3以及e1<e2以及
v1、v2、v3以及w1、w2、w3为整数或浮点数,
其中如下所示生成所述话音活动检测决策(VADD):
VADD = 1 mssnr > thr 0 mssnr &le; thr
其中VADD=1表示存在话音活动的主动帧,且
VADD=0表示不存在话音活动的被动帧。
根据第二,本发明进一步提供一种用于检测由帧组成的输入音频信号中的话音活动的VAD设备,
其中所述VAD设备包括:
基于SNR的VAD参数计算单元,其基于每一子带的所述相应子带SNR(snr)而使用自适应函数(AF)来计算所应用的输入帧的每一子带的SNR(snr)和子带特定参数(sbsp),并通过添加子带的特定参数而获取经修改的分段SNR(mssnr);以及
VAD决策生成单元,其通过将所述经修改的分段SNR(mssnr)与阈值进行比较而生成VAD决策(VADD)。
在根据本发明的第二的VAD设备的一可实施方案中,所述设备包括噪声特性确定单元,其所接收的输入音频信号的输入帧至少基于所接收的输入音频信号的输入帧确定输入信号的噪声特性(nc)。
在根据本发明的第二的VAD设备的一可实施方案中,噪声特性确定单元包括长期SNR估算单元,所述长期SNR估算单元计算所述输入音频信号的长期SNR。
在根据本发明的第二的VAD设备的另一可实施方案中,噪声特性确定单元包括背景噪声变化估算单元,所述背景噪声变化估算单元计算所述输入音频信号的背景噪声的稳定性或波动。
在根据本发明的第二的VAD设备的另一可实施方案中,噪声特性确定单元包括长期SNR估算单元和背景噪声变化估算单元,所述长期SNR估算单元计算所述输入音频信号的长期SNR,所述背景噪声变化估算单元计算所述输入音频信号的背景噪声的稳定性或波动。
在根据本发明的第二的VAD设备的另一可实施方案中,根据由所述噪声特性确定单元确定的至少一个噪声特性(nc)来选择自适应函数((AF))。
根据本发明的第三,本发明进一步提供一种音频信号处理装置,其中所述音频信号处理装置包括音频信号处理单元,所述音频信号处理单元用于根据由本发明的第二的VAD设备提供的VAD决策(VADD)来处理音频输入信号。
附图说明
下文参看附图较详细地描述了本发明的不同方面的可实施方案。
图1展示用于说明根据本发明的第一用于自适应地检测输入音频信号中的话音活动的方法的可实施方案的流程图;
图2展示根据本发明的第二的用于检测输入音频信号中的话音活动的VAD设备的框图;
图3展示根据本发明的第三音频信号处理装置的框图。
具体实施方式
图1展示根据本发明的第一用于自适应地检测输入音频信号中的话音活动的方法的可实施方案的流程图。在本发明的第一示范性实施方案的第一步骤S1中,所接收的输入音频信号的输入帧至少基于所接收的输入音频信号的输入帧确定输入音频信号的噪声特性nc。所述输入音频信号包括信号帧。在一可实施方案中,输入信号被分段成具有预定长度(例如20ms)的帧,且被逐帧输入。在其它实施方案中,输入帧的长度可变化。步骤S1中所确定的输入音频信号的噪声特性nc可为由长期SNR估算单元计算出的长期SNR lsnr。在另一可实施方案中,在步骤S1中所确定的噪声特性nc由背景噪声变化估算单元计算出的背景噪声变化形成,所述背景噪声变化估算单元计算输入音频信号的背景噪声bn的稳定性或波动ε。在步骤S1中所确定的噪声特性nc也可能即包含长期SNR lsnr也包括背景噪声变化。
在另一步骤S2中,所接收的输入音频信号的输入帧被分成若干个子频带。
在另一步骤S3中,基于每一子带的子带SNR而使用自适应函数AF来计算子带特定参数sbsp。在一可实施方案中,通过快速傅里叶变换(FFT)为每一输入帧获取功率谱,且所获取的功率谱被分成具有非线性宽度的预定数目的子带。计算每一子带的能量,其中在一可实施方案中,输入帧的每一子带的能量可由平滑能量形成,所述平滑能量是由输入帧与至少一个先前帧之间的同一子带的能量的加权平均值形成的。在本发明的第一可实施方案中,可将子带SNR(snr)作为子频带的经修改的对数SNR而进行计算:
snr ( i ) = log 10 ( E ( i ) E n ( i ) )
其中E(i)为输入帧的第i个子带的能量,且En(i)为背景噪声估算值(background noiseestimate)的第i个子带的能量。可由背景噪声估算单元计算出背景噪声估算值,其中通过对所检测的背景噪声帧中每一子带的能量求移动平均值以计算背景噪声估算值的每一子带的能量。这可表达为:
En(i)=λ·En(i)+(1-λ)·E(i)
其中E(i)为经检测后做为背景噪声的帧的第i个子带的能量,λ为通常处于0.9到0.99范围内的“遗忘因子”。
在步骤S3中已获取所述输入帧的每一子带的SNR(snr)之后,在步骤S4中基于相应子带的相应的SNR(snr)而使用自适应函数(AF)来计算子带特定参数(sbsp)。在用于自适应地检测输入音频信号中的话音活动的方法的一可实施方案中,根据所确定输入音频信号的噪声特性而选择自适应函数(AF)的至少一个参数。在步骤S1中所确定的噪声特性nc可包括输入音频信号的长期SNR和/或背景噪声变化。自适应函数AF为非线性函数。
在根据本发明的第一用于自适应地检测输入音频信号中的话音活动的方法的一可实施方案中,在步骤S5中,通过如下所示的添加子带的特定参数(sbsp)而获取经修改的分段SNR(mssnr):
mssnr = &Sigma; i = 0 N sbsp ( i )
其中N为由所述输入帧分成的子频带的数目,且
其中sbsp(i)为基于每一子带的子带SNR而使用自适应函数(AF)计算出的子带特定参数。在本发明的第一可实施方案中,所述经修改的分段SNR(mssnr)的计算如下:
mssnr = &Sigma; i = 0 N ( f ( snr ( i ) ) + &alpha; ) &beta;
其中snr(i)为输入帧的第i个子带的SNR,
N为所述输入帧被分成的子频带的数目,且:
AF=(f(snr(i)+α)β为用以计算子带特定参数sbsp(i)的自适应函数,
其中α、β为自适应函数(AF)的两个可配置变量。
在本发明的第一可实施方案中,自适应函数(AF)的第一变量α如下所示取决于输入音频信号的长期SNR(lsnr):
α=g(i,lsnr)
其中g为线性或非线性函数,且
其中自适应函数((AF))的第二变量β取决于长期SNR(lsnr)和值
其中h为非线性函数,且
在根据本发明的第一可实施方案中,通过以下公式计算自适应函数(AF)的第一变量α:
α=g(i,lnsr)=a(i)·lsnr+b(i)
其中a(i)、b(i)为取决于子带索引i的实数,且
通过以下公式计算自适应函数((AF))的第二变量β:
其中β1<β2<β3以及β4和d以及e1<e2为整数或浮点数,且其中lsnr为输入音频信号的长期SNR。
在一具体可实施方案中,β1=4、β2=10、β3=15且β4=9。在此具体实施方案中,将d设置为1,且e1=8且e2=18。
在步骤S5中,通过添加子带的特定参数(sbsp)而获取经修改的分段SNR(msnr)。在用于自适应地检测如图1中所示的输入音频信号中的话音活动的方法的实施方案的另一步骤S6中,将所获取的经修改的分段SNR(mssnr)与阈值thr进行比较,以提供VAD决策(VADD)。
在一可实施方案中,将所获取的经修改的分段SNR(mssnr)与阈值thr进行比较,所述阈值thr被设置为:
thr = k 1 lsnr > e 2 k 2 e 1 < lsnr &le; e 2 k 3 lsnr &le; e 1
其中k1>k2>k3以及e1<e2为整数或浮点数,且其中如下所示生成VAD决策(VADD):
VADD = 1 mssnr > thr 0 mssnr &le; thr
其中VADD=1表示存在话音活动的主动帧,
且VADD=0表示不存在话音活动的被动帧。
在一可能的具体实施方案中,k1=135、k2=35、k3=10且e1被设置为8而e2被设置为18。
在用于自适应地检测输入音频信号中的话音活动的方法的另一可实施方案中,通过以下公式计算自适应函数(AF)的第一变量α:
α=g(i,lsnr,ε)=a(i)·lsnr+b(i)+c(ε)
其中a(i)、b(i)为取决于子带索引i的实数,且
c(ε)为取决于输入音频信号的背景噪声bn的估算波动的实数,且
其中通过以下公式计算自适应函数(AF)的第二变量β:
其中和ε估算出的背景噪声bn的波动,且
d和e1<e2以及p为整数或浮点数。
在特定实施方案中,如下所示设置参数:
β1=3、β2=4、β3=7、β4=10、β5=8、β6=15、β7=15且
d=1且e1=8且e2=18且p=40。
在根据本发明的第一自适应地检测输入音频信号中的话音活动的方法的一实施方案中,将所获取的经修改的分段SNR(mssnr)与阈值thr进行比较,所述阈值被设置为:
thr = q 1 + r 1 &CenterDot; Min [ lsnr - v 1 W 1 , 1 ] lsnr > e 2 q 2 + r 2 Min [ lsnr - v 2 W 2 , 1 ] e 1 < lsnr &le; e 2 q 3 + r 3 &CenterDot; Max [ Min lsnr - v 3 W 3 , 1 ] lsnr &le; e 1
其中q1、q2、q3以及r1、r2、r3以及e1<e2以及
v1、v2、v3以及w1、w2、w3为整数或浮点数。
在本发明的第一具体实施方案中,q1=20、q2=30、q3=9且r1=30、r2=10且r3=2。另外,v1=18、v2=8且v3=5且w1=8、w2=10且w3=3。另外,参数e1、e2经设置为e1=8且e2=18。
因此,在一可能的实施例中,不仅执行了背景噪声估算和长期SNR估算,而且还另外执行了背景噪声变化估算,以确定输入音频信号中背景噪声的背景噪声波动ε。
自适应函数(AF)的两个因子α、β调整经修改的分段SNR参数的辨别能力的权衡。不同的权衡表示所述检测更有利于对所接收的帧的主动检测或非主动检测。一般来说,输入音频信号的长期SNR(lsnr)越高,借助于调整自适应函数(AF)的对应的系数α、β而针对主动检测来调整经修改的分段SNR(mssnr)就越有利。
在步骤S6中执行的VAD决策可进一步经历硬释放延迟(hard hang-over)程序。硬释放延迟程序迫使针对若干个帧的VAD决策在步骤S6中所获取的VAD决策从主动变为非主动之后立刻变为主动。
在根据本发明的第一用于自适应地检测输入音频信号中的话音活动的方法的一可实施方案中,分析输入音频信号的背景噪声,并生成表示背景噪声的稳定性或波动(由ε表示)的程度的数字。可通过(例如)以下来计算背景噪声bn的此波动ε:
ε=ω·ε+(1-ω)·ssnrn
其中ω为通常介于0.9-0.99之间的遗忘因子,且ssnrn为在被检测为背景帧的帧的所有子带上的snr(i)的总和乘以(例如)10的因子。
图2展示根据本发明的第二的VAD设备1的框图。所述VAD设备1包括基于SNR的VAD参数计算单元2,所述基于SNR的VAD参数计算单元2接收施加到VAD设备1的入口3的输入音频信号。基于SNR的VAD参数计算单元2基于每一子带的所述相应子带SNR(snr)而使用自适应函数(AF)来计算输入音频信号的输入帧的每一子带的SNR以及子带的特定参数(sbsp),并通过添加子带的特定参数(sbsp)获取经修改的分段SNR(mssnr)。基于SNR的VAD参数计算单元2将所获取的经修改的分段SNR(mssnr)提供给VAD设备1的VAD决策生成单元4。所述VAD决策生成单元4通过将经修改的分段SNR(mssnr)与阈值(thr)进行比较而生成VAD决策(VADD)。VAD设备1在出口5处输出所生成的VAD决策(VADD)。
在根据本发明的第二的VAD设备1的一可实施方案中,VAD检测设备1进一步包括如图2中所示的噪声特性确定单元6。所述噪声特性确定单元6至少基于提供至到VAD设备1的入口3的所接收的输入音频信号的输入帧而确定输入信号的噪声特性(nc)。在一替代实施方案中,将噪声特性(nc)从外部噪声特性确定实体提供给基于SNR的VAD参数计算单元2。在根据本发明的第二的VAD设备1的一可实施方案中,如图2中所示的噪声特性确定单元6可包括长期SNR估算单元,所述长期SNR估算单元计算输入音频信号的长期SNR(lsnr)。在另一可实施方案中,噪声特性确定单元6还可包括背景噪声变化估算单元,所述背景噪声变化估算单元计算输入音频信号的背景噪声bn的稳定性或波动ε。因此,由噪声特性确定单元6提供的噪声特性(nc)可包括输入音频信号的长期SNR(lsnr)和/或输入音频信号的背景噪声的稳定性或波动(ε)。在一可实施方案中,根据由所述噪声特性确定单元6确定的至少一个噪声特性nc来选择由基于SNR的VAD参数计算单元2所使用的自适应函数(AF)。
图3展示根据本发明的第三音频信号处理装置7的框图,其包括VAD设备1,所述VAD设备1为音频信号处理装置7内的音频信号处理单元8提供VAD决策(VADD)。音频信号处理单元8根据所接收的由本发明的第一VAD设备1生成的VAD决策(VADD)来执行对输入音频信号的音频信号处理。音频信号处理单元8可基于所述VAD决策(VADD)而执行(例如)对输入音频信号的编码。音频信号处理装置7可形成例如移动电话等语音通信装置的一部分。另外,音频信号处理装置7可提供于语音通信系统内,例如,音频会议系统、回声信号消除系统、语音降噪系统、语音识别系统或语音编码系统。在一可实施方案中,由VAD设备1生成的VAD决策(VADD)可控制实体(例如,蜂窝式无线电系统(例如,GSM或LTE或CDMA系统)中的实体)的不连续传输DTX模式。VAD设备1可通过减少共信道干扰来增强例如蜂窝式无线电系统等系统的系统容量。此外,可显著减少蜂窝式无线电系统内的便携式数字装置的功耗。

Claims (16)

1.一种用于自适应地检测由帧组成的输入音频信号中的话音活动的方法,其特征在于:所述方法包括以下步骤:
(a)至少基于所述输入音频信号的输入帧而确定所述输入音频信号的噪声特性;
(b)将所接收的所述音频信号的输入帧分成若干个子带;
(c)获取所述输入帧的每一子带的信噪比;
(d)基于每一子带的对应子带的信噪比使用自适应函数来计算子带特定参数,其中,根据所述输入音频信号的所述噪声特性来选择所述自适应函数的至少一个参数;以及
(e)通过添加所述计算出的子带特定参数获取作为VAD参数的经修改的分段信噪比;
(f)比较所获取的VAD参数及阈值,以提供话音活动检测决策。
2.根据权利要求1所述的方法,其特征在于:
所述输入音频信号的所述噪声特性为长期信噪比和/或背景噪声变化。
3.根据权利要求1所述的方法,其特征在于:
其中所述自适应函数为非线性函数。
4.根据权利要求1或3所述的方法,其特征在于:
通过以下步骤来获取所述输入帧的每一子带的所述信噪比:
获取每一子带的信号能量,
估算每一子带的背景噪声能量,以及
根据相应子带的所述信号能量和所述背景噪声能量来计算每一子带的所述信噪比。
5.根据权利要求4所述的方法,其特征在于:
其中所述输入帧的每一子带的所述信号能量为平滑信号能量,所述平滑信号能量形成所述输入帧与至少一个先前帧之间的加权平均值。
6.根据权利要求1所述的方法,其特征在于:
通过添加子带特定参数来计算所述经修改的分段信噪比具体如下:
mssnr = &Sigma; i = 0 N sbsp ( i )
其中N为所述输入帧被分成的子频带的数目,
其中sbsp(i)为基于相应子带的所述信噪比而使用自适应函数计算出的子带特定参数。
7.根据权利要求6所述的方法,其特征在于:
通过如下所示的方式来计算所述经修改的分段信噪比:
mssnr = &Sigma; i = o N ( f ( snr ( i ) ) + &alpha; ) &beta;
其中snr(i)为所述输入帧的第i个子带的信噪比,
N为所述输入帧被分成的子频带的所述数目,
(f(snr(i)+α)β为用以计算所述子带特定参数的所述自适应函数,且
α、β为所述自适应函数的两个可配置变量。
8.根据权利要求7所述的方法,其特征在于:
其中所述自适应函数的第一变量α如下所示取决于所述输入音频信号的长期信噪比:
α=g(i,lsnr)
其中g为线性或非线性函数,lsnr为所述输入音频信号的长期信噪比,且
其中所述自适应函数的第二变量β取决于所述长期信噪比和
其中h为非线性函数,且
9.根据权利要求8所述的方法,其特征在于:
其中通过以下公式计算所述自适应函数的所述第一变量α:
α=g(i,lnsr)=a(i)·lsnr+b(i)
其中a(i)、b(i)为取决于子带索引i的实数,且
通过以下公式计算所述自适应函数的所述第二变量β:
其中β1、β2、β3、β4、d、e1和e2为整数或浮点数,且β123,e1<e2,所述lsnr为所述长期信噪比。
10.根据权利要求9所述的方法,其特征在于:
其中将所述所获取的经修改的分段信噪比与阈值进行比较,所述阈值被设置为:
thr = k 1 lsnr > e 2 k 2 e 1 < lsnr &le; e 2 k 3 lsnr &le; e 1
其中k1、k2、k3、e1和e2为整数或浮点数,且k1>k2>k3,e1<e2,其中如下所示方式生成所述话音活动检测决策VADD:
VADD = 1 mssnr > thr 0 mssnr &le; thr
其中VADD=1表示存在话音活动的主动帧,
且VADD=0表示不存在话音活动的被动帧。
11.根据权利要求8所述的方法,其特征在于:
其中通过以下公式计算所述自适应函数的所述第一变量α
α=g(i,lsnr,ε)=a(i)·lsnr+b(i)+c(ε)
其中a(i)、b(i)为取决于子带索引i的实数,且
c(ε)为取决于所述输入音频信号的背景噪声的估算波动的实数,且
其中通过以下公式计算所述自适应函数的所述第二变量β:
其中且ε为所述背景噪声的所述估算波动,且
d、e1、e2和p为整数或浮点数,且e1<e2,β1=3、β2=4、β3=7、β4=10、β5=8、β6=15、β7=15。
12.根据权利要求11所述的方法,其特征在于:
其中将所述所获取的经修改的分段信噪比与阈值进行比较,所述阈值被设置为:
thr = q 1 + r 1 &CenterDot; Min [ lsnr - v 1 W 1 , 1 ] lsnr > e 2 q 2 + r 2 Min [ lsnr - v 2 W 2 , 1 ] e 1 < lsnr &le; e 2 q 3 + r 3 &CenterDot; Max [ Min lsnr - v 3 W 3 , 1 ] lsnr &le; e 1
其中q1、q2、q3、r1、r2、r3、e1、e2
v1、v2、v3、W1、W2和W3为整数或浮点数,且e1<e2
其中如下所示生成所述话音活动检测决策VADD:
VADD = 1 mssnr > thr 0 mssnr &le; thr
其中VADD=1表示存在话音活动的主动帧,
且VADD=0表示不存在话音活动的被动帧。
13.一种用于检测由帧组成的输入音频信号中的话音活动的话音活动检测设备,其特征在于:
所述话音活动检测设备包括:
(a)基于信噪比的VAD参数计算单元,其基于每一子带的相应信噪比而使用自适应函数来计算所应用的输入帧的每一子带的所述信噪比和子带特定参数,并通过添加所述子带特定参数而导出经修改的分段信噪比;所述设备包括噪声特性确定单元,所述噪声特性确定单元至少基于所述输入音频信号的输入帧而确定所述输入音频信号的噪声特性,所述自适应函数是根据由所述噪声特性确定单元确定的至少一个噪声特性而选择的;以及(b)话音活动检测决策生成单元,其通过将所述经修改的分段信噪比与阈值进行比较而生成话音活动检测决策。
14.根据权利要求13所述的话音活动检测设备,其特征在于:
所述噪声特性确定单元包括长期信噪比估算单元,所述长期信噪比估算单元计算所述输入音频信号的长期信噪比。
15.根据权利要求13所述的话音活动检测设备,其特征在于:
所述噪声特性确定单元包括背景噪声变化估算单元,所述背景噪声变化估算单元计算所述输入音频信号的所述背景噪声的稳定性或波动。
16.一种音频信号处理装置,其特征在于,所述音频信号处理装置包括音频信号处理单元,所述音频信号处理单元包括根据前述权利要求13到15中任一权利要求所述的话音活动检测设备,并根据根据所述的话音活动检测设备所提供的话音活动检测决策来处理音频输入信号。
CN201080030027.5A 2010-12-24 2010-12-24 自适应地检测输入音频信号中的话音活动的方法和设备 Active CN102959625B9 (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2010/080227 WO2012083555A1 (en) 2010-12-24 2010-12-24 Method and apparatus for adaptively detecting voice activity in input audio signal

Publications (3)

Publication Number Publication Date
CN102959625A CN102959625A (zh) 2013-03-06
CN102959625B true CN102959625B (zh) 2014-12-17
CN102959625B9 CN102959625B9 (zh) 2017-04-19

Family

ID=46313053

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201080030027.5A Active CN102959625B9 (zh) 2010-12-24 2010-12-24 自适应地检测输入音频信号中的话音活动的方法和设备

Country Status (10)

Country Link
US (5) US9368112B2 (zh)
EP (4) EP3726530A1 (zh)
CN (1) CN102959625B9 (zh)
DK (1) DK3493205T3 (zh)
ES (2) ES2860986T3 (zh)
HU (1) HUE053127T2 (zh)
PL (1) PL3493205T3 (zh)
PT (1) PT3493205T (zh)
SI (1) SI3493205T1 (zh)
WO (1) WO2012083555A1 (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8195454B2 (en) * 2007-02-26 2012-06-05 Dolby Laboratories Licensing Corporation Speech enhancement in entertainment audio
MY178710A (en) * 2012-12-21 2020-10-20 Fraunhofer Ges Forschung Comfort noise addition for modeling background noise at low bit-rates
AU2013366642B2 (en) 2012-12-21 2016-09-22 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Generation of a comfort noise with high spectro-temporal resolution in discontinuous transmission of audio signals
CN104347067B (zh) 2013-08-06 2017-04-12 华为技术有限公司 一种音频信号分类方法和装置
US8990079B1 (en) 2013-12-15 2015-03-24 Zanavox Automatic calibration of command-detection thresholds
CN107086043B (zh) * 2014-03-12 2020-09-08 华为技术有限公司 检测音频信号的方法和装置
CN104036777A (zh) * 2014-05-22 2014-09-10 哈尔滨理工大学 一种语音活动检测方法及装置
EP3176781A4 (en) * 2014-07-28 2017-12-27 Samsung Electronics Co., Ltd. Method and apparatus for packet loss concealment, and decoding method and apparatus employing same
CN105810214B (zh) * 2014-12-31 2019-11-05 展讯通信(上海)有限公司 语音激活检测方法及装置
US9613640B1 (en) 2016-01-14 2017-04-04 Audyssey Laboratories, Inc. Speech/music discrimination
US10339962B2 (en) 2017-04-11 2019-07-02 Texas Instruments Incorporated Methods and apparatus for low cost voice activity detector
CN107393558B (zh) * 2017-07-14 2020-09-11 深圳永顺智信息科技有限公司 语音活动检测方法及装置
EP3432306A1 (en) * 2017-07-18 2019-01-23 Harman Becker Automotive Systems GmbH Speech signal leveling
CN107895573B (zh) * 2017-11-15 2021-08-24 百度在线网络技术(北京)有限公司 用于识别信息的方法及装置
US11430485B2 (en) * 2019-11-19 2022-08-30 Netflix, Inc. Systems and methods for mixing synthetic voice with original audio tracks
EP4128226A1 (en) * 2020-03-27 2023-02-08 Dolby Laboratories Licensing Corp. Automatic leveling of speech content

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10244699A1 (de) * 2002-09-24 2004-04-01 Voice Inter Connect Gmbh Verfahren zur Bestimmung der Sprachaktivität
CN101320559A (zh) * 2007-06-07 2008-12-10 华为技术有限公司 一种声音激活检测装置及方法
CN101379548A (zh) * 2006-02-10 2009-03-04 艾利森电话股份有限公司 语音检测器和用于语音检测器中抑制子频带的方法
EP2113908A1 (en) * 2008-04-30 2009-11-04 QNX Software Systems (Wavemakers), Inc. Robust downlink speech and noise detector
CN101583996A (zh) * 2006-12-30 2009-11-18 摩托罗拉公司 结合多种噪声抑制技术的方法和噪声抑制电路

Family Cites Families (77)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5276765A (en) * 1988-03-11 1994-01-04 British Telecommunications Public Limited Company Voice activity detection
AU633673B2 (en) * 1990-01-18 1993-02-04 Matsushita Electric Industrial Co., Ltd. Signal processing device
US5537509A (en) * 1990-12-06 1996-07-16 Hughes Electronics Comfort noise generation for digital communication systems
US5509102A (en) * 1992-07-01 1996-04-16 Kokusai Electric Co., Ltd. Voice encoder using a voice activity detector
CA2110090C (en) * 1992-11-27 1998-09-15 Toshihiro Hayata Voice encoder
US5450484A (en) * 1993-03-01 1995-09-12 Dialogic Corporation Voice detection
US5459814A (en) * 1993-03-26 1995-10-17 Hughes Aircraft Company Voice activity detector for speech signals in variable background noise
US5659622A (en) * 1995-11-13 1997-08-19 Motorola, Inc. Method and apparatus for suppressing noise in a communication system
FI100840B (fi) * 1995-12-12 1998-02-27 Nokia Mobile Phones Ltd Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin
US5689615A (en) * 1996-01-22 1997-11-18 Rockwell International Corporation Usage of voice activity detection for efficient coding of speech
JP3255584B2 (ja) * 1997-01-20 2002-02-12 ロジック株式会社 有音検知装置および方法
US6104993A (en) * 1997-02-26 2000-08-15 Motorola, Inc. Apparatus and method for rate determination in a communication system
EP0867856B1 (fr) * 1997-03-25 2005-10-26 Koninklijke Philips Electronics N.V. "Méthode et dispositif de detection d'activité vocale"
US6122384A (en) * 1997-09-02 2000-09-19 Qualcomm Inc. Noise suppression system and method
US6023674A (en) * 1998-01-23 2000-02-08 Telefonaktiebolaget L M Ericsson Non-parametric voice activity detection
US6415253B1 (en) * 1998-02-20 2002-07-02 Meta-C Corporation Method and apparatus for enhancing noise-corrupted speech
US6480823B1 (en) * 1998-03-24 2002-11-12 Matsushita Electric Industrial Co., Ltd. Speech detection for noisy conditions
US6088668A (en) * 1998-06-22 2000-07-11 D.S.P.C. Technologies Ltd. Noise suppressor having weighted gain smoothing
US6453289B1 (en) * 1998-07-24 2002-09-17 Hughes Electronics Corporation Method of noise reduction for speech codecs
US20010014857A1 (en) * 1998-08-14 2001-08-16 Zifei Peter Wang A voice activity detector for packet voice network
US6493665B1 (en) * 1998-08-24 2002-12-10 Conexant Systems, Inc. Speech classification and parameter weighting used in codebook search
US6188981B1 (en) * 1998-09-18 2001-02-13 Conexant Systems, Inc. Method and apparatus for detecting voice activity in a speech signal
US6424938B1 (en) * 1998-11-23 2002-07-23 Telefonaktiebolaget L M Ericsson Complex signal activity detection for improved speech/noise classification of an audio signal
FI118359B (fi) * 1999-01-18 2007-10-15 Nokia Corp Menetelmä puheentunnistuksessa ja puheentunnistuslaite ja langaton viestin
US6453291B1 (en) * 1999-02-04 2002-09-17 Motorola, Inc. Apparatus and method for voice activity detection in a communication system
US6324509B1 (en) * 1999-02-08 2001-11-27 Qualcomm Incorporated Method and apparatus for accurate endpointing of speech in the presence of noise
US6381570B2 (en) * 1999-02-12 2002-04-30 Telogy Networks, Inc. Adaptive two-threshold method for discriminating noise from speech in a communication signal
US6556967B1 (en) * 1999-03-12 2003-04-29 The United States Of America As Represented By The National Security Agency Voice activity detector
US6618701B2 (en) * 1999-04-19 2003-09-09 Motorola, Inc. Method and system for noise suppression using external voice activity detection
FR2797343B1 (fr) * 1999-08-04 2001-10-05 Matra Nortel Communications Procede et dispositif de detection d'activite vocale
US6370500B1 (en) * 1999-09-30 2002-04-09 Motorola, Inc. Method and apparatus for non-speech activity reduction of a low bit rate digital voice message
US6366880B1 (en) * 1999-11-30 2002-04-02 Motorola, Inc. Method and apparatus for suppressing acoustic background noise in a communication system by equaliztion of pre-and post-comb-filtered subband spectral energies
AU4323800A (en) * 2000-05-06 2001-11-20 Nanyang Technological University System for noise suppression, transceiver and method for noise suppression
US20030179888A1 (en) * 2002-03-05 2003-09-25 Burnett Gregory C. Voice activity detection (VAD) devices and methods for use with noise suppression systems
US6898566B1 (en) * 2000-08-16 2005-05-24 Mindspeed Technologies, Inc. Using signal to noise ratio of a speech signal to adjust thresholds for extracting speech parameters for coding the speech signal
US6862567B1 (en) * 2000-08-30 2005-03-01 Mindspeed Technologies, Inc. Noise suppression in the frequency domain by adjusting gain according to voicing parameters
US20020116186A1 (en) * 2000-09-09 2002-08-22 Adam Strauss Voice activity detector for integrated telecommunications processing
US6889187B2 (en) * 2000-12-28 2005-05-03 Nortel Networks Limited Method and apparatus for improved voice activity detection in a packet voice network
US7031916B2 (en) * 2001-06-01 2006-04-18 Texas Instruments Incorporated Method for converging a G.729 Annex B compliant voice activity detection circuit
FR2825826B1 (fr) * 2001-06-11 2003-09-12 Cit Alcatel Procede pour detecter l'activite vocale dans un signal, et codeur de signal vocal comportant un dispositif pour la mise en oeuvre de ce procede
US20030212550A1 (en) * 2002-05-10 2003-11-13 Ubale Anil W. Method, apparatus, and system for improving speech quality of voice-over-packets (VOP) systems
US7072828B2 (en) * 2002-05-13 2006-07-04 Avaya Technology Corp. Apparatus and method for improved voice activity detection
US7024353B2 (en) * 2002-08-09 2006-04-04 Motorola, Inc. Distributed speech recognition with back-end voice activity detection apparatus and method
KR100513175B1 (ko) * 2002-12-24 2005-09-07 한국전자통신연구원 복소수 라플라시안 통계모델을 이용한 음성 검출기 및 음성 검출 방법
EP1443498B1 (en) * 2003-01-24 2008-03-19 Sony Ericsson Mobile Communications AB Noise reduction and audio-visual speech activity detection
CA2420129A1 (en) * 2003-02-17 2004-08-17 Catena Networks, Canada, Inc. A method for robustly detecting voice activity
SG119199A1 (en) * 2003-09-30 2006-02-28 Stmicroelectronics Asia Pacfic Voice activity detector
KR20060094078A (ko) * 2003-10-16 2006-08-28 코닌클리즈케 필립스 일렉트로닉스 엔.브이. 음성 동작 검출 장치 및 방법
CA2454296A1 (en) * 2003-12-29 2005-06-29 Nokia Corporation Method and device for speech enhancement in the presence of background noise
JP4587160B2 (ja) * 2004-03-26 2010-11-24 キヤノン株式会社 信号処理装置および方法
US8340309B2 (en) * 2004-08-06 2012-12-25 Aliphcom, Inc. Noise suppressing multi-microphone headset
FI20045315A (fi) * 2004-08-30 2006-03-01 Nokia Corp Ääniaktiivisuuden havaitseminen äänisignaalissa
US7917356B2 (en) * 2004-09-16 2011-03-29 At&T Corporation Operating method for voice activity detection/silence suppression system
WO2006104555A2 (en) * 2005-03-24 2006-10-05 Mindspeed Technologies, Inc. Adaptive noise state update for a voice activity detector
GB2426166B (en) * 2005-05-09 2007-10-17 Toshiba Res Europ Ltd Voice activity detection apparatus and method
US8520861B2 (en) * 2005-05-17 2013-08-27 Qnx Software Systems Limited Signal processing system for tonal noise robustness
KR100745977B1 (ko) * 2005-09-26 2007-08-06 삼성전자주식회사 음성 구간 검출 장치 및 방법
US7844453B2 (en) * 2006-05-12 2010-11-30 Qnx Software Systems Co. Robust noise estimation
DE602007005833D1 (de) * 2006-11-16 2010-05-20 Ibm Sprachaktivitätdetektionssystem und verfahren
US7769585B2 (en) * 2007-04-05 2010-08-03 Avidyne Corporation System and method of voice activity detection in noisy environments
US8321217B2 (en) * 2007-05-22 2012-11-27 Telefonaktiebolaget Lm Ericsson (Publ) Voice activity detector
EP2162880B1 (en) * 2007-06-22 2014-12-24 VoiceAge Corporation Method and device for estimating the tonality of a sound signal
US8954324B2 (en) * 2007-09-28 2015-02-10 Qualcomm Incorporated Multiple microphone voice activity detector
KR101444099B1 (ko) * 2007-11-13 2014-09-26 삼성전자주식회사 음성 구간 검출 방법 및 장치
US20090150144A1 (en) * 2007-12-10 2009-06-11 Qnx Software Systems (Wavemakers), Inc. Robust voice detector for receive-side automatic gain control
JP5505896B2 (ja) * 2008-02-29 2014-05-28 インターナショナル・ビジネス・マシーンズ・コーポレーション 発話区間検出システム、方法及びプログラム
US8131543B1 (en) * 2008-04-14 2012-03-06 Google Inc. Speech detection
US8244528B2 (en) * 2008-04-25 2012-08-14 Nokia Corporation Method and apparatus for voice activity determination
CN102077274B (zh) * 2008-06-30 2013-08-21 杜比实验室特许公司 多麦克风语音活动检测器
JP2013508773A (ja) * 2009-10-19 2013-03-07 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 音声エンコーダの方法およびボイス活動検出器
KR20120091068A (ko) * 2009-10-19 2012-08-17 텔레폰악티에볼라겟엘엠에릭슨(펍) 음성 활성 검출을 위한 검출기 및 방법
JP5712220B2 (ja) * 2009-10-19 2015-05-07 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 音声活動検出のための方法および背景推定器
US8340278B2 (en) * 2009-11-20 2012-12-25 Texas Instruments Incorporated Method and apparatus for cross-talk resistant adaptive noise canceller
US8626498B2 (en) * 2010-02-24 2014-01-07 Qualcomm Incorporated Voice activity detection based on plural voice activity detectors
KR20140026229A (ko) * 2010-04-22 2014-03-05 퀄컴 인코포레이티드 음성 액티비티 검출
US9558755B1 (en) * 2010-05-20 2017-01-31 Knowles Electronics, Llc Noise suppression assisted automatic speech recognition
EP2494545A4 (en) * 2010-12-24 2012-11-21 Huawei Tech Co Ltd METHOD AND DEVICE FOR DETECTING LANGUAGE ACTIVITIES

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10244699A1 (de) * 2002-09-24 2004-04-01 Voice Inter Connect Gmbh Verfahren zur Bestimmung der Sprachaktivität
CN101379548A (zh) * 2006-02-10 2009-03-04 艾利森电话股份有限公司 语音检测器和用于语音检测器中抑制子频带的方法
CN101583996A (zh) * 2006-12-30 2009-11-18 摩托罗拉公司 结合多种噪声抑制技术的方法和噪声抑制电路
CN101320559A (zh) * 2007-06-07 2008-12-10 华为技术有限公司 一种声音激活检测装置及方法
EP2113908A1 (en) * 2008-04-30 2009-11-04 QNX Software Systems (Wavemakers), Inc. Robust downlink speech and noise detector

Also Published As

Publication number Publication date
US20130304464A1 (en) 2013-11-14
US9368112B2 (en) 2016-06-14
CN102959625B9 (zh) 2017-04-19
DK3493205T3 (da) 2021-04-19
SI3493205T1 (sl) 2021-03-31
EP2619753A1 (en) 2013-07-31
ES2860986T3 (es) 2021-10-05
PL3493205T3 (pl) 2021-09-20
US20160260443A1 (en) 2016-09-08
HUE053127T2 (hu) 2021-06-28
EP2619753B1 (en) 2014-05-21
US20180061435A1 (en) 2018-03-01
US11430461B2 (en) 2022-08-30
US20210074312A1 (en) 2021-03-11
EP2619753A4 (en) 2013-08-28
PT3493205T (pt) 2021-02-03
EP2743924B1 (en) 2019-02-20
US10134417B2 (en) 2018-11-20
EP2743924A1 (en) 2014-06-18
US20190156854A1 (en) 2019-05-23
EP3493205A1 (en) 2019-06-05
US10796712B2 (en) 2020-10-06
CN102959625A (zh) 2013-03-06
US9761246B2 (en) 2017-09-12
EP3726530A1 (en) 2020-10-21
ES2489472T3 (es) 2014-09-02
EP3493205B1 (en) 2020-12-23
WO2012083555A1 (en) 2012-06-28

Similar Documents

Publication Publication Date Title
CN102959625B (zh) 自适应地检测输入音频信号中的话音活动的方法和设备
CN102741918B (zh) 用于话音活动检测的方法和设备
Aneeja et al. Single frequency filtering approach for discriminating speech and nonspeech
JP4307557B2 (ja) 音声活性度検出器
CN101010722B (zh) 用于检测语音信号中话音活动的设备和方法
US9099098B2 (en) Voice activity detection in presence of background noise
EP0790599B1 (en) A noise suppressor and method for suppressing background noise in noisy speech, and a mobile station
US8571231B2 (en) Suppressing noise in an audio signal
RU2507608C2 (ru) Устройства и способы для обработки аудио сигнала с целью повышения разборчивости речи, используя функцию выделения нужных характеристик
EP2346027B1 (en) Method and apparatus for voice activity detection
US7146315B2 (en) Multichannel voice detection in adverse environments
CN102971789B (zh) 用于执行话音活动检测的方法和设备
EP3118852B1 (en) Method and device for detecting audio signal
US8744846B2 (en) Procedure for processing noisy speech signals, and apparatus and computer program therefor
Sauert et al. Near end listening enhancement considering thermal limit of mobile phone loudspeakers
CN116052706B (zh) 一种基于神经网络的低复杂度语音增强方法
KR102424795B1 (ko) 음성 구간 검출 방법
Yang et al. Environment-Aware Reconfigurable Noise Suppression
Xie et al. Kurtosis normalization in feature space for robust speaker verification

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CI03 Correction of invention patent

Correction item: Claims

Correct: Correct

False: Error

Number: 51

Page: full text

Volume: 30

CI03 Correction of invention patent
TR01 Transfer of patent right

Effective date of registration: 20230911

Address after: 518129 Bantian HUAWEI headquarters office building, Longgang District, Guangdong, Shenzhen

Patentee after: HUAWEI TECHNOLOGIES Co.,Ltd.

Patentee after: SHANGHAI HUAWEI TECHNOLOGIES CO.,LTD.

Address before: 518129 Bantian HUAWEI headquarters office building, Longgang District, Guangdong, Shenzhen

Patentee before: HUAWEI TECHNOLOGIES Co.,Ltd.

TR01 Transfer of patent right