CN1971709B

CN1971709B - 语音识别系统和汽车导航系统

Info

Publication number: CN1971709B
Application number: CN2006101693648A
Authority: CN
Inventors: 大塚学; 赤堀一郎
Original assignee: Denso Corp
Current assignee: Denso Corp
Priority date: 2004-01-07
Filing date: 2005-01-07
Publication date: 2012-07-04
Anticipated expiration: 2025-01-07
Also published as: JP2005195895A; US8010354B2; JP4333369B2; DE102005000818A1; US20050159945A1; FR2864860B1; CN1971709A; CN1637857B; CN1637857A; FR2864860A1

Abstract

一种性能良好的噪音消除系统，用于从来自麦克风的输入信号中消除与再现多声道声音的音频系统的再现声音相关的噪音分量，其具有：一个音频消除器，用于获取两个声道的音频信号，并使用滤波器系数对其进行卷积处理，从而在自适应滤波器中产生噪音消除信号；一个加法器，用于将麦克风的输入信号和噪音消除信号相加，从输入信号中消除所述噪音分量，并在噪音消除后输出该信号；一个非线性变换器，用于在噪音消除后进行非线性变换；一个滤波器获知单元，用于根据非线性变换后的信号，计算下一次设置的滤波器系数。

Description

语音识别系统和汽车导航系统

本申请是2105年1月7日提交的申请号为2005100038387、名称为“噪声消除系统、语音识别系统以及汽车导航系统”的分案申请。

技术领域

本发明涉及一种用于从麦克风输入的语音信号中消除由音频系统再现的声音的噪音分量的噪音消除系统、一种包含该噪音消除系统的语音识别系统以及一种具有该种语音识别系统的汽车导航系统。

背景技术

在过去，已经知道一种语音识别系统，该语音识别系统利用麦克风来捕获用户语音，将其与作为识别话语(words)预先存储的语音模式进行比较，然后将高匹配识别话语识别为用户所说的话语。例如，可以在汽车导航系统中内置这种语音识别系统。

众所周知，语音识别系统的语音识别率取决于从麦克风输入的语音信号中包含的噪音分量的数量。当在汽车等的车厢中使用车载音频系统时，由于被作为噪音连同用户语音一起被麦克风采集而中断该音频系统的扬声器再现音乐。因此，在过去，采用的办法是：在语音识别时，将音频系统静音，从而防止音乐等被输入到麦克风(例如，参见“Public News Release，‘Five Car AV &Navigation’99SummerModels Released”，[online]，May 18，1999，Fujitsu-Ten，[October 16，2003检索]，互联网地址<URL：链接http://www.fujitsu-ten.co.jp/release/1999/0518.html)。

但是，在具有该种配置的传统系统中，由于在语音识别时需要暂时中断而结束音乐等的再现，因此用户感到不满意的概率就变高。所以，近些年来，已经考虑在语音识别系统中提供一种噪音消除系统，用于获取输入到扬声器的音频信号，据此评估从麦克风获取的语音信号中包含的噪音分量，然后从所述语音信号中消除所述噪音分量。

作为噪音消除系统，一种将最小均方(LMS)算法作为评估噪音分量的方法使用的噪音消除系统已经被人熟知。这类噪音消除系统获取输入到音频系统的扬声器的音频信号，利用自适应滤波器对该音频信号进行滤波，从而产生一个噪音消除信号，该噪音消除信号用于从所述语音信号中消除所述噪音分量，并且，根据该噪音消除信号，消除包含在从麦克风获取的所述语音信号中的噪音分量。

此外，这种噪音消除系统具有一个滤波器获知(learnining)单元，用于根据无噪音语音信号，采用归一化最小均方法(NLMS，也被称为获知识别方法)来改变自适应滤波器的特征值(滤波器系数)。由于反复操作滤波器获知单元，所以利用所述噪音消除信号，可以相应地消除所述语音信号中包含的噪音分量。

对于车载音频系统来说，具有立体声回放功能的音频系统(后面也称之为“立体声音频系统”)已经变得非常普及。所以，在车载噪音消除系统中，优选将由于麦克风采集的音乐等而产生的噪音分量相应地消除。但是，如果只将噪音消除系统的设计改变为一个用于立体声音频系统的设计，就会出现一个问题：即无法将多个声道的全部噪音分量从语音信号中相应消除。

作为立体声音频系统的噪音消除系统的一个配置的实例，可以考虑为每个通道提供一个自适应滤波器和一个滤波器获知单元(例如，参见日本未审查专利公开案(Kokai)号2001-100784，如图25)。在该配置中，根据具有其他声道的残留噪音分量的无噪音语音信号，与这些声道对应的滤波器获知单元更新所述滤波器系数，所以，获知过程彼此相互干扰，并且所述声道的滤波器获知单元从语音信号中错误地获知滤波器系数。因此，这种配置的噪音消除系统无法从语音信号中消除多个声道的全部噪音分量。

针对该问题，日本未审查专利公开案(Kokai)号2001-100785中的语音识别系统被设计为获取输入到音频系统的扬声器的多声道音频信号，将其变换为单声道信号，根据该单声道信号评估噪音分量，然后从该语音信号中消除该噪音分量。

此外，日本未审查专利公开案(Kokai)号10-190848描述了一种噪音回音消除器方法，该噪音回音消除器方法对输入到音频系统的扬声器的不同声道的音频信号进行非线性变换，从而降低用于再现麦克风采集的音频系统声音的声道之间的一致性，由此防止在与所述声道对应的滤波器获知单元中错误地获知滤波器系数。

总结本发明欲解决的问题，日本未审查专利公开案(Kokai)号2001-100785中描述的语音识别系统，根据从所述音频系统获取的音频信号的单声道信号，评估与立体声再现音乐等相关的噪音分量，因此会出现下述问题，即评估误差大，并且无法足够精确地从麦克风的输入信号中消除所述噪音分量。

此外，日本未审查专利公开案(Kokai)号10-190848中描述的音频回音消除器方法，对不同声道的音频信号进行非线性变换，并使用变换后的音频信号来产生来自扬声器的噪音，所以会出现声音质量恶化的问题。因此，如果将该音频回音消除器方法应用于设计为主要用于回放音乐等的音频系统的噪音消除系统，则音乐等的质量就会恶化，在多数情况下，这会引起用户的不满意。

发明内容

本发明的一个目的是提供一种噪音消除系统，用于从再现多声道声音的音频系统获取不同声道的音频信号，且根据所述不同声道的音频信号，从麦克风输入的语音信号中消除与该音频系统的再现声音相关的噪音分量，从而提高消除噪音的性能。

本发明的另一目的是提供一种易用的语音识别系统以及使用此种具有优良噪音消除能力的噪音消除系统的汽车导航系统。

根据本发明的第一个方面，提供了一种噪音消除系统，用于从再现多声道声音的音频系统获取不同声道的音频信号，且从麦克风输入的语音信号中消除与该音频系统的再现声音相关的噪音分量，该噪音消除系统具有一个无噪音语音信号输出单元、一个变换单元以及每个声道的噪音消除信号生成单元。

每个噪音消除信号生成单元都具有一个滤波器元件，用于对从该音频系统获取的其自身声道的音频信号进行滤波。该噪音消除信号生成单元根据预先设置的滤波器系数对所获取的音频信号进行滤波，并从所述语音信号中消除所述噪音分量。

无噪音语音信号输出单元使用由不同声道的噪音消除信号生成单元产生的每个噪音消除信号，消除包含在从麦克风输入的语音信号中的噪音分量，并输出无噪音语音信号。

变换单元被设计来非线性变换由无噪音语音信号输出单元输出的语音信号。每个噪音消除信号生成单元具有一个系数更新元件，用于根据从音频系统获取的其自身声道的音频信号和由变换单元非线性变换后的语音信号，更新在滤波器元件中设置的滤波器系数。

由于如此配置的本发明第一个方面的噪音消除系统非线性变换从无噪音语音信号输出单元输出的无噪音语音信号，并使用该非线性变换后的语音信号，利用与各声道对应的滤波器更新元件，来更新为各声道提供的所述滤波器元件的滤波器系数，所以，所述滤波器更新元件之间不会轻易发生干扰，而在系数更新元件上也不会容易地发生所述滤波器系数的错误获知。

也就是说，各声道的系数更新元件中的滤波器系数获知操作非常容易受到这些声道的噪音分量的影响，而不是其自身。但是，根据本发明的噪音消除系统，由于非线性变换后的语音信号被用于获知所述滤波器系数，所以，这种影响就抑制得比较小。因此，就可以在各系数更新元件中抑制由于其他声道的噪音分量或其他声道的系数更新元件的行为而引起的滤波器系数的错误获知。

因此，根据第一个方面，可以更适合地从语音信号中消除音乐等的噪音分量，其中在该语音信号上叠加有由音频系统在多声道中再现(立体声再现)的音乐等的噪音分量，并且因此提高该噪音消除系统的噪音消除能力。

此外，变换单元可以使用tanh(双曲正切)函数、sign函数或其他非线性函数，用于非线性变换。另外，噪音消除系统也可按照本发明的第二个方面进行具体配置。

在本发明第二个方面的噪音消除系统中，滤波器元件根据下面的公式(1)对预先设置的滤波器系数W[k]以及其自身声道的音频信号X(t)进行卷积处理：

C (t) = Σ_{k = 1}^{K} W [k] \cdot X (t - 1) . . . (1)

从而对音频信号X(t)进行滤波并生成噪音消除信号C(t)。

接着，变换单元将无噪音语音信号输出单元输出的语音信号U(t)作为x＝U(t)代入非线性函数f(x)，以生成非线性变换后的语音信号f(U(t))。另外，系数更新元件基于变换单元产生的非线性变换后的无噪音语音信号f(U(t))、其自身声道的音频信号X(t)和滤波器单元中已经设置的滤波器系数W[k]，根据以下包含预先设定的常数α和β的公式(2)和(3)，计算滤波器系数F[k]：

F [k] = W [k] - \frac{α \cdot f (U (t)) \cdot X (t - k)}{norm + β} . . . (2)

norm = \frac{1}{K} \cdot Σ_{k = 1}^{K} | X (t - k) | . . . (3)

其中，常数K是抽头数，其为等于或大于2的整数，变量t是表示时间的整数变量，且设置滤波器元件中的滤波器系数F[k]，从而更新滤波器系数W[k]。

如同第一个方面一样，根据按照此种方式配置的第二个方面的噪音消除系统，可以更适合地从语音信号中消除由音频系统再现的音乐等的噪音分量，并且由此提高噪音消除系统的噪音消除能力。

本发明第一个和第二个方面的噪音消除系统中的变换单元被配置为使用非线性函数中的tanh函数进行非线性变换。另外，该变换单元也可以使用非线性函数sign函数进行非线性变换。另外，变换单元可以使用非线性函数g(x)进行非线性变换：

g (x) = \{\begin{matrix} 1 & (1 / m \leq x) \\ m \cdot x & (- 1 / m < x < 1 / m) \\ - 1 & (x \leq - / m) \end{matrix} . . . (4)

其中，所述变量m是大于1的正实数。

根据非线性函数的类型，系统的噪音消除性能和系统的变换单元上的处理负载会有所不同，但根据本发明第三个方面的噪音消除系统，使用tanh函数，可以抑制变换单元上的处理负载，且大大提高噪音消除性能。

此外，如果在本发明第四个方面的噪音消除系统中使用sign函数，与本发明第三个方面的噪音消除系统相比，其噪音消除性能下降，但却可以降低变换单元上的处理负载。另外，如果在本发明第五个方面的噪音消除系统中使用函数g(x)，可以降低变换单元上的处理负载，同时获得与本发明第三个方面的噪音消除系统程度相同的噪音消除性能。

此外，本发明第一和第二个方面的噪音消除系统可以使用上述函数之外的其他非线性函数。可以根据已知的独立分量分析(ICA)的发现来选择非线性函数，例如，对于独立分量分析，可参见A.J.Bell和T.J.Sejnowski TJ.的“An information-maximization approach to blindseparation and blind deconvolution”，Neural Computation，7(6)，pp.1129-1159,1995，以及H.Mathis和S.Douglas的“ON OPTIMALAND UNIVERSAL NONLINEARITIES FOR BLIND SIGNALSEPARATION”，Proc.Of Intnl.Conf.On Acoustics，Speech and SignalProcessing(ICASSP)，2001，等。

上面解释了根据本发明的噪音消除系统，但也可以将它们内置在语音识别系统中。根据本发明第六个方面的语音识别系统具有一个本发明第一个方面的噪音消除系统以及一个语音识别单元，该语音识别单元根据从该噪音消除系统中获取的无噪音语音信号识别输入到麦克风的用户语音。

本发明第六个方面的语音识别系统利用具有高噪音消除能力的噪音消除系统，消除语音信号中包含的噪音分量，并使用无噪音语音信号识别输入到麦克风的用户语音，从而与过去相比，大大提高了语音识别率。

在背景技术的系统中，当音频信号作为噪音分量叠加到语音信号上时，语音识别率就会下降，所以在实践中已经采用的是，在语音识别时将音频系统暂时静音，但根据本发明的语音识别系统，可以在不将音频系统静音的情况下准确地识别语音。因此，根据本发明第六个方面，可以消除由于在语音识别时暂时中断音乐等再现而引起的用户不满。

如果使用本发明的噪音消除系统，可以使在播放音乐等的同时识别语音变为可能，但如果在播放音乐等的同时识别语音，会出现几个问题。也就是说，在背景技术中，在语音识别开始时，将音频系统静音，不播放音乐等，或者在播放音乐等时发出“嘟嘟”声，从而告知用户语音识别开始，但如果在播放播放音乐等的同时开始语音识别，即使发出“嘟嘟”声，其也可能会被音乐淹没，导致用户不能注意到。也就是说，在过去，当在播放音乐等的同时开始语音识别时，用户有时发现很难确定语音识别何时开始。

因此，在一个用于在播放音乐等的同时(即，继续通过音频系统再现声音时)进行语音识别的语音识别系统中，优选在语音识别时改变由音频系统再现的声音的音量。

本发明第七个方面的语音识别系统具有：一个噪音消除单元，用于从能再现多声道声音的音频系统中获取不同声道的音频信号，并根据这些声道的音频信号，从麦克风输入的语音信号中消除与音频系统的再现声音相关的噪音分量；一个语音识别单元，用于根据从噪音消除单元获取的无噪音语音信号，识别输入到麦克风的用户语音；以及一个控制单元，用于在从外部输入语音识别开始命令时，使语音信号识别单元工作。所述控制单元将音频系统再现的声音的音量变为一个预定值(0除外)，然后，在音频系统工作时，当输入语音识别开始命令时，使语音识别单元工作。

如此配置的本发明第七个方面的语音识别单元，在语音识别前和后都改变音频系统再现的音乐等的音量，从而告知用户语音识别开始，所以，用户能够通过音量的改变可靠地获知语音识别开始。因此，根据第七个方面，可以消除由于音乐等淹没嘟嘟声而引发的问题。

此外，在调整音量时，可以使用朗白(lombard)效应来使用户大声说话。lombard效应是一种在大噪音环境中升高用户语音音量的现象。

根据本发明第八个方面的语音识别系统具有：一个历史准备单元，用于根据在语音识别单元工作时从噪音消除单元获取的无噪音语音信号，准备与用户语音音量相关的历史信息；以及一个音量确定单元，用于根据历史准备单元准备的历史信息，确定下一次语音识别时音频系统中欲设置的音量。所述语音识别系统的控制单元将音频系统再现的声音的音量改变为由所述音量确定单元确定的音量，然后，当从外部输入语音识别开始命令时，使所述语音识别单元工作。

根据本发明第八个方面的语音识别系统，可以根据历史信息改变音量，从而表现为lombard效应，可以增加具有小声音用户的语音音量，以及可以提高语音识别率。

更具体地说，为了使用lombard效应来提高语音识别率，将所述音量确定单元配置成足以根据历史信息评估用户语音的音量大小，当所评估的值小于预定的评估标准时，将在语音识别时音频系统的再现音量确定为一个大于预定参考值的音量。根据如此配置的本发明第九个方面的语音识别系统，可以提高语音识别率。

此外，如果将本发明的语音识别系统内置于汽车导航系统中，那么对于车辆等的驾驶员来说，在不使用遥控器的情况下准确地控制汽车导航系统就变为可能。因此，根据本发明第十和第十一个方面的汽车导航系统，可以提高系统的可操作性。

附图说明

通过下面结合附图对优选实施例的说明，本发明的这些和其他目的及特征将变得更加清楚，其中：

图1是应用本发明的汽车导航系统的总体配置方框图；

图2是音频消除器的功能方框图；

图3是非线性变换器中使用的非线性函数f(x)的视图；

图4是由音频消除器执行的噪音消除处理的流程图；

图5A是由音频消除器执行的第一滤波器获知处理的流程图；

图5B是由音频消除器执行的第二滤波器获知处理的流程图；

图6A和6B是由控制器执行的语音识别相关处理的流程图；和

图7是汽车导航系统的工作模式的时序图。

具体实施方式

下面结合附图详细描述本发明的优选实施例。

图1是应用本发明的汽车导航系统1的总体配置方框图。本实施例的汽车导航系统1具有：一个语音识别系统10，连接到麦克风3和车载音频系统5；一个控制器40，其具有CPU、存储器41等，用于控制监视器7的显示屏或控制系统的其他部分；以及一个声音生成器50，连接到音频系统5的扬声器SR和SL，根据来自控制器40的命令信号，产生一个语音信号，并将其输出到扬声器SR和SL。

汽车导航系统1根据从操作开关(PTT(按讲(push to talk))开关9等)输入的命令信号，利用控制器40来执行各种处理。作为汽车导航系统1的控制器40执行的处理：可能会涉及搜索和导航通往目的地的路径、周围设备的导航、监视器7上显示的路线图的区域和比例的改变，以及公知的汽车导航系统执行的其他处理。此外，汽车导航系统1的控制器40执行后面所述的语音识别相关处理(见图6)。

音频系统5具有多声道声音再现功能(立体声回放功能)，且具有音频系统舱6和声道扬声器SR和SL。音频系统舱6具有一个音量控制器6a，用于控制从扬声器SR和SL输出声音的音量。它根据从汽车导航系统1的控制器40和音频系统舱6的控制面板(图中未给出)输入的命令信号，控制音量控制器6a，从而控制从扬声器SR和SL输出声音的音量。接着，音频系统舱6输出的声道音频信号被输入到与该声道对应的扬声器SR和SL以及语音识别系统10。

语音识别系统10具有：一个A/D变换器11，用于将从麦克风3输入的语音信号从模拟格式变换为数字格式；一个A/D变换器13，用于将从音频系统5输入的左声道音频信号从模拟格式变换为数字格式；一个A/D变换器15，用于将从音频系统5输入的右声道音频信号从模拟格式变换为数字格式；一个音频消除器20；以及一个语音识别单元30。

此外，如图2所示，音频消除器20具有加法器21、自适应滤波器23L和23R、滤波器获知单元25L和25R，以及各个信道的非线性变换器27L和27R。图2是音频消除器20的总体配置的功能方框图。

音频消除器20中提供的自适应滤波器23L根据公式(5)，对通过端子S1从A/D变换器13输入的数字变换后的左声道音频信号X_L(t)和预先设定的滤波器系数W_L[k]进行卷积处理，从而使用滤波器系数W_L[k]来对音频信号X_L(t)进行滤波，并产生噪音消除信号U_L(t)，用于从麦克风3输入的语音信号中，将与扬声器SL输出的声音相关的噪音分量消除掉。此外，其中所使用的变量k取满足条件1≤k≤K的整数。此外，常数K表示一个抽头数，取等于或大于2的整数。此外，变量t是以采样周期T为单位的时间变量，取整数值。

U_{L} (t) = Σ_{k = 1}^{K} W_{L} [k] \cdot X_{L} (t - k) . . . (5)

另一方面，音频消除器20中的自适应滤波器23R根据公式(6)，对通过端子S3从A/D变换器15输入的数字变换后的右声道音频信号X_R(t)和预先设定的滤波器系数W_R[k]进行卷积处理，从而使用滤波器系数W_R[k]来对音频信号X_R(t)进行滤波，并产生噪音消除信号U_R(t)，用于从麦克风3输入的语音信号中，将与扬声器SR输出的声音相关的噪音分量消除掉。

U_{R} (t) = Σ_{k = 1}^{K} W_{R} [k] \cdot X_{R} (t - k) . . . (6)

此外，加法器21将通过端子S2从A/D变换器11输入的数字变换后的语音信号X_M(t)、自适应滤波器23L输出的噪音消除信号U_L(t) 和自适应滤波器23R输出的噪音消除信号U_R(t)相加，从而从语音信号X_M(t)中，消除与扬声器SL和SR输出的声音相关的噪音分量，并输出无噪音语音信号U(t)：

U(t)＝X_M(t)+U_L(t)+U_R(t)…(7)

此外，在本实施例中，信号X_M(t)、X_L(t)、X_R(t)、U_L(t)、U_R(t)和U(t)能够取从-1到1的实数值。

非线性变换器27L和27R获取加法器21输出的无噪音语音信号U(t)，将其代入非线性函数f(x)，输出非线性变换后的语音信号f(U(t))。此外，图3是非线性变换器27L和27R中使用的非线性函数实例的视图。图3(a)是y＝f(x)＝tanh(α·x)的图形，图3(b)是y＝f(x)＝sign(x)的图形。而且，当x为正实数时，函数sign(x)取值为1，当x为负实数时，函数sign(x)取值为-1，当x为0时，函数sign(x)取值为0。此外，图3(c)是y＝f(x)＝g(x)的图形(参见公式(4))。

滤波器获知单元25L获取非线性变换器27L输出的非线性变换后的语音信号f(U(t))，并基于信号f(U(t))、从A/D变换器13输入的数字变换后的左声道音频信号X_L(t)以及自适应滤波器23L中已经设定的滤波器系数W_L[k]，根据公式(8)计算出在自适应滤波器23L中欲下一次设定的滤波器系数F_L[k]：

F_L[K]＝W_L［K］-α_L·f(U(t))·X_L(t-k)…(8)

α_{L} = \frac{α}{{norm}_{L} + β} . . . (9)

然后，滤波器获知单元25L将所计算的滤波器系数F_L[k]设置到自适应滤波器23L，取代已经设定的W_L[k]，从而更新滤波器系数W_L[k]。

同样，滤波器获知单元25R获取非线性变换器27R输出的非线性变换后的语音信号f(U(t))，并基于信号f(U(t))、从A/D变换器15输入的数字变换后的右声道音频信号X_R(t)以及自适应滤波器23R中已经设定的滤波器系数W_R[k]，根据公式(10)计算出自适应滤波器23R中欲下一次设定的滤波器系数F_R[k]：

F_R[k]＝W_R[k]-α_R·f(U(t))·X_R(t-k)…(10)

α_{R} = \frac{α}{{norm}_{R} + β} . . . (11)

然后，滤波器获知单元25R将所计算的滤波器系数F_R[k]设置到自适应滤波器23R，取代已经设定的W_R[k]，从而更新滤波器系数W_R[k]。

上面解释了音频消除器20的基本配置，接下来说明音频消除器20执行的处理流程。图4示出了上述配置的噪音消除器20执行的噪音消除处理的流程图。在汽车导航系统1开始时或音频系统5开始时，执行该噪音消除处理。

音频消除器20首先进行初始化，并将滤波器系数W_L[k]和W_R[k]设置为初始值(S110)。然后，音频消除器20从A/D变换器11获取语音信号X_M(t)，从A/D变换器13获取左声道音频信号X_L(t)，以及从A/D变换器15获取右声道音频信号X_R(t)(S120)。接着，根据公式(5)生成噪音消除信号U_L(t)(S130)，并根据公式(6)生成噪音消除信号U_R(t)(S140)。

然后，音频消除器20将噪音消除信号U_L(t)和噪音消除信号U_R(t)添加到语音信号X_M(t)，从而生成语音信号U(t)(S150)。接着，计算过去K·T周期的左声道音频信号的幅度平均值norm_L(S160)，并计算过去K·T周期的右声道音频信号的幅度平均值norm_R(S170)。

{norm}_{L} = \frac{1}{K} \cdot Σ_{k = 1}^{K} | X_{L} (t - k) | . . . (12)

{norm}_{R} = \frac{1}{K} \cdot Σ_{k = 1}^{K} | X_{R} (t - k) | . . . (13)

接着，判断所计算的左声道音频信号的幅度平均值norm_L是否大于预定的门限值AL。如果判断norm_L＞AL(S180所得结果为是)，执行第一滤波器获知处理(参见图5(a)，在后面进行详细说明)(S190)，然后转到S200。另一方面，如果判断norm_L≤AL(S180所得结果为否)，不执行第一滤波器获知处理，直接转到S200。

在S200中，判断所计算的右声道音频信号的幅度平均值norm_R是否大于预定的门限值AR。如果判断norm_R＞AR(S200所得结果为是)，执行第二滤波器获知处理(参见图5(b)，在后面进行详细说明)(S210)，然后转到S220。另一方面，如果判断norm_R≤AR(S200所得结果为否)，不执行第二滤波器获知处理，直接转到S220。

在步骤S220中，判断是否已经从控制器40输入结束命令信号。如果判断已经输入结束命令信号，则结束噪音消除处理，而当判断没有输入结束命令信号时，返回S120的处理，获取新的信号X_M(t)、X_L(t)和X_R(t)，并再次执行步骤S120至S220。

图5(a)是由音频消除器20执行的第一滤波器获知处理的流程图。在第一滤波器获知处理中，音频消除器20根据公式(9)计算获知率α_L(S191)，并根据公式(8)计算滤波器系数F_L[k](S193)。然后，将滤波器系数F_L[k]设置为下一个步骤S130中使用的滤波器系数W_L[k](S195)，并结束第一滤波器获知处理。

此外，图5(b)是由音频消除器20执行的第二滤波器获知处理的流程图。如果执行第二滤波器获知处理，音频消除器20根据公式(11)计算获知率α_L(S211)，并根据公式(10)计算滤波器系数F_R[k](S213)。然后，将滤波器系数F_R[k]设置为下一个步骤S140中使用的滤波器系数W_R[k](S215)，并结束第二滤波器获知处理。

在噪音消除后，利用通过端子S0将由如此配置的音频消除器20产生的语音信号U(t)输入到语音识别单元30。语音识别单元30根据从控制器40输入的操作开始命令信号，开始操作，从音频消除器20获取预定周期的语音信号U(t)，分析所获取的预定周期的语音信号U(t)的声音，并获取语音信号U(t)的特征量(例如，倒频谱)。此外，获取语音信号U(t)的预定周期在后面表示为语音识别间隔。

然后，语音识别单元30采用已知技术，将该特征量与其自身具有的未显示的语音词典中注册的语音模式进行比较，将对应于高匹配语音模式的话语识别为语音识别间隔内用户说出的话语，并将该识别结果输入到控制器40。

此外，语音识别单元30具有一个功率计算器31。功率计算器31计算语音识别间隔内用户产生的语音的功率(声音压力平方的时间均值)。该功率计算器31将根据每一次语音识别的语音信号U(t)计算的语音识别间隔内的语音功率P1(z)输入到控制器40。

图6是由控制器40执行的语音识别相关处理的流程图。当启动汽车导航系统1时，控制器40反复执行语音识别相关处理，直到汽车导航系统1关闭。

当执行语音识别相关处理时，在从PTT开关9输入语音识别开始命令信号之前，控制器40等待。如果判断从PTT开关9输入了语音识别开始命令信号(S310为是)，将“嘟嘟”声生成命令信号输入声音生成器50，并从扬声器SL和SR输出“嘟嘟”声(S320)。然后，控制器40请求音频系统舱6将声音(音乐等)的再现音量增加到当前音量的γ倍，并使音频系统舱6将扬声器SR和SL输出声音的音量增加到当前值的γ倍(S330)。

接着，控制器40将工作开始命令输入到语音识别单元30，从而使语音识别单元30工作(S340)。然后，在语音识别单元30的语音识别停止之前，它一直等待。如果判断语音识别停止(S350为是)，它将音频系统的再现音量变为初始设置值(S360)。也就是说，控制器40将音频系统5在步骤S330中根据请求增加γ倍的音量再除以γ，从而将其变为原始音量。然后，控制器40根据用户发出的语音，执行处理，并基于从语音识别单元30获取的识别结果，将其输入到麦克风3(S370)。

接着，在当前语音识别间隔内，控制器40从语音识别单元30获取所计算的用户语音功率相关值P1(z)(S380)。而且，将值P1(z)加到存储器41中存储的历史数据文件中(S390)。变量z表示语音识别操作的次数。

然后，控制器40判断是否至少S次计算值P1已经被写入存储器41中存储的历史数据文件中(S400)。当判断没有S次计算值P1被写入(S400为否)时，结束语音识别相关处理，而当判断S次计算值P1被写入(S400为是)时，转到S410。

接着，计算包括当前计算值P1(z)在内的过去S次的计算值P1(z)、P1(z-1)、P1(z-2)……P1(z-S+1)的平均值P0(z)(S410)，并将计算出的值P0(z)写入存储器41中(S420)。

接着，控制器40根据写入存储器41中的计算值P0(z)、评估标准预先设定的允许上限P_UP以及评估标准预先设定的允许下限P_DOWN，计算γ′(S440)。

γ′＝h(γ，p0(z)，P_UP，P_DOWN)…(14)

此外，为了计算γ′，预定函数h具有上述变量γ、P0(z)、P_UP和P_DOWN。其中，当值P0(z)大于值P_UP时，函数h取小于γ的值；当值P0(z)小于值P_DOWN时，取大于γ的值；当值P0(z)不小于值P_DOWN并且不大于值P_UP时，取与γ相同的值。后面还将详细说明，根据下面的公式计算γ′。此外，ε为预先合适设定的正实系数：

γ^{'} = \{\begin{matrix} γ - ϵ \cdot {P 0 (z) - P_{UP}} & (P_{UP} < P 0 (z)) \\ γ & (P_{DOWN} \leq P 0 (z) \leq P_{UP}) \\ γ + ϵ \cdot {P_{DOWN} - P 0 (z)} & (P 0 (z) < P_{DOWN}) \end{matrix} . . . (15)

然后，控制器40将计算值γ′设置给变量γ，更新变量γ的值(S450)。也就是说，控制器40将S330的音量调整率改变为从前一个值计算出的值γ′。如果结束这步，控制器40就结束语音识别相关处理。

图7是上述配置的汽车导航系统1的操作模式的时序图。当存在作为语音识别启动命令从PTT开关9输入的一个触发时，汽车导航系统1从扬声器SL和SR输出“嘟嘟”声，告知用户语音识别开始。然后，它使语音识别单元30获取预定周期(语音识别间隔)的用户语音的语音信号U(t)，用于语音识别。并且，在该语音识别间隔内，将从扬声器SL和SR输出的声音(音乐等)音量设为γ倍。

上面介绍了汽车导航系统1的配置，但根据该汽车导航系统1，包括A/D变换器11、13和15以及音频消除器20的噪音消除系统获取不同声道(左声道和右声道)的音频信号，根据不同声道的音频信号，从麦克风3输入的语音信号X_M(t)中，将与音频系统5的再现声音相关的噪音分量消除掉。

在该音频消除器20中，非线性变换器27L和27R将作为变换单元使用，非线性变换作为无噪音语音信号输出单元使用的加法器21 输出的无噪音语音信号U(t)。此外，滤波器获知单元25L作为系数更新元件使用，基于非线性变换后的信号f(U(t))和分配给它的左声道音频信号，根据公式(8)计算在作为滤波器元件的自适应滤波器23L中设定的滤波器系数F_L[k]，将其设置在自适应滤波器23L中，并更新滤波器系数W_L[k]。

按照相同的方式，作为系数更新元件使用的滤波器获知单元25R，基于非线性变换后的信号f(U(t))和分配给它的右声道音频信号，根据公式(10)计算在作为滤波器元件的自适应滤波器23R中设定的滤波器系数F_R[k]，将其设置在自适应滤波器23R中，并更新滤波器系数W_R[k]。

按照此种方式，在本实施例的音频消除器20中，右声道(左声道)噪音分量或滤波器获知单元25R(滤波器获知单元25L)的行为影响滤波器获知单元25L(滤波器获知单元25R)。为了抑制滤波器系数的错误获知，在非线性变换器27L和27R上非线性变换从加法器21输出的语音信号U(t)，并且在滤波器获知单元25R和25L中，使用非线性变换后的语音信号f(U(t))，获知和更新滤波器系数。

因此，根据本实施例的音频消除器20，可以比传统装置更好地消除与从麦克风3获取的语音信号X_M(t)中包含的音频系统5的再现声音相关的噪音分量。

因此，在该汽车导航系统1中，即使没有通过在语音识别时将音频系统5静音而在音频系统5再现期间中断音乐再现，也可以利用语音识别单元30准确地识别输入到麦克风3的用户语音，并执行相应的处理。

也就是说，根据该汽车导航系统1，即使音频系统5播放音乐等，也可以准确地执行语音识别，并执行相应的处理，并且提高装置的可操作性。更具体地说，能够消除在语音识别时因中断音乐回放而引起的用户不满。

此外，如果非线性变换器27L和27R采用非线性函数tanh函数进行非线性变换，可以通过简单的计算，准确地消除噪音，从而提高音频消除器20的噪音消除性能，抑制音频消除器20的处理负载，并以较低的成本制造音频消除器20。

此外，如果非线性变换器27L和27R采用非线性函数sign函数进行非线性变换，噪音消除性能比使用tanh函数的情况有所下降，但可以抑制音频消除器20的处理负载，并以较低的成本制造音频消除器20。

此外，如果非线性变换器27L和27R采用公式(4)所示的非线性函数g(x)进行非线性变换，噪音消除性能几乎与使用tanh函数的情况相同，并且，可以抑制音频消除器20的处理负载，以较低的成本制造音频消除器20。

此外，在本实施例的汽车导航系统1中，在音频系统5工作期间，当从PTT开关9输入语音识别开始命令信号时，控制器40将音频系统5的扬声器SL和SR输出的声音的音量(音频系统5的再现声音的音量)设为γ倍(S330)，然后使语音识别单元30工作(S340)。

语音识别单元30根据从音频消除器20获取的无噪音语音信号U(t)，评估用户语音的音量，并将评估结果P1(z)输入控制器40。控制器40将评估值P1(z)写入历史数据文件，并准备与用户语音音量相关的历史信息(S390)。接着，控制器40根据历史文件中记录的过去S次P1(z)值，确定下一次语音处理时欲为音频系统5设置的音量(即γ值)(S440、S450)

按照此种方式，在本实施例的汽车导航系统1中，音频系统5重现的音乐等的音量在语音识别前和后都发生变化，并将语音识别开始通知到用户，从而使用户能通过音量变化可靠地获知语音识别开始。因此，根据本实施例的汽车导航系统1，可以消除这样一个问题：即由于语音识别开始时输出的“嘟嘟”声被音乐等淹没，用户发现很难掌握语音识别开始的时间。

另外，在本实施例中，根据历史数据文件评估用户语音的大小(S410)。控制器40被设计为：使得当评估值P0(z)大于评估标准允许的上限P_UP时，γ值小于预定的标准值(先前γ值)；当评估值P0(z)小于评估标准允许的下限P_DOWN时，γ值大于预定的标准值(先前γ值)(S440、S450)。

因此，根据本实施例的汽车导航系统，能够获得Lombard效应，即使用户语音很小，也可以很大的声音说话，用于语音识别。因此，根据本实施例的汽车导航系统1，可以通过Lombard效应提高语音识别率。

接着，本发明的音频信号获取单元通过A/D变换器13和15、以及由音频消除器20执行的S120处理过程实现。控制单元由通过控制器40执行的S310至S360的处理过程实现。此外，历史信息准备单元由功率计算器31和通过控制器40执行的S380和S390的处理过程实现。另外，音量确定单元由从S410至S460的处理过程实现。

此外，本发明的噪音消除系统、语音识别系统和汽车导航系统不限于上述实施例，可以通过不同的实施例实现。例如，在上述实施例中，音频消除器20中使用的非线性系数分别为tanh函数、sign函数和公式(4)所示的函数(g)，但也可以采用其他非线性函数。

此外，在上述实施例中，描述了通过共有左右两个声道回放声音的音频系统5的音频消除器20，但也可以将音频消除器20配置为处理所谓的5.1声道声音系统，其中，扬声器分别位于左前方、右前方、中心、左后方和右后方，从而产生三维声音，并将一个低音扬声器(低音区域扬声器)置于一个位置，从而增强低音效果。

上面出于说明目的，结合具体的实施例对本发明进行了详细描述，但本领域技术人员应该理解，在不脱离本发明的基本精神和范围的基础上，可以做出各种修改。

Claims

1.一种在车辆中的语音识别系统，具有：

噪音消除单元，用于从再现多声道声音的音频系统中获取多声道音频信号，并根据所述声道的音频信号，从麦克风输入的语音信号中消除与所述音频系统的再现声音相关的噪音分量；

在所述车辆中的语音识别单元，用于根据从所述噪音消除单元获取的无噪音语音信号，识别输入到所述麦克风的语音；

控制单元，用于当从外部输入语音识别开始命令时，使所述语音识别单元工作；

历史准备单元，用于根据从所述噪音消除单元获得的所述无噪音语音信号，准备用户语音音量的历史信息，在所述语音识别单元工作期间识别出所述用户语音的次数至少为预定的次数；以及

音量确定单元，用于根据所述历史准备单元准备的所述历史信息，确定下一次语音识别时欲在所述音频系统中设置的音量；

其中，所述控制单元将所述音频系统再现的声音的音量变为由所述音量确定单元确定的音量，然后，当从外部输入语音识别开始命令时，使所述语音识别单元工作。

2.如权利要求1所述的语音识别系统，其中，所述音量确定单元根据所述历史信息，评估用户语音的大小，并且当所评估的值小于预定的评估标准时，将下一次语音识别时欲在所述音频系统中设置的音量确定为一个大于预定参考值的音量。

3.如权利要求1所述的语音识别系统，其中，所述音量确定单元根据所述历史信息，评估用户语音的大小，并且当所评估的值大于预定的评估标准时，将下一次语音识别时欲在所述音频系统中设置的音量确定为一个小于预定参考值的音量。

4.一种汽车导航系统，其执行语音识别单元的识别操作，具有：

噪音消除单元，用于从再现多声道声音的音频系统中获取多声道的音频信号，并根据所述声道的音频信号，从麦克风输入的音频信号中消除与所述音频系统的再现声音相关的噪音分量；

在车辆中的语音识别单元，用于根据从所述噪音消除单元获取的所述无噪音语音信号，识别输入到所述麦克风的语音；