CN1237502C

CN1237502C - 生成声音模型的方法、装置和生成声音模型的计算机程序

Info

Publication number: CN1237502C
Application number: CNB021574723A
Authority: CN
Inventors: 芳泽伸一; 鹿野清宏
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Intellectual Property Corp of America
Priority date: 2001-12-20
Filing date: 2002-12-20
Publication date: 2006-01-18
Anticipated expiration: 2022-12-20
Also published as: EP1326232A2; CN1482595A; US7209881B2; EP1326232A3; US20030120488A1

Abstract

本发明提供能防止杂音环境中的适合模型的精度下降的声音模型生成方法。根据声音上的接近程度，把叠加有杂音的声音数据分组。使用各组中包含的声音数据来生成充分统计量。选择在声音上接近利用声音识别的人即使用者的声音数据的组。从关于选择的组的充分统计量中选择在声音上接近使用者的声音数据的充分统计量。使用选择的充分统计量来生成声音模型。

Description

生成声音模型的方法、装置和生成声音模型的计算机程序

技术领域

本发明涉及生成声音识别中使用的声音模型的方法、装置、计算机程序。更具体地说，涉及生成适合于利用声音识别的人的声音和利用声音识别的环境的声音模型的方法、装置、计算机程序。

背景技术

近年来，在移动电话、便携式终端、汽车导航系统、个人计算机以及家用电器等数字信息仪器中，希望使用声音识别技术来进一步方便使用者。

当声音识别系统中使用的声音模型不适合于使用者时，该使用者就不能利用声音识别系统。因此，在声音识别系统中，有必要使用适合于使用者的声音的声音模型。如图1所示，作为使声音模型适合于利用声音识别系统的人的声音的技术(适应说话者技术)，存在各种各样的技术。在图1中，与用于实现适应说话者技术所必要的系统的计算机能力和硬盘容量对应，描绘了各种各样的适应说话者技术。而且，关于各种各样的适应说话者技术，并记了“为了进行适应化而使用者必须发声的文章的数量”、“通过该适应技术能对应的变动要素(说话者性别、声音的声调”、“识别性能(用星标记的大小来表示。星标记越大则性能越好。”

以往，信息仪器的计算机能力和可搭载的硬盘容量较小，象“声道长度标准化”、“MLLR+固有声音空间”那样，只能利用识别性能较低的适应说话者技术。伴随着信息仪器的计算机能力的增大，利用该计算机能力就能利用获得了高识别性能的适应说话者技术“MLLR”、“CAT”。但是，在这些适应说话者技术中，为了使声音模型合适，使用者必须发声的文章的数量比较多。因此，使用者的负担较大，另外，不适用于频繁更换使用者的信息仪器(例如电视遥控)。而且，也不适用于象家用电器或移动电话那样的计算机能力较小的仪器。

近年来，硬盘容量的增大化和低价格化不断发展，与此同时，象“基于群集的方法”、“基于充分统计量的方法”那样，出现了利用容量比较大的硬盘，并且用比较小的计算机能力就能完成的适应说话者技术。这些适应说话者技术适用于所搭载的硬盘容量不断增大的汽车导航系统、电视等家用电器和移动电话那样的计算机能力比较小的仪器。虽然无法在小型家用电器和移动电话中搭载大容量的硬盘，但是，因为近年来能通过网络与大容量的服务器进行通信，所以没有问题。另外，在这些适应说话者技术中，因为为了使声音模型适合，使用者必须发声的文章数量较少(大约一篇文章)，所以使用者的负担较少，在更换使用者时也能瞬间加以利用。但是，在“基于群集的方法”中，选择一个与使用者接近的HMM，并把它作为适合的模型加以利用，所以当没有接近使用者、利用环境的HMM时，其识别性能会大大降低。

鉴于以上所述的问题，可以认为最适合于移动电话和家用电器的适应说话者技术是“基于充分统计量的方法”(芳泽伸一、马场朗、松浪加奈子、米良佑一郎、山田实一、鹿野清宏，“使用了充足统计量和说话者距离的声韵模型的无教师学习”，信学技报，SP2000-89，pp.83-88，2000)。据此，利用使用者的一次发声，就能瞬时获得高精度的适合模型(适合使用者声音的声音模型)。

下面，参照图2和图3，说明利用“使用了充分统计量的方法”来生成(制作)适合模型的步骤。

～选择模型和充分统计量的生成(ST200)～

预先在声音数据库310(图3)中存储在安静的环境中收录的各种各样的说话者(例如约300人)的声音数据。

使用存储在声音数据库310中的声音数据，针对每一位说话者生成选择模型(在此，用混合高斯分布(Gaussian Mixture Model)来表现。)和充分统计量(在此，用隐马尔科夫模型(HMM)来表现。)，并把它们存储在充分统计量文件320(图3)中。所谓“充分统计量”是指表现数据库性质的充分统计量，在此，是HMM的声音模型的平均、分散、EM计数。通过使用EM算法，从不特定的说话者模型学习一次，据此来计算充分统计量。不用区分音韵，通过1个状态的64混合的高斯混合模型(Gausian Mixture Model)来生成选择模型。

下面，参照图4来详细说明充分统计量的生成步骤。

<ST201>

首先，生成不特定的说话者的充分统计量。在此，使用EM算法，根据所有的说话者的数据，通过学习来生成。充分统计量由隐马尔科夫模型来表现，各状态由混合高斯分布来表现。为生成的不特定的说话者的充分统计量的高斯分布分配编号。

<ST202>

以生成的不特定的说话者的充分统计量为初始值，生成对于各说话者的充分统计量。在此，使用EM算法，根据各说话者的数据，通过学习生成。对于各说话者的充分统计量的高斯分布，保存与分配给不特定的说话者的充分统计量的编号对应的编号。

～适用的声音数据的输入(ST210)～

输入使用者的声音。

～基于选择模型的充分统计量的选择(ST220)～

根据所输入的声音和选择模型，来选择与使用者的声音“接近”的多个充分统计量(关于在声音上接近使用者的声音的声音模型)。在此所说的“接近”是指：从把输入的声音输入选择模型中而得到的概率值大的开始，与前N个选择模型对应的说话者的充分统计量。以上所述的选择处理在图3所示的适合模型生成部330中进行。图5表示了它的情况。

～适合模型的生成(ST230)～

使用所选择的充分统计量来生成适合模型。具体地说，对于所选择的充分统计量，用具有相同编号的高斯分布进行新的统计计算(表达式1～表达式3)，算出一个高斯分布。适合模型的生成处理在图3所示的适合模型生成部330中进行。图5表示了它的情形。

[表达式1]

μ_{i}^{adp} = \frac{Σ_{j = 1}^{N_{sel}} C_{mix}^{j} μ_{i}^{j}}{Σ_{j = 1}^{N_{sel}} C_{mix}^{j}}, (i = 1, 2, . . ., N_{mix})

[表达式2]

{ν_{i}}^{adp} = \frac{Σ_{j = 1}^{N_{sel}} C_{mix}^{j} (ν_{i}^{j} {+ (μ_{i}^{j})}^{2})}{Σ_{j = 1}^{N_{sel}} C_{mix}^{j}} - {(μ_{i}^{adp})}^{2}, (i = 1,2, . . ., N_{mix})

[表达式3]

a^{adp} [i] [j] = \frac{Σ_{k = 1}^{N_{sel}} C_{state}^{k} [i] [j]}{Σ_{j = 1}^{N_{state}} Σ_{k = 1}^{N_{sel}} C_{state}^{k} [i] [j]}, (i, j = 1,2, . . ., N_{state})

在此；适合模型的HMM的各状态的正态分布的平均、分散分别为μ_i ^adp(i＝1、2…、N_mix)、ν_i ^adp(i＝1、2…、N_mix)。N_mix是混合分布数。另外，状态转变概率为a^adp[i][j](i、j＝1、2…、N_state)。N_state是状态数，a^adp[i][j]表示从状态i向状态j的转变概率。N_sel是所选择的声音模型的数，μ_i ^j(i＝1、2…、N_mix，j＝1、2、…N_sel)、ν_i ^j(i＝1、2…、N_mix，j＝1、2、…N_sel)分别是各个声音模型的平均、分散。C_mix ^j(j＝1、2、…N_sel)、C_state ^k[i][j](k＝1、2、…N_sel，i、j＝1、2、…N_state)分别是正态分布的EM计数(频数)、关于状态转变的EM计数。

～识别(ST240)～

声音识别系统300(图3)使用按如以上所述而生成的适合模型来识别使用者的声音。

在以上说明的“使用了充分统计量的方法”中，把不特定的说话者(初始值)的充分统计量的高斯分布的位置关系和各说话者的充分统计量的高斯分布的位置关系近似为同等的。即假设即使从充分统计量的初始值计算各声音数据的充分统计量，也能在维持了高斯分布的位置关系的状态下，只学习混合加权、平均值、分散。具体地说，假设充分统计量的初始值的高斯分布中与各声音数据的充分统计量的高斯分布在KL距离等分布距离上最近的高斯分布的编号与该声音数据的充分统计量的高斯分布的编号相同。因为在安静的环境下所述假设是成立的(参照图4)，所以所述方法作为“安静的环境下的”适合模型的生成方法是有效的。但是，如果考虑到实用性，就必须考虑到“杂音环境下的”适合模型的生成。此时，如图6所示，所述假设不成立，适合模型的精度下降。

发明内容

鉴于以上所述问题的存在，本发明的目的在于：提供能防止杂音环境中的适合模型的精度下降的声音模型生成方法、声音模型生成装置以及声音模型的生成程序。

一种方法，生成用于声音识别的声音模型，其特征在于：包括：

在声音中叠加有杂音，根据声音的接近程度，把叠加有所述杂音的声音数据分组的步骤(a)；

关于由所述步骤(a)获得的各组，使用包含在该组中的声音数据来生成充分统计量的步骤(b)；

从由所述步骤(a)获得的各组中，选择在声音上接近利用声音识别的人即使用者的声音数据的组的步骤(c)；

从关于由所述步骤(c)选择的组的充分统计量中，选择在声音上接近所述使用者的声音数据的充分统计量的步骤(d)；

使用由所述步骤(d)选择的充分统计量来生成声音模型的步骤(e)，

在所述使用者利用声音识别的时刻之前，脱机执行所述步骤(a)和(b)，

在所述步骤(a)中，至少执行下述(a1)～(a3)中的至少一步，

(a1)根据所述杂音的种类来进行分组，

(a2)根据叠加有所述杂音的声音数据的SN比来进行分组，

(a3)按照声音上接近的各说话者来进行分组，

在所述步骤(b)中，至少执行下述(b1)～(b4)中的至少一步，

(b1)针对每一说话者来生成充分统计量，

(b2)按照说话者声音的各声调来生成充分统计量，

(b3)按照所述杂音的各种类来生成充分统计量，

(b4)按照所述各组中包含的声音数据的SN比来生成充分统计量。

从多个说话者的多种声音数据中，选择在声音上接近利用声音识别的人即使用者的声音数据的声音数据的步骤(a)；

在由所述步骤(a)选择的声音数据中叠加利用声音识别的环境中的杂音的步骤(b)；

根据声音的接近程度，对由所述步骤(b)叠加了杂音的声音数据进行分组的步骤(c)；

对于由步骤(c)所得到的各个组，使用包含在该组中的声音数据生成的充分统计量的步骤(d)；

将与所述使用者的声音数据在声音上接近的组，从由所述步骤(c)得到的组中选择的步骤(e)；

从对于由所述步骤(e)所选择出的组的充分统计量中，选择与所述使用者的声音数据在声音上接近的充分统计量的步骤(f)；

使用由所述步骤(f)选择的充分统计量，生成声音模型的步骤(g)；

在所述使用者使用声音识别的时刻之前，脱机执行所述步骤(a)～(d)，

在所述步骤(c)中，执行下述(c1)～(c3)中的至少一步，

(c1)基于所述杂音的种类进行分组，

(c2)基于所述叠加了杂音的声音数据的SN比进行分组，

(c3)按照声音上接近的各说话者来进行分组，

在所述步骤(d)中，至少执行下述(d1)～(d4)中的至少一步，

(d1)针对每一说话者来生成充分统计量，

(d2)按照说话者声音的各声调来生成充分统计量，

(d3)按照所述杂音的各种类来生成充分统计量，

(d4)按照所述各组中包含的声音数据的各SN比来生成充分统计量。

一种装置，生成用于声音识别的声音模型，其特征在于：包括：

在声音中叠加杂音，基于声音上的接近程度，将叠加了所述杂音的声音数据进行分组的分组生成部；

对于由所述分组生成部获得的各组，使用该组中包含的声音数据来生成充分统计量的充分统计量生成部；

存储由所述充分统计量生成部所生成的充分统计量的存储部；

从所述多个组中选择在声音上接近利用声音识别的人即使用者的声音数据的组的第一选择部；

从关于由所述第一选择部选择的组的充分统计量中选择在声音上接近所述使用者的声音数据的充分统计量的第二选择部；

使用由所述第二选择部选择的充分统计量来生成声音模型的模型生成部，

在比所述使用者使用声音识别的时刻之前，脱机执行由所述分组生成部所进行的分组和所述充分统计量生成部所进行的充分统计量的生成，

所述分组生成部，执行下述(a1)～(a3)中的至少一步，

(a1)基于所述杂音的种类进行分组，

(a2)基于所述叠加了杂音的声音数据的SN比进行分组，

(a3)按照声音上接近的各说话者来进行分组，

所述充分统计量生成部，至少执行下述(b1)～(b4)中的至少一步，

(b1)针对每一说话者来生成充分统计量，

(b2)按照说话者声音的各声调来生成充分统计量，

(b3)按照所述杂音的各种类来生成充分统计量，

(b4)按照所述各组中包含的声音数据的各SN比来生成充分统计量。

存储基于多个说话者的多种声音数据的第一存储部；

从存储在所述第一存储部中的声音数据中，选择在声音上接近利用声音识别的人即使用者的声音数据的声音数据的第一选择部；

在由所述第一选择部选择的声音数据中叠加利用声音识别的环境中的杂音的杂音叠加部；

对由所述杂音叠加部叠加了杂音的声音数据，基于声音上的接近程度进行分组的分组生成部；

对由所述分组生成部得到的各个分组，使用包含在该分组中的声音数据生成充分统计量的充分统计量生成部；

存储由所述充分统计量生成部所生成的充分统计量的第二存储部；

从所述第二存储部所存储的组中选择与所述使用者的声音数据在声音上接近的组的第二选择部；

从对于由所述第二选择部所选择的组的充分统计量中，选择与所述使用者的声音数据在声音上接近的充分统计量的第三选择部；

使用由所述第三选择部所选择的充分统计量生成声音模型的模型生成部，

在所述使用者使用声音识别的时刻之前，脱机执行由所述第一选择部所进行的选择、由所述杂音叠加部所进行的杂音叠加、由所述分组生成部所进行分组、以及由所述充分统计量生成部所进行的充分统计量的生成，

所述分组生成部，执行下述(a1)～(a3)中的至少一步，

(a1)基于所述杂音的种类进行分组，

(a2)基于所述叠加了杂音的声音数据的SN比进行分组，

(a3)按照声音上接近的各说话者来进行分组，

(b1)针对每一说话者来生成充分统计量，

(b2)按照说话者声音的各声调来生成充分统计量，

(b3)按照所述杂音的各种类来生成充分统计量，

本发明的方法是生成用于声音识别的声音模型的方法，具有以下所述的步骤(a)～(e)。在步骤(a)中，根据声音的接近程度，把叠加有杂音的声音数据分组化。在步骤(b)中，关于由步骤(a)获得的各组，使用包含在该组中的声音数据来生成充分统计量。在步骤(c)中，从由步骤(a)获得的各组中选择在声音上接近利用声音识别的人(使用者)的声音数据的组。在步骤(d)中，从关于由步骤(c)选择的组的充分统计量中选择在声音上接近使用者的声音数据的充分统计量。在步骤(e)中，使用由步骤(d)选择的充分统计量来生成声音模型。

最好在所述使用者利用声音识别的时刻之前，脱机进行所述步骤(a)和(b)。

在所述步骤(a)中，最好根据杂音的种类来进行分组。

在所述步骤(a)中，最好根据叠加有杂音的声音数据的SN比来进行分组。

在所述步骤(a)中，最好按声音上接近的各说话者来进行分组。

在所述步骤(b)中，最好针对各说话者来生成充分统计量。

在所述步骤(b)中，最好按说话者声音的各声调来生成充分统计量。

在所述步骤(b)中，最好按杂音的每一种类来生成充分统计量。

在所述步骤(b)中，最好按照所述各组中包含的声音数据的S/N比来生成充分统计量。

本发明的装置是生成用于声音识别的声音模型的装置，具有存储部、第一选择部、第二选择部、模型生成部。存储部关于通过根据声音上的接近程度，把叠加有杂音的声音数据分组而得到的多个组，存储了使用该组中包含的声音数据而生成的充分统计量。第一选择部从所述多个组中选择在声音上接近利用声音识别的人(使用者)的声音数据的组。第二选择部从关于由所述第一选择部选择的组的充分统计量中选择在声音上接近所述使用者的声音数据的充分统计量。模型生成部使用由所述第二选择部选择的充分统计量，生成声音模型。

所述装置最好还包含：分组生成部、充分统计量生成部。分组生成部根据声音上的接近程度，把叠加有杂音的声音数据分组。充分统计量生成部关于由所述分组生成部获得的各组，使用该组中包含的声音数据生成充分统计量。所述存储部存储由充分统计量生成部生成的充分统计量。

本发明的程序是用于生成声音识别中使用的声音模型的计算机程序，使计算机具有如下功能。功能(a)关于通过根据声音上的接近程度，把叠加有杂音的声音数据分组而得到的多个组，存储了使用该组中包含的声音数据而生成的充分统计量。功能(b)从所述多个组中选择在声音上接近利用声音识别的人(使用者)的声音数据的组。功能(c)从关于由功能(b)选择的组的充分统计量中选择在声音上接近所述使用者的声音数据的充分统计量。功能(d)使用由功能(c)选择的充分统计量，生成声音模型。

最好使所述计算机还能具有以下的功能(e)～(f)。功能(e)根据声音上的接近程度，把叠加有杂音的声音数据分组。功能(f)关于由功能(e)获得的各组，使用该组中包含的声音数据生成充分统计量。所述功能(a)存储由功能(f)生成的充分统计量。

所述方法、装置、程序中，在杂音的种类、SN比、说话者等的变化中，把声音上接近的分组，在该组中进行充分统计量的生成和适合模型(声音模型)的生成。这样，通过分组能使以上所述的假设成立。结果，能防止杂音环境中的适合模型的精度的下降，能生成高精度的适合模型。

本发明的又一个方法是生成用于声音识别的声音模型的方法，包含以下的步骤(a)～(d)。在步骤(a)中，从基于多个说话者的多种声音数据中选择在声音上接近利用声音识别的人(使用者)的声音数据的声音数据。在步骤(b)中，在由步骤(a)选择的声音数据中叠加利用声音识别的环境中的杂音。在步骤(c)中，使用由步骤(b)叠加有杂音的声音数据，生成充分统计量。在步骤(d)中，使用由步骤(c)生成的充分统计量，生成声音模型。

所述方法最好还包含步骤(e)～(f)。在步骤(e)中，在基于所述多个说话者的多种声音数据中叠加预测为要利用声音识别的环境的杂音。在步骤(f)中，生成关于由所述步骤(e)而叠加了杂音的声音数据的标签信息。在步骤(c)中，使用由步骤(b)叠加有杂音的声音数据和步骤(f)中生成的标签信息中的关于由步骤(a)中选择的声音数据的标签信息，生成充分统计量。

在所述步骤(f)中，最好还生成关于由所述步骤(e)而叠加了杂音的声音数据的声音模型的状态转变的信息；在所述步骤(c)中，还使用在步骤(f)中生成的关于声音模型的状态转变的信息中的关于由步骤(a)选择的声音数据的声音模型的状态转变的信息，生成充分统计量。

在所述步骤(e)中，把多种杂音分别叠加到基于所述多个说话者的多种声音数据中；在所述步骤(f)中，关于所述多种杂音，分别生成标签信息；在所述步骤(c)中，从关于由步骤(a)选择的声音数据的多个标签信息中选择适合于利用声音识别的环境的标签信息，使用选择的标签信息生成充分统计量。

本发明的又一种装置是生成用于声音识别的声音模型的装置，具有存储部、选择部、杂音叠加部、充分统计量生成部、模型生成部。存储部存储基于多个说话者的多种声音数据。选择部从存储在存储部中的声音数据中选择在声音上接近利用声音识别的人(使用者)的声音数据的声音数据。杂音叠加部在由所述选择部选择的声音数据中叠加利用声音识别的环境的杂音。充分统计量生成部使用由杂音叠加部叠加有杂音的声音数据，生成充分统计量。模型生成部使用由充分统计量生成部生成的充分统计量，生成声音模型。

本发明的又一程序是用于生成声音识别中使用的声音模型的计算机程序，能使计算机具有以下的功能(a)～(e)。功能(a)存储基于多个说话者的多种声音数据。功能(b)从存储在功能(a)中的声音数据中选择在声音上接近利用声音识别的人(使用者)的声音数据的声音数据。功能(c)在由功能(b)选择的声音数据中叠加利用声音识别的环境的杂音。功能(d)使用由所述功能(c)叠加有杂音的声音数据，生成充分统计量。功能(e)使用由功能(d)生成的充分统计量，生成声音模型。

在所述方法、装置、程序中，因为用在声音上接近的声音数据进行处理，所以能生成高精度的声音模型。另外，因为选择了在声音上接近的声音数据后，进行充分统计量的计算，所以能快速进行用于生成充分统计量的处理。

本发明的适合模型生成装置是生成用于声音识别的声音模型的装置，具有存储部、记忆部、模型生成部。存储部中存储了根据声音的接近程度而分组的多个组。所述多个组分别包含多个充分统计量。记忆部中存储了表示所述多个组中的至少一组的组ID。模型生成部从存储在记忆部中的组ID所对应的组中选择一个在声音上接近使用者的声音的组。模型生成部使用选择的组中包含的充分统计量中的在声音上接近使用者的声音的至少两个充分统计量，生成声音模型。

所述模型生成部最好至少从所述多个组中选择一个在声音上接近使用者的声音的组，把表示选择的组的组ID记忆在所述记忆部中。

所述记忆部最好把利用声音识别的环境中的杂音的种类和所述组ID对应存储。

所述记忆部最好把表示使用者的使用者ID和所述组ID对应存储。

所述记忆部最好把用于识别所述适合模型生成装置的装置ID和所述组ID对应存储。

本发明的又一种适合模型生成装置是生成用于声音识别的声音模型的装置，具有存储部、模型生成部。在存储部中存储了根据声音的接近程度而分组的多个组。所述多个组分别包含多个充分统计量。模型生成部接收表示所述多个组中的至少一组的组ID。模型生成部从接收的组ID所对应的组中选择一个在声音上接近使用者的声音的组。模型生成部使用选择的组中包含的充分统计量中的在声音上接近使用者的声音的至少两个充分统计量，生成声音模型。

所述模型生成部最好从外部的记忆装置接收所述组ID。所述模型生成部从所述多个组中至少选择一个在声音上接近使用者的声音的组，把表示选择的组的组ID存储在所述记忆装置中。

所述记忆装置最好把利用声音识别的环境中的杂音种类和所述组ID对应存储。

所述记忆装置最好把表示使用者的使用者ID和所述组ID对应存储。

所述记忆装置最好把用于识别所述适合模型生成装置的装置ID和所述组ID对应存储。

本发明的又一种适合模型生成装置是生成用于声音识别的声音模型的装置，具有选择部、模型生成部。选择部接收表示多个组中的至少一个组的组ID。根据声音的接近程度把所述多个组分组。所述多个组分别包含多个充分统计量。选择部从接收的组ID所对应的组中选择一个在声音上接近使用者的声音的组。模型生成部接收由选择部选择的组中包含的充分统计量中的在声音上接近所述使用者的声音的至少两个充分统计量。模型生成部使用接收的充分统计量生成声音模型。

所述选择部最好从外部的记忆装置接收所述组ID。所述选择部从所述多个组中至少选择一个在声音上接近使用者的声音的组，把表示选择的组的组ID存储在所述记忆装置中。

附图说明

下面简要说明附图。

图1是表示各种各样的适应说话者技术的图。

图2是表示利用“使用了充分统计量的方法”来生成适合模型的步骤的程序框图。

图3是用于说明利用“使用了充分统计量的方法”来生成适合模型的步骤的框图。

图4是用于说明充分统计量的生成处理的图。

图5是用于说明适合模型的生成处理的图。

图6是用于说明以往技术的“使用了充分统计量的方法”中的课题的图。

图7是表示实施例1的适合模型生成装置的结构的框图。

图8是表示图7所示的组生成部中的组生成处理的流程的图。

图9是表示生成图7所示的充分统计量存储部中存储的充分统计量的处理的流程的图。

图10是表示生成图7所示的选择模型存储部中存储的选择模型的处理的流程的图。

图11是表示图7所示的充分统计量存储部中存储的充分统计量的一个例子的图。

图12是表示图7所示的选择模型存储部中存储的选择模型的一个例子的图。

图13是表示在图7所示的适合模型生成部中，决定在声音上接近使用者的声音的组的处理流程的图。

图14是表示在图7所示的适合模型生成部中，决定接近使用者的声音数据的充分统计量的处理流程的图。

图15是表示识别实验的结果的图。

图16是表示图7所示的充分统计量存储部中存储的充分统计量的一个例子的图。

图17是表示由组生成部所生成的组的例子的图。

图18～图28是表示具体的商品形象和分组的例子的图。

图29是表示实施例2的适合模型生成装置的结构的框图。

图30是表示生成图29所示的选择模型存储部中存储的选择模型的处理的流程的图。

图31是表示生成杂音叠加数据的处理的流程的图。

图32是表示图9所示的充分统计量生成部生成的充分统计量的一个例子的图。

图33是把实施例2的适合模型生成装置应用于实际产品的形象的图。

图34是表示实施例3的适合模型生成装置结构的框图。

图35是表示生成选择模型存储部中存储的选择模型的处理流程的图。

图36～图37是表示生成标签信息的处理流程的图。

图38是表示标签信息存储部中存储的标签信息的一个例子的图。

图39是表示生成充分统计量的处理流程的图。

图40是表示实施例4的适合模型生成装置结构的框图。

图41～图42是表示生成标签信息的处理流程的图。

图43是表示生成标签信息选择模型的处理流程的图。

具体实施方式

下面，参照附图说明本发明的实施例。须指出的是，图中对相同或相当部分采用了相同的符号，并不再重复其说明。

(实施例1)

<适合模型生成装置的结构>

图7是表示实施例1的声音识别用适合模型生成装置的整体结构的框图。图7所示的装置具有：充分统计量生成部1、选择模型生成部2、充分统计量存储部3、选择模型存储部4、适合模型生成部5和组生成部6。

组生成部6把在安静的环境中的声音数据83中叠加杂音数据82而生成的杂音叠加声音数据84根据“声音上的接近程度”分组。

充分统计量生成部1使用组生成部6分组的声音数据84，对组生成部6生成的各组生成充分统计量71。

充分统计量存储部3存储充分统计量生成部1生成的充分统计量。

选择模型生成部2生成选择模型73。选择模型73是用于从存储部3中存储的充分统计量71中选择接近使用者的声音数据81的充分统计量72的模型。

选择模型存储部4存储选择模型生成部2生成的选择模型73。

适合模型生成部5使用存储在存储部4中的选择模型73，从存储在存储部3中的充分统计量71中选择“在声音上接近”使用者的声音数据81的充分统计量72，使用选择的充分统计量72生成适合模型74。

<适合模型的生成步骤>

下面，说明采用了以上结构的装置的适合模型的生成步骤。在此，以使用者在室内进行声音识别时的情形为例进行说明。

[充分统计量71和选择模型73的生成]

首先，描述充分统计量71和选择模型73的生成方法。在此，说明在使用者要求获得适合模型之前，脱机进行充分统计量71和选择模型73的生成时的情形。

在安静的环境中，收录多个说话者的声音数据83。在此，收录约300人的声音数据。

收录使用者要利用声音识别的环境的杂音数据82。在此，收录室内杂音。

在声音数据83中以使用者要利用声音识别的环境的SN比叠加杂音数据82，生成声音数据84。在此，以15dB、20dB、25dB的SN比叠加杂音数据82。

组生成部6根据“声音上的接近程度”把生成的声音数据84分组。在此，如图8所示，按SN比，分组为15dB的组A、20dB的组B、25dB的组C。

生成充分统计量71。如图9所示，充分统计量生成部1对于组生成部6生成的各组，使用杂音叠加声音数据84A～84C，生成各不特定说话者模型A～C。接着，关于组生成部6生成的各组，使用各说话者的杂音叠加声音数据84，通过对各说话者根据EM算法从各组的不特定说话者模型学习一次，生成充分统计量71A～71C。在此，对各组约生成了300个充分统计量。

生成选择模型73。作为一个例子，如图10所示，组生成部6生成的各组，使用杂音叠加声音数据84A～84C，通过对各说话者，不区别音韵，根据1状态64混合的高斯混合模型(Gaussian Mixture Model)，生成选择模型73A～73C。在此，对各组约生成了300个充分统计量选择模型。

生成充分统计量71A～71C(图9)时使用的声音数据84A～84C(图9)和据此生成的选择模型73A～73C(图10)成对，根据对应的选择模型，选择了接近使用者的声音数据的充分统计量。

充分统计量存储部3存储充分统计量生成部生成的充分统计量71A～71C。选择模型存储部4存储选择模型生成部2生成的选择模型73A～73C。图11和图16表示存储在充分统计量存储部3中存储的充分统计量71的一个例子。另外，图12表示了存储在选择模型存储部4中的选择模型73的一个例子。在此，各组(A～C)的各说话者(A某～Z某)的充分统计量和选择模型成对。

[适合模型74的生成]

下面，说明适合模型生成部5的适合模型74的生成步骤。

使用图11、图12所示的例子，说明作为充分统计量71和适合模型74的一个例子。

使用者要求适合模型74的生成。

使用者利用声音识别用的话筒，把利用声音识别的环境下的声音数据81输入适合模型生成部5中。在声音数据81中叠加了利用声音识别的环境的杂音。

在此，说明使用者在室内，在SN比为20dB的环境下利用声音识别时的情形。

适合模型生成部5把声音数据81发送给选择模型存储部4，输入到选择模型73中。即声音数据81被输入到图12的组A～C的A某～Z某的充分统计量选择模型中。

从组生成部6生成的组中决定“在声音上接近”使用者的声音数据81的组。

计算把声音数据81输入到选择模型73中时的选择模型73的似然，按似然大的顺序排列。即计算图12的组A～C的A某～Z某的选择模型对于声音数据81的似然，按从大到小的顺序排列。图13表示了计算选择模型73的似然，按照似然大的顺序排列的一个例子。

按照似然大的顺序，选择前N个(图13的例子中为100个)选择模型，决定最多选择的组(室内杂音的SN比)。在图12的例子中，最多选择的组是组B(室内杂音20dB)。即组B是″在声音上接近″使用者的声音数据81的组。

使用″在声音上接近″声音数据81的组(组B)的充分统计量，生成适合模型74。从″在声音上接近″声音数据81的组(组B)的选择模型73，按照似然从大到小的顺序，选择前L个(图14的例子中为20个)。然后，使用与选择的选择模型成对的充分统计量72，生成适合模型74。具体地说，通过以下的统计处理计算(表达式4～表达式6)，生成适合模型74。适合模型74的HMM的各状态的正态分布的平均、分散分别为μ_i ^adp(i＝1、2…、N_mix)、ν_i ^adp(i＝1、2…、N_mix)。N_mix是混合分布数。另外，状态转变概率为a^adp[i][j](i、j＝1、2…、N_state)。N_state是状态数，a^adp[i][j]表示从状态i向状态j的转变概率。

[表达式4]

{μ_{i}}^{adp} = \frac{Σ_{j = 1}^{N_{sel}} C_{mix}^{j} μ_{i}^{j}}{Σ_{j = 1}^{N_{sel}} C_{mix}^{j}}, (i = 1,2, . . ., N_{mix})

[表达式5]

{ν_{i}}^{adp} = \frac{Σ_{j = 1}^{N_{sel}} C_{mix}^{j} (ν_{i}^{j} + {(μ_{i}^{j})}^{2})}{Σ_{j = 1}^{N_{sel}} C_{mix}^{j}} {- (μ_{i}^{adp})}^{2}, (i = 1,2, . . ., N_{mix})

[表达式6]

a^{adp} [i] [j] = \frac{Σ_{k = 1}^{N_{sel}} C_{state}^{k} [i] [j]}{Σ_{j = 1}^{N_{state}} Σ_{k = 1}^{N_{sel}} C_{state}^{k} [i] [j]}, (i, j = 1,2, . . ., N_{state})

在此，N_sel是所选择的声音模型的数，μ_i ^j(i＝1、2…、N_mix，j＝1、2、…N_sel)、ν_i ^j(i＝1、2…、N_mix，j＝1、2、…N_sel)是各个HMM的平均、分散。C_mix ^j(j＝1、2、…N_sel)、C_state ^k[i][j](k＝1、2、…N_sel，i、j＝1、2、…N_state)分别是正态分布的EM计数(频数)、关于状态转变的EM计数。

适合模型生成部5准备使用者的下一个生成适合模型的要求。

<实验结果>

下面，就使用适合模型进行的识别实验的结果加以说明。

下面，说明识别实验的条件。数据库由306人的说话者数据构成，各说话者具有200段文章的发声数据。是采样频率16kHz、16位的数据。作为特征量，使用以窗口移动长度10ms分析而得的12元的MFCC(Mel-frequency cepstrum coefficient)和三角对数倒频谱、三角功率。在特征量的抽出中，进行了CMN(cepstrum mean normalization)处理。使用由20k的报纸报道构成的语言模型。评价说话者为46人。作为评价文章，使用了各说话者的4～5段文章，合计200段文章。作为杂音的种类，使用了室内杂音。

图15表示了识别实验结果。在图15中，也一起表示了使用充分统计量生成适合模型的以往技术的识别结果。

如果观察图15所示的结果，则根据本发明生成的适合模型的性能与根据现有技术生成的相比是极高的。

<效果>

如以上所述，在实施例1中，以“在声音上接近的”声音数据群集(分组)，在各组中，进行选择模型、充分统计量的生成和适合模型的生成。通过这样进行群集(分组)，就能使以往的技术中说明的假设成立。结果，能防止杂音环境中的适合模型的精度下降，能生成高精度的适合模型。在在此，分组的″在声音上接近″的声音数据是指在以往的技术的栏目中说明的“基于充分统计量”的方法中的假设成立的范围中存在的声音数据群。具体地说，即使从充分统计量的初始值计算各声音数据的充分统计量，也能在维持了高斯分布的位置关系的状态下，只学习混合加权、平均值、分散的声音数据群(参照图16)。换句话说，与各声音数据的充分统计量的高斯分布在KL距离等分布距离上最近的初始值的充分统计量的高斯分布的编号与所述声音数据的充分统计量的高斯分布的编号相同(参照图16)。

作为能使这样的假设成立的分组的例子，有：

·针对每一杂音种类生成组。

·针对每一SN比生成组。

·使用各声音数据来生成声音模型(用混合高斯分布来表现)，把KL距离等的分布距离近的作为相同的组。图17表示了一个例子。

另外，根据实施例1还能获得以下所述的效果。

作为用于生成适合于杂音/说话者的适合模型的声音数据，因为利用了脱线收录的声音数据83，所以没必要进行大量的发声，从而减少了使用者的负担。

因为使用杂音叠加声音数据84生成充分统计量71，来生成适合模型74，所以能生成适合于利用环境的适合模型。因此，能在杂音环境中利用适合模型。

因为脱线生成充分统计量71，所以在适应时，能在瞬间生成适合模型74。因此，当所利用的环境发生变化时，也能立即利用适合模型。

因为针对由组生成部6生成的每一组来生成充分统计量，从而生成适合模型74，所以能生成更适合于使用者的声音数据81的适合模型74。因此，更多的使用者能在各种杂音环境下利用适合模型。

须指出的是，作为杂音叠加声音数据84，也可以代替用计算处理叠加了杂音数据的声音数据，而使用收录的在杂音环境下发声的声音数据。

组生成部6可以按杂音的种类，对各说话者生成组。

作为杂音叠加声音数据84，也可以使用室内杂音、车内杂音、会场噪音以及吸尘器的声音等各种各样的杂音环境下的声音数据。

生成适合模型74的定时可以是适合模型生成部自动地进行。

充分统计量选择模型73并不局限于高斯混合模型。

作为杂音数据82，还可以使用所利用环境的杂音。

实施例1的适合模型生成装置既可以由硬件来实现，也可以由软件来实现。

<具体的商品形象和分组例>

使用了实施例1的适应说话者技术的声音识别系统例如能搭载到以下所述的商品(信息仪器)中。有移动电话、便携式终端(PDA)、汽车导航系统、个人计算机、电视遥控器、语音翻译装置、宠物机器人、对话工具(图形)等。下面，与分组例一起，表示它们中的几个。

[组的生成方法1]

针对杂音的种类×各SN比生成组，在组内存储各说话者×说话者的声调变化的充分统计量。

<多种杂音下，多个说话者利用的仪器(例：电视的操作)>

·组的选择方法1(参照图18)

图18A表示了基于本例子的系统的结构。本系统具有：服务器1800、数字TV系统1810、声音遥控器1820。服务器1800包含：组生成部6、选择模型生成部2和充分统计量生成部1。如图18B所示，组生成部6把叠加有杂音的声音数据84按杂音的种类(吸尘器的声音、洗衣机的声音等)×SN比(10dB、20dB等)来进行分组。充分统计量生成部1关于由组生成部6生成的各组，针对各说话者(说话者A、说话者B等)×说话者的声调(鼻音、普通的声音、说话速度快的人的声音等)，来生成充分统计量。选择模型生成部2关于由充分统计量生成部1生成的各充分统计量，生成对应的选择模型。声音遥控器1820包含话筒1821。由话筒1821把使用者发出的声音变换为给定的声音数据。由话筒1821变换的声音数据发送给数字TV系统1810。数字TV系统1810包含硬盘(HDD)1811、适合模型生成部5、声音识别系统300(参照图3)、处理部1812。通过通信网，把由服务器1800的选择模型生成部2所生成的选择模型和由充分统计量生成部1生成的充分统计量下载到HDD1811。适合模型生成部5利用来自声音遥控器1820的声音数据和存储在HDD1811中的选择模型以及充分统计量来生成适合模型。声音识别系统300使用由适合模型生成部5生成的适合模型，识别来自声音遥控器1820的声音数据。处理部1812按照基于声音识别系统300的识别结果，进行各种处理。在具有以上所述结构的系统中，进行以下所述的处理。

[步骤ST1]

使用者对着声音遥控器1820的话筒1821发声。把使用者发出的声音变换为给定的声音数据，发送给数字TV系统1810。

[步骤ST2]

适合模型生成部5把来自声音遥控器1820的声音数据输入到HDD1811内的选择模型中，计算出似然。适合模型生成部5从算出的似然中的大的中选择N个。适合模型生成部5从这N个所属的组中选择所属的选择模型数最多的组。

[步骤ST3]

适合模型生成部5在选择的组中，选择似然大的M个充分统计量。适合模型生成部5使用选择的M个充分统计量生成适合模型。

·组的选择方法2(参照图19、图20)

图19A表示了本例子的显示系统的结构。本系统具有服务器1900、数字TV系统1910和声音遥控器1920。服务器1900包含：组生成部6、选择模型生成部2、充分统计量生成部1、选择模型存储部4、充分统计量存储部3。如图19B所示，组生成部6把叠加有杂音的声音数据84按杂音的种类(吸尘器A的声音、洗衣机B的声音等)×SN比(10dB、20dB等)分组。充分统计量生成部1关于由组生成部6生成的各组，对各说话者×说话者的声调(鼻音、普通的声音、说得快时的声音)，生成充分统计量。选择模型生成部2关于由充分统计量生成部1生成的各充分统计量，生成对应的选择模型。声音遥控器1820包含话筒1821和存储器1922。存储器1922中，把表示杂音的种类的ID(杂音ID)和表示组的ID(组ID)对应存储。数字TV系统1910包含：适合模型生成部5、声音识别系统300(参照图3)、处理部1812。适合模型生成部5利用来自声音遥控器1920的声音数据和存储在服务器1900的选择模型存储部4中的选择模型以及存储在充分统计量存储部3中的充分统计量，生成适合模型。在具有以上的结构的系统中，进行以下所述的处理。

[步骤ST1-a]

数字TV系统1910催促使用者通过遥控器1920的按钮操作选择利用环境中的杂音的种类。例如，象“1.洗衣机、2.吸尘器、3.空调、…”那样，在画面上表示选择分支。使用者通过按钮操作，选择利用环境中的杂音的种类。在此为在使用吸尘器的环境中使用者进行按钮操作。使用者通过按钮操作选择“2.吸尘器”作为杂音的种类。

[步骤ST2-a]

使用者对着声音遥控器1920的话筒1821发声。把使用者发出的声音变换为给定的声音数据，发送给数字TV系统1910。

[步骤ST3-a]

适合模型生成部5把来自声音遥控器1920的声音数据输入到服务器1900的选择模型存储部4内的选择模型中，计算出似然。适合模型生成部5从算出的似然中的大的中选择N个。适合模型生成部5从这N个所属的组中选择所属的选择模型数最多的组。

[步骤ST4-a]

[步骤ST5-a]

适合模型生成部5把表示步骤ST3-a中选择的组的ID(组ID)和表示与该组杂音种类相同的组的ID(组ID)发送给声音遥控器1920。把这些组ID与表示步骤ST1-a中选择的杂音种类的ID(杂音ID)对应，存储在存储器1922中。在此，在步骤ST3-a中选择了组1(参照图19B)。组1的杂音种类为“吸尘器A的声音”。杂音种类为“吸尘器A的声音”的组是组1和组2(参照图19B)。如图20所示，适合模型生成部5把杂音种类为“吸尘器A的声音”的组(组1、组2)的组ID向声音遥控器1920发送。把这些组ID与表示在步骤ST1-a中选择的杂音种类“2.吸尘器”的杂音ID对应，存储在存储器1922中(参照图20)。

[步骤ST1-b]

使用者再次在使用了吸尘器的环境中进行遥控器操作。使用者通过按钮操作选择“2.吸尘器”作为杂音种类。声音遥控器1920把与选择的杂音种类“2.吸尘器”对应而存储在存储器1922中的组ID(组1、组2的组ID)发送给数字TV系统1910(参照图20)。

[步骤ST2-b]

[步骤ST3-b]

适合模型生成部5在来自服务器1900的选择模型存储部4内的选择模型中的来自声音遥控器1920的组ID表示的组(组1和组2)的选择模型中输入来自声音遥控器1920的声音数据，计算出似然。适合模型生成部5从算出的似然中的大的中选择N个。适合模型生成部5从这N个所属的组中选择所属的选择模型数最多的组。

[步骤ST4-b]

返返回适应处理(ST1-b)。另外，按照需要，返返回(ST1-a)(例如，当把吸尘器换成了其他种类的吸尘器时、在与吸尘器的声音不同的杂音环境下利用声音识别时等)

<在多种杂音下，多个说话者利用的仪器(例如：PDA的操作)>

·组的选择方法1

从用通信网连接的服务器中存储的充分统计量，根据GPS的位置信息自动选择了杂音种类后，根据附加了杂音的使用者的声音，使用选择模型(GMM)选择充分统计量来进行适应。具体地说，进行以下所述的处理。

使用GPS的位置信息，自动选择杂音种类(ST1)。(例如：如果是站台，就是电车内的杂音，如果是施工现场，就是施工现场的杂音)

输入使用者的声音(ST2)。

在所选择的杂音的组中，选择把使用者的声音输入选择模型中时的似然大的N个，选择其中个数最多的SN比的组。

在选择的组中，选择似然大的M个充分统计量来进行适应(ST4)。

·组的选择方法2

从用通信网连接的服务器中存储的充分统计量，根据PDA中的日程表和时间信息自动选择了杂音种类后，根据附加了杂音的使用者的声音，使用选择模型(GMM)选择充分统计量，进行适应。具体地说，进行以下所述的处理。

使用日程表和时间信息来自动地选择杂音种类(ST1)。

(例如：在日程表中，在10点用电车移动，如果现在的时刻是10点55分，就选择电车内的杂音。)

输入使用者的声音(ST2)。

在所选择的杂音的组中，选择把使用者的声音输入选择模型中时的似然大的N个，选择其中个数最多的SN比的组(ST3)。

<在特定的杂音下利用的仪器(例子：汽车导航系统)>

·组的选择方法(参照图21、图22)

图21A表示了根据本例子的信息检索系统的结构。本系统具有服务器2100、汽车导航系统2110。服务器2100包含：组生成部6、选择模型生成部2、充分统计量生成部1、选择模型存储部4、充分统计量存储部3、适合模型生成部5、存储器2101。如图21所示，组生成部6把叠加有杂音的声音数据84按杂音的种类(卡罗列的声音、马克III的声音等)×SN比(10dB、20dB等)分组。在存储器2101中，把用于识别汽车导航系统的仪器ID(例如产品编号)和表示组的ID(组ID)对应存储。汽车导航系统2110包含：话筒2111、数据通信模块2112、声音识别系统300(参照图3)、处理部2113。采用了以上结构的系统中，进行以下所述的处理。

[步骤ST1-a]

使用者对着汽车导航系统2110的话筒2111发声。把使用者发出的声音变换为给定的声音数据，通过数据通信模块2112发送给服务器2100。另外，数据通信模块2112把表示汽车导航系统2110的产品编号“100”的数据(仪器ID)发送给服务器2100。

[步骤ST2-a]

选择模型生成部5把来自汽车导航系统2110的声音数据输入选择模型存储部4内的选择模型中，算出似然。适合模型生成部5从算出的似然中的大的中选择N个。适合模型生成部5从这N个所属的组中选择所属的选择模型数最多的组。

[步骤ST3-a]

[步骤ST4-a]

适合模型生成部5把表示在步骤ST2-a中选择的组的ID(组ID)、表示与该组杂音种类相同的组的ID(组ID)与来自汽车导航系统2110的产品编码“100”对应，存储在存储器2101中。在此，在步骤ST2-a中选择了组1(参照图21B)。组1的杂音的种类为“卡罗列的声音”。杂音种类为“卡罗列的声音”的组为组1和组2(参照图21B)。如图22所示，适合模型生成部5把杂音种类为“卡罗列的声音”的组(组1和组2)的组ID与产品编码“100”对应，存储在存储器2101中。

[步骤ST1-b]

使用者再次对着汽车导航系统2110的话筒2111发声。把使用者发出的声音变换为给定的声音数据，通过数据通信模块2112发送给服务器2100。另外，数据通信模块2112把表示汽车导航系统2110的产品编号“100”的数据(仪器ID)发送给服务器2100。

[步骤ST2-b]

选择模型生成部5在选择模型存储部4内的选择模型中的与来自汽车导航系统2110的产品编号“100”对应而存储在存储器2101中的组ID表示的组(组1和组2)的选择模型中，输入来自汽车导航系统2110的声音数据，算出似然。适合模型生成部5从算出的似然中的大的中选择N个。适合模型生成部5从这N个所属的组中选择所属的选择模型数最多的组。

[步骤ST3-b]

返返回适应处理(ST1-b)。另外，按照需要，返返回(ST1-a)(例如，当把汽车导航系统2110安装到其他种类的车(例如马克III)上时)。

[组的生成方法2]

对杂音的种类×SN比×接近的说话者，生成组。在组内，在接近的说话者中，存储对声调的各变化(鼻音、说得快时的声音、回声等)的充分统计量。

<多种杂音下，多个说话者利用的仪器(例：电视的操作)>

·组的选择方法1(参照图23、图24)

图23A表示了基于本例子的系统的结构。本系统具有：服务器2300、数字TV系统2310、声音遥控器2320。服务器1800包含：组生成部6、选择模型生成部2、充分统计量生成部1、选择模型存储部4、充分统计量存储部3、适合模型生成部5、存储器2301。如图23B所示，组生成部6把叠加有杂音的声音数据84按杂音的种类(吸尘器的声音、空调的声音等)×SN比(10dB、20dB等)分组。存储器2301中，把用于识别使用者的ID(使用者ID)和表示组的ID(组ID)对应存储。数字TV系统2310包含：数据通信模块2312、声音识别系统300(参照图3)、处理部1812。声音遥控器2320包含话筒1821。在采用了以上所述结构的系统中，进行以下所述的处理。

[步骤ST1-a]

使用者对着声音遥控器2320的话筒1821发声。把使用者发出的声音变换为给定的声音数据，发送给数字TV系统2310。另外，使用者通过声音遥控器2320的按钮操作，输入用于识别姓名和密码的信息(使用者ID)。输入的使用者ID(在此为“100”)发送给数字TV系统2310。来自声音遥控器2320的声音数据和使用者ID“100”由数据通信模块2112发送给服务器2300。

[步骤ST2-a]

适合模型生成部5把来自数字TV系统2310的声音数据输入到选择模型存储部4内的选择模型中，计算出似然。适合模型生成部5从算出的似然中的大的中选择N个。适合模型生成部5从这N个所属的组中选择所属的选择模型数最多的组。

[步骤ST3-a]

[步骤ST4-a]

适合模型生成部5把表示在步骤ST2-a中选择的组的ID(组ID)、表示与该组接近的说话者为相同的组的ID(组ID)与来自数字TV系统2310的使用者ID“100”对应，存储在存储器2301中。在此，在步骤ST2-a中选择了组2(参照图23B)。接近组2的说话者为“说话者C、D”。接近的说话者为“说话者C、D”的组是组2、组(K-1)和组K(参照图23B)。如图24所示，把接近的说话者为“说话者C、D”的组(组2、组(K-1)和组K)的组ID与使用者ID“100”对应，存储在存储器2301中。

[步骤ST1-b]

使用者再次对着声音遥控器2320的话筒1821发声。把使用者发出的声音变换为给定的声音数据，发送给数字TV系统2310。另外，使用者通过声音遥控器2320的按钮操作，输入使用者ID“100”。输入的使用者ID“100”发送给数字TV系统2310。来自声音遥控器2320的声音数据和使用者ID“100”由数据通信模块2312发送给服务器2300。

[步骤ST2-b]

适合模型生成部5在选择模型存储部4内的选择模型中的与来自数字TV系统2310的使用者ID“100”对应而存储在存储器2301中的组ID表示的组(组2、组(K-1)、组K)的选择模型中，输入来自数字TV系统2310的声音数据，计算出似然(参照图24)。适合模型生成部5从算出的似然中的大的中选择N个。适合模型生成部5从这N个所属的组中选择所属的选择模型数最多的组。

[步骤ST3-b]

返返回适应处理(ST1-b)。另外，按照需要，返返回(ST1-a)(例如，当使用者改变了时等)

<特定的说话者利用的仪器(例如：移动电路的操作)>

·组的选择方法(参照图25、图26)

图25A表示本例子的系统的结构。本系统具有服务器2500、移动电话2510。服务器2500包含：组生成部6、选择模型生成部2、充分统计量生成部1、选择模型存储部4、充分统计量存储部3、适合模型生成部5、存储器2501、声音识别系统300。如图25所示，组生成部6把叠加有杂音的声音数据84按杂音的种类(电车的声音、公共汽车的声音等)×SN比(10dB、20dB等)×接近的说话者分组。在存储器2501中，把用于识别移动电话的仪器ID(例如产品编号)和表示组的ID(组ID)对应存储。把基于声音识别系统300的识别结果通过通信网发送给移动电话2510。移动电话2510包含：话筒2511、数据通信模块、处理部2513。采用了以上的结构的系统中，进行以下所述的处理。

[步骤ST1-a]

使用者对着移动电话2510的话筒2511发声。把使用者发出的声音变换为给定的声音数据，通过数据通信模块2512发送给服务器2500。另外，数据通信模块2512把表示移动电话2510的产品编号“200”的数据(仪器ID)发送给服务器2500。

[步骤ST2-a]

选择模型生成部5把来移动电话2510的声音数据输入选择模型存储部4内的选择模型中，算出似然。适合模型生成部5从算出的似然中的大的中选择N个。适合模型生成部5从这N个所属的组中选择所属的选择模型数最多的组。

[步骤ST3-a]

[步骤ST4-a]

适合模型生成部5把表示在步骤ST2-a中选择的组的ID(组ID)、表示与该组接近的说话者为相同的组的ID(组ID)与来自移动电话2510的使用者ID“200”对应，存储在存储器2501中。在此，在步骤ST2-a中选择了组2(参照图25B)。组2的接近的说话者为“说话者C、D”。接近的说话者为“说话者C、D”的组是组2、组(K-1)和组K(参照图25B)。如图26所示，把接近的说话者为“说话者C、D”的组(组2、组(K-1)和组K)的组ID与使用者ID“200”对应，存储在存储器2501中。

[步骤ST1-b]

使用者再次对着移动电话2510的话筒2511发声。把使用者发出的声音变换为给定的声音数据，通过数据通信模块发送给服务器2500。另外，数据通信模块把表示移动电话2510的产品编号“200”的数据(仪器ID)发送给服务器2500。

[步骤ST2-b]

适合模型生成部5在选择模型存储部4内的选择模型中的与来自移动电话2510的产品编号“200”对应而存储在存储器2501中的组ID表示的组(组2、组(K-1)、组K)的选择模型中，输入来自移动电话2510的声音数据，计算出似然(参照图26)。适合模型生成部5从算出的似然中的大的中选择N个。适合模型生成部5从这N个所属的组中选择所属的选择模型数最多的组。

[步骤ST3-b]

[组的生成方法3]

对接近的各说话者，生成组，在组内存储杂音种类×SN比的充分统计量。

<多种杂音下，多个说话者利用的仪器(例如：电视的操作>

组的选择方法(参照图27、图28)

从家庭内的机顶盒或用通信网连接的家庭外的服务器上存储的充分统计量，根据附加了杂音的使用者的声音，使用选择模型(GMM)选择充分统计量，进行适应。此时，把选择的组和使用者的说话者ID(姓名和密码等)对应。当进行适应时，输入说话者ID，选择组来进行适应。具体地说，进行以下所述的处理。

输入使用者的声音(ST1-a)。

选择把使用者的声音输入选择模型时的似然大的N个，选择其中个数最多的说话者的组(ST2-a)。

在选择的组中，选择(从各种杂音种类、SN比中)似然大的M个充分统计量来进行适应(ST3-a)。

把选择的组和说话者ID对应(存储对应关系)(ST4-a)。

输入说话者ID，选择组(ST1-b)。

输入使用者的声音(ST2-b)。

在选择的组(接近使用者的组)中，选择似然大的M个充分统计量来进行适应(ST3-b)。

按照各适应处理，返回(ST1-b)。另外，根据需要，返回(ST1-a)。

<特定的说话者利用的仪器(例如：移动电路的操作)>

·组的选择方法

从用通信网连接的家庭外的服务器中存储的充分统计量，根据附加了杂音的使用者的声音，使用选择模型(GMM)选择充分统计量，进行适应。此时，把选择的组合利用的仪器ID对应。在适应时，根据仪器ID自动地选择组，进行适应。具体地说，进行以下所述的处理。

输入使用者的声音(ST1-a)。

在选择的组中，选择似然大的M个充分统计量来进行适应(ST3-a)。

把选择的组和仪器ID对应(存储对应关系)(ST4-a)。

输入使用者的声音(ST1-b)。

根据仪器ID自动选择组(ST2-b)。

在选择的组中，选择似然大的M个充分统计量来进行适应(ST2-b)。

按照各适应处理，返回(ST1-b)。另外，根据需要，返回(ST1-a)(例如，使用者改变的时候)。

[组的生成方法4]

在特定的杂音种类中，针对各SN比来生成组，并在组内存储各说话者的充分统计量。

<在特定的杂音下利用的仪器(例如：电梯的操作)>

·组的选择方法

从安装在电梯上的服务器中存储的充分统计量，根据附加了杂音的使用者的声音，使用选择模型(GMM)，选择充分统计量进行适应。具体地说，进行以下所述的处理。

输入使用者的声音(ST1)。

选择把使用者的声音输入选择模型时的似然大的N个，选择其中个数最多的SN比的组(ST2)。

在选择的组中，选择似然大的M个充分统计量来进行适应(ST3)。

[组的生成方法5]

在特定的说话者中，对于各SN比生成组，在组内存储特定的说话者的声调的各变化(鼻音、普通的声音、说得快时的声音)的充分统计量。

<关于特定的说话者在杂音下利用的仪器(例如：汽车导航系统)>

·组的选择方法

安装在车内的服务器(汽车导航系统)中存储的充分统计量，根据附加了杂音的使用者的声音，使用选择模型(GMM)，选择充分统计量进行适应。具体地说，进行以下所述的处理。

输入使用者的声音(ST1)。

须指出的是，可以对各组生成组选择模型，选择组(例如：当对各杂音种类生成组时，杂音选择模型成为组选择模型，当用GMM生成时，把杂音输入杂音选择模型中，选择似然最大的组。)。

(实施例2)

<适合模型生成装置的结构>

图29是表示了实施例2的声音处理用适合模型生成装置的整体结构的框图。图29所示的装置具有：选择模型生成部21、选择模型存储部41、充分统计量生成部11、适合模型生成部51。选择模型生成部21生成用于选择接近使用者的声音数据的声音数据的选择模型75。选择模型存储部41存储选择模型生成部21生成的选择模型75。充分统计量生成部11使用选择模型存储部41存储的选择模型75，从声音数据83中选择接近使用者的声音数据的声音数据，使用在选择的声音数据中叠加有杂音的声音数据生成充分统计量72。适合模型生成部51使用充分统计量生成部11生成的充分统计量72，生成适合模型74。

<适合模型的生成处理>

下面，说明采用了以上结构的装置的声音识别用的适合模型的生成处理。

[选择模型75的生成]

首先，描述选择模型75的生成方法。在此，说明在使用者要求获得适合模型之前，脱机进行选择模型75的生成时的情形。

选择模型生成部21使用声音数据83，对各说话者，不区别音韵，根据1状态64混合的高斯混合模型(GMM)，生成选择模型75。

如图30所示，作为一个例子，使用声音数据83的功率大的帧，生成选择模型75。如果使用该方法，就能生成抗杂音的声音数据选择模型。

选择模型存储部41存储选择模型生成部21生成的选择模型75。图30表示了存储在选择模型存储部41中的选择模型75的一个例子。

[充分统计量72的生成]

下面，就充分统计量72的生成方法加以描述。

使用者要求适合模型74的生成。

使用者利用声音识别用的话筒，把利用声音识别的环境的杂音数据85输入充分统计量生成部11中。

另外，使用者利用声音识别用的话筒，把利用声音识别的环境下的声音数据81输入充分统计量生成部11中。在声音数据81中叠加了利用声音识别的环境的杂音。

接着，充分统计量生成部11把声音数据81输入到选择模型存储部41存储的选择模型75中，计算似然。在此，把声音数据81的功率大的帧部分输入到图30所示的选择模型75中，计算似然。然后，选择似然大的前L人(例如前20人)的说话者，作为接近使用者的声音数据的说话者。

充分统计量生成部11从安静的环境中的声音数据83中，在接近使用者的声音数据的说话者的声音数据上叠加杂音数据85，生成杂音叠加声音数据86。此时根据声音数据81和杂音数据85计算SN比，以计算的SN比生成杂音叠加声音数据86。图31表示了杂音叠加声音数据86的一个例子。

充分统计量生成部11使用杂音叠加声音数据86生成充分统计量72。图32表示了充分统计量生成部11生成的充分统计量72的一个例子。

[适合模型74的生成]

下面，说明适合模型生成部51的适合模型74的生成处理。

适合模型生成部51使用充分统计量生成部11生成的充分统计量72生成适合模型74。具体地说，通过以下的统计计算处理(表达式7～表达式9)生成适合模型74。适合模型74的HMM的各状态的正态分布的平均、分散分别为μ_i ^adp(i＝1、2…、N_mix)、ν_i ^adp(i＝1、2…、N_mix)。N_mix是混合分布数。另外，状态转变概率为a^adp[i][j](i、j＝1、2…、N_state)。N_state是状态数，a^adp[i][j]表示从状态i向状态j的转变概率。

[表达式7]

{μ_{i}}^{adp} = \frac{Σ_{j = 1}^{N_{sel}} C_{mix}^{j} μ_{i}^{j}}{Σ_{j = 1}^{N_{sel}} C_{mix}^{j}}, (i = 1,2, . . ., N_{mix})

[表达式8]

{ν_{i}}^{adp} = \frac{Σ_{j}^{N_{sel}} C_{mix}^{j} (ν_{i}^{j} {+ (μ_{i}^{j})}^{2})}{Σ_{j = 1}^{N_{sel}} C_{mix}^{j}} - {({μ_{i}}^{adp})}^{2}, (i = 1,2, . . ., N_{mix})

[表达式9]

a^{adp} [i] [j] = \frac{Σ_{k = 1}^{N_{sel}} C_{state}^{k} [i] [j]}{Σ_{j = 1}^{N_{state}} Σ_{k = 1}^{N_{sel}} C_{state}^{k} [i] [j]}, (i, j = 1,2, . . ., N_{state})

在此，N_sel是选择的声音模型的数，μ_i ^j(i＝1、2…、N_mix，j＝1、2、…N_sel)、ν_i ^j(i＝1、2…、N_mix，j＝1、2、…N_sel)是各HMM的平均、分散。C_mix ^j(j＝1、2、…N_sel)、C_state ^k[i][j](k＝1、2、…N_sel，i、j＝1、2、…N_state)分别是正态分布的EM计数(频数)、关于状态转变的EM计数。

适合模型生成部51准备使用者的下一个生成适合模型的要求。

<效果>

如以上所述，因为在实施例2中，使用叠加了利用环境的杂音数据85的声音数据86生成充分统计量72，生成适合模型74，所以能生成适应利用环境的适合模型74。因此，能在各种杂音环境下利用适合模型。

另外，使用在声音上接近使用者的说话者的声音数据中叠加有杂音的声音数据86，生成充分统计量72，所以瞬间就能生成充分统计量72，生成适合模型74。因此，利用环境做各种变化时，能立刻利用适合模型。

须指出的是，可以在使用者要求获得适合模型之前，脱线地把杂音数据85输入充分统计量生成部11中，脱线地生成充分统计量72。

把杂音数据85输入充分统计量生成部11中的定时可以由充分统计量生成部11自动决定。

生成适合模型74的定时可以是适合模型生成部51自动地决定。

选择模型75并不局限于高斯混合模型(Gaussian Mixture Model)。

可以把与HMM的各状态对应的标签存储在数据库中，使用存储的标签信息，生成杂音叠加声音数据86的充分统计量72。

<具体的商品形象>

图33表示了把实施例2的适合模型生成装置应用于实际的产品中的形象。该系统由输入声音的便携式终端(PDA)、生成适合模型并且进行识别的服务器构成。使用者向服务中心(服务器)打电话，按照来自中心的语音指南，通过语音发送指示。在服务中心(服务器)一侧，接收使用者的声音和杂音，通过以上所述的方法生成适合模型。使用生成的适合模型识别使用者的声音，把指南(识别结果)发送给PDA。

(实施例3)

<声音识别用的适合模型生成装置的结构>

图34是表示实施例3的适合模型生成装置的整体结构的框图。图34所示的装置具有：选择模型生成部1507、选择模型存储部1508、充分统计量生成部1506、适合模型生成部51、标签信息生成部1501、标签信息存储部1502、存储器1512。选择模型生成部1507生成用于选择接近使用者的声音数据的声音数据的选择模型1510。选择模型存储部1508存储选择模型生成部1507生成的选择模型1510。标签信息生成部1501使用把预测为利用环境的杂音的杂音数据以预测的SN比叠加到安静的环境中的声音数据83上而得到的声音数据1505，生成标签信息1504。标签信息存储部1502存储标签信息生成部1501生成的标签信息1504。充分统计量生成部1506使用选择模型存储部1508存储的选择模型1510和存储器1512中存储的安静环境中的使用者的声音数据1513，从声音数据83中选择在声音上接近使用者的声音数据的声音数据，使用在选择的声音数据中叠加了杂音数据85的声音数据和标签信息存储部1502存储的标签信息1504，生成充分统计量1509。适合模型生成部51使用充分统计量生成部1506生成的充分统计量1509，生成适合模型1511。

<适合模型生成装置的动作>

下面，说明采用以上的结构的适合模型生成装置的动作。

[选择模型1510的生成]

首先，就选择模型1510的生成方法加以说明。在此，说明在使用者要求获得适合模型之前，脱线地进行选择模型1510的生成时的情形。

如图35所示，选择模型生成部1507使用声音数据83，对各说话者，不区别音韵，根据1状态64混合的高斯混合模型(Gaussian MixtureModel)，生成选择模型1510。

选择模型存储部1508存储选择模型生成部1507生成的选择模型1510。

[标签信息1504和关于音韵模型的状态转变的信息1514的生成]

下面，说明标签信息1504和关于音韵模型的状态转变的信息1514的生成方法。在此，说明在使用者要求获得适合模型之前，脱线地进行标签信息1504和关于音韵模型的状态转变的信息1514的生成时的情形。作为一个例子，使用图36、图37、图38说明在车内利用声音识别时的情形。在此，考虑汽车导航系统的声音识别。

如图36所示，在安静环境中的声音数据83上叠加预测为利用环境的杂音数据(一般的车种A的车内杂音数据)1601，生成车内杂音10dB下的声音数据1602。在此，车种A的车内杂音数据1601利用事先用车种A在市内行驶时收录的杂音。接着，使用生成的声音数据1602，根据EM算法计算车内杂音10dB的充分统计量1603。在此，对各音韵，使用HMM生成不特定的说话者的充分统计量。在此，关于音韵模型的状态转变的信息1514是各音韵的HMM的状态转变概率。接着，如图37所示，车内杂音10dB的杂音叠加声音数据1602对各声音数据(某说话者的某发声数据)，输入到车内杂音10dB的充分统计量1603中，使用bitabi算法，对各声音数据(某说话者的某发声数据)生成标签信息1504。图38表示了标签信息1504的一个例子。在此，与帧编号对应的音韵名和HMM的状态编号为标签信息1504。

标签信息存储部1502存储标签信息1504和关于音韵模型的状态转变的信息1514。

[充分统计量1509的生成]

下面，说明充分统计量1509的生成方法。

使用者预先把安静环境中的使用者的声音数据1513存储在存储器1512中。

使用者要求适合模型生成适合模型1511。

充分统计量生成部1506接收存储在存储器1512中的安静环境中的使用者的声音数据1513。另外，充分统计量生成部1506接收利用声音识别的环境中的杂音数据85。

充分统计量生成部1506把安静环境中的使用者的声音数据1513输入到存储在选择模型存储部1508中的选择模型1510中，计算似然。然后，选择似然大的前L人(例如前40人)的说话者，作为接近使用者的声音数据的说话者。

充分统计量生成部1506从安静环境中的声音数据83中，在接近使用者的声音数据的说话者的声音数据中叠加杂音数据85，生成杂音叠加声音数据86。图31表示了杂音叠加声音数据86的生成方法的一个例子。

充分统计量生成部1506使用杂音叠加声音数据86和存储在标签信息存储部1502中的标签信息1504和关于音韵模型的状态转变的信息1514，生成充分统计量1509。如图39所示，把与杂音叠加声音数据86对应的音韵名和HMM的状态编号与标签信息1504中所记载的杂音叠加声音数据1505的音韵名和HMM的状态编号视为相同。同样，各音韵的HMM的状态转变概率也视为相同。即不进行关于HMM的状态编号、状态转变概率的计算处理。然后，在HMM的相同状态中，进行平均值、分散、混合加权等的充分统计量的计算。

[适合模型1511的生成]

下面，说明在适合模型生成部51中生成适合模型1511的方法。

适合模型生成部51使用充分统计量生成部1506生成的充分统计量1509生成适合模型1511。具体地说，通过以下的统计计算处理(表达式10～表达式12)生成适合模型1511。适合模型1511的HMM的各状态的正态分布的平均、分散分别为μ_i ^adp(i＝1、2…、N_mix)、ν_i ^adp(i＝1、2…、N_mix)。N_mix是混合分布数。另外，状态转变概率为a^adp[i][j](i、j＝1、2…、N_state)。N_state是状态数，a^adp[i][j]表示从状态i向状态j的转变概率。

[表达式10]

{μ_{i}}^{adp} = \frac{Σ_{j = 1}^{N_{sel}} C_{mix}^{j} μ_{i}^{j}}{Σ_{j = 1}^{N_{sel}} C_{mix}^{j}}, (i = 1,2, . . ., N_{mix})

[表达式11]

{ν_{i}}^{adp} = \frac{Σ_{j = 1}^{N_{sel}} C_{mix}^{j} ({ν_{i}^{j} + (μ_{i}^{j})}^{2})}{Σ_{j = 1}^{N_{sel}} C_{mix}^{j}} - {({μ_{i}}^{adp})}^{2}, (i = 1,2, . . ., N_{mix})

[表达式12]

a^{adp} [i] [j] = \frac{Σ_{k = 1}^{N_{sel}} C_{state}^{k} [i] [j]}{Σ_{j = 1}^{N_{state}} Σ_{k = 1}^{N_{sel}} C_{state}^{k} [i] [j]}, (i, j = 1,2, . . ., N_{state})

<效果>

如以上所说明的那样，在实施例3中，因为使用标签信息1504来计算充分统计量1509，所以能在短时间内生成充分统计量1509，能在短时间内生成适合模型1511。因此，能在利用环境做各种变化时，立刻利用适合模型。

另外，使用接近利用环境杂音叠加声音数据1505，生成标签信息1504，所以能在短时间内生成精度高的充分统计量1509。因此，利用环境做各种变化时，能立刻利用更高精度的适合模型。

另外，因为使用标签信息1504和关于音韵模型的状态转变的信息1514，计算充分统计量1509，所以能在更短时间内生成充分统计量1509，能在短时间内生成适合模型1511。因此，能在利用环境做各种变化时，立刻利用适合模型。

须指出的是，也可以在使用者要求获得适合模型之前，脱线地把杂音数据85输入充分统计量生成部1506中，脱线地生成充分统计量1509。

把杂音数据85输入充分统计量生成部1506中的定时可以由充分统计量生成部1506自动决定。

生成适合模型1511的定时可以是适合模型生成部51自动地决定。

选择模型1510并不局限于高斯混合模型(GMM)。

存储器1512中存储的声音数据1513可以重叠利用环境或预测为利用环境的环境的杂音。

可以使用杂音数据85作为预测杂音数据1503。

(实施例4)

<声音识别用的适合模型生成装置的结构>

图40是表示实施例4的适合模型生成装置的整体结构的框图。图40所示的适合模型生成装置具有：选择模型生成部1507、选择模型存储部1508、充分统计量生成部2107、适合模型生成部51、标签信息生成部2104、标签信息存储部2106、标签信息选择模型生成部2101、标签信息选择模型存储部2102、存储器1512。选择模型生成部1507生成用于选择接近使用者的声音数据的声音数据的选择模型1510。选择模型存储部1508存储选择模型生成部1507生成的选择模型1510。标签信息生成部2104使用把预测为利用环境的杂音的预测杂音数据1503以预测的SN比叠加到安静的环境中的声音数据83上而得到的杂音叠加声音数据，生成两种以上的标签信息2105。标签信息存储部2106存储标签信息生成部2104生成的两种以上的标签信息2105。标签信息选择模型生成部2101使用预测为利用环境的杂音的杂音数据1503，生成标签信息选择模型2103。标签信息选择模型存储部2102存储标签信息选择模型生成部2101生成的标签信息选择模型2103。充分统计量生成部2107使用选择模型存储部1508存储的选择模型1510和存储器1512中存储的安静环境中的使用者的声音数据1513，从声音数据83中选择接近使用者的声音数据。另外，充分统计量生成部2107使用标签信息选择模型存储部2102存储的标签信息选择模型2103和利用环境的杂音数据85，从存储在标签信息存储部2106中的标签信息2105中，选择适合于利用环境的标签信息。然后，充分统计量生成部2107使用在选择的声音数据中叠加了杂音数据85的声音数据和选择的适合于利用环境的标签信息2105，生成充分统计量2108。适合模型生成部51使用充分统计量生成部2107生成的充分统计量2108，生成适合模型2109。

<适合模型生成装置的动作>

下面，说明采用以上的结构的适合模型生成装置的动作。

[选择模型1510的生成]

在安静的环境中，收录多个说话者的声音数据83。在此，收录约300人的声音数据。…

[标签信息210的生成]

下面，说明标签信息2105的生成方法。在此，说明在使用者要求获得适合模型之前，脱线地进行标签信息2105的生成时的情形。作为一个例子，使用图41和图42说明在展览会场中利用声音识别时的情形。

从使用者的行动经历可知：经常在车内、展览会场、家庭内利用声音识别。因此，分别预先收录在车内、展览会场、家庭内的一般的杂音。如图41所示，在安静环境中的声音数据83中叠加预测为利用环境的三种杂音数据(车内杂音数据1503A、展览会场杂音数据1503B、家庭内杂音数据1503C)，生成车内杂音10dB的杂音叠加声音数据1505A、展览会场杂音20dB的杂音叠加声音数据1505B、家庭内杂音20dB的杂音叠加声音数据1505。接着，使用生成的杂音叠加声音数据，根据EM算法，对各杂音种类分别生成充分统计量1603A、1603B、1603C。在此，对各音韵，使用HMM生成不特定说话者的充分统计量。接着，如图42所示，对于各声音数据(某种杂音数据的某说话者的某发声数据)，把三种杂音数据1505A、1505B、1505C分别输入到充分统计量1603A、1603B、1603C中，使用bitabi算法，对于各声音数据(某说话者的某发声数据)的标签信息2105A、2105B、2105C。

[标签信息选择模型2103的生成]

下面，使用图43来说明标签信息选择模型2103的生成方法。在此，作为一个例子，生成与杂音种类对应的GMM。使用在标签信息2105的生成中使用的预测杂音数据1505A、1505B、1505C，生成标签信息选择模型2103A、2103B、2103C。

[充分统计量2108的生成]

下面，说明充分统计量2108的生成方法。

使用者要求适合模型生成适合模型2109。

充分统计量生成部2107接收存储在存储器1512中的安静环境中的使用者的声音数据1513。另外，充分统计量生成部2107接收利用声音识别的环境中的杂音数据85。

充分统计量生成部2107把安静环境中的使用者的声音数据1513输入到存储在选择模型存储部1508中的选择模型1510中，计算似然。然后，选择似然大的前L人(例如前40人)的说话者，作为接近使用者的声音数据的说话者。

充分统计量生成部2107从安静环境中的声音数据83中，在接近使用者的声音数据的说话者的声音数据中叠加杂音数据85，生成杂音叠加声音数据86。图31表示了杂音叠加声音数据86的生成方法的一个例子。

充分统计量生成部2107在存储在存储部2102中的标签信息选择模型2103中输入杂音数据85，从标签信息存储部2106取出与具有最大的似然的标签信息选择模型2103对应的标签信息2105。在此，因为利用环境为展览会场，所以取出了展览会场杂音20dB的标签信息2105B。

充分统计量生成部2107使用杂音叠加声音数据86和从标签信息存储部2106取出的展览会场杂音20dB的标签信息2105B，生成充分统计量2108。

[适合模型2109的生成]

下面，说明在适合模型生成部51中生成适合模型2109的方法。

适合模型生成部51使用充分统计量生成部2107生成的充分统计量2108来生成适合模型2109。具体地说，通过以下的统计处理计算(表达式13～表达式15)生成适合模型2109。适合模型2109的HMM的各状态的正态分布的平均、分散分别为μ_i ^adp(i＝1、2…、N_mix)、ν_i ^adp(i＝1、2…、N_mix)。N_mix是混合分布数。另外，状态转变概率为a^adp[i][j](i、j＝1、2…、N_state)。N_state是状态数，a^adp[i][j]表示从状态i向状态j的转变概率。

[表达式13]

{μ_{i}}^{adp} = \frac{Σ_{j = 1}^{N_{sel}} C_{mix}^{j} μ_{i}^{j}}{Σ_{j = 1}^{N_{sel}} C_{mix}^{j}}, (i = 1,2, . . ., N_{mix})

[表达式14]

{ν_{i}}^{adp} = \frac{Σ_{j = 1}^{N_{sel}} C_{mix}^{j} (ν_{i}^{j} {+ (μ_{i}^{j})}^{2})}{Σ_{j = 1}^{N_{sel}} C_{mix}^{j}} - {({μ_{j}}^{adp})}^{2}, (i = 1,2, . . ., N_{mix})

[表达式15]

a^{adp} [i] [j] = \frac{Σ_{k = 1}^{N_{sel}} C_{state}^{k} [i] [j]}{Σ_{j = 1}^{N_{state}} Σ_{k = 1}^{N_{sel}} C_{state}^{k} [i] [j]}, (i, j = 1,2, . . ., N_{state})

在此，N_sel是所选择的声音模型的数，μ_i ^j(i＝1、2…、N_mix，j＝1、2、…N_sel)、ν_i ^j(i＝1、2…、N_mix，j＝1、2、…N_sel)是各HMM的平均、分散。C_mix ^j(j＝1、2、…N_sel)、C_state ^k[i][j](k＝1、2、…N_sel，i、j＝1、2、…N_state)分别是正态分布的EM计数(频数)、关于状态转变的EM计数。

<效果>

如以上所述，在实施例4中，因为使用根据标签信息选择模型2103而选择的适合于利用环境的标签信息2105，计算充分统计量2108，所以能生成精度更高的充分统计量。因此，能在利用环境做各种变化时，立刻利用精度更高的适合模型。

须指出的是，可以在使用者要求获得适合模型之前，脱线地把杂音数据85输入充分统计量生成部2107中，脱线地生成充分统计量2108。

把杂音数据85输入充分统计量生成部2107中的定时可以由充分统计量生成部2107自动决定。

生成适合模型2109的定时可以是适合模型生成部51自动地决定。

选择模型1510并不局限于高斯混合模型。

标签信息2105的种类数和标签信息选择模型2103的数并不局限为同数。

可以使用杂音数据85作为预测杂音数据1503。

实施例2的适合模型生成装置既可以由硬件来实现，也可以由软件(计算机程序)来实现。

Claims

1.一种方法，生成用于声音识别的声音模型，其特征在于：包括：

在所述步骤(a)中，至少执行下述(a1)～(a3)中的至少一步，

(a1)根据所述杂音的种类来进行分组，

(a2)根据叠加有所述杂音的声音数据的SN比来进行分组，

(a3)按照声音上接近的各说话者来进行分组，

在所述步骤(b)中，至少执行下述(b1)～(b4)中的至少一步，

(b1)针对每一说话者来生成充分统计量，

(b2)按照说话者声音的各声调来生成充分统计量，

(b3)按照所述杂音的各种类来生成充分统计量，

2.一种方法，生成用于声音识别的声音模型，其特征在于：包括：

在所述步骤(c)中，执行下述(c1)～(c3)中的至少一步，

(c1)基于所述杂音的种类进行分组，

(c2)基于所述叠加了杂音的声音数据的SN比进行分组，

(c3)按照声音上接近的各说话者来进行分组，

在所述步骤(d)中，至少执行下述(d1)～(d4)中的至少一步，

(d1)针对每一说话者来生成充分统计量，

(d2)按照说话者声音的各声调来生成充分统计量，

(d3)按照所述杂音的各种类来生成充分统计量，

3.一种装置，生成用于声音识别的声音模型，其特征在于：包括：

所述分组生成部，执行下述(a1)～(a3)中的至少一步，

(a1)基于所述杂音的种类进行分组，

(a2)基于所述叠加了杂音的声音数据的SN比进行分组，

(a3)按照声音上接近的各说话者来进行分组，

(b1)针对每一说话者来生成充分统计量，

(b2)按照说话者声音的各声调来生成充分统计量，

(b3)按照所述杂音的各种类来生成充分统计量，

4.一种装置，生成用于声音识别的声音模型，其特征在于：包括：

存储基于多个说话者的多种声音数据的第一存储部；

所述分组生成部，执行下述(a1)～(a3)中的至少一步，

(a1)基于所述杂音的种类进行分组，

(a2)基于所述叠加了杂音的声音数据的SN比进行分组，

(a3)按照声音上接近的各说话者来进行分组，

(b1)针对每一说话者来生成充分统计量，

(b2)按照说话者声音的各声调来生成充分统计量，

(b3)按照所述杂音的各种类来生成充分统计量，