DE10124762A1 - Method for training and operating a voice recognizer, esp. for mobile-phones and hand-held computers, involves processing noise-loaded spoken statement by trained neuronal network - Google Patents

Method for training and operating a voice recognizer, esp. for mobile-phones and hand-held computers, involves processing noise-loaded spoken statement by trained neuronal network

Info

Publication number
DE10124762A1
DE10124762A1 DE2001124762 DE10124762A DE10124762A1 DE 10124762 A1 DE10124762 A1 DE 10124762A1 DE 2001124762 DE2001124762 DE 2001124762 DE 10124762 A DE10124762 A DE 10124762A DE 10124762 A1 DE10124762 A1 DE 10124762A1
Authority
DE
Germany
Prior art keywords
noise
speech
trained
training
speech recognizer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE2001124762
Other languages
German (de)
Other versions
DE10124762B4 (en
Inventor
Steffen Harengel
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Priority to DE2001124762 priority Critical patent/DE10124762B4/en
Publication of DE10124762A1 publication Critical patent/DE10124762A1/en
Application granted granted Critical
Publication of DE10124762B4 publication Critical patent/DE10124762B4/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Abstract

A voice recognizer training and operation procedure including noise identification, involves receiving several noise samples from a number of typical noise environments and then computing acoustic features from the noise samples in a training phase, and then with the noise samples a neuronal network of the voice recognition is trained and during operation of the voice recognition a noise-loaded spoken statement is processed by means of the trained neuronal network and by accessing the noise features data-base, where the acoustic features of the noise environment of the speaker are subtracted. An Independent claim is given for a voice recognizer, especially for speaker-independent voice recognition

Description

Die Erfindung betrifft ein Verfahren zum Training und Betrieb eines Spracherkenners mit Geräuschidentifikation, welches ei­ ne Basis zur Erzielung einer Geräuschreduktion schafft, sowie einen dieses Verfahren realisierenden Spracherkenner.The invention relates to a method for training and operation a speech recognizer with noise identification, which ei ne basis for achieving a noise reduction, as well a speech recognizer implementing this method.

Nachdem die Spracheingabe für Textprogramme sowie die Sprach­ steuerung von Gerätefunktionen sich bei PCs seit Jahren be­ währt und einen hohen Grad an Erkennungsgenauigkeit erreicht hat, wird sie seit kurzem verstärkt auch bei einfacheren End­ geräten von Telekommunikations- bzw. Datennetzen, insbesonde­ re Mobiltelefonen und Handheld-PCs und PDAs (Personal Digital Assistants) eingesetzt. Entsprechende Geräte sind bereits auf dem Markt erhältlich. Die Sprachsteuerung bietet hier einen erhöhten Bedienkomfort bei der Aktivierung häufig benötigter Funktionen bzw. beim Wählen häufig benutzter Rufnummern.After the voice input for text programs as well as the voice Control of device functions on PCs for years lasts and achieves a high degree of recognition accuracy has recently been reinforced even with simpler end devices of telecommunications or data networks, in particular re Mobile phones and handheld PCs and PDAs (Personal Digital Assistants). Appropriate devices are already on available on the market. The voice control offers one here Increased ease of use when activating frequently required Functions or when dialing frequently used phone numbers.

Die Spracherkennung auf derartigen Endgeräten beruht in der Regel auf Algorithmen der sprecherabhängigen Spracherkennung. Bei diesen Verfahren muß der Wortschatz durch Einsprechen al­ ler Worte seitens des Benutzers trainiert werden.The speech recognition on such devices is based on Rule based on speaker-dependent speech recognition algorithms. In these procedures, the vocabulary must be pronounced by speaking al words are trained by the user.

Im Gegensatz dazu erlauben sprecherunabhängige Spracherken­ nungsverfahren den sofortigen Einsatz ohne Initialisierung, den sogenannten Enrollment-Prozeß. Einfachere, relativ preis­ werte Endgeräte ("Low-Cost"-Geräte) verfügen bereits über re­ lativ leistungsfähige Mikrocontroller oder Mikroprozessoren mit hoher Rechenleistung, so daß für die nächsten Jahre eine Ablösung der unbequemeren sprecherabhängigen Spracherkennung bei derartigen Geräten durch die hinsichtlich der benötigten Verarbeitungsleistung aufwendigere sprecherunabhängige Spracherkennung zu erwarten steht. Diese hat im übrigen den Vorteil, daß der Wortschatz nicht a priori bekannt sein muß - was bestimmte Anwendungen überhaupt erst möglich macht.In contrast, speaker-independent speech recognition allows the immediate use without initialization, the so-called enrollment process. Simpler, relatively inexpensive Valuable end devices ("low-cost" devices) already have re relatively powerful microcontrollers or microprocessors with high computing power, so that for the next few years a Replacement of the more inconvenient speaker-dependent speech recognition in such devices by the required Processing performance more elaborate speaker-independent Speech recognition is expected. Incidentally, this has the  Advantage that the vocabulary does not have to be known a priori - which makes certain applications possible in the first place.

Grundsätzlich besteht bei allen Spracherkennern das Problem, daß bei wesentlichen akustischen Abweichungen des im Betrieb zu verarbeitenden Sprachdatenmaterials vom in der Trainings­ phase benutzten Sprachdatenmaterial die Erkennungsleistung stark absinken kann. Dieser auch als Mismatch-Problem be­ zeichnete Umstand tritt besonders ausgeprägt bei einem Be­ trieb des Spracherkenners in einer stark geräuschbelasteten Umgebung (beispielsweise im fahrenden Kraftfahrzeug, in Pro­ duktionsanlagen, auf dem Bau, in Callcenter o. ä.) auf, aber auch bei Betrieb eines Spracherkenners durch Personen mit Stimmfärbungen und/oder Mundarten, die in dem in der Trai­ ningsphase verwendeten Sprachmaterial nicht vertreten waren.Basically, the problem with all speech recognizers is that in the event of significant acoustic deviations in operation language data material to be processed in the training phase used speech data material the recognition performance can drop sharply. This also be a mismatch problem The marked circumstance is particularly pronounced in a case drove the speech recognizer into a very noisy place Environment (for example in a moving motor vehicle, in Pro production facilities, under construction, in call centers or similar), but even if a speech recognizer is operated by people with Vocalizations and / or dialects in the trai language material used during the ning phase were not represented.

Während bei der sprecherabhängigen Spracherkennung die später im Betrieb zu erkennenden Worte vom Benutzer selbst und daher normalerweise in der Umgebung eingesprochen werden, die auch die spätere Betriebsumgebung darstellt, kann dies bei der sprecherunabhängigen Spracherkennung natürlich nicht gewähr­ leistet werden. Das Training wird hier im Labor vom Technolo­ gielieferanten mit Datenbasen durchgeführt, die eine Vielzahl von durch unterschiedliche Sprecher erzeugten Sprachproben enthalten. Auch hier wird versucht, der Betriebsumgebung be­ reits beim Training Rechnung zu tragen. Geht es beispielswei­ se bei dem Spracherkenner um Telefonanwendungen, werden zum Training der akustischen Modelle "Telefondatenbasen" einge­ setzt. Wird ein so trainierter Spracherkenner jedoch in einer gänzlich anderen Umgebung eingesetzt - im Beispiel statt bei einer Telefonanwendung also etwa im fahrenden Kraftfahrzeug -, so sinkt die Erkennungsleistung infolge des akustischen Mismatch zwischen Trainings- und Betriebssituation dramatisch ab.While with speaker-dependent speech recognition the later Words to be recognized in operation by the user himself and therefore normally be spoken to in the area that too represents the later operating environment, this can be done at the speaker-independent speech recognition is of course not guaranteed to be achieved. The training is done here in the laboratory by Technolo suppliers with databases carried out a variety of speech samples generated by different speakers contain. Again, an attempt is made to be the operating environment to take into account during training. For example se in the speech recognizer for telephone applications, become Training of acoustic models "telephone databases" turned on puts. However, if such a speech recognizer is trained in one completely different environment - in the example instead of a telephone application, for example in a moving motor vehicle -, the recognition performance drops due to the acoustic Mismatch between training and operational situation dramatically from.

Mittlerweile werden Spracherkennungssysteme auf verschiedens­ ten Plattformen (PC, PDA, Handy, etc.) und in allen möglichen Umgebungen (z. B.: Auto, Büro, Industrie, beliebiger Standort eines mobilen Gerätes: PDA, Handy) eingesetzt. In vielen Um­ gebungen gibt es Störgeräusche, die die Spracherkennung er­ schweren. Mit Hilfe von geeigneten Algorithmen zur Geräusch­ reduktion soll die Erkennungsleistung von Spracherkennungs­ systemen verbessert werden.Meanwhile, speech recognition systems are on different platforms (PC, PDA, cell phone, etc.) and in all possible  Environments (e.g. car, office, industry, any location a mobile device: PDA, cell phone). In many order There are interfering noises that the speech recognition heavy. With the help of suitable algorithms for noise Reduction is supposed to be the recognition performance of speech recognition systems are improved.

Die Geräuschidentifikation liefert hierbei eine Aussage über die Geräuschart bzw. -umgebung. Dadurch ermöglicht sie die Auswahl der geeigneten Geräuschkompensation: entweder per Fremdprodukt oder durch die Geräuschanpassung des Verfahrens selbst. Weiterhin ist ein "schritthaltender" Einsatz möglich, d. h. bei einem Wechsel der Geräuschumgebung stellt das Sys­ tem die neue Umgebung fest.The noise identification provides information about this the type of noise or environment. This enables it Selection of the appropriate noise compensation: either by Third party product or through the noise adjustment of the process itself. Furthermore, "step-by-step" use is possible, d. H. when the noise environment changes, the Sys the new environment.

Die Geräuschanpassung stellt eine Geräuschreduktion/-kompen­ sation für vielfältige Spracherkennungssysteme zur Verfügung. Dadurch wird eine bessere Anpassung des Spracherkenungs­ systems an die Umgebung erzielt und die Erkennungsleistung erhöht: Gesprochene Äußerungen werden besser erkannt, und au­ ßerdem gibt es weniger Fehlerkennungen, die aus der Erkennung von Störgeräuschen resultieren.The noise adjustment represents a noise reduction / compensation available for a wide range of speech recognition systems. This will make better speech recognition adjustment systems to the environment and the recognition performance increased: spoken utterances are better recognized, and also There are also fewer error detections that result from detection result from noise.

Beide Komponenten (Geräuschidentifikation und Geräuschanpas­ sung) können in einer einmaligen Trainingsphase an beliebige Geräuschumgebungen angepaßt werden.Both components (noise identification and noise adjustment solution) in a one-time training phase to anyone Noise environments can be adapted.

Es gibt im Stand der Technik kaum Verfahren zur Identifikati­ on von Geräuschumgebungen, da diese nur im Zusammenhang mit einer Geräuschreduktion Sinn machen.There are hardly any methods of identification in the prior art on of noise environments, as these are only in connection with of noise reduction make sense.

Filtersysteme versuchen die Störgeräusche aus dem Audiokanal herauszufiltern. Hierbei werden in der "Ruhephase", d. h. wenn keine Äußerung vom Benutzer eingesprochen wird, die Fil­ terkoeffizienten so an den Audiokanal angepaßt, daß des an­ liegende Hintergrundgeräusch kompensiert wird. Sobald der Be­ nutzer eine Äußerung spricht, werden die Filterkoeffizienten ohne weitere Veränderung angewandt, und das Filter versucht, die Hintergrundgeräusche zu kompensieren. Im Idealfall soll des Sprachsignal ohne Störgeräusche erhalten werden, welches der nachfolgenden Erkennerkomponente zugeführt wird.Filter systems try the noise from the audio channel filter out. Here, in the "resting phase", H. if no statement is made by the user, the fil adapted to the audio channel so that the an lying background noise is compensated. As soon as the Be User speaks an utterance, the filter coefficients  applied without further change, and the filter tries to compensate for the background noise. Ideally, should of the speech signal can be obtained without noise, which the subsequent recognition component is fed.

Hierfür ist kein Training an die Geräuschumgebung erforder­ lich, da sich das Filter von alleine einschwingt, und vor­ teilhaft ist auch die einfache Realisierung von Filtersyste­ men. Nachteilig ist, daß das Filter Einschwingzeit benötigt und zur Anpassung der Filterkoeffizienten eine gute Unter­ scheidung zwischen "Ruhe-" und "Sprachphase" erforderlich ist. Die Eigenschaften des Erkennungssystems werden zudem kaum berücksichtigt, d. h. es wird nicht berücksichtigt, daß es Störgeräusche gibt, die einen stärkeren bzw. schwacheren Einfluß auf Fehlerkennungen haben.No training in the noise environment is required for this Lich, since the filter settles by itself, and before the simple implementation of filter systems is also a part men. The disadvantage is that the filter requires settling time and a good sub to adjust the filter coefficients distinction between "rest" and "speech phase" required is. The characteristics of the detection system are also hardly considered, d. H. it is not considered that there is noise that is stronger or weaker Have an influence on error detection.

Das Verfahren der HMM-Geräuschadaption liefert sehr gute Er­ gebnisse zur Geräuschreduktion. Hierbei wird des Hidden- Markov-Modell (HMM), welches die akustische Modellierung für des Spracherkennungssystem enthält, an die Geräuschumgebung angepaßt. Dazu wird in einer Trainingsphase des System an ge­ räuschbehaftete Äußerungen (gesprochene Äußerung mit Störge­ räusch) adaptiert. Diese geräuschbehafteten Äußerungen müssen vor der Trainingsphase gesammelt werden (z. B. als Aufzeich­ nung per DAT-Rekorder). Für ein sprecherunabhängiges Sprach­ erkennungssystem ist die Aufzeichnung der geräuschbehafteten Äußerungen vieler Sprecher erforderlich, sonst droht der Ver­ lust der Sprecherunabhängigkeit.The method of HMM noise adaptation delivers very good Er results for noise reduction. Here the hidden Markov model (HMM), which is the acoustic modeling for of the speech recognition system contains to the noise environment customized. To do this, the system is trained in a training phase noisy utterances (spoken utterance with Störge noise) adapted. These noisy statements must be collected before the training phase (e.g. as a record via DAT recorder). For a speaker-independent language detection system is the recording of the noisy Statements by many speakers are required, otherwise the Ver lust for speaker independence.

Während das Verfahren einerseits eine sehr gute Geräuschre­ duktion liefert, hat es andererseits erhebliche Nachteile: In der Praxis ist eine Anpassung nur an eine spezifische Ge­ räuschumgebung möglich, da der Trainingsaufwand sonst zu hoch würde. Es funktioniert nur mit einem Erkennungssystem, da die HMM-Struktur nicht standardisiert ist. Der Trainingsaufwand ist hoch, da viel Trainingsmaterial (geräuschbehaftete Äuße­ rungen) benötigt wird. On the one hand, the process made a very good noise on the other hand, it has considerable disadvantages: In in practice an adaptation is only to a specific Ge possible in a noisy environment, otherwise the training effort would be too high would. It only works with a detection system because the HMM structure is not standardized. The training effort is high because there is a lot of training material (noisy exterior stakes) is required.  

Der Erfindung liegt daher die Aufgabe zugrunde, ein verbes­ sertes Verfahren der gattungsgemäßen Art anzugeben, welches einerseits die Grundlage für eine hocheffiziente Geräuschre­ duktion - speziell auch unter verschiedenartigen Geräuschum­ gebungen - bietet und andererseits mit vergleichsweise gerin­ gem Aufwand sowohl in der Trainings- als auch der Betriebs­ phase in verschiedenen Spracherkennern implementiert werden kann. Weiterhin soll ein entsprechender Spracherkenner ange­ geben werden.The invention is therefore based on the object, a verbes specify method of the generic type, which on the one hand, the basis for a highly efficient noise control production - especially under different types of noise gebungen - offers and on the other hand with comparatively little according to effort in both training and operations phase can be implemented in different speech recognizers can. Furthermore, a corresponding speech recognizer is said to be will give.

Diese Aufgabe wird hinsichtlich ihres Verfahrensaspektes durch ein Verfahren mit den Merkmalen des Anspruchs 1 und in ihrem Vorrichtungsaspekt durch einen Spracherkenner mit den Merkmalen des Anspruchs 11 gelöst.This task is regarding its procedural aspect by a method having the features of claim 1 and in their device aspect by a speech recognizer with the Features of claim 11 solved.

Die Erfindung löst das technische Problem, indem die charak­ teristischen akustischen und zeitlichen Eigenschaften der Ge­ räusche zu den jeweiligen Geräuschumgebungen gelernt werden. Nach der Lernphase wird dieses Wissen verwendet, um die Ge­ räuschumgebung zu identifizieren.The invention solves the technical problem by the charak teristic acoustic and temporal properties of the Ge noises can be learned for the respective noise environments. After the learning phase, this knowledge is used to understand the Ge identify the noise environment.

Das Verfahren muß dazu in einer einmaligen Trainingsphase die Geräusche der jeweiligen Geräuschumgebungen erlernen. Hierzu muß zunächst Trainingsmaterial von den zu erlernenden Ge­ räuschumgebungen (Geräuschproben) gesammelt werden. Dazu wer­ den die Geräusche mit oder ohne Sprache von den verschiedenen Geräuschumgebungen als Audiodateien aufgezeichnet. Aus diesen Audiodateien werden nun die akustischen Merkmale berechnet.The procedure must be carried out in a one-off training phase Learn the sounds of the respective noise environment. For this must first training material from the Ge to be learned noise environments (noise samples) are collected. About who which the sounds with or without speech from the different Noise environments recorded as audio files. From these Audio files are now calculated the acoustic characteristics.

Es ist vorteilhaft, für diese Merkmalsextraktion die Vorver­ arbeitung des Spracherkenners zu verwenden, besonders im Hin­ blick auf eine nachfolgende Geräuschanpassung eines Spracher­ kennungssystems, da diese ebenfalls die Vorverarbeitung benö­ tigt. Eine Vorverarbeitung wird von jedem Spracherkennungs­ system durchgeführt. Das Audiosignal (die Geräuschprobe) wird hierbei in Zeitfenster zerlegt, und für jedes Zeitfenster werden die akustischen Merkmale des Sprachsignals berechnet. Diese Merkmale werden normalerweise für die nachfolgenden Spracherkennungskomponenten benötigt. Für das vorgeschlagene Verfahren werden nun diese Merkmale für die Identifikation der Geräuschumgebung herangezogen.It is advantageous to use the previous ver for this feature extraction to use the work of the speech recognizer, especially in the outward direction look at a subsequent speech adaptation of a speech identification system, since this also requires preprocessing Untitled. Preprocessing is done by every speech recognition system implemented. The audio signal (the noise test) will broken down into time slots, and for each time slot  the acoustic characteristics of the speech signal are calculated. These features are usually used for the following Speech recognition components needed. For the proposed These features are now used for identification the noise environment.

Die ermittelten Merkmale pro Zeitfenster bilden zusammen mit der Geräuschumgebungsinformation das Trainingsmaterial. Das Wissen, welches im Trainingsmaterial enthalten ist (Geräusche und die zeitliche Dynamik des Geräuschverlaufs), wird nun mit Hilfe eines neuronalen Netzes (NN) erlernt. Als Eingangskno­ ten in dem NN werden die Merkmale für mehrere aufeinanderfol­ gende Zeitfenster angelegt. Bei dem Training des NN wird die korrekte Information über die Geräuschumgebung dem neuronalen Netz als Zielwert für den Ausgabeknoten vorgegeben.The characteristics determined per time window form together with the training material. The Knowing what is included in the training material (noises and the temporal dynamics of the noise curve) is now included Learned with the help of a neural network (NN). As an entry point The features in the NN are consecutive for several time window. When training the NN, the correct information about the neural environment Network specified as the target value for the output node.

Für das neuronale Netz wird bevorzugt ein Multilayer-Perzep­ tron (MLP) verwendet. Hierbei handelt es sich um ein schicht­ orientiertes, vorwärtsgerichtetes (feed forward) Netz mit Vollvermaschung zwischen den einzelnen Schichten. Als Akti­ vierungsfunktion wird die Sigmoidfunktion Sc(x)oder tanh(x) verwendet. Welche von den beiden Aktivierungsfunktionen ver­ wendet wird oder wieviele Schichten des NN hat, spielen für des Verfahren keine Rolle. Es muß lediglich für eine gute Trainingsgenauigkeit die Anzahl der variablen Parameter aus­ reichend groß sein. Dies kann erreicht werden durch mehrere Schichten bzw. durch eine höhere Anzahl von Neuronen in den/der versteckten Schicht(en).A multilayer percep is preferred for the neural network tron (MLP) used. This is a layer oriented, forward (feed forward) network with Full meshing between the individual layers. As an act function is the sigmoid function Sc (x) or tanh (x) used. Which of the two activation functions ver or how many layers of the NN are playing for the process does not matter. It just has to be for good Training accuracy the number of variable parameters be big enough. This can be achieved through several Layers or by a higher number of neurons in the hidden layer (s).

In der Regel wird beim NN-Training als Lernregel "Error Backpropagation" verwendet. Bei diesem Verfahren wird der mittlere quadratische Fehler minimiert. Des NN wird mit den Trainingsmustern in mehreren Iterationen trainiert.As a rule, "Error Backpropagation "is used. This method uses the minimized mean square errors. The NN is with the Training patterns trained in multiple iterations.

Durch die Verwendung von Merkmalen von mehreren aufeinander­ folgenden Zeitfenstern als Eingangsknoten, erlernt das NN auch instationäre Geräusche, d. h. diese weisen einen zeitlichen Geräuschverlauf auf (z. B.: Hammerschläge, Sirenengeräu­ sche, etc.).By using features of several on top of each other following time slots as input nodes, the NN learns also transient noises, d. H. these indicate a temporal  Noise curve on (e.g .: hammer blows, siren sounds cal, etc.).

Im Anwendungsfall (Betrieb) besteht das System aus einem Au­ diokanal, der gewählten Merkmalsextraktion, die auch in der Trainingsphase verwendet wurde, und aus dem gelernten NN. Mit Hilfe der Umgebungsinformation, die das NN liefert, kann zum Beispiel eine Auswahl des passenden Geräuschreduktionsverfah­ rens vorgenommen werden.In the application (operation), the system consists of an Au diokanal, the selected feature extraction, which is also in the Training phase was used, and from the learned NN. With The environmental information provided by the NN can be used to Example a selection of the appropriate noise reduction method rens can be made.

Es werden permanent Audiodaten, die in der Regal per Mikro­ phon (Audiokanal) bereitgestellt werden, dem System zuge­ führt. Die Audiodaten werden dabei der Merkmalsextraktion un­ terzogen. Man erhält dadurch in gewissen Zeitabständen (ab­ hängig von der Zeitfensterbreite der Merkmalsextraktion) a­ kustische Merkmale. Mehrere von diesen jeweils zeitlich auf­ einanderfolgenden Merkmalen werden an die Eingangsschicht des NN gelegt, und das NN berechnet die zugehörige Geräuschumge­ bung (Ausgangsknoten).There is permanent audio data that is on the shelf by micro phon (audio channel) are provided to the system leads. The audio data become the feature extraction un terzogen. This gives you at certain intervals (from dependent on the time window width of the feature extraction) a acoustic features. Several of these each timed successive features are applied to the input layer of the NN placed, and the NN calculates the associated noise exercise (exit node).

Da die Eingangsschicht des NN nur relativ kurze zeitliche Ab­ hängigkeiten erfaßt, ist es sinnvoll, die NN-Ausgangsinforma­ tion (Geräuschumgebung) aufzusammeln (sampling). Durch ein einfache Analyse dieser zeitlich aufeinanderfolgenden Aus­ gangsinformationen kann ein Wechsel der Geräuschumgebung festgestellt werden. Dies kann dadurch erreicht werden, daß ein Wechsel der Geräuschumgebung nur signalisiert wird, wenn mindestens ein vorbestimmter Anteil x der Ausgangsinformatio­ nen der letzten y Sekunden die gleiche Ausgangsinformation liefern. Die Parameter x und y sind hierbei, je nach Ge­ räuschumgebung, sinnvoll festzulegen. Durch diese zusätzliche Analyse wird verhindert, daß ein Geräuschumgebungswechsel nicht sofort bei einer kurzen Ruhepause signalisiert wird (z. B. in einer Pause zwischen Hammerschlägen).Since the input layer of the NN only has a relatively short time Ab dependencies, it makes sense to use the NN output information tion (noise environment). Through a simple analysis of this successive time out gangsinformation can be a change in the noise environment be determined. This can be achieved in that a change in the noise environment is only signaled if at least a predetermined portion x of the output information the same output information for the last y seconds deliver. The parameters x and y are, depending on the Ge noise environment, sensible to define. Through this additional Analysis prevents a noise environment change is not signaled immediately during a short break (e.g. in a break between hammer blows).

Wesentliche Vorteile der vorgeschlagenen, bevorzugten Lösung sind folgende:
The main advantages of the proposed preferred solution are as follows:

  • - Es werden stationäre (z. B.: gleichmäßiges Hintergrundrau­ schen) und instationäre Geräusche (z. B.: Hammerschläge) er­ kannt.- There are stationary (e.g.: uniform background roughness ) and unsteady noises (e.g. hammer blows) known.
  • - Ein Zusammenwirken mit anderen Geräuschreduktionsverfahren ist problemlos möglich. So kann zum Beispiel, nach der Iden­ tifikation der Geräuschumgebung (z. B. Auto), ein Filtersystem zur Geräuschreduktion für den Spracherkenner ausgewählt wer­ den, welches speziell für diese Umgebung abgestimmt ist. Dies ist besonders für mobile Geräte interessant.- An interaction with other noise reduction methods is easily possible. For example, according to Iden tification of the noise environment (e.g. car), a filter system selected for noise reduction for speech recognizers the one that is specially designed for this environment. This is particularly interesting for mobile devices.
  • - Ein Wechsel der Geräuschumgebung wird erkannt.- A change in the noise environment is recognized.
  • - Die Erfindung ermöglicht die Verwendung mit beliebigen Spracherkennungssystemen, falls eine Standardisierung der Vorverarbeitung erfolgt.- The invention enables use with any Speech recognition systems, if standardization of the Preprocessing is done.

In einer zweckmäßigen Fortbildung löst die Erfindung das an­ gegebene technische Problem, indem die charakteristischen a­ kustischen und zeitlichen Eigenschaften der Geräusche mit der Wechselwirkung von gesprochener Sprache in einer gewählten Geräuschumgebung gelernt werden. Nach der Lernphase wird die­ ses Wissen verwendet, um die Geräuschanpassung eines Spracherkennungssystems an diese Geräuschumgebung auszufüh­ ren.The invention solves this in a practical training given technical problem by the characteristic a acoustic and temporal characteristics of the noise with the Interaction of spoken language in a chosen one Noise environment can be learned. After the learning phase, the This knowledge is used to adjust the noise level Speech recognition system to perform in this noise environment ren.

Das Verfahren muß dazu in einer einmaligen Trainingsphase des Wissen erlernen, wie die akustischen Merkmale von gesproche­ nen geräuschbehafteten Äußerungen in Merkmale transformiert werden, die nur die gesprochene Information - ohne Störgeräu­ sche - repräsentieren. Zunächst muß das Trainingsmaterial ge­ sammelt werden. Dazu werden Audiodaten von gesprochenen Äuße­ rungen von mehreren Sprechern ohne Störgeräusche benötigt (erste akustische Datenbasis). Weiterhin werden Audiodaten von den Geräuschen ohne Sprache von der gewählten Geräuschum­ gebung benötigt (zweite akustische Datenbasis). Als nächstes wird der erste Datensatz mit dem zweiten Datensatz so aufbe­ reitet, daß ein neuer (dritter) Datensatz entsteht, der so gut wie möglich die gesprochenen geräuschbehafteten Äußerungen repräsentiert, wie sie in der Realität in der gewählten Geräuschumgebung vorkommen.The procedure must be in a one-off training phase of the Learn how to talk about the acoustic characteristics noisy statements transformed into features that are only the spoken information - without noise sche - represent. First, the training material must be ge be collected. These are audio data from spoken utterances required by several speakers without background noise (first acoustic database). Furthermore, audio data from the noises without speech from the chosen noise required (second acoustic database). Next the first data record is processed with the second data record rides that a new (third) record is created, the so as good as possible the spoken noisy utterances  represents how they are chosen in reality in reality Noise environment.

Durch die Verwendung geräuschbehafteter Sprachproben von meh­ reren Sprechern wird eine Sprecherabhängigkeit des Geräusch­ anpassungs-Verfahrens vermieden. Die Wahl der gesammelten Äu­ ßerungen (Sprachproben) soll nach Möglichkeit phonetisch aus­ gewogen sein, damit möglichst alle Phoneme und ihre Wechsel­ wirkung zu den Geräuschen gut trainiert werden können. Es ist aber nicht erforderlich, daß in der späteren Anwendung die­ selben Äußerungen (Wörter) vorkommen wie in der Trainingspha­ se.By using noisy speech samples from meh Other speakers become a speaker dependency of the noise adjustment procedure avoided. The choice of the collected AU If possible, speeches should be phonetic be weighed so that as possible all phonemes and their changes effect on the sounds can be trained well. It is but it is not necessary that the same utterances (words) occur as in the training phase se.

Aus dem ersten und dritten Datensatz werden nun die akusti­ schen Merkmale für jedes Zeitfenster berechnet. Hierbei wird zur Merkmalsextraktion die Vorverarbeitung des Spracherken­ ners verwendet. Man erhält dadurch des Trainingsmaterial für des NN.The acousti characteristics for each time window. Here will preprocessing speech recognition for feature extraction ners used. This gives you the training material for of the NN.

An die Eingangsknoten des NN werden mehrere zeitlich aufein­ anderfolgende Merkmale des dritten Datensatzes (geräuschbe­ haftete Äußerungen) angelegt. Bei dem Training des NN werden die Merkmale des ersten Datensatzes (Äußerung ohne Geräusche) dem NN als Zielwerte für die Ausgabeknoten vorgegeben. Hier­ bei entspricht des Ausgangsmerkmal dem zugehörigen mittleren Knoten der Eingangsschicht, d. h. des NN lernt die Transfor­ mation des geräuschbehafteten Merkmals (mittlerer Knoten der Eingangsschicht) zu dem zugehörigen Merkmal ohne Geräusche (Ausgangsknoten). Die anderen Knoten der Eingangsschicht sind zeitlich benachbarte geräuschbehaftete Merkmale, die ein Er­ lernen des zeitlichen dynamischen Geräuschverlaufs ermögli­ chen.At the input nodes of the NN, several are timed other features of the third data set (noise liable statements). When training the NN the characteristics of the first data set (utterance without noise) given to the NN as target values for the output nodes. here at corresponds to the starting characteristic the corresponding middle Node of the input layer, i.e. H. the NN learns the Transfor mation of the noisy feature (middle node of the Input layer) to the associated characteristic without noise (Output node). The other nodes of the input layer are temporally adjacent noisy features that an Er learn the temporal dynamic noise course chen.

Für des neuronale Netz (NN) wird wiederum ein Multilayer- Perzeptron (MLP) mit der Lernregel "Error Backpropagation" verwendet, wie weiter oben erläutert. For the neural network (NN), a multilayer Perceptron (MLP) with the learning rule "Error Backpropagation" used as explained above.  

Durch die Verwendung von Merkmalen von mehreren aufeinander­ folgenden Zeitfenstern als Eingangsknoten, erlernt des NN auch die Geräuschanpassung von instationären Geräuschen, d. h. diese weisen einen zeitlichen Geräuschverlauf auf (z. B.: Hammerschläge, Sirenengeräusche, etc.).By using features of several on top of each other following time slots as input nodes, learned by the NN also the noise adaptation of transient noises, d. H. these have a temporal noise profile (e.g .: Hammer blows, siren noises, etc.).

Dies wird erreicht durch eine nichtlineare Aktivierungsfunk­ tion des NN-Knoten. Dadurch ist es möglich auch nichtlineare Zusammenhänge zwischen Sprache und Geräuschen zu erlernen.This is achieved through a non-linear activation radio tion of the NN node. This makes it possible to use non-linear ones To learn relationships between language and sounds.

Im Anwendungsfall (Betrieb) besteht das Gesamtsystem aus ei­ nem Audiokanal, der Vorverarbeitung (Merkmalsextraktion) des Spracherkenners, dem gelernten NN und dem nachgeschalteten Spracherkenner, der auf die Merkmale aufsetzt, welche vom NN geliefert werden. Die weitere Verarbeitung entspricht der bei der Geräuschidentifikation; siehe weiter oben. Soll die Ge­ räuschanpassung für mehrere Geräuschumgebungen durchgeführt werden, muß für jede Geräuschumgebung ein neues NN trainiert werden.In the application (operation), the overall system consists of egg nem audio channel, the preprocessing (feature extraction) of the Speech recognizer, the learned NN and the downstream Speech recognizer, who builds on the characteristics that the NN to be delivered. The further processing corresponds to that of the noise identification; see above. Should the Ge noise adjustment performed for multiple noise environments a new NN must be trained for each noise environment become.

Nachstehend wird die Erfindung an zwei Anwendungen näher er­ läutert:Below, the invention is closer to two applications explained:

1. Sprachdatenerfassungssystem für Industrieanwendungen (Bei­ spiel: Lagerverwaltung)1. Voice data acquisition system for industrial applications (Bei game: warehouse management)

In diesem Szenario soll für die Geräuschumgebung eines Teil­ lagers ein PC-Sprachdatenerfassungssystem eingesetzt werden. Hierzu wird für diese Geräuschumgebung einmalig das nötige Trainingsmaterial in der Lagerhalle aufgenommen und das Trai­ ning für des NN für die Geräuschanpassung durchgeführt.In this scenario, a part is intended for the noise environment a PC voice data acquisition system can be used. For this, the necessary for this noise environment is unique Training material recorded in the warehouse and the trai ning for the NN carried out for the noise adaptation.

In der Anwendungsphase spricht der Benutzer z. B. die Äuße­ rung "Posten 4, Lagerbestand 27" in das Mikrofon. Die Sound­ karte des PC digitalisiert die Äußerung. Die Vorverarbeitung berechnet aus diesen Audiodaten die zeitlich aufeinanderfol­ genden Merkmale. Mit Hilfe des trainierten NN wird die Geräuschanpassung durchgeführt. Die transformierten Merkmale werden dem Spracherkenner des PC übergeben, der daraus die richtigen Wörter erkennt und an das Datenerfassungssystem ü­ bergibt, welches die eingesprochene Anweisung korrekt aus­ führt. Mit Hilfe der Geräuschanpassung wird die Erkennungs­ leistung des Sprachdatenerfassungssystem verbessert.In the application phase, the user speaks e.g. B. the exterior tion "Item 4, inventory 27" into the microphone. The sound PC card digitizes the utterance. The preprocessing calculates the consecutive time from this audio data characteristics. With the help of the trained NN the noise adjustment  carried out. The transformed characteristics are handed over to the speech recognizer of the PC, who uses them as the recognizes correct words and sends them to the data acquisition system passes, which the spoken instruction correctly leads. With the help of the noise adjustment, the detection performance of voice data acquisition system improved.

2. Sprachsteuerung eines Handheld-PC in verschiedenen Ge­ räuschumgebungen2. Voice control of a handheld PC in different Ge räuschumgebungen

Auf einem Handheld-PC soll die Steuerung des Gerätes über die Sprache erfolgen. Es soll dabei berücksichtigt werden, daß es sich um ein mobiles Gerät handelt, welches in verschiedenen Geräuschumgebungen eingesetzt wird. Hierzu soll für die Ge­ räuschumgebungen "Büro", "Auto" und "Zug" eine Anpassung vor­ genommen werden. Zunächst wird (jeweils einmalig) für die drei Geräuschumgebungen das Trainingsmaterial gesammelt. Dar­ aus wird ein NN für die Identifikation der Geräuschumgebung trainiert. Weiterhin wird für jede Geräuschumgebung ein NN für die Geräuschanpassung trainiert.On a handheld PC, the device should be controlled via the Language. It should be borne in mind that it is a mobile device, which in different Noise environments is used. For this purpose, for the Ge "Office", "Car" and "Train" environments be taken. First, (once only) for the three noise environments collected the training material. Dar it becomes an NN for the identification of the noise environment trained. Furthermore, an NN for each noise environment trained for noise adjustment.

In der Anwendungsphase spricht der Benutzer z. B. die Äuße­ rung "Kalender" in das Mikrophon. Die Soundkarte des Hand­ held-PC digitalisiert die Äußerung. Die Vorverarbeitung be­ rechnet aus diesen Audiodaten die zeitlich aufeinanderfolgen­ den Merkmale. Mit Hilfe des NN für Geräuschidentifikation wird die Geräuschumgebung ermittelt und das zugehörige Geräu­ schanpassungs-NN ausgewählt. Die Merkmale aus der Vorverar­ beitung werden diesem ausgewählten NN übergeben und die Ge­ räuschanpassungsberechnung der Merkmale wird durchgeführt. Die transformierten Merkmale werden dem Spracherkenner über­ geben, der daraus das richtige Kommando erkennt und die An­ wendung "Kalender" startet.In the application phase, the user speaks e.g. B. the exterior "Calendar" into the microphone. The sound card of the hand held-PC digitizes the statement. The preprocessing be calculates the temporal successions from these audio data the characteristics. With the help of the NN for noise identification the noise environment is determined and the associated noise adjustment NN selected. The characteristics from the pre-processing processing are handed over to this selected NN and the Ge Noise adaptation calculation of the features is carried out. The transformed characteristics are passed on to the speech recognizer who recognizes the correct command and the type application "Calendar" starts.

Es wird eine Verbesserung der Erkennungsgenauigkeit des Spra­ cherkenners für drei verschiedene Geräuschumgebungen ermög­ licht, wobei immer derselbe Spracherkenner verwendet wird. It will improve the recognition accuracy of the spra cherkenners for three different sound environments light, always using the same speech recognizer.  

Die Ausführung der Erfindung ist nicht auf oben beschriebenen Ausführungen beschränkt, sondern im Rahmen der anhängenden Ansprüche ebenso in einer Vielzahl von Abwandlungen möglich, die im Rahmen fachgemäßen Handeln liegen.The implementation of the invention is not described above Limited versions, but within the scope of the attached Claims are also possible in a variety of modifications, that are within the scope of professional action.

Claims (13)

1. Verfahren zum Training und Betrieb eines Spracherkenners mit Geräuschidentifikation, insbesondere zur sprecherunabhän­ gigen Spracherkennung, dadurch gekennzeichnet, daß
für eine Mehrzahl von typischen Geräuschumgebungen jeweils mehrere Geräuschproben aufgenommen werden,
aus den Geräuschproben jeweils in einer Trainingsphase des Spracherkenners akustische Merkmale berechnet werden, die akustischen Merkmale jeder Geräuschprobe in einer Ge­ räuschmerkmals-Datenbasis gespeichert werden,
mit den Geräuschproben ein neuronales Netz des Spracherken­ ners trainiert wird und
im Betrieb des Spracherkenners eine geräuschbehaftet einge­ sprochene Äußerung mittels des trainierten neuronalen Netzes
und unter Zugriff auf die Geräuschmerkmals-Datenbasen verar­ beitet wird, wobei die akustischen Merkmale der Geräuschumge­ bung des Sprechers extrahiert werden.
1. A method for training and operation of a speech recognizer with noise identification, in particular for speech-independent speech recognition, characterized in that
multiple noise samples are recorded for a plurality of typical noise environments,
acoustic features are calculated from the noise samples in a training phase of the speech recognizer, the acoustic features of each noise sample are stored in a noise feature database,
a neural network of the speech recognizer is trained with the noise samples and
in the operation of the speech recognizer, a spoken uttered utterance by means of the trained neural network
and processed while accessing the noise feature databases, extracting the acoustic features of the speaker's noise environment.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die extrahierten akustischen Merkmale der Geräuschumgebung zur Geräuschanpassung des Spracherkenners benutzt werden.2. The method according to claim 1, characterized in that the extracted acoustic characteristics of the noise environment can be used to adapt the noise of the speech recognizer. 3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß als Geräuschproben in der Trainingsphase geräuschbehaftete Sprachäußerungen, insbesondere einer Mehrzahl verschiedener Sprecher, eingesetzt werden.3. The method according to claim 1 or 2, characterized in that as noise samples in the training phase Expressions of speech, in particular a multitude of different ones Speakers can be used. 4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, daß in der Trainingsphase sowohl reine Geräuschproben als erste akustische Datenbasis als auch geräuschbehaftete Sprachproben als zweite akustische Datenbasis erzeugt und verarbeitet wer­ den. 4. The method according to claim 3, characterized in that in the training phase both pure noise tests first acoustic database as well as noisy speech samples who creates and processes the second acoustic database the.   5. Verfahren nach Anspruch 3 oder 4, dadurch gekennzeichnet, daß die als Trainingsmaterial benutzten geräuschbehafteten Äuße­ rungen einen vorbestimmten Wortschatz umfassen, der unter dem Gesichtspunkt der phonetischen Ausgewogenheit ausgewählt ist.5. The method according to claim 3 or 4, characterized in that the noisy exterior used as training material rungs include a predetermined vocabulary, which under the Point of view of the phonetic balance is selected. 6. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, daß die Gewinnung der akustischen Merkmale eine Vorverarbeitung des Spracherkenners eingesetzt wird, wobei die Signale der a­ kustischen Datenbasis insbesondere in Zeitfenster zerlegt und akustische Merkmale des Sprachsignals jeweils für die Zeit­ fenster berechnet werden.6. The method according to any one of the preceding claims, characterized in that the acquisition of the acoustic characteristics a preprocessing the speech recognizer is used, the signals of the a acoustic database, in particular broken down into time windows and acoustic characteristics of the speech signal for each time windows are calculated. 7. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, daß für das neuronale Netz ein Multilayer-Perzeptron, also ein schichtorientiertes, vorwärts gerichtetes Netz mit Vollverma­ schung zwischen den einzelnen Schichten, und als Aktivie­ rungsfunktion die Sigmoidfunktion Sc(x) oder die Tangenshy­ perbolicusfunktion tanh(x) eingesetzt wird.7. The method according to any one of the preceding claims, characterized in that a multilayer perceptron for the neural network layer-oriented, forward-looking network with full dimensions between layers, and as an activation sigmoid function Sc (x) or Tangenshy perbolic function tanh (x) is used. 8. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, daß das neuronale Netz mit jeder Probe in mehreren Iterationen unter Einsatz der Lernregel "Error Backpropagation" unter Mi­ nimierung des mittleren quadratischen Fehlers trainiert wird.8. The method according to any one of the preceding claims, characterized in that the neural network with each sample in several iterations using the learning rule "Error Backpropagation" under Mi minimizing the mean square error is trained. 9. Verfahren nach einem der Ansprüche 2 bis 8, dadurch gekennzeichnet, daß
zur Geräuschanpassung an verschiedene vorbestimmte Geräusch­ umgebungen für jede dieser Geräuschumgebungen jeweils ein neuronales Netz trainiert wird und
das während des Betriebs anzuwendende neuronale Netz aufgrund der akustischen Merkmale der aktuellen Geräuschumgebung akti­ viert wird.
9. The method according to any one of claims 2 to 8, characterized in that
a neural network is trained to adapt to different predetermined noise environments for each of these noise environments and
the neural network to be used during operation is activated due to the acoustic characteristics of the current noise environment.
10. Spracherkenner, insbesondere zur sprecherunabhängigen Spracherkennung zur Durchführung des Verfahrens nach einem der vorangehenden Ansprüche, gekennzeichnet durch eine Geräuschidentifikationsstufe, welche ein anhand von Ge­ räuschproben trainiertes neuronales Netz, insbesondere vom Typ des Multilayer-Perzeptrons, aufweist.10. Speech recognizer, especially for speaker-independent Speech recognition to carry out the method according to a of the preceding claims, marked by a noise identification level, which is based on Ge noise-trained neural network, especially from the Multilayer perceptron type. 11. Spracherkenner nach Anspruch 10, gekennzeichnet durch eine Geräuschreduktionsstufe, welche eingangsseitig mit der Geräuschidentifikationsstufe verbunden ist und aufgrund der durch diese ermittelten akustischen Merkmale einer aktuellen Geräuschumgebung gesteuert wird.11. Speech recognizer according to claim 10, marked by a noise reduction level, which on the input side with the Noise identification level is connected and due to the through these determined acoustic characteristics of a current Noise environment is controlled. 12. Spracherkenner nach Anspruch 11, dadurch gekennzeichnet, daß die Geräuschreduktionsstufe ein aufgrund von reinen Geräusch­ proben und geräuschbehafteten Sprachproben trainiertes neuro­ nales Netz, insbesondere vom Typ des Multilayer-Perzeptrons, aufweist.12. Speech recognizer according to claim 11, characterized in that the noise reduction level is due to pure noise rehearsed and noisy speech samples trained neuro national network, in particular of the multilayer perceptron type, having. 13. Spracherkenner nach Anspruch 11 oder 12, gekennzeichnet durch eine Mehrzahl von jeweils auf eine spezifische, vorbestimmte Geräuschumgebung trainierten neuronalen Netzen in der Ge­ räuschreduktionsstufe.13. Speech recognizer according to claim 11 or 12, marked by a plurality each of a specific predetermined one Neural networks trained in the noise environment in the Ge räuschreduktionsstufe.
DE2001124762 2001-05-21 2001-05-21 Method for training and operating a speech recognizer and speech recognizer with noise identification Expired - Fee Related DE10124762B4 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE2001124762 DE10124762B4 (en) 2001-05-21 2001-05-21 Method for training and operating a speech recognizer and speech recognizer with noise identification

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE2001124762 DE10124762B4 (en) 2001-05-21 2001-05-21 Method for training and operating a speech recognizer and speech recognizer with noise identification

Publications (2)

Publication Number Publication Date
DE10124762A1 true DE10124762A1 (en) 2002-12-19
DE10124762B4 DE10124762B4 (en) 2004-07-15

Family

ID=7685611

Family Applications (1)

Application Number Title Priority Date Filing Date
DE2001124762 Expired - Fee Related DE10124762B4 (en) 2001-05-21 2001-05-21 Method for training and operating a speech recognizer and speech recognizer with noise identification

Country Status (1)

Country Link
DE (1) DE10124762B4 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102019219749A1 (en) * 2019-12-16 2021-06-17 Zf Friedrichshafen Ag Assessing the identifiability of a warning signal in microphone data

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4309985A1 (en) * 1993-03-29 1994-10-06 Sel Alcatel Ag Noise reduction for speech recognition
US5970446A (en) * 1997-11-25 1999-10-19 At&T Corp Selective noise/channel/coding models and recognizers for automatic speech recognition

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4309985A1 (en) * 1993-03-29 1994-10-06 Sel Alcatel Ag Noise reduction for speech recognition
US5970446A (en) * 1997-11-25 1999-10-19 At&T Corp Selective noise/channel/coding models and recognizers for automatic speech recognition

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102019219749A1 (en) * 2019-12-16 2021-06-17 Zf Friedrichshafen Ag Assessing the identifiability of a warning signal in microphone data

Also Published As

Publication number Publication date
DE10124762B4 (en) 2004-07-15

Similar Documents

Publication Publication Date Title
DE60111329T2 (en) Adapting the phonetic context to improve speech recognition
DE69923379T2 (en) Non-interactive registration for speech recognition
DE69823954T2 (en) Source-normalizing training for language modeling
DE69725172T2 (en) METHOD AND DEVICE FOR DETECTING NOISE SAMPLE SAMPLES FROM A NOISE
DE69433593T2 (en) DISTRIBUTED LANGUAGE IDENTIFICATION SYSTEM
DE60305568T2 (en) Keyword recognition in a voice signal
DE10334400A1 (en) Method for speech recognition and communication device
DE19847419A1 (en) Procedure for the automatic recognition of a spoken utterance
DE10030105A1 (en) Speech recognition device
DE69924596T2 (en) Selection of acoustic models by speaker verification
EP1264301B1 (en) Method for recognition of verbal utterances by a non-mother tongue speaker in a speech processing system
DE60318385T2 (en) LANGUAGE PROCESSING APPARATUS AND METHOD, RECORDING MEDIUM AND PROGRAM
DE60034772T2 (en) REJECTION PROCEDURE IN LANGUAGE IDENTIFICATION
DE10119284A1 (en) Method and system for training parameters of a pattern recognition system assigned to exactly one implementation variant of an inventory pattern
EP3291234B1 (en) Method for evaluation of a quality of the voice usage of a speaker
DE60018696T2 (en) ROBUST LANGUAGE PROCESSING OF CHARACTERED LANGUAGE MODELS
DE10304460B3 (en) Speech recognition method e.g. for mobile telephone, identifies which spoken variants of same word can be recognized with analysis of recognition difficulty for limiting number of acceptable variants
DE4010028A1 (en) Speech recognition for e.g. aircraft control
DE60014583T2 (en) METHOD AND DEVICE FOR INTEGRITY TESTING OF USER INTERFACES OF VOICE CONTROLLED EQUIPMENT
EP1723636A1 (en) User and vocabulary-adaptive determination of confidence and rejecting thresholds
WO2005098827A1 (en) Method for noise reduction in a speech input signal
WO2001067435A9 (en) Method for the voice-controlled initiation of actions by means of a limited circle of users, whereby said actions can be carried out in an appliance
DE10124762B4 (en) Method for training and operating a speech recognizer and speech recognizer with noise identification
EP1457966A1 (en) Method for determining the risk of confusability of vocabulary entries for phoneme-based speech recognition
WO2005069278A1 (en) Method and device for processing a voice signal for robust speech recognition

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee