DE69814589T2

DE69814589T2 - Spracherkennung unter verwendung mehrerer spracherkenner

Info

Publication number: DE69814589T2
Application number: DE69814589T
Authority: DE
Inventors: K. James BAKER
Original assignee: L&H Holdings USA Inc
Current assignee: L&H Holdings USA Inc
Priority date: 1997-01-30
Filing date: 1998-01-29
Publication date: 2004-03-25
Anticipated expiration: 2018-01-30
Also published as: DE69814589D1; WO1998034217A1; US6122613A; EP0954848A1; EP0954848B1

Description

Die Erfindung betrifft Spracherkennung.
Ein Spracherkennungssystem analysiert die (gesprochene) Sprache einer Person, um zu bestimmen, was die Person gesagt hat. Die meisten Spracherkennungssysteme beruhen auf Datenübertragungsblöcken (Frame). In einem auf Datenübertragungsblöcken beruhenden System teilt ein Prozessor ein Signal, das die zu erkennende Sprache beschreibt, in eine Reihe digitaler Datenübertragungsblöcke, von denen jedes einem kleinen Zeitinkrement der Sprache entspricht. Der Prozessor vergleicht daraufhin die digitalen Datenübertragungsblöcke mit einem Satz von Sprachmodellen. Jedes Sprachmodell kann ein Wort aus einem Vokabular von Wörtern repräsentieren und kann repräsentieren, wie dieses Wort von verschiedenen Sprechern gesprochen wird. Ein Sprachmodell kann ebenso einen Laut oder ein Phonem repräsentieren, das einem Abschnitt eines Wortes entspricht. In ihrer Gesamtheit repräsentieren die in dem Modell ein Wort konstituierenden Phoneme die phonetische Schreibweise des Wortes.
Der Prozessor bestimmt, was der Sprecher gesagt hat, indem er die Sprachmodelle findet, die mit den digitalen Datenübertragungsblöcken, die die Sprache der Person repräsentieren, am besten übereinstimmen. Die Wörter oder Phrasen, die den am besten übereinstimmenden Sprachmodellen entsprechen, werden als Erkennungskandidaten bezeichnet. Spracherkennung wird im U.S. Patent Nr. 4,805,218 mit dem Titel "METHOD FOR SPEECH ANALYSIS AND SPEECH RECOGNITION" besprochen.
1 ist ein Blockdiagramm eines Systems, das für Spracherkennung genutzt werden kann. Das System beinhaltet verschiedene Eingabe-/Ausgabegeräte (E/A-Geräte) (Mikrofon 101, Maus 103, Tastatur 105, Anzeige 107) und einen allgemein gebräuchlichen Computer 100 mit einer Zentralprozessoreinheit (CPU) 121, einer E/A-Einheit 117 und einer Soundkarte 119. Ein Speicher 109 speichert Daten und verschiedene Programme wie ein Betriebssystem 111, ein Anwendungsprogramm 113 und ein Spracherkennungsprogramm 115.
Das Mikrofon 101 nimmt Äußerungen von einem Sprecher wahr und gibt die Äußerungen in Form eines analogen Signals an die Soundkarte 119 weiter, die wiederum das Signal durch einen Analog-Digital-Wandler (A/D-Wandler) führt, um das analoge Signal in einen Satz von digitalen Signalen umzuwandeln. Unter Kontrolle des Betriebssystems 11 vergleicht das Spracherkennungsprogramm 115 die digitalen Proben mit Sprachmodellen um zu bestimmen, was der Sprecher gesagt hat. Die Ergebnisse dieser Bestimmung können für eine spätere Verwendung gespeichert oder als Eingabe für das Anwendungsprogramm 113 genutzt werden.
Wie in 2 gezeigt, kann das Spracherkennungsprogramm gleichzeitig mit einem Anwendungsprogramm, zum Beispiel einem Textverarbeitungsprogramm, ausgeführt werden, um es dem Sprecher zu gestatten, das Mikrofon 101 entweder allein oder in Verbindung mit der Tastatur 105 und der Maus 103 als Texteingabegerät zu verwenden. Der Sprecher interagiert mit dem Textverarbeitungsprogramm über eine grafische Benutzeroberfläche (GUI), die ein Fenster 200 mit einem Textfeld 202 enthält. Die in 2 gezeigte GUI wurde von Dragon Systems, Inc. für das Spracherkennungsprogramm DragonDictate® for Windows® entwickelt. In 2 ist die GUI des Spracherkennungsprogramms über die GUI des Textverarbeitungsprogramms gelegt, um dem Sprecher bequemen Zugriff auf beide Programme zu gewähren.
Im dargestellten Beispiel hat der Sprecher die Präambel der US-amerikanischen Verfassung in das Mikrofon gesprochen. Die gesprochenen Worte werden vom Spracherkennungsprogramm erkannt und dem Textverarbeitungsprogramm als Eingabe zur Verfügung gestellt, welches den entsprechenden Text daraufhin im Textfeld 202 anzeigt. In diesem Beispiel wurde jedoch das gesprochene Wort "States" fälschlicherweise als "stakes" 208 erkannt. Unter Verwendung geeigneter Sprachbefehle (entweder allein oder in Verbindung mit Eingaben von der Tastatur oder Maus) kann der Sprecher den Text korrigieren, indem er zum Beispiel die zweite Wortwahl 210 "States" im Fenster Wortvorgeschichte 206 als das richtige Wort designiert.
Ein Spracherkennungssystem kann ein "diskretes" System sein, das heißt, ein System, das einzelne Wörter oder Sätze erkennt, vom Sprecher jedoch verlangt, dass er zwischen jedem gesprochenen einzelnen Wort oder Satz eine kurze Pause macht. Alternativ kann ein Spracherkennungssystem "kontinuierlich" sein, was bedeutet, dass die Erkennungssoftware gesprochene Wörter oder Sätze unabhängig davon erkennen kann, ob der Sprecher zwischen ihnen eine Pause macht. Kontinuierliche Spracherkennungssysteme weisen im Vergleich zu diskreten Spracherkennungssystemen in der Regel eine höhere Quote an Erkennungsfehlern auf, was auf die Kompliziertheit der Erkennung kontinuierlicher Sprache rückführbar ist. Eine ausführlichere Beschreibung kontinuierlicher Spracherkennung stellt US-Patent Nr. 5,202,952 mit dem Titel "LARGE-VOCABULARY CONTINUOUS SPEECH PREFILTERING AND PROCESSING SYSTEM" zur Verfügung.
Der Vortrag "The simultaneous use of three machine speech recognition systems to increase recognition accuracy" im Band 2 der "Proceedings of the IEEE 1994 National Aerospace and Electronics Conference, Dayton, Ohio", 23.-27. Mai 1994, S. 667–671, legt ein rechnergestütztes Spracherkennungsverfahren offen, bei dem drei Spracherkenner mit jeweils unterschiedlichen Merkmalen für dieselbe Spracheingabe parallel eingesetzt werden. Die Bestimmung der Spracheingabe ist abhängig von den Ergebnissen der unterschiedlichen Spracherkenner. Das System ist ein Echtzeit-System, das dem Erkennen gesprochener Anweisungen von Piloten dient.
Einem ersten Aspekt der vorliegenden Erfindung gemäß umfasst ein rechnergestütztes Spracherkennungsverfahren:
Empfangen einer Sprachprobe;
Verarbeiten der Sprachprobe mit einem ersten Spracherkenner, der auf einem ersten Prozessor läuft, und zumindest einem zweiten Spracherkenner, der auf einem zweiten Prozessor läuft, wobei die Spracherkenner unterschiedliche Leistungsmerkmale aufweisen;
wobei die Verarbeitung durch den ersten Spracherkenner kontinuierliche Online-Spracherkennung in Echtzeit umfasst und die Verarbeitung durch den zweiten Spracherkenner Offline-Spracherkennung in Nicht-Echtzeit umfasst; und
Erkennen von Sprachinhalt der Sprachprobe auf einem Prozessor auf Grundlage der Erkennungsresultate ab den Spracherkennern.
Die unterschiedlichen Leistungsmerkmale der Spracherkenner können einander ergänzen. Zum Beispiel kann ein Spracherkenner für Echtzeitspracherkennung optimiert sein und kann der andere Spracherkenner für hohe Genauigkeit optimiert sein. Der Sprachinhalt der Sprachprobe wird auf Grundlage der Verarbeitungsergebnisse ab mehreren Spracherkennern erkannt. Dem Sprecher wird eine der Sprachprobe entsprechende Echtzeit-Textanzeige, die jedoch potentiell mit Fehlern behaftet ist, zur Verfügung gestellt, während anschließend ein menschlicher Umschreiber (Transkriptionist) die Erkennungsresultate ab den zwei Spracherkennern verwenden kann, um eine potentiell fehlerfreie Transkription anzufertigen. Die Spracherkenner können für verschiedene, über Echtzeit-Ansprechbarkeit und hohe Genauigkeit hinausgehende Merkmale optimiert werden, beispielsweise auf der Grundlage unterschiedlicher Schreibstile oder unterschiedlicher Sachgebiete.
Einer oder mehrere der Spracherkenner können in der Lage sein, Sprache auf kontinuierlicher Basis zu erkennen. Der hochgenaue Spracherkenner kann ein kontinuierlicher Spracherkenner mit großem Vokabular sein, der offline arbeitet. Die entsprechenden Spracherkennungsanalysen der zwei Spracherkenner können seriell oder parallel ausgeführt werden.
In einem Ausführungsbeispiel identifziert der erste Spracherkenner einen ersten Satz von Kandidaten, die wahrscheinlich mit der Sprachprobe übereinstimmen, und berechnet einen entsprechenden ersten Satz von Punktwerten. In ähnlicher Weise identifiziert der zweite Spracherkenner einen zweiten Satz von Kandidaten, die wahrscheinlich mit der Sprachprobe übereinstimmen, und berechnet einen entsprechenden zweiten Satz von Punktwerten. Die vom ersten und zweiten Spracherkenner berechneten Punktwerte beruhen auf einer Wahrscheinlichkeit, mit der Sprachprobe überein zu stimmen.
Der erste und zweite Satz von Kandidaten wird kombiniert, indem zum Beispiel ihre Vereinigung hergenommen wird, um einen kombinierten Satz von Kandidaten zu generieren. Der erste und zweite Satz von Punktwerten wird verschmolzen, um einen kombinierten Satz von Punktwerten zu generieren, indem zum Beispiel ein gewichteter Durchschnitt für jedes entsprechende Paar von Punktwerten berechnet wird. Die kombinierten Sätze von Kandidaten werden einem Umschreiber (Transkriptionisten) in einer Prioritätsreihenfolge präsentiert, die durch die betreffenden kombinierten Punktwerte der Kandidaten bestimmt ist. Der Umschreiber (Transkriptionist) kann diese Information nutzen, um eventuelle Erkennungsfehler zu korrigieren, die im erkannten Text vorliegen. Von den Spracherkennern beim Durchführen der Erkennungsanalyse verwendete Sprachmodelle können auf Grundlage des ab dem Umschreiber (Transkriptionisten) erhaltenen Feedbacks in Bezug darauf angepasst werden, ob der Sprachinhalt korrekt erkannt wurde.
Die Punktwerte können genutzt werden, um zu bestimmen, ob in den Ergebnissen der Spracherkenner eventuelle Erkennungsunsicherheiten vorliegen. Eine Erkennungsunsicherheit wird angezeigt, wenn ein jeglicher der beiden Spracherkenner unsicher ist (d. h. wenn die Differenz zwischen den Punktwerten, die mit einem besten und einem zweitbesten Kandidaten des Spracherkenners assoziiert sind, einen Schwellenwert unterschreitet) oder wenn sich die zwei Spracherkenner uneinig sind. Jegliche entdeckte Erkennungsunsicherheiten können verwendet werden, um Abschnitte der Sprachprobe für den Umschreiber (Transkriptionisten) als besonderer Aufmerksamkeit bedürfend zu markieren.
Wesen und Umfang der Offline-Verarbeitung (z. B. Offline-Erkennung, Fehlerkorrektur durch einen Umschreiber (Transkriptionisten)), die an einer Sprachprobe durchzuführen ist, können durch den Benutzer des Computersystems mit Hilfe einer grafischen Benutzeroberfläche (GUI) oder automatisch, auf zuvor festgelegten Kriterien beruhend, gesteuert werden. Der Benutzer kann per Hand wählen, ob und in welchem Umfang Offline-Verarbeitung der Sprachprobe erfolgen sollte. Die vorbestimmten Kriterien, die zur Steuerung der Offline-Verarbeitung dienen, können die mit der Offline-Verarbeitung verbundenen Kosten, Verarbeitungszeiten bzw. Verfügbarkeiten, einen Wichtigkeitsgrad der speziell betrachteten Sprachprobe oder einen mit den Erkennungsergebnissen von der Offline-Verarbeitung verbundenen Vertrauensgrad umfassen.
Die vorliegende Erfindung kann einen oder mehrere der folgenden Vorzüge beinhalten. Durch ein Spracherkennungssystem, das mehrere Spracherkenner mit einander ergänzenden Eigenschaften verwendet, wird eine Synergie geschaffen. Die Optimierung eines der Spracherkenner (ein "Echtzeit"-Spracherkenner) für Echtzeit-Interaktivität bietet dem Sprecher unmittelbar ein visuelles Feedback und die Möglichkeit, an der erkannten Sprache online Korrekturen vorzunehmen. Dadurch wird der Diktatvorgang intuitiver und effizienter. Das Kombinieren der Echtzeit-Spracherkennungsresultate mit den Resultaten ab einem anderen Spracherkenner, der für hohe Genauigkeit optimiert ist (ein "Offline"-Spracherkenner), bietet endgültige Spracherkennungsresultate, die mit Wahrscheinlichkeit genauer sind. Das Kombinieren der Spracherkennungsresultate ab den zwei Spracherkennern auf der Basis von Gewichtsfaktoren gestattet es dem Spracherkennungssystem, dem Erkennungsresultat ab dem Spracherkenner, der als genauer bekannt ist, größeres Gewicht beizumessen. Darüber hinaus setzt die Verwendung mehrerer Stufen von Spracherkennungsverarbeitung – d. h. Echtzeit-Erkennung, Offline-Erkennung und Offline-Transkription – die Fehlerquote der Erkennung drastisch herab.
Ein Spracherkennungssystem mit mehreren Spracherkennern weist gegenüber einem System mit einzelnem Spracherkenner verschiedene Vorzüge auf. Zum Ersten hat eine höhere Zahl von Spracherkennern die Tendenz, die Zahl der resultierenden Erkennungskandidaten für eine gegebene Sprachprobe zu erhöhen. Darüber hinaus hat ein System mit mehreren Spracherkennern eine erhöhte Fähigkeit, Fälle von Erkennungsunsicherheit zu identifizieren. Die Wahrscheinlichkeit, dass ein Erkennungsresultat nicht korrekt ist, ist größer, wenn sich die Spracherkenner über die Erkennung einer gegebenen Äußerung nicht einig sind oder wenn sich einer der Spracherkenner bzw. beide über die Genauigkeit ihres jeweiligen Erkennungsresultats unsicher sind. Diese Fälle von Unsicherheit können dem Umschreiber (Transkriptionisten) bzw. Systembenutzer deutlich gemacht werden.
Das Modularisieren der verschiedenen Spracherkennungsprozesse verleiht dem Sprecher einen hohen Grad an Flexibilität. Der Sprecher hat die Wahl, auf diktierte Dokumente nichtformeller Natur (z. B. eine E-Mail-Nachricht) keine Offline-Spracherkennung anwenden zu lassen, oder er hat die Wahl, auf wichtige diktierte Dokumente (z. B. einen Vertrag) eine ausgedehnte Offline-Spracherkennung anwenden zu lassen. Dem Sprecher können auch verschiedene dazwischen liegende Grade von Offline-Spracherkennung zur Verfügung gestellt werden. In ähnlicher Weise sind Systemadministratoren von Spracherkennungssystemen besser in der Lage, die Ressourcen zu verwalten und die Verarbeitungskosten zu kontrollieren, indem sie Kriterien aufstellen, die das Wesen und den Umfang der Spracherkennung, die durchgeführt werden kann, begrenzen.
Die Modularisierung und Verteilung der Spracherkennungsprozesse schafft auch bestimmte Vorteile wie stärkere Informationsverbergung, erhöhte Effizienz und die erhöhte Fähigkeit, einen oder mehrere der Prozesse auszulagern. Da zum Beispiel der Offline-Transkriptionsprozess von den anderen Prozessen abgetrennt ist, kann er an eine Firma, die auf Transkriptionsdienstleistungen spezialisiert ist, untervergeben werden. Des Werteren können, da die Funktion des Offline-Umschreibers (Transkriptionisten) auf das Korrigieren von Erkennungsfehlern (im Gegensatz zum Vornehmen redaktioneller Änderungen am Text) beschränkt ist, die vom Umschreiber (Transkriptionisten) vorgenommenen Änderungen dazu genutzt werden, die Sprachmodelle des Spracherkenners zu "trainieren", ohne fürchten zu müssen, dass die Modelle verfälscht werden.
Einem zweiten Aspekt der vorliegenden Erfindung gemäß umfasst ein Spracherkennungsverfahren:
ein Eingabegerät, das konfiguriert ist, eine zu erkennende Sprachprobe zu empfangen;
einen ersten Spracherkenner, der auf einem ersten Prozessor läuft und mit dem Eingabegerät gekoppelt ist, um Online-Spracherkennung für die Sprachprobe in Echtzeit durchzuführen;
mindestens einen werteren Spracherkenner, der auf einem zweiten Prozessor läuft und mit dem ersten Spracherkenner gekoppelt ist, um Offline-Spracherkennung für die Sprachprobe in Nicht-Echtzeit durchzuführen; und
einen Prozessor, der konfiguriert ist, Erkennungsresultate ab den Spracherkennem zu empfangen und zu verarbeiten, um Sprachinhalt der Sprachprobe zu erkennen.
Die vorliegende Erfindung wird anhand von Beispielen unter Verweis auf die beigefügten Zeichnungen erklärt. Dabei ist
1 ein Blockdiagram eines Spracherkennungssystems;
2 ein Beispiel für die Bildschirmanzeige eines Spracherkennungsprogramms, das genutzt wird, um Text in ein Textverarbeitungsprogramm, das auf dem System von 1 läuft, einzugeben;
3 ein Blockdiagramm eines Spracherkennungssystems mit zwei Spracherkennern;
4 ein Ablaufdiagramm der Sprachverarbeitung unter Verwendung der Zwei-Spracherkenner-Konfiguation von 3;
5 ein Blockdiagramm des Informationsflusses im Spracherkennungssystem von 3.
6A, 6B und 6C sind Datendiagramme der Informationen, die zwischen den Komponenten in 5 übertragen werden.
7 ist ein Ablaufdiagramm der von dem Combiner im Spracherkennungssystem von 3 ausgeführten Operationen.
8A, 8B und 8C sind Beispiele von Datentabellen für die in 3 dargestellte Sprachprobe.
9 ist ein Beispiel der Bildschirmanzeige einer grafischen Benutzeroberfläche, die durch die Offline-Transkriptionsstation im Spracherkennungssystem von 3 verwendet wird.
Wenn ein Spracherkennungssystem für das Diktieren benutzt wird, dient das Spracherkennungssystem als eine Alternative zu anderen Eingabemechanismen wie zum Beispiel einer Tastatur. Ein Benutzer, der nicht in der Lage ist oder dem es nicht gefällt, auf einer Tastatur zu tippen, kann dessen ungeachtet ein schriftliches Dokument erstellen, indem er den Text mündlich in das Mikrofon eines Spracherkennungssystems diktiert. In einem Echtzeit-Spracherkennungssystem werden die Wörter des Sprechers – aus der Perspektive des Sprechers – erkannt, und der entsprechende Text wird auf einem Computerbildschirm im Wesentlichen zur gleichen Zeit angezeigt, wie die Wörter gesprochen werden.
Echtzeit-Spracherkennung hat den Vorteil von Interaktivität. Dem Sprecher wird ein im Wesentlichen unmittelbares visuelles Feedback des Diktatflusses zum schnellen und einfachen Prüfen des Textes zur Verfügung gestellt. Dies ermöglicht es dem Sprecher, sein Gedächtnis aufzufrischen, falls der Diktatfluss unterbrochen wird, und Überarbeitungen "online" durchzuführen, das heißt, das Dokument zu überarbeiten, während es erstellt wird. DragonDictate® ist ein Beispiel für ein Echtzeit-Erkennungssystem.
Im Gegensatz zu Echtzeit-Systemen erkennt ein "Offline"-System Sprache typischerweise nicht auf Echtzeit-Basis, sondern erfordert vielmehr – den Einschränkungen durch die Verarbeitungsgeschwindigkeit geschuldet – einen größeren Betrag an Zeit, um die Spracherkennung auszuführen. Ein Beispiel für Offline-Diktieren ist, wenn die Worte des Sprechers – entweder durch ein Bandaufzeichnungsgerät oder durch einem menschlichen Stenographen – aufgezeichnet und dann durch einen menschlichen Umschreiber (Transkriptionisten) zu einem späteren Zeitpunkt abgetippt werden.
Rechnergestützte Offline-Spracherkennung ließe sich mit einer Software-Erkennungsmaschine (d. h. einem "Spracherkenner") realisieren, die eine ausgeklügelte und umfangreiche Analyse einer Sprachprobe ausführt, um den Sprachinhalt der Probe mit einem hohen Genauigkeitsgrad zu bestimmen. Ein Beispiel für einen hoch leistungsfähigen Offline-Spracherkenner ist das Hidden Markov Model Tool Kit (HTK"), das vom Entropic Cambridge Research Laboratory entwickelt und in Steve Young et al., "The HTK Book", Cambridge University Technical Services Ltd. (Dezember 1995) beschrieben wurde.
HTK ist ein kontinuierlicher Spracherkenner großen Vokabulars ("LVCSR"), der verborgene Markov-Modell-Techniken vennrendet, um Sprache mit einem hohen Genauigkeitsgrad zu erkennen. Die verborgene Markov-Modell-Technik wird im U.S. Patent Nr. 5,027,406 diskutiert.
Offline-Spracherkenner sind in der Lage, Sprache mit einem Genauigkeitsgrad zu erkennen, der beträchtlich höher ist als jener von Echtzeit-Spracherkennem, da Offline-Spracherkenner im Allgemeinen nicht den Beschränkungen hinsichtlich Zeit und Anzeige unterliegen, die das Wesen des Erkennungsalgorithmus, der auf die Sprachprobe anwendbar wäre, begrenzen. Ein Offline-Spracherkenner kann zum Beispiel einen Erkennungsalgorithmus verwenden, der verschiedene Prüfgänge über eine Reihe von Wörtern verlangt, bevor die Wörter erkannt werden. Im Gegensatz dazu muss ein Echtzeit-Spracherkenner definitionsgemäß die Erkennungsanalyse innerhalb eines ausreichend kleinen Zeitraums abschließen, damit der Sprecher keine übermäßige Verzögerung zwischen der Sprachäußerung und dem Erscheinen des Texts auf der Anzeige erfährt. Dementsprechend erkennen Echtzeit-Spracherkenner Sprache typischerweise mit einem beträchtlich niedrigeren Grad von Genauigkeit als Offline-Spracherkenner, da Echtzeit-Spracherkenner hinsichtlich des Umfangs und des Wesens der Erkennungsverarbeitung, die für eine gegebene Sprachprobe ausgeführt werden kann, zeitlichen Beschränkungen unterliegen. Insbesondere gilt dies für kontinuierliche Spracherkennung, die eine umfangreichere Analyse erfordert als diskrete Erkennung, um ein genaues Resultat zu erzielen.
Spracherkennungssysteme benutzen traditionell einen einzigen Spracherkenner, der darauf zugeschnitten ist, eine erwünschte Ausgewogenheit zwischen verschiedenen miteinander in Konkurrenz stehenden Faktoren wie Interaktivität (d. h. Echtzeit-Anprechbarkeit) und Genauigkeit zu erreichen. Ein Spracherkennungssystem, das Echtzeit-Ansprechbarkeit aufweist, kann dies erreichen, indem es hohe Genauigkeit opfert, und umgekehrt. Das Spracherkennungssystem von 3 bietet jedoch sowohl Echtzeit-Anprechbarkeit als auch einen hohen Genauigkeitsgrad, indem es mindestens zwei Spracherkenner verwendet, die jeweils für ein unterschiedliches Merkmal optimiert sind. In einem Ausführungsbeispiel ist ein Spracherkenner für Echtzeit-Anprechbarkeit auf Kosten von Genauigkeit optimiert, und ein zweiter Spracherkenner ist für hohe Genauigkeit auf Kosten der Interaktivität optimiert.
Wie in 3 gezeigt, nimmt ein Mikrofon 301 eine Sprachprobe von einem Sprecher wahr und leitet die Probe zu einem Echtzeit-Spracherkenner 303. Typischerweise wird der Echtzeit-Spracherkenner 303 ein kontinuierliches Spracherkennungssystem oder ein diskretes Spracherkennungssystem ähnlich dem in 1 gezeigten Erkennungssystem sein und wird, um die Interaktion mit dem Sprecher zu erleichtern, eine GUI ähnlich der in 2 gezeigten haben. Der Spracherkenner 303 führt Echtzeit-Spracherkennung an der Sprachprobe durch und liefert den erkannten Text an einen Monitor 305. Aufgrund der Kompliziertheit von kontinuierlicher Echtzeit-Spracherkennung kann jedoch der erkannte Text auf dem Monitor 305 einen oder mehrere Erkennungsfehler enthalten. Der Sprecher kann jegliche solche Fehler wahlweise korrigieren, indem er Korrekturen 307 entweder mit Sprachbefehlen über das Mikrofon 301 oder mit einem anderen Eingabegerät (z. B. einer Tastatur oder einer Maus) eingibt.
Nachdem der Echtzeit-Spracherkenner 303 die Erkennungsanalyse durchgeführt hat, kann die Sprachprobe wahlweise über die Kommunikationsverbindungen 315 bzw. 317 an den Offline-Spracherkenner 309 und an einen Combiner 311 (z. B. einen Computer oder anderen Prozessor, der verschiedene Softwareprozesse ausführt) kommuniziert werden. Der Echtzeit-Spracherkenner 303 sendet die Echtzeit-Spracherkennungsresultate (d. h. den Sprachinhalt der Sprachprobe wie vom Echtzeit-Spracherkenner 303 erkannt) auch an den Combiner 311. In einem Ausführungsbeispiel werden die in der Sprachprobe enthaltenen Sprachbefehle lokal durch den Echtzeit-Spracherkenner behandelt (indem er zum Beispiel das Textäquivalent des Sprachbefehls neuer Absatz" substituiert) und werden nicht an den Offline-Spracherkenner oder Combiner gesendet. In anderen Ausführungsbeispielen können jedoch die Sprachbefehle an den Offline-Spracherkenner, den Combiner und/oder die Offline-Transkriptionsstation gesendet werden.
Bei Empfang der Sprachprobe führt der Offline-Spracherkenner 309, beispielsweise unter Verwendung eines LVCSR-Spracherkenners wie das HTK-System, eine eigenständige Erkennungsanalyse durch und kommuniziert die Erkennungsresultate (d. h. den Sprachinhalt der Sprachprobe wie vom Offline-Spracherkenner 309 erkannt) unter Nutzung einer Kommunikationsverbindung 319 an den Combiner 311. Bei Empfang beider Sätze von Erkennungsresultaten verarbeitet der Combiner 311 die Resultate durch Generieren eines kombinierten Satzes von Erkennungsresultaten und durch Prüfen auf Fälle von Unsicherheit durch einen oder beide Spracherkenner oder von Diskrepanzen zwischen den von den zwei Spracherkennern produzierten Resultaten. Der Combiner 311 kommuniziert die Sprachprobe und den kombinierten Satz von Erkennungsresultaten einschließlich der Informationen, die Fälle von Erkennungsunsicherheit oder Uneinigkeit identifizieren, über die Kommunikationsverbindung 321 an die Offline-Transkriptionsstation 313. Ein menschlicher Bediener an der Offline-Transkriptionsstation 313 verwendet selektiv die Sprachprobe (z. B. durch Anhören designierter Abschnitte derselben) und die Eingabe ab dem Combiner 311, um eine im Wesentlichen fehlerfreie Transkription der Sprachprobe herzustellen. Alternativ kann der Combiner die kombinierten Resultate durch elektronische Post oder andere Mittel an den Sprecher zurücksenden.
In einem Ausführungsbeispiel bewältigt eine einzige Hardware-Plattform (z. B. die Workstation des Sprechers) die Echtzeit-Spracherkennung und die entsprechende Echtzeit-Anzeige der erkannten Sprache ebenso wie den Empfang von Spracheingabe und Korrekturen ab dem Sprecher, während Offline-Spracherkennung, die vom Combiner geleisteten Funktionen und die an der Transkriptionsstation bewältigten Funktionen jeweils auf einer unterschiedlichen Plattform stehen. Zum Beispiel können die Echtzeit-Spracherkennungs-Komponenten (301, 303, 305, 307) auf der Workstation des Sprechers stehen, der Combiner kann auf einem mit der Workstation des Sprechers vernetzten Server stehen, und der Offline-Spracherkenner kann auf einer ortsfern angeordneten Hochgeschwindigkeits-Plattform (z. B. einem Super-Kleinrechner) stehen. Die Offline-Transkriptionsstation kann ebenfalls ortsfern sein, etwa in einer gesonderten Firma, die vertragsgemäß Transkriptionsdienstleistungen zur Verfügung stellt.
In einem anderen Ausführungsbeispiel können beliebige zwei oder drei (potentiell sämtliche) der Komponenten in 3 auf einer einzigen Plattform stehen. Beispielsweise können auf einer Hochleistungs-Multitasking-Workstation gleichzeitig gesonderte Softwareprozesse für Echtzeit-Spracherkennung (einschließlich Echtzeit-Anzeige der Erkennungsresultate und Online-Korrektur durch den Sprecher), Offline-Spracherkennung sowie die Kombination und Offline-Transkription der kombinierten Erkennungsresultate laufen. Dem Sprecher würde vom Echtzeit-Erkennungsprozess ein Echtzeit-Feedback zur Verfügung gestellt, das höchstwahrscheinlich einige wenige Fehler aufgrund falscher Erkennung erhält. Die Sprachprobe würde auch dem Offline-Erkennungsprozess zur Verfügung gestellt, der gleichzeitig im Hintergrund laufen und eine eigenständige Erkennungsanalyse durchführen würde. Sobald der Offline-Prozess abgeschlossen ist, können die Offline-Erkennungsresultate mit den Echtzeit-Erkennungsresultaten kombiniert und vom Sprecher in einem gesonderten Transkriptionsprozess genutzt werden, um eine im Wesentlichen fehlerfreie Transkription herzustellen.
Obwohl das Spracherkennungssystem von 3 zwei Spracherkenner verwendet, können andere Ausführungsbeispiele drei oder mehr Spracherkenner einsetzen, die jeweils für eine unterschiedliche Eigenschaft optimiert sind. Die Spracherkenner (ob zwei oder mehr an der Zahl) können für andere Eigenschaften als Echtzeit-Anprechbarkeit und hohe Genauigkeit optimiert werden, beispielsweise für unterschiedliche Schreibstile oder für unterschiedliche Sachgebiete. Je nach den Zielen des Systementwicklers können die optimierten Eigenschaften einander ergänzen, müssen dies jedoch nicht.
Ein für Schreibstil optimiertes System, zum Beispiel zum Gebrauch durch einen Rechtsanwalt, kann einen Spracherkenner haben, der für das Erkennen von Äußerungen (z. B. Wörtern oder Sprachbefehlen) optimiert ist, die typischerweise im förmlichen Schriftwechsel mit Mandanten Verwendung finden, einen anderen Spracherkenner, der für das Erkennen von Äußerungen optimiert ist, die typischerweise in rechtsverbindlichen Dokumenten wie Verträgen oder Testamenten verwendet werden, und noch einen anderen Spracherkenner, der für das Erkennen von Äußerungen optimiert ist, die bei der Erfassung von Rechnungseinträgen verwendet werden. Als Beispiel für Optimierung auf der Grundlage von Schreibstilen [sic] kann ein für den Gebrauch durch einen Arzt bestimmtes Spracherkennungssystem jeden der verschiedenen Spracherkenner für ein unterschiedliches medizinisches Fachgebiet optimieren – zum Beispiel ein Spracherkenner optimiert für Äußerungen, die typischerweise in der Pädiatrie Verwendung finden, und ein anderer Spracherkenner optimiert für Äußerungen, die typischerweise in der Immunologie verwendet werden.
Eine ausführlichere Beschreibung des vom System in 3 geleisteten Spracherkennungsprozesses wird mit Verweis auf das Ablaufdiagramm von 4 dargelegt. Zuerst wird das Diktat vom Sprecher durch das Mikrofon aufgenommen, durch einen A/D-Wandler digitalisiert und dem Echtzeit-Spracherkenner zur Verfügung gestellt (Schritt 400), der kontinuierliche Echtzeit-Spracherkennung an der Sprachprobe durchführt (Schritt 402).
Die Echtzeit-Spracherkennungsresultate, die potentiell einen oder mehrere Fehler enthalten, werden in Echtzeit auf einem Monitor, der mit dem Echtzeit-Spracherkenner gekoppelt ist, angezeigt (Schritt 404). Der Sprecher kann wahlweise die Online-Konektur etwaiger Erkennungsfehler vornehmen, indem er Sprachbefehle nutzt (z. B. durch Buchstabieren der korrekten Schreibweise oder durch nochmaliges Aussprechen des Wortes), indem er das korrekte Wort mit Hilfe der Tastatur eintippt oder indem er die Maus führt, um das korrekte Wort aus einer Wortvorschlagsliste, die vom Echtzeit- Spracherkennungssystem unterhalten wird, auszuwählen (Schritt 406). Zusätzlich zum Korrigieren von Erkennungsfehlern kann der Sprecher an diesem Punt die Wahl treffen, Abschnitte des erkannten Textes umzuschreiben.
Nachdem die Echtzeit-Spracherkennung abgeschlossen ist (alternativ auch, während der Echtzeit-Spracherkenner noch arbeitet), kann der Sprecher die Wahl treffen, die Sprachprobe weiter verarbeiten zu fassen, beispielsweise um etwaige Fehler zu korrigieren, die während der Echtzeit-Spracherkennung aufgetreten sein können, oder um das Format bzw. Erscheinungsbild des resultierenden Dokuments zu ändern. Zu diesem Zweck kann das System den Benutzer auffordern einzugeben, ob er die Probe zur Offline-Verarbeitung oder an einen Umschreiber (Transkriptionisten) senden möchte. In der Regel wird ein Sprecher, der ein nicht förmliches Dokument (z. B. eine E-Mail-Nachricht an einen Freund) diktiert hat, sich entscheiden, den zusätzlichen Aufwand an Zeit, Prozessorauslastung und möglicherweise Kosten für die Durchführung von Offline-Verarbeitung am Dokument nicht zu betreiben. Im Gegensatz dazu ist es eher wahrscheinlich, dass ein Sprecher, der ein förmliches Dokument (z. B. einen Geschäftsbrief oder Vertrag) diktiert hat, das Dokument zur Offline-Verarbeitung sendet, um sicherzustellen, dass das Dokument fehlerfrei und ordentlich formatiert ist.
Je nach Präferenzen des Sprechers kann die Sprachprobe für eine eigenständige (und typischerweise eine höhere Genauigkeit aufweisende) Spracherkennungsanalyse an den Offline-Spracherkenner gesendet werden (Schritt 408). In diesem Fall wird Offline-Spracherkennung durchgeführt (Schritt 410), und es werden sowohl die Resultate der Echtzeit-Spracherkennung als auch die Resultate der Offline-Spracherkennung zur Verarbeitung an den Combiner geschickt (Schritt 412).
Wie in 5 gezeigt, generieren der Offline-Spracherkenner 503 und der Echtzeit-Spracherkenner 505 gesonderte Sätze von wahrscheinlichen Kandidaten – d. h. von Phrasen, Wörtern, Phonemen oder sonstigen Spracheinheiten, die wahrscheinlich mit einem entsprechenden Abschnitt der Spracheingabe übereinstimmen – und zugehörige Punktwerte für jeden der Kandidaten. Die Punktwerte werden zwecks vereinfachter Verarbeitung typischerweise als negative logarithmische Werte verwaltet. Demzufolge bezeichnet ein niedrigerer Punktwert eine bessere Übereinstimmung (eine höhere Wahrscheinlichkeit), während ein höherer Punktwert eine weniger wahrscheinliche Übereinstimmung (eine geringere Wahrscheinlichkeit) bezeichnet, wobei die Wahrscheinlichkeit der Übereinstimmung in dem Maße sinkt, wie der Punktwert sich erhöht.
6A und 6B zeigen Formate von Erkennungsresultat-Tabellen, die vom Echtzeit-Spracherkenner (6A) und vom Offline-Spracherkenner (6B) genutzt werden können. Für jede einzelne Spracheinheit (z. B. Phrasen, Wörter, Phoneme) in der Sprachprobe generiert jeder Spracherkenner eine Datentabelle, deren Einträge einen Kandidaten in einem Feld 600, 604 und den Punktwert des Kandidaten in einem angrenzenden Feld 602, 606 aufweisen. Die Anzahl von Kandidaten, die in der Datentabelle enthalten sind, ist eine Frage der Programmgestaltung, wird jedoch in der Regel im Bereich von 2 bis 4 liegen. Die Kandidaten- und Punktwerttabellen der Spracherkenner werden an den Combiner 511 geschickt. Der Combiner generiert daraufhin seine eigene Erkennungsresultat-Tabelle für jede Einheit von Spracheingabe, wie in 6C gezeigt, indem er die Vereinigung der Echtzeit-Erkennungskandidaten und der Offline-Erkennungskandidaten bestimmt. Demzufolge wird jede Tabelle des Combiners eben so viele oder mehr Kandidaten enthalten als die größere der entsprechenden Tabellen der zwei Spracherkenner. Die entsprechenden Punktwerte für die Kandidaten in den Tabellen des Combiners werden generiert, indem folgende Gleichung verwendet wird, um einen gewichteten Durchschnitt der Echtzeit- und Offline-Punktwerte zu berechnen: Sc (w) = λ · So(w) + (1 – λ · Sr(w)
Dabei ist w der betrachtete Kandidat, S_c (w) der kombinierte Punktwert für den Kandidaten w, S_o(w) der Punktwert des Offline-Spracherkenners für denKandidaten w, S_r(w) der Punktwert des Echtzeit-Spracherkenners für den Kandidaten w und λ ein Gewichtsfaktor im Bereich von 0 bis einschließlich 1, der empirisch bestimmt wird.
Falls der Benutzer angezeigt hat, dass ein Umschreiber (Transkriptionist) genutzt werden soll (Schritt 414), werden die Tabellen von kombinierten Kandidaten und Punktwerten an den Offline-Umschreiber (Transkriptionisten) geschickt, der diese Informationen benutzt, um etwaige Transkritptionsfehler zu korrigieren (Schritt 416). Der Offline-Umschreiber (Transkriptionist) kann ebenso die Rohsprachprobe in der Form eines digitalen Datenpakets vom Echtzeit-Spracherkenner empfangen. Die Offline-Transkriptionsstation ist in der Lage, auf eine Anforderung des Umschreibers (Transkriptionisten) hin auf einen beliebigen Abschnitt der Sprachprobe (oder die gesamte Sprachprobe) direkt zuzugreifen und diesen wiederzugeben.
Wie in 9 gezeigt, kann die Offline-Transkriptionsstation eine GUI 901 ähnlich der vom Offline-Spracherkenner verwendeten unterstützen, durch die dem Umschreiber (Transkriptionisten) der Text der Sprachprobe in ihrem gegenwärtigen Erkennungszustand präsentiert wird. Zusätzlich öffnet sich auf Befehl für jedes Wort im Text eine Wortvorschlagsliste 909, die die Kandidaten ab dem Echtzeit-Spracherkenner und ab dem Offline-Spracherkenner enthält. Die Reihenfolge der Kandidaten in der Wortvorschlagsliste entspricht den in Schritt 412 berechneten kombinierten Punktwerten – d. h., der Kandidat mit dem niedrigsten kombinierten Punktwert wird an erster Stelle aufgelistet, der Kandidat mit dem zweitniedrigsten kombinierten Punktwert wird an zweiter Stelle aufgelistet und so weiter für sämtliche Kandidaten. Der Umschreiber (Transkriptionist) kann jeden der Kandidaten bewerten, indem er zum Beispiel den Kontext untersucht, in dem die betrachtete Spracheinheit erscheint, oder indem er sich den Abschnitt der Sprachprobe, der jener Spracheinheit entspricht bzw. sie umgibt, anhört. Ein Kandidat in der Wortvorschlagsliste kann unter Verwendung der Maus oder durch Ausgeben eines geeigneten Sprachbefehls (r. B. "wähle 1 ") ausgewählt werden.
Vom menschlichen Umschreiber (Transkriptionisten) vorgenommene Korrekturen können wahlweise dazu genutzt werden, die vom Offline-Spracherkenner oder vom Echtzeit-Spracherkenner oder von beiden verwendeten Sprachmodelle anzupassen bzw. zu "trainieren" (Schritt 418), wenn man davon ausgeht, dass der menschliche Umschreiber (Transkriptionist) allein auf das Korrigieren von Erkennungsfehlern beschränkt wird und es ihm nicht gestattet ist, das Dokument anderweitig zu bearbeiten. Man nehme zum Beispiel an, der Offline-Umschreiber (Transkriptionist) hat das Wort "presume" zu "assume" geändert, weil der Umschreiber (Transkriptionist) der Ansicht war, dass "assume" vom Sprecher nicht korrekt verwendet wurde. Der Rückgriff auf diese Änderung als Grundlage für das Training würde in einer unkorrekten Anpassung der Sprachmodelle münden und kann sie potentiell verfälschen. Im Ergebnis wäre es hernach eher wahrscheinlich, dass die Sprachmodelle unkorrekterweise "presume" als wahrscheinlichsten Kandidaten in Reaktion auf eine Äußerung des Wortes "presume" hypothetisieren. Aus diesem Grunde sollten etwaige Änderungen am Text, die vom Sprecher auf der Echtzeit-Spracherkennerstufe online vorgenommen wurden (Schritt 406 in 4), nicht verwendet werden, um die Sprachmodelle anzupassen, da jegliche derartige Änderungen wahrscheinlich unterschiedliche Wörter oder andere Revisionen durch den Sprecher beinhalten, statt lediglich Korrekturen von Erkennungsfehlern. Das Training von Sprachmodellen wird im U.S. Patent Nr. 5,027,406 mit dem Titel "METHOD FOR INTERACTIVE SPEECH RECOGNITION AND TRAINING" eingehender diskutiert.
Falls der Sprecher die Wahl trifft, keine Offline-Spracherkennung an der Sprachprobe durchführen zu lassen, kann er sich dennoch dafür entscheiden, die Resultate der Echtzeit-Spracherkennung an die Offline-Transkriptionsstation zu senden, damit ein menschlicher Umschreiber (Transkriptionist) wie oben beschrieben Korrekturen vornimmt (Schritt 414). Alternativ kann der Sprecher wählen, gar keine Offline-Verarbeitung am Dokument durchführen zu lassen. In jedem Fall wird das fertig gestellte Dokument im gewünschten Format ausgegeben, indem es zum Beispiel auf Papier ausgedruckt oder in einer Datendatei abgespeichert wird (Schritt 420).
In den Schritten 408–420 in 4 können dem Sprecher mehrere unterschiedliche Alternativen der Offline-Verarbeitung zur Verfügung stehen. Ein Sprecher kann zum Beispiel die Möglichkeit haben, zwischen zwei oder mehr unterschiedlichen Niveaus der Offline-Verarbeitung mit verschiedenen Graden von Geschwindigkeit, Genauigkeit, Kosten und anderen Parametern zu wählen. In ähnlicher Weise kann der Sprecherin der Lage sein, zwischen unterschiedlichen Offline-Transkriptionsdiensten mit verschiedenen Kosten oder Bearbeitungsfristen zu wählen. Die Offline-Optionen können vom Sprecher explizit auf individueller Grundlage gewählt werden, indem er beispielsweise bestimmt, dass ein auf einer ganz bestimmten Hardware-Plattform laufender Spracherkenner für die Offline-Erkennung zu verwenden ist. Alternativ kann der Sprecher eine Wichtigkeitsstufe (niedrig, mittel, hoch) oder eine Kostenobergrenze (z. B. nicht mehr als 30 Dollar für Offline-Verarbeitung) zuweisen, die von einem softwaregestützten Auswahlprozess genutzt werden würde, um Art und Umfang der auf ein Dokument anzuwendenden Offline-Verarbeitung zu wählen. Des Weiteren kann das Spracherkennungssystem auf vorbestimmten Kriterien beruhende Standardeinstellungen in Bezug auf die Art und den Grad der an einem bestimmten Dokument vorzunehmenden Offline-Verarbeitung haben. Zum Beispiel kann der Echtzeit-Spracherkenner 303 die Sprachprobe automatisch an den Offline-Spracherkenner 309 schicken, wenn der Vertrauensgrad hinsichtlich der Genauigkeit seiner Erkennungsresultate unterhalb eines Schwellenwerts liegt. Je nach den Zielen des Systemadministrators kann der Sprecher in der Lage oder nicht in der Lage sein, die Standardeinstellungen zu variieren oder zu übergehen.
Eine ausführlichere Beschreibung der Verarbeitung, die Combiner 311 und Offline- Transkriptionsstation 313 in den Schritten 412 und 416 von 4 durchführen, wird mit Verweis auf das Ablaufdiagramm von 7 gegeben. Der erste Schritt des Combiners besteht darin, die Erkennungsresultate sowohl vom Echtzeit-Spracherkenner als auch vom Offline-Spracherkenner einzuholen (Schritt 701). Der Combiner empfängt einen oder mehrere Kandidaten für jede Einheit von Spracheingabe ab dem Echtzeit-Spracherkenner und ab dem Offline-Spracherkenner. Wenn der Combiner von keinem der Spracherkenner für einen gemeldeten Kandidaten einen Punktwert erhält, ist der Combiner nicht in der Lage, einen kombinierten Punktwert für jenen Kandidaten zu berechnen. Demzufolge wird der Combiner, falls einer der Spracherkenner einen Kandidaten eingebracht hat, der in den vom anderen Spracherkenner kommunizierten Resultaten nicht erscheint, vom nicht meldenden Spracherkenner einen Punktwert für jenen Kandidaten abfordern und erhalten. Alternativ kann der Combiner einen etwas höheren Wert verwenden als den Punktwert des am schlechtesten abschneidenden Kandidaten, der durch den nicht meldenden Spracherkenner zur Verfügung gestellt wurde.
Sobald die Kandidaten und Punktwerte eingeholt sind, richtet der Combiner die Tabellen zeitlich darauf aus, dass sie mit den entsprechenden Spracheinheiten zwischen den Echtzeit-Erkennungsresultaten und den Offline-Erkennungsresultaten übereinstimmen (Schritt 703). Zum Beispiel kann eine Spracheingabeeinheit, die in Wirklichkeit das Wort "had" repräsentiert, vom Echtzeit-Spracherkenner unrichtig als "hat" erkannt worden sein, während der Offline-Spracherkenner sie korrekt als "had" erkannte. Um für die Spracheinheit eine kombinierte Liste von Kandidaten und deren entsprechenden Punktwerten richtig zu generieren, muss der Combiner demzufolge den Kandidaten des Echtzeit-Spracherkenners, "hat", und den Kandidaten des Offline-Spracherkenners, "had", zeitlich aufeinander ausrichten, damit sie derselben Spracheinheit entsprechen. Falls sich die zwei Spracherkenner jedoch bei mehreren Spracheinheiten hintereinander uneinig sind oder falls die Spracherkenner dahingehend uneinig sind, wie viele Spracheinheit während eines gegebenen Zeitraums überhaupt gesprochen wurden, behandelt der Combiner die umstrittene Sequenz von Spracheinheiten so, als handelte es sich bei der Sequenz um eine atomische Einheit, das heißt, verschiedene unmittelbar aufeinander folgende Kandidaten werden verknüpft, um einen einzigen Kandidaten zu bilden, der mehreren Spracheingabeeinheiten (z. B. einer Phraseneingabe) entspricht.
Sobald die zwei Sätze von Erkennungsresultaten zeitlich aufeinander ausgerichtet worden sind, wird unter Verwendung der oben aufgeführten Gleichung ein kombinierter Punktwert für jeden Kandidaten berechnet (Schritt 705). Der konkrete Wert für λ, der vom Combiner zur Berechnung der kombinierten Punktwerte verwendet wird, hängt von Vertrauensgraden ab, die der Combiner für jeden der Spracherkenner verwaltet. Diese Vertrauensgrade lassen sich im Laufe der Zeit, wenn der Combiner erlernt, welche Arten von Sprache durch den einen oder den anderen Spracherkenner besser erkannt werden, anpassen. Da der Offline-Spracherkenner für hohe Genauigkeit optimiert ist, während dies beim Echtzeit-Spracherkenner nicht so ist, könnte man erwarten, dass der Combiner für λ einen Wert 1 verwendet, womit der kombinierte Punktwert mit dem Punktwert des Offline-Spracherkenners gleichgesetzt würde. Bestünde der primäre Zweck darin, die kollektive Fehlerquote der Spracherkenner zu minimieren, dann könnte ein Systemadministrator die Wahl treffen, einen Wert 1 für λ zu verwenden. Dieses Vorgehen würde jedoch zum Verlust einer großen Datenmenge – und zwar der vom Echtzeit-Spracherkenner generierten Kandidaten und Punktwerte – führen, die potentiell für den Combiner oder für den menschlichen Umschreiber (Transkriptionisten) bzw. für beide von Nutzen wären. Wenn zum Beispiel der Punktwert des Offline-Spracherkenners für "hat" 9 war und 10 für "had" (d. h. eine vernachlässigbare Differenz), während der Echtzeit-Spracherkenner "hat" mit 5 bewertete und "had" mit 55, würden die Echtzeit-Werte einen beträchtlichen Einfluss auf den kombinierten Punktwert haben, der vom Wert für λ abhängt. Demzufolge wird λ typischerweise auf einen Wert weniger als 1 gesetzt, um die Erkennungsresultate ab dem Echtzeit-Spracherkenner für den Offline-Umschreiber (Transkriptionisten) zu bewahren. Auf diese Weise wird der Umschreiber (Transkriptionist) mit mehr Wortvorschlägen versorgt (d. h. Wortvorschläge von beiden anstatt nur vom einen oder vom anderen Spracherkenner) und wird daher mit größerer Wahrscheinlichkeit beim Korrigieren eines Erkennungsfehlers die richtige Wortwahl treffen.
Der Combiner verwendet die kombinierten Punktwerte, um Fälle von Unsicherheit bei den zwei Spracherkennern hinsichtlich der korrekten Erkennung einer Spracheinheit zu identifizieren (Schritt 707). Die korrekte Erkennung einer Spracheinheit ist unsicher, wenn sich (a) der Echtzeit-Spracherkenner seiner Ergebnisse unsicher ist, wenn sich (b) der Offline-Spracherkenner seiner Ergebnisse unsicher ist oder wenn sich (c) die zwei Spracherkenner uneinig sind (selbst wenn sich beide ihrer jeweiligen Resultate sicher sind). Ein Spracherkenner ist sich seiner Resultate unsicher, wenn die Differenz zwischen dem niedrigsten Punktwert (bester Vorschlag) und dem zweitniedrigsten Punktwert (zweitbester Vorschlag) unterhalb eines Schwellenwerts liegt.
Der Combiner kann jeden Fall von Unsicherheit hervorheben (z. B. durch Verwendung von Fettschrift oder Kontrastumkehr), um dem Umschreiber (Transkriptionisten) die Unsicherheit kenntlich zu machen, sobald der entsprechende Text auf dem Bildschirm der Offline-Transkriptionsstation erscheint (Schritt 709). Zusätzlich generiert der Combiner eine Wortliste für jeden Fall von Unsicherheit, die dem Umschreiber (Transkriptionisten) an der Offline-Transkriptionsstation gemeinsam mit den hervorgehobenen Fällen von Unsicherheit zu präsentieren ist (Schritt 713).
8A–8C und 9 zeigen ein vereinfachtes Beispiel für Spracherkennung unter Verwendung eines Systems von 3. In diesem Beispiel hat der Sprecher die Wörter "Dear Jim: [neuer Absatz] Enclosed please find a copy of a draft patent applicaton for your review" gesprochen. Wie in der Erkennungsresultat-Tabelle für den Echtzeit-Spracherkenner in 8A gezeigt, sind die vier Hauptkandidaten des Echtzeit-Spracherkenners für Übereinstimmung mit der dreizehnten Äußerung "Patton" mit einem Punktwert von 42, "patent" mit einem Punktwert von 43, "batten" mit einem Punktwert von 49 und "happened" mit einem Punktwert von 54. Da der Kandidat des Echtzeit-Spracherkenners mit dem niedrigsten Punktwert (d. h. sein bester Vorschlag) "Patton" ist, erkennt der Echtzeit-Spracherkenner die dreizehnte Äußerung nicht korrekt.
Man nehme bei diesem Beispiel an, dass der Sprecher die Wahl getroffen hat, die Sprachprobe an den Offline-Spracherkenner zu schicken, der als Reaktion darauf seine Erkennungsanalyse durchführt und die in 8B gezeigte Resultat-Tabelle generiert. Die vier Hauptkandidaten des Offline-Spracherkenners für Übereinstimmung mit der dreizehnten Äußerung sind "patent" mit einem Punktwert von 11, "Patton" mit einem Punktwert von 47, "happened" mit einem Punktwert von 51 und "had" mit einem Punktwert von 64. Nachdem beide Spracherkenner ihre jeweiligen Erkennungsanalysen durchgeführt haben, schickt jeder seine Erkennungsresultate zur Verarbeitung an den Combiner.
Bei Empfang der zwei Sätze von Erkennungsresultaten stellt der Combiner fest, dass der Echtzeit-Spracherkenner keinen Punktwert für einen der Kandidaten des Offline- Spracherkenners ("had") geliefert hat unddass Offline-Spracherkenner keinen Punktwert für einen der Kandidaten des Echtzeit-Spracherkenners ("batten") geliefert hat. Infolgedessen fordert der Combiner die Spracherkenner auf, für die nicht bewerteten Kandidaten Punktwerte zu liefern, so dass der Combiner für jeden Kandidat über zwei Punktwerte verfügt, mit denen sich ein kombinierter Punktwert berechnen lässt. Im vorliegenden Beispiel antwortet der Echtzeit-Spracherkenner mit einem Punktwert von 55 für "had", und der Offline-Spracherkenner reagiert mit einem Punktwert von 65 für "batten".
Der Combiner generiert anschließend eine Tabelle kombinierter Resultate wie in 8C gezeigt, indem er die Vereinigung der Kandidaten des Echtzeit-Spracherkenners mit den Kandidaten des Offline-Spracherkenners bestimmt. Der entsprechende kombinierte Punktwert für jeden Kandidat wird im vorliegenden Beispiel unter Verwendung eines Werts von 0,75 für λ berechnet, und die Kandidaten werden in der Tabelle kombinierter Resultate in aufsteigender Reihenfolge entsprechend dem kombinierten Punktwert angeordnet.
Die dreizehnte Äußerung in der Sprachprobe wird im vorliegenden Beispiel aus zwei voneinander unabhängigen Gründen als ein Fall von Erkennungsunsicherheit identifiziert. Zum Ersten waren sich die zwei Spracherkenner hinsichtlich der Erkennung der dreizehnten Äußerung ("patent" gegenüber "Patton") nicht einig. Zum Zweiten war die Differenz zwischen den Punktwerten für den ersten und zweiten Kandidaten des Echtzeit-Spracherkenners klein (42 gegenüber 43). Der Combiner markiert demzufolge die dreizehnte Äußerung 905 als eine Erkennungsunsicherheit, indem er sie zum Beispiel wie in 9 gezeigt in Fett- und Kursivschrift setzt und dem Umschreiber (Transkriptionisten) somit einen auffälligen Hinweis liefert, dass er dieser Äußerung besonderes Augenmerk widmen sollte.
Wie in 9 gezeigt, wird dem Offline-Umschreiber (Transkriptionisten) eine Transkription der Sprachprobe präsentiert, die "patent" als die dreizehnte Äußerung erkennt, weil "patent" in Relation zu den anderen Kandidaten für diese Äußerung den niedrigsten kombinierten Punktwert auswies. Dem Umschreiber (Transkriptionisten) wird außerdem eine Wortvorschlagsliste 909 präsentiert, die alle potentiellen Kandidaten hinsichtlich der Wahrscheinlichkeit, dass sie korrekt sind, in absteigender Reihenfolge aufführt (äquivalent in aufsteigender Reihenfolge nach kombinierten Punktwerten). Der Umschreiber (Transkriptionist) würde höchstwahrscheinlich beim ersten Vorschlag 913, der dem Wort "patent" entspricht, bleiben und damit bestätigen, dass der Offline-Spracherkenner in erster Instanz die richtige Entscheidung getroffen hat. Diese Bestätigung kann hergenommen werden, um die jeweiligen vom Echtzeit-Spracherkenner und vom Offline-Spracherkenner verwendeten Sprachmodelle anzupassen.
Mit der Durchführung von Spracherkennung in mehreren Stufen wie oben beschrieben (d. h. Echtzeit-Spracherkennung, Offline-Erkennung, Offline-Transkription) wird die Fehlerquote der Erkennung auf ein vernachlässigbares Maß herabgesetzt. In einem sprecherunabhängigen kontinuierlichen Spracherkennungssystem mit kurzer Einführungszeit (d. h. minimalem Zeitfonds für Sprachmodelftraining) beispielsweise resultiert der Einsatz eines Echtzeit-Spracherkenners allein in einer Erkennungsfehlerquote von 10–15 Prozent. Wird die Sprache des Weiteren durch einen Offline-Spracherkenner erkannt, sinkt die kumulative Erkennungsfehlerquote auf etwa 5–10 Prozent. Der Einsatz eines menschlichen Umschreibers (Transkriptionisten) zur weiteren Verarbeitung der Spracheingabe reduziert die Erkennungsfehlerquote auf etwa 1 Prozent oder weniger.
Die hier beschriebenen Methoden und Mechanismen sind nicht auf eine bestimmte Hardware- oder Softwarekonfiguration beschränkt, sondern sie können vielmehr in einer beliebigen Rechner- bzw. Verarbeitungsumgebung, die für Spracherkennung genutzt werden kann, Anwendung finden.
Die hier beschriebenen Ausführungsarten können in Hardware oder Software oder aber einer Kombination von beiden implementiert werden. Vorzugsweise werden die Ausführungsarten in Rechnersoftware implementiert, die auf programmierbaren Computern abläuft, welche jeweils mindestens einen Prozessor, ein vom Prozessor lesbares Speichermedium (einschließlich flüchtiger und nichtflüchtiger Internspeicher und/oder Speicherelemente), ein geeignetes Eingabegerät und geeignete Ausgabegeräte beinhalten. Auf unter Benutzung des Eingabegeräts eingegebene Daten wird Programmcode angewandt, um die beschriebenen Funktionen auszuführen und Ausgabeinformationen zu generieren. Die Ausgabeinformationen werden auf eines oder mehrere Ausgabegeräte angewandt.
Jedes Programm wird vorzugsweise in einer höheren, verfahrens- oder objektorientierten Programmiersprache implementiert, um mit einem Computersystem zu kommunizieren. Falls gewünscht, können die Programme jedoch in Assembler- oder Maschinensprache implementiert werden. In jedem Fall kann die Sprache eine kompilierte bzw. eine interpretierte Sprache sein.
Jedes derartige Computerprogramm wird vorzugsweise auf einem Speichermedium oder -gerät (z. B. CD-ROM, Festplatte oder Magnetdiskette) gespeichert, das von einem programmierbaren Allzweck- oder Spezialrechner lesbar ist, um den Computer zu konfigurieren und zu bedienen, wenn das Speichermedium bzw. -gerät vom Computer zwecks Ausführung der in diesem Dokument beschriebenen Verfahren gelesen wird. Eine weitere Überlegung wäre, das System als rechnerlesbares, mit einem Computerprogramm konfiguriertes, Speichermedium zu implementieren, wobei das so konfigurierte Speichermedium einen Computer veranlasst, in einer speziellen und vorbestimmten Weise zu arbeiten.
Weitere Ausführungsbeispiele werden durch die folgenden Ansprüche erfasst.

1

107: Anzeige
100: Computer
109: Speicher
111: Betriebssystem
113: Anwendungsprogramm
115: Spracherkennungsprogramm
117: E/A-Einheit
119: Soundkarte
121: Zentralprozessoreinheit (CPU)

2

200: Textverarbeitungsprogramm
204: Sprachmenü Wortvorgeschichte – [Wort 5]
206: obere Menüzeile nicht lesbar, d. Üb.] Wort 5 Wort 4 Wort 3 Wort 2 [Punkt] Wort 1 [Hoppla]
210: obere Menüzeile nicht lesbar, d. Üb.] Zum Beispiel, sagen Sie [Vorschlag 3], um das dritte Wort in der Vorschlagsliste zu akzeptieren und die Wortvorgeschichte zu schließen.Um mehr als einen Fehler zu korrigieren, können Sie [Wähle 3] und anschließend [Wort 4] sagen.

3

301: Spracheingabe
303: Echtzeit-Spracherkenner
305: Monitor
307: Korrekturen durch Sprecher
309: Oftline-Spracherkenner
311: Combiner
313: Offline-Transkriptionsstation

4

: Start
400: Diktat durch Sprecher
402: Echtzeit-Spracherkennung
404: Echtzeit-Anzeige
406: Korrekturen durch Sprecher (optional)
408: Sende an Offline ? Ja Nein
410: Offline-Spracherkennung
412: Combiner-Verarbeitung
414: Sende an Transkriptionist ? Ja Nein
416: Korrekturen durch Transkriptionist
418: Sprachmodelle anpassen (optional)
420: Fertiges Dokument ausgeben
: Ende

5

501: Eingabe Sprachprobe
503: Offline-Spracherkenner
505: Echtzeit-Spracherkenner
507: Offline-Kandidaten und -Punktwerte
509: Echtzeit-Kandidaten und -Punktwerte
511: Combiner
513: Kombinierte Kandidaten und Punktwerte
515: Transkriptionsstation

6A

: ECHTZEIT (EZ)
600: EZ-Wort (1) EZ-Wort (2) ... EZ-Wort (i)
602: EZ-Punktwert (1) EZ-Punktwert (2) ... EZ-Punktwert (i)

6B

: OFFLINE (OL)
600: OL-Wort (1) OL-Wort (2) ... OL-Wort (j)
602: OL-Punktwert (1) OL-Punktwert (2) ... OL-Punktwert (j)

6C

: KOMBINIERT (K)
600: K-Wort (1) K-Wort (2) ... K-Wort (k)
602: K-Punktwert (1) K-Punktwert (2) ... K-Punktwert (k)

7

: Start
701: Daten ab Echtzeit- und Offline-Spracherkenner einholen
703: Echtzeit- und Offline-Ergebnisse zeitgleich ausrichten
705: Kombinierte Punktwerte
707: Fälle von Unsicherheit identifizieren
709: Alle Fälle von Unsicherheit hervorheben
711: Wortvorschlagsliste erstellen
713: Resultate der Transkriptionsstation vorlegen
: Ende

8A

: ECHTZEIT

8B

: OFFLINE

8C

: KOMBINIERT (λ = 0.75)

9

901: Offline-Transkription
907: Sprachmenü Wortvorgeschichte – [Wort 13]
909: obere Menüzeile nicht lesbar, d. Üb.] Wort 13 Wort 12 Wort 11 Wort 10 Wort 9
913: [obere Menüzeile nicht lesbar, d. Üb.] Zum Beispiel, sagen Sie [Vorschlag 3], um das dritte Wort in der Vorschlagsliste zu akzeptieren und die Wortvorgeschichte zu schließen. Um mehr als einen Fehler zu korrigieren, können Sie [Wähle 3] und anschließend [Wort 4] sagen.

Claims

Computergestütztes Spracherkennungsverfahren umfassend: Empfangen einer Sprachprobe (501); Verarbeiten der Sprachprobe mit einem ersten Spracherkenner (505; 303), der auf einem ersten Prozessor läuft und wenigstens einem zweiten Spracherkenner (503; 309), der auf einem zweiten Prozessor läuft, wobei die Spracherkenner (505, 503; 303, 309) verschiedene Leistungsmerkmale aufweisen; Wobei die Verarbeitung durch den ersten Spracherkenner (505; 303) kontinuierliche Online-Spracherkennung in Echtzeit umfasst und die Verarbeitung durch den zweiten Spracherkenner (503, 309) Offline-Spracherkennung in Nicht-Echtzeit umfasst, und Erkennen von Sprachinhalt der Sprachprobe (501) auf einem Prozessor (511, 311) auf den Erkennungsresultaten von den Spracherkennern (505, 503; 303, 309) beruht.
Verfahren des Anspruchs 1, wobei die ersten und zweiten Spracherkenner (505, 503; 303, 309) für ihre entsprechenden Leistungsmerkmale optimiert sind.
Verfahren des Anspruchs 2, wobei das optimierte Merkmal für den ersten Spracherkenner (505; 303) Echtzeit-Ansprechbarkeit umfasst.
Verfahren des Anspruchs 2 oder Anspruchs 3, wobei das optimierte Merkmal für den zweiten Spracherkenner (503; 309) Erkennungsgenauigkeit umfasst.
Verfahren des Anspruchs 1, wobei die Leistungsmerkmale auf Stil berulien.
Verfahren des Anspruchs 1, wobei die Leistungsmerkmale auf behandelten Inhalt beruhen.
Verfahren nach einem beliebigen der vorhergehenden Ansprüche, wobei die Verarbeitung durch den zweiten Spracherkenner (503; 309) Offline-Verarbeitung umfasst.
Verfahren nach einem beliebigen der vorhergehenden Ansprüche, wobei die Verarbeitung das Durchführen einer ersten Erkennungsanalyse mit dem ersten Spracherkenner (505; 303) und eine zweite Erkennungsanalyse mit dem zweiten Spracherkenner (503; 309) parallel umfasst.
Verfahren eines beliebigen der Ansprüche 1 bis 7, wobei die Verarbeitung das Durchführen einer ersten Erkennungsanalyse mit dem ersten Spracherkenner (505; 303) und eine zweite Sprachanalyse mit dem zweiten Spracherkenner (503; 309 seriell umfasst.
Verfahren nach einem beliebigen der vorhergehenden Ansprüche, wobei die Verarbeitung durch den ersten Spracherkenner (505; 303) weiter das Bereitstellen einer Echtzeit-Textanzeige (208) umfasst, die der Sprachprobe (501) entspricht.
Verfahren nach einem beliebigen der vorhergehenden Ansprüche, wobei die Verarbeitung durch den zweiten Spracherkenner (503; 309) das Durchführen kontinuierlicher Spracherkennung großen Vokabulars für die Sprachprobe (501) umfasst.
Verfahren nach einem beliebigen der vorhergehenden Ansprüche, wobei die Verarbeitung umfasst, dass: der erste Spracherkenner (505; 303) einen ersten Satz von Kandidaten (600) identifiziert, die wahrscheinlich mit der Sprachprobe (501) übereinstimmen und einen entsprechenden ersten Satz von Punkten (602) kalkuliert, wobei die Punkte (602) auf einer Wahrscheinlichkeit beruhen mit der Sprachprobe (501) übereinzustimmen; und der zweite Spracherkenner (503; 309) einen zweiten Satz von Kandidaten (604) identifiziert, die wahrscheinlich mit der Sprachprobe (501) übereinstimmen und einen entsprechenden zweiten Satz von Punkten (606) kalkuliert, wobei die Punkte (606) auf einer Wahrscheinlichkeit beruhen mit der Sprachprobe (501) übereinzustimmen.
Verfahren des Anspruchs 12, wobei die Verarbeitung weiter umfasst: Kombinieren des ersten Satzes von Kandidaten (600) und des zweiten Satzes von Kandidaten (604), um einen kombinierten Satz von Kandidaten (608) zu generieren; und Mischen des ersten Satzes von Punkten (602) und des zweiten Satzes von Punkten (604), um einen kombinierten Satz von Punkten zu generieren (610).
Verfahren des Anspruchs 13, wobei das Kombinieren das Auffinden der Verbindung der ersten und zweiten Sätze von Kandidaten (600, 604) umfasst.
Verfahren des Anspruchs 13; wobei das Mischen die Kalkulation eines gewichteten Durchschnitts von entsprechenden Punktpaaren in den ersten und zweiten Sätzen von Punkten (600, 604) umfasst.
Verfahren eines beliebigen der Ansprüche 13 bis 15, das weiter das Präsentieren des kombinierten Kandidatensatzes (608) an einen Umschreiber (Transkriptionisten) in einer Prioritätsreihenfolge umfasst, die durch die betreffenden kombinierten Punkte der Kandidaten bestimmt wird.
Verfahren eines beliebigen der vorhergehenden Ansprüche, das weiter das Präsentieren von Ergebnissen der Verarbeitung an einen Umschreiber (Transkriptionisten) an einem zweiten Computer (313) umfasst.
Verfahren eines beliebigen der vorhergehenden Ansprüche, wobei die Erkennung das Erhalten von Feedback ab einem Umschreiber (Transkriptionisten) im Hinblick darauf umfasst, ob der Sprachkontext korrekt erkannt wurde.
Verfahren des Anspruchs 18, das weiter das Adaptieren von Sprachmodellen umfasst, die von den ersten und zweiten Spracherkennern (505, 503; 303, 309) auf der Basis des vom Umschreiber (Transkriptionisten) erhaltenen Feedback verwendet wurden.
Verfahren eines beliebigen der vorhergehenden Ansprüche, das selektives Durchführen von Offline-Verarbeitung der Sprachprobe (501) in Nicht-Echtzeit unter Verwendung des zweiten Spracherkenners (503; 309) umfasst.
Verfahren des Anspruchs 20, wobei die selektive Durchführung das Entscheiden umfasst, ob Offline-Verarbeitung auf der Basis von Eingabe seitens eines menschlichen Bedieners ausgeführt werden soll.
Verfahren des Anspruchs 20, wobei die selektive Durchführung das Entscheiden umfasst, ob Offline-Verarbeitung auf der Basis vorbestimmter Kriterien ausgeführt werden soll.
Verfahren des Anspruchs 22, wobei die bestimmenden Kriterien mit Offline-Verarbeitung verbundene Kosten umfassen.
Verfahren des Anspruchs 22, wobei die vorbestimmten Kriterien mit Offline-Verarbeitung verbundene Verarbeitungszeiten umfassen.
Verfahren des Anspruchs 22, wobei die vorbestimmten Kriterien einen Vertrauensgrad von Erkennungsresultaten ab dem ersten Spracherkenner (505; 303) umfassen.
Verfahren des Anspruchs 22, wobei die vorbestimmten Kriterien einen Wichtigkeitsgrad umfassen, der mit der Sprachprobe (501) verbunden ist.
Verfahren eines beliebigen der vorhergehenden Ansprüche, das Bestimmen umfasst, ob eine Erkennungsunsicherheit auf der Basis der Verarbeitung durch die ersten und zweiten Spracherkenner (505, 503; 303, 309) existiert.
Verfahren des Anspruchs 27, das die Identifizierung einer Erkennungsunsicherheit an einen Umschreiber (Transkriptionisten) umfasst.
Verfahren des Anspruchs 27 oder Anspruchs 28, wobei eine Erkennungsunsicherheit als bestehend bestimmt wird, wenn ein Erkennungsresultat ab dem ersten Spracherkenner (505) mit einem Erkennungsresultat ab dem zweiten Spracherkenner (503; 309) nicht übereinstimmt.
Verfahren des Anspruchs 12, das weiter Bestimmen für jeden Kandidatensatz (600 604) umfasst, dass eine Erkennungsunsicherheit vorliegt, wenn eine Differenz zwischen einer Punktzahl für einen am besten punktenden Kandidaten und einer Punktzahl für einen am zweit bestens punktenden Kandidaten weniger als einen Schwellwert beträgt.
Verfahren des Anspruchs 1, weiter umfassend: Vergleichen von Resultaten der Verarbeitung durch die ersten und zweiten Spracherkenner (505, 503; 303, 309); und, Bestimmen, dass eine Erkennungsunsicherheit vorliegt, wenn sich ein vom ersten Spracherkenner (505; 303) produziertes bestes Resultat von einem vom zweiten Spracherkenner (503; 309) produzierten besten Resultat unterscheidet.
Verfahren des Anspruchs 31, das weiter die Identifizierung eines Teils der Sprachprobe (501) als der Erkennungsunsicherheit entsprechend umfasst.
Verfahren des Anspruchs 31 oder Anspruchs 32, das weiter das Präsentieren eines Indikators der Erkennungsunsicherheit an einen Umschreiber (Transkriptionisten) umfasst.
Spracherkennungssystem, das umfasst: ein Eingabegerät (301), das konfiguriert ist eine zu erkennende Sprachprobe (501) zu empfangen; einen ersten Spracherkenner (505; 303), der auf einem ersten Prozessor läuft und mit dem Eingabegerät (301) gekoppelt ist, um Online-Spracherkennung für die Sprachprobe (501) in Echtzeit durchzuführen; mindestens einen anderen Spracherkenner (503; 30), der auf einem zweiten Prozessor läuft und mit dem ersten Spracherkenner (505; 303) gekoppelt ist, um Offline- Spracherkennung für die Sprachprobe (501) in Nicht-Echtzeit durchzuführen; und einen Prozessor (511; 311), der konfiguriert ist Erkennungsresultate ab den Spracherkennern (505, 503) zu empfangen und zu verarbeiten, um Sprachinhalt der Sprachprobe (501) zu erkennen.
Spracherkennungssystem des Anspruchs 34, das ein Computersystem zum Kontrollieren des ersten Spracherkenners (505; 303) umfasst, wobei das Computersystem eine graphische Benutzerschnittstelle umfasst, um mit einem Benutzer Dialog zu führen.
Spracherkennungssystem des Anspruchs 35, wobei die graphische Benutzerschnittstelle dem Benutzer gestattet ein Erkennungsresultat ab dem ersten Spracherkenner (505; 303) zu revidieren.
Spracherkennungssystem des Anspruchs 35, wobei die graphische Benutzerschnittstelle dem Benutzer gestattet die Übertragung der Sprachprobe (501) an den mindestens einen anderen Spracherkenner (503; 309) selektiv einzuschränken.
Spracherkennungssystem eines beliebigen der Ansprüche 34 bis 37, das weiter eine Transkriptionsstation umfasst, und bei dem die graphische Benutzerschnittfläche dem Benutzer gestattet die Sprachprobe (501) selektiv an die Transkriptionsstation zu übertragen.
Spracherkennungssystem des Anspruchs 34, das weiter eine mit dem Prozessor gekoppelte Transkriptionsstation umfasst, die zum Korrigieren von Erkennungsfehlern von einem Umschreiber (Transkriptionisten) benutzt werden kann.
Verfahren des Anspruchs 1, das weiter umfasst: Bestimmen, ob ein auf einer Benutzereingabe beruhendes vorbestimmtes Kriterium erfüllt ist; und selektive Durchführung von Offline-Verarbeitung der Sprachprobe in Nicht-Echtzeit unter Verwendung des zweiten Spracherkenners (503; 309), nur wenn das vorbestimmte Kriterium erfüllt ist.
Verfahren des Anspruchs 1, das weiter umfasst: Bestimmen, ob ein vorbestimmtes Kriterium, das auf einem der mit der Sprachprobe verbundenen Dokumententyp beruht, erfüllt ist; und selektive Durchführung von Offline-Verarbeitung der Sprachprobe in Nicht-Echtzeit unter Verwendung des zweiten Spracherkenners (503; 309), nur wenn das vorbestimmte Kriterium erfüllt ist
Bestimmen, ob ein vorbestimmtes Kriterium, das auf mit dem zweiten Spracherkenner verbundenen Kosten beruht, erfüllt ist; und, selektive Durchführung von Offline-Verarbeitung der Sprachprobe in Nicht-Echtzeit unter Verwendung des zweiten Spracherkenners (503; 309), nur wenn das vorbestimmte Kriterium erfüllt ist.
Computerprogramm einschließlich Programmschritten zur Ausführung des Verfahrens nach einem beliebigen der Ansprüche 1 bis 33, 40, 41 oder 42.