DE69814589T2 - Spracherkennung unter verwendung mehrerer spracherkenner - Google Patents

Spracherkennung unter verwendung mehrerer spracherkenner Download PDF

Info

Publication number
DE69814589T2
DE69814589T2 DE69814589T DE69814589T DE69814589T2 DE 69814589 T2 DE69814589 T2 DE 69814589T2 DE 69814589 T DE69814589 T DE 69814589T DE 69814589 T DE69814589 T DE 69814589T DE 69814589 T2 DE69814589 T2 DE 69814589T2
Authority
DE
Germany
Prior art keywords
speech
recognition
recognizer
speech recognizer
offline
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69814589T
Other languages
English (en)
Other versions
DE69814589D1 (de
Inventor
K. James BAKER
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
L&H Holdings USA Inc
Original Assignee
L&H Holdings USA Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by L&H Holdings USA Inc filed Critical L&H Holdings USA Inc
Publication of DE69814589D1 publication Critical patent/DE69814589D1/de
Application granted granted Critical
Publication of DE69814589T2 publication Critical patent/DE69814589T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Description

  • Die Erfindung betrifft Spracherkennung.
  • Ein Spracherkennungssystem analysiert die (gesprochene) Sprache einer Person, um zu bestimmen, was die Person gesagt hat. Die meisten Spracherkennungssysteme beruhen auf Datenübertragungsblöcken (Frame). In einem auf Datenübertragungsblöcken beruhenden System teilt ein Prozessor ein Signal, das die zu erkennende Sprache beschreibt, in eine Reihe digitaler Datenübertragungsblöcke, von denen jedes einem kleinen Zeitinkrement der Sprache entspricht. Der Prozessor vergleicht daraufhin die digitalen Datenübertragungsblöcke mit einem Satz von Sprachmodellen. Jedes Sprachmodell kann ein Wort aus einem Vokabular von Wörtern repräsentieren und kann repräsentieren, wie dieses Wort von verschiedenen Sprechern gesprochen wird. Ein Sprachmodell kann ebenso einen Laut oder ein Phonem repräsentieren, das einem Abschnitt eines Wortes entspricht. In ihrer Gesamtheit repräsentieren die in dem Modell ein Wort konstituierenden Phoneme die phonetische Schreibweise des Wortes.
  • Der Prozessor bestimmt, was der Sprecher gesagt hat, indem er die Sprachmodelle findet, die mit den digitalen Datenübertragungsblöcken, die die Sprache der Person repräsentieren, am besten übereinstimmen. Die Wörter oder Phrasen, die den am besten übereinstimmenden Sprachmodellen entsprechen, werden als Erkennungskandidaten bezeichnet. Spracherkennung wird im U.S. Patent Nr. 4,805,218 mit dem Titel "METHOD FOR SPEECH ANALYSIS AND SPEECH RECOGNITION" besprochen.
  • 1 ist ein Blockdiagramm eines Systems, das für Spracherkennung genutzt werden kann. Das System beinhaltet verschiedene Eingabe-/Ausgabegeräte (E/A-Geräte) (Mikrofon 101, Maus 103, Tastatur 105, Anzeige 107) und einen allgemein gebräuchlichen Computer 100 mit einer Zentralprozessoreinheit (CPU) 121, einer E/A-Einheit 117 und einer Soundkarte 119. Ein Speicher 109 speichert Daten und verschiedene Programme wie ein Betriebssystem 111, ein Anwendungsprogramm 113 und ein Spracherkennungsprogramm 115.
  • Das Mikrofon 101 nimmt Äußerungen von einem Sprecher wahr und gibt die Äußerungen in Form eines analogen Signals an die Soundkarte 119 weiter, die wiederum das Signal durch einen Analog-Digital-Wandler (A/D-Wandler) führt, um das analoge Signal in einen Satz von digitalen Signalen umzuwandeln. Unter Kontrolle des Betriebssystems 11 vergleicht das Spracherkennungsprogramm 115 die digitalen Proben mit Sprachmodellen um zu bestimmen, was der Sprecher gesagt hat. Die Ergebnisse dieser Bestimmung können für eine spätere Verwendung gespeichert oder als Eingabe für das Anwendungsprogramm 113 genutzt werden.
  • Wie in 2 gezeigt, kann das Spracherkennungsprogramm gleichzeitig mit einem Anwendungsprogramm, zum Beispiel einem Textverarbeitungsprogramm, ausgeführt werden, um es dem Sprecher zu gestatten, das Mikrofon 101 entweder allein oder in Verbindung mit der Tastatur 105 und der Maus 103 als Texteingabegerät zu verwenden. Der Sprecher interagiert mit dem Textverarbeitungsprogramm über eine grafische Benutzeroberfläche (GUI), die ein Fenster 200 mit einem Textfeld 202 enthält. Die in 2 gezeigte GUI wurde von Dragon Systems, Inc. für das Spracherkennungsprogramm DragonDictate® for Windows® entwickelt. In 2 ist die GUI des Spracherkennungsprogramms über die GUI des Textverarbeitungsprogramms gelegt, um dem Sprecher bequemen Zugriff auf beide Programme zu gewähren.
  • Im dargestellten Beispiel hat der Sprecher die Präambel der US-amerikanischen Verfassung in das Mikrofon gesprochen. Die gesprochenen Worte werden vom Spracherkennungsprogramm erkannt und dem Textverarbeitungsprogramm als Eingabe zur Verfügung gestellt, welches den entsprechenden Text daraufhin im Textfeld 202 anzeigt. In diesem Beispiel wurde jedoch das gesprochene Wort "States" fälschlicherweise als "stakes" 208 erkannt. Unter Verwendung geeigneter Sprachbefehle (entweder allein oder in Verbindung mit Eingaben von der Tastatur oder Maus) kann der Sprecher den Text korrigieren, indem er zum Beispiel die zweite Wortwahl 210 "States" im Fenster Wortvorgeschichte 206 als das richtige Wort designiert.
  • Ein Spracherkennungssystem kann ein "diskretes" System sein, das heißt, ein System, das einzelne Wörter oder Sätze erkennt, vom Sprecher jedoch verlangt, dass er zwischen jedem gesprochenen einzelnen Wort oder Satz eine kurze Pause macht. Alternativ kann ein Spracherkennungssystem "kontinuierlich" sein, was bedeutet, dass die Erkennungssoftware gesprochene Wörter oder Sätze unabhängig davon erkennen kann, ob der Sprecher zwischen ihnen eine Pause macht. Kontinuierliche Spracherkennungssysteme weisen im Vergleich zu diskreten Spracherkennungssystemen in der Regel eine höhere Quote an Erkennungsfehlern auf, was auf die Kompliziertheit der Erkennung kontinuierlicher Sprache rückführbar ist. Eine ausführlichere Beschreibung kontinuierlicher Spracherkennung stellt US-Patent Nr. 5,202,952 mit dem Titel "LARGE-VOCABULARY CONTINUOUS SPEECH PREFILTERING AND PROCESSING SYSTEM" zur Verfügung.
  • Der Vortrag "The simultaneous use of three machine speech recognition systems to increase recognition accuracy" im Band 2 der "Proceedings of the IEEE 1994 National Aerospace and Electronics Conference, Dayton, Ohio", 23.-27. Mai 1994, S. 667–671, legt ein rechnergestütztes Spracherkennungsverfahren offen, bei dem drei Spracherkenner mit jeweils unterschiedlichen Merkmalen für dieselbe Spracheingabe parallel eingesetzt werden. Die Bestimmung der Spracheingabe ist abhängig von den Ergebnissen der unterschiedlichen Spracherkenner. Das System ist ein Echtzeit-System, das dem Erkennen gesprochener Anweisungen von Piloten dient.
  • Einem ersten Aspekt der vorliegenden Erfindung gemäß umfasst ein rechnergestütztes Spracherkennungsverfahren:
    Empfangen einer Sprachprobe;
    Verarbeiten der Sprachprobe mit einem ersten Spracherkenner, der auf einem ersten Prozessor läuft, und zumindest einem zweiten Spracherkenner, der auf einem zweiten Prozessor läuft, wobei die Spracherkenner unterschiedliche Leistungsmerkmale aufweisen;
    wobei die Verarbeitung durch den ersten Spracherkenner kontinuierliche Online-Spracherkennung in Echtzeit umfasst und die Verarbeitung durch den zweiten Spracherkenner Offline-Spracherkennung in Nicht-Echtzeit umfasst; und
    Erkennen von Sprachinhalt der Sprachprobe auf einem Prozessor auf Grundlage der Erkennungsresultate ab den Spracherkennern.
  • Die unterschiedlichen Leistungsmerkmale der Spracherkenner können einander ergänzen. Zum Beispiel kann ein Spracherkenner für Echtzeitspracherkennung optimiert sein und kann der andere Spracherkenner für hohe Genauigkeit optimiert sein. Der Sprachinhalt der Sprachprobe wird auf Grundlage der Verarbeitungsergebnisse ab mehreren Spracherkennern erkannt. Dem Sprecher wird eine der Sprachprobe entsprechende Echtzeit-Textanzeige, die jedoch potentiell mit Fehlern behaftet ist, zur Verfügung gestellt, während anschließend ein menschlicher Umschreiber (Transkriptionist) die Erkennungsresultate ab den zwei Spracherkennern verwenden kann, um eine potentiell fehlerfreie Transkription anzufertigen. Die Spracherkenner können für verschiedene, über Echtzeit-Ansprechbarkeit und hohe Genauigkeit hinausgehende Merkmale optimiert werden, beispielsweise auf der Grundlage unterschiedlicher Schreibstile oder unterschiedlicher Sachgebiete.
  • Einer oder mehrere der Spracherkenner können in der Lage sein, Sprache auf kontinuierlicher Basis zu erkennen. Der hochgenaue Spracherkenner kann ein kontinuierlicher Spracherkenner mit großem Vokabular sein, der offline arbeitet. Die entsprechenden Spracherkennungsanalysen der zwei Spracherkenner können seriell oder parallel ausgeführt werden.
  • In einem Ausführungsbeispiel identifziert der erste Spracherkenner einen ersten Satz von Kandidaten, die wahrscheinlich mit der Sprachprobe übereinstimmen, und berechnet einen entsprechenden ersten Satz von Punktwerten. In ähnlicher Weise identifiziert der zweite Spracherkenner einen zweiten Satz von Kandidaten, die wahrscheinlich mit der Sprachprobe übereinstimmen, und berechnet einen entsprechenden zweiten Satz von Punktwerten. Die vom ersten und zweiten Spracherkenner berechneten Punktwerte beruhen auf einer Wahrscheinlichkeit, mit der Sprachprobe überein zu stimmen.
  • Der erste und zweite Satz von Kandidaten wird kombiniert, indem zum Beispiel ihre Vereinigung hergenommen wird, um einen kombinierten Satz von Kandidaten zu generieren. Der erste und zweite Satz von Punktwerten wird verschmolzen, um einen kombinierten Satz von Punktwerten zu generieren, indem zum Beispiel ein gewichteter Durchschnitt für jedes entsprechende Paar von Punktwerten berechnet wird. Die kombinierten Sätze von Kandidaten werden einem Umschreiber (Transkriptionisten) in einer Prioritätsreihenfolge präsentiert, die durch die betreffenden kombinierten Punktwerte der Kandidaten bestimmt ist. Der Umschreiber (Transkriptionist) kann diese Information nutzen, um eventuelle Erkennungsfehler zu korrigieren, die im erkannten Text vorliegen. Von den Spracherkennern beim Durchführen der Erkennungsanalyse verwendete Sprachmodelle können auf Grundlage des ab dem Umschreiber (Transkriptionisten) erhaltenen Feedbacks in Bezug darauf angepasst werden, ob der Sprachinhalt korrekt erkannt wurde.
  • Die Punktwerte können genutzt werden, um zu bestimmen, ob in den Ergebnissen der Spracherkenner eventuelle Erkennungsunsicherheiten vorliegen. Eine Erkennungsunsicherheit wird angezeigt, wenn ein jeglicher der beiden Spracherkenner unsicher ist (d. h. wenn die Differenz zwischen den Punktwerten, die mit einem besten und einem zweitbesten Kandidaten des Spracherkenners assoziiert sind, einen Schwellenwert unterschreitet) oder wenn sich die zwei Spracherkenner uneinig sind. Jegliche entdeckte Erkennungsunsicherheiten können verwendet werden, um Abschnitte der Sprachprobe für den Umschreiber (Transkriptionisten) als besonderer Aufmerksamkeit bedürfend zu markieren.
  • Wesen und Umfang der Offline-Verarbeitung (z. B. Offline-Erkennung, Fehlerkorrektur durch einen Umschreiber (Transkriptionisten)), die an einer Sprachprobe durchzuführen ist, können durch den Benutzer des Computersystems mit Hilfe einer grafischen Benutzeroberfläche (GUI) oder automatisch, auf zuvor festgelegten Kriterien beruhend, gesteuert werden. Der Benutzer kann per Hand wählen, ob und in welchem Umfang Offline-Verarbeitung der Sprachprobe erfolgen sollte. Die vorbestimmten Kriterien, die zur Steuerung der Offline-Verarbeitung dienen, können die mit der Offline-Verarbeitung verbundenen Kosten, Verarbeitungszeiten bzw. Verfügbarkeiten, einen Wichtigkeitsgrad der speziell betrachteten Sprachprobe oder einen mit den Erkennungsergebnissen von der Offline-Verarbeitung verbundenen Vertrauensgrad umfassen.
  • Die vorliegende Erfindung kann einen oder mehrere der folgenden Vorzüge beinhalten. Durch ein Spracherkennungssystem, das mehrere Spracherkenner mit einander ergänzenden Eigenschaften verwendet, wird eine Synergie geschaffen. Die Optimierung eines der Spracherkenner (ein "Echtzeit"-Spracherkenner) für Echtzeit-Interaktivität bietet dem Sprecher unmittelbar ein visuelles Feedback und die Möglichkeit, an der erkannten Sprache online Korrekturen vorzunehmen. Dadurch wird der Diktatvorgang intuitiver und effizienter. Das Kombinieren der Echtzeit-Spracherkennungsresultate mit den Resultaten ab einem anderen Spracherkenner, der für hohe Genauigkeit optimiert ist (ein "Offline"-Spracherkenner), bietet endgültige Spracherkennungsresultate, die mit Wahrscheinlichkeit genauer sind. Das Kombinieren der Spracherkennungsresultate ab den zwei Spracherkennern auf der Basis von Gewichtsfaktoren gestattet es dem Spracherkennungssystem, dem Erkennungsresultat ab dem Spracherkenner, der als genauer bekannt ist, größeres Gewicht beizumessen. Darüber hinaus setzt die Verwendung mehrerer Stufen von Spracherkennungsverarbeitung – d. h. Echtzeit-Erkennung, Offline-Erkennung und Offline-Transkription – die Fehlerquote der Erkennung drastisch herab.
  • Ein Spracherkennungssystem mit mehreren Spracherkennern weist gegenüber einem System mit einzelnem Spracherkenner verschiedene Vorzüge auf. Zum Ersten hat eine höhere Zahl von Spracherkennern die Tendenz, die Zahl der resultierenden Erkennungskandidaten für eine gegebene Sprachprobe zu erhöhen. Darüber hinaus hat ein System mit mehreren Spracherkennern eine erhöhte Fähigkeit, Fälle von Erkennungsunsicherheit zu identifizieren. Die Wahrscheinlichkeit, dass ein Erkennungsresultat nicht korrekt ist, ist größer, wenn sich die Spracherkenner über die Erkennung einer gegebenen Äußerung nicht einig sind oder wenn sich einer der Spracherkenner bzw. beide über die Genauigkeit ihres jeweiligen Erkennungsresultats unsicher sind. Diese Fälle von Unsicherheit können dem Umschreiber (Transkriptionisten) bzw. Systembenutzer deutlich gemacht werden.
  • Das Modularisieren der verschiedenen Spracherkennungsprozesse verleiht dem Sprecher einen hohen Grad an Flexibilität. Der Sprecher hat die Wahl, auf diktierte Dokumente nichtformeller Natur (z. B. eine E-Mail-Nachricht) keine Offline-Spracherkennung anwenden zu lassen, oder er hat die Wahl, auf wichtige diktierte Dokumente (z. B. einen Vertrag) eine ausgedehnte Offline-Spracherkennung anwenden zu lassen. Dem Sprecher können auch verschiedene dazwischen liegende Grade von Offline-Spracherkennung zur Verfügung gestellt werden. In ähnlicher Weise sind Systemadministratoren von Spracherkennungssystemen besser in der Lage, die Ressourcen zu verwalten und die Verarbeitungskosten zu kontrollieren, indem sie Kriterien aufstellen, die das Wesen und den Umfang der Spracherkennung, die durchgeführt werden kann, begrenzen.
  • Die Modularisierung und Verteilung der Spracherkennungsprozesse schafft auch bestimmte Vorteile wie stärkere Informationsverbergung, erhöhte Effizienz und die erhöhte Fähigkeit, einen oder mehrere der Prozesse auszulagern. Da zum Beispiel der Offline-Transkriptionsprozess von den anderen Prozessen abgetrennt ist, kann er an eine Firma, die auf Transkriptionsdienstleistungen spezialisiert ist, untervergeben werden. Des Werteren können, da die Funktion des Offline-Umschreibers (Transkriptionisten) auf das Korrigieren von Erkennungsfehlern (im Gegensatz zum Vornehmen redaktioneller Änderungen am Text) beschränkt ist, die vom Umschreiber (Transkriptionisten) vorgenommenen Änderungen dazu genutzt werden, die Sprachmodelle des Spracherkenners zu "trainieren", ohne fürchten zu müssen, dass die Modelle verfälscht werden.
  • Einem zweiten Aspekt der vorliegenden Erfindung gemäß umfasst ein Spracherkennungsverfahren:
    ein Eingabegerät, das konfiguriert ist, eine zu erkennende Sprachprobe zu empfangen;
    einen ersten Spracherkenner, der auf einem ersten Prozessor läuft und mit dem Eingabegerät gekoppelt ist, um Online-Spracherkennung für die Sprachprobe in Echtzeit durchzuführen;
    mindestens einen werteren Spracherkenner, der auf einem zweiten Prozessor läuft und mit dem ersten Spracherkenner gekoppelt ist, um Offline-Spracherkennung für die Sprachprobe in Nicht-Echtzeit durchzuführen; und
    einen Prozessor, der konfiguriert ist, Erkennungsresultate ab den Spracherkennem zu empfangen und zu verarbeiten, um Sprachinhalt der Sprachprobe zu erkennen.
  • Die vorliegende Erfindung wird anhand von Beispielen unter Verweis auf die beigefügten Zeichnungen erklärt. Dabei ist
  • 1 ein Blockdiagram eines Spracherkennungssystems;
  • 2 ein Beispiel für die Bildschirmanzeige eines Spracherkennungsprogramms, das genutzt wird, um Text in ein Textverarbeitungsprogramm, das auf dem System von 1 läuft, einzugeben;
  • 3 ein Blockdiagramm eines Spracherkennungssystems mit zwei Spracherkennern;
  • 4 ein Ablaufdiagramm der Sprachverarbeitung unter Verwendung der Zwei-Spracherkenner-Konfiguation von 3;
  • 5 ein Blockdiagramm des Informationsflusses im Spracherkennungssystem von 3.
  • 6A, 6B und 6C sind Datendiagramme der Informationen, die zwischen den Komponenten in 5 übertragen werden.
  • 7 ist ein Ablaufdiagramm der von dem Combiner im Spracherkennungssystem von 3 ausgeführten Operationen.
  • 8A, 8B und 8C sind Beispiele von Datentabellen für die in 3 dargestellte Sprachprobe.
  • 9 ist ein Beispiel der Bildschirmanzeige einer grafischen Benutzeroberfläche, die durch die Offline-Transkriptionsstation im Spracherkennungssystem von 3 verwendet wird.
  • Wenn ein Spracherkennungssystem für das Diktieren benutzt wird, dient das Spracherkennungssystem als eine Alternative zu anderen Eingabemechanismen wie zum Beispiel einer Tastatur. Ein Benutzer, der nicht in der Lage ist oder dem es nicht gefällt, auf einer Tastatur zu tippen, kann dessen ungeachtet ein schriftliches Dokument erstellen, indem er den Text mündlich in das Mikrofon eines Spracherkennungssystems diktiert. In einem Echtzeit-Spracherkennungssystem werden die Wörter des Sprechers – aus der Perspektive des Sprechers – erkannt, und der entsprechende Text wird auf einem Computerbildschirm im Wesentlichen zur gleichen Zeit angezeigt, wie die Wörter gesprochen werden.
  • Echtzeit-Spracherkennung hat den Vorteil von Interaktivität. Dem Sprecher wird ein im Wesentlichen unmittelbares visuelles Feedback des Diktatflusses zum schnellen und einfachen Prüfen des Textes zur Verfügung gestellt. Dies ermöglicht es dem Sprecher, sein Gedächtnis aufzufrischen, falls der Diktatfluss unterbrochen wird, und Überarbeitungen "online" durchzuführen, das heißt, das Dokument zu überarbeiten, während es erstellt wird. DragonDictate® ist ein Beispiel für ein Echtzeit-Erkennungssystem.
  • Im Gegensatz zu Echtzeit-Systemen erkennt ein "Offline"-System Sprache typischerweise nicht auf Echtzeit-Basis, sondern erfordert vielmehr – den Einschränkungen durch die Verarbeitungsgeschwindigkeit geschuldet – einen größeren Betrag an Zeit, um die Spracherkennung auszuführen. Ein Beispiel für Offline-Diktieren ist, wenn die Worte des Sprechers – entweder durch ein Bandaufzeichnungsgerät oder durch einem menschlichen Stenographen – aufgezeichnet und dann durch einen menschlichen Umschreiber (Transkriptionisten) zu einem späteren Zeitpunkt abgetippt werden.
  • Rechnergestützte Offline-Spracherkennung ließe sich mit einer Software-Erkennungsmaschine (d. h. einem "Spracherkenner") realisieren, die eine ausgeklügelte und umfangreiche Analyse einer Sprachprobe ausführt, um den Sprachinhalt der Probe mit einem hohen Genauigkeitsgrad zu bestimmen. Ein Beispiel für einen hoch leistungsfähigen Offline-Spracherkenner ist das Hidden Markov Model Tool Kit (HTK"), das vom Entropic Cambridge Research Laboratory entwickelt und in Steve Young et al., "The HTK Book", Cambridge University Technical Services Ltd. (Dezember 1995) beschrieben wurde.
  • HTK ist ein kontinuierlicher Spracherkenner großen Vokabulars ("LVCSR"), der verborgene Markov-Modell-Techniken vennrendet, um Sprache mit einem hohen Genauigkeitsgrad zu erkennen. Die verborgene Markov-Modell-Technik wird im U.S. Patent Nr. 5,027,406 diskutiert.
  • Offline-Spracherkenner sind in der Lage, Sprache mit einem Genauigkeitsgrad zu erkennen, der beträchtlich höher ist als jener von Echtzeit-Spracherkennem, da Offline-Spracherkenner im Allgemeinen nicht den Beschränkungen hinsichtlich Zeit und Anzeige unterliegen, die das Wesen des Erkennungsalgorithmus, der auf die Sprachprobe anwendbar wäre, begrenzen. Ein Offline-Spracherkenner kann zum Beispiel einen Erkennungsalgorithmus verwenden, der verschiedene Prüfgänge über eine Reihe von Wörtern verlangt, bevor die Wörter erkannt werden. Im Gegensatz dazu muss ein Echtzeit-Spracherkenner definitionsgemäß die Erkennungsanalyse innerhalb eines ausreichend kleinen Zeitraums abschließen, damit der Sprecher keine übermäßige Verzögerung zwischen der Sprachäußerung und dem Erscheinen des Texts auf der Anzeige erfährt. Dementsprechend erkennen Echtzeit-Spracherkenner Sprache typischerweise mit einem beträchtlich niedrigeren Grad von Genauigkeit als Offline-Spracherkenner, da Echtzeit-Spracherkenner hinsichtlich des Umfangs und des Wesens der Erkennungsverarbeitung, die für eine gegebene Sprachprobe ausgeführt werden kann, zeitlichen Beschränkungen unterliegen. Insbesondere gilt dies für kontinuierliche Spracherkennung, die eine umfangreichere Analyse erfordert als diskrete Erkennung, um ein genaues Resultat zu erzielen.
  • Spracherkennungssysteme benutzen traditionell einen einzigen Spracherkenner, der darauf zugeschnitten ist, eine erwünschte Ausgewogenheit zwischen verschiedenen miteinander in Konkurrenz stehenden Faktoren wie Interaktivität (d. h. Echtzeit-Anprechbarkeit) und Genauigkeit zu erreichen. Ein Spracherkennungssystem, das Echtzeit-Ansprechbarkeit aufweist, kann dies erreichen, indem es hohe Genauigkeit opfert, und umgekehrt. Das Spracherkennungssystem von 3 bietet jedoch sowohl Echtzeit-Anprechbarkeit als auch einen hohen Genauigkeitsgrad, indem es mindestens zwei Spracherkenner verwendet, die jeweils für ein unterschiedliches Merkmal optimiert sind. In einem Ausführungsbeispiel ist ein Spracherkenner für Echtzeit-Anprechbarkeit auf Kosten von Genauigkeit optimiert, und ein zweiter Spracherkenner ist für hohe Genauigkeit auf Kosten der Interaktivität optimiert.
  • Wie in 3 gezeigt, nimmt ein Mikrofon 301 eine Sprachprobe von einem Sprecher wahr und leitet die Probe zu einem Echtzeit-Spracherkenner 303. Typischerweise wird der Echtzeit-Spracherkenner 303 ein kontinuierliches Spracherkennungssystem oder ein diskretes Spracherkennungssystem ähnlich dem in 1 gezeigten Erkennungssystem sein und wird, um die Interaktion mit dem Sprecher zu erleichtern, eine GUI ähnlich der in 2 gezeigten haben. Der Spracherkenner 303 führt Echtzeit-Spracherkennung an der Sprachprobe durch und liefert den erkannten Text an einen Monitor 305. Aufgrund der Kompliziertheit von kontinuierlicher Echtzeit-Spracherkennung kann jedoch der erkannte Text auf dem Monitor 305 einen oder mehrere Erkennungsfehler enthalten. Der Sprecher kann jegliche solche Fehler wahlweise korrigieren, indem er Korrekturen 307 entweder mit Sprachbefehlen über das Mikrofon 301 oder mit einem anderen Eingabegerät (z. B. einer Tastatur oder einer Maus) eingibt.
  • Nachdem der Echtzeit-Spracherkenner 303 die Erkennungsanalyse durchgeführt hat, kann die Sprachprobe wahlweise über die Kommunikationsverbindungen 315 bzw. 317 an den Offline-Spracherkenner 309 und an einen Combiner 311 (z. B. einen Computer oder anderen Prozessor, der verschiedene Softwareprozesse ausführt) kommuniziert werden. Der Echtzeit-Spracherkenner 303 sendet die Echtzeit-Spracherkennungsresultate (d. h. den Sprachinhalt der Sprachprobe wie vom Echtzeit-Spracherkenner 303 erkannt) auch an den Combiner 311. In einem Ausführungsbeispiel werden die in der Sprachprobe enthaltenen Sprachbefehle lokal durch den Echtzeit-Spracherkenner behandelt (indem er zum Beispiel das Textäquivalent des Sprachbefehls neuer Absatz" substituiert) und werden nicht an den Offline-Spracherkenner oder Combiner gesendet. In anderen Ausführungsbeispielen können jedoch die Sprachbefehle an den Offline-Spracherkenner, den Combiner und/oder die Offline-Transkriptionsstation gesendet werden.
  • Bei Empfang der Sprachprobe führt der Offline-Spracherkenner 309, beispielsweise unter Verwendung eines LVCSR-Spracherkenners wie das HTK-System, eine eigenständige Erkennungsanalyse durch und kommuniziert die Erkennungsresultate (d. h. den Sprachinhalt der Sprachprobe wie vom Offline-Spracherkenner 309 erkannt) unter Nutzung einer Kommunikationsverbindung 319 an den Combiner 311. Bei Empfang beider Sätze von Erkennungsresultaten verarbeitet der Combiner 311 die Resultate durch Generieren eines kombinierten Satzes von Erkennungsresultaten und durch Prüfen auf Fälle von Unsicherheit durch einen oder beide Spracherkenner oder von Diskrepanzen zwischen den von den zwei Spracherkennern produzierten Resultaten. Der Combiner 311 kommuniziert die Sprachprobe und den kombinierten Satz von Erkennungsresultaten einschließlich der Informationen, die Fälle von Erkennungsunsicherheit oder Uneinigkeit identifizieren, über die Kommunikationsverbindung 321 an die Offline-Transkriptionsstation 313. Ein menschlicher Bediener an der Offline-Transkriptionsstation 313 verwendet selektiv die Sprachprobe (z. B. durch Anhören designierter Abschnitte derselben) und die Eingabe ab dem Combiner 311, um eine im Wesentlichen fehlerfreie Transkription der Sprachprobe herzustellen. Alternativ kann der Combiner die kombinierten Resultate durch elektronische Post oder andere Mittel an den Sprecher zurücksenden.
  • In einem Ausführungsbeispiel bewältigt eine einzige Hardware-Plattform (z. B. die Workstation des Sprechers) die Echtzeit-Spracherkennung und die entsprechende Echtzeit-Anzeige der erkannten Sprache ebenso wie den Empfang von Spracheingabe und Korrekturen ab dem Sprecher, während Offline-Spracherkennung, die vom Combiner geleisteten Funktionen und die an der Transkriptionsstation bewältigten Funktionen jeweils auf einer unterschiedlichen Plattform stehen. Zum Beispiel können die Echtzeit-Spracherkennungs-Komponenten (301, 303, 305, 307) auf der Workstation des Sprechers stehen, der Combiner kann auf einem mit der Workstation des Sprechers vernetzten Server stehen, und der Offline-Spracherkenner kann auf einer ortsfern angeordneten Hochgeschwindigkeits-Plattform (z. B. einem Super-Kleinrechner) stehen. Die Offline-Transkriptionsstation kann ebenfalls ortsfern sein, etwa in einer gesonderten Firma, die vertragsgemäß Transkriptionsdienstleistungen zur Verfügung stellt.
  • In einem anderen Ausführungsbeispiel können beliebige zwei oder drei (potentiell sämtliche) der Komponenten in 3 auf einer einzigen Plattform stehen. Beispielsweise können auf einer Hochleistungs-Multitasking-Workstation gleichzeitig gesonderte Softwareprozesse für Echtzeit-Spracherkennung (einschließlich Echtzeit-Anzeige der Erkennungsresultate und Online-Korrektur durch den Sprecher), Offline-Spracherkennung sowie die Kombination und Offline-Transkription der kombinierten Erkennungsresultate laufen. Dem Sprecher würde vom Echtzeit-Erkennungsprozess ein Echtzeit-Feedback zur Verfügung gestellt, das höchstwahrscheinlich einige wenige Fehler aufgrund falscher Erkennung erhält. Die Sprachprobe würde auch dem Offline-Erkennungsprozess zur Verfügung gestellt, der gleichzeitig im Hintergrund laufen und eine eigenständige Erkennungsanalyse durchführen würde. Sobald der Offline-Prozess abgeschlossen ist, können die Offline-Erkennungsresultate mit den Echtzeit-Erkennungsresultaten kombiniert und vom Sprecher in einem gesonderten Transkriptionsprozess genutzt werden, um eine im Wesentlichen fehlerfreie Transkription herzustellen.
  • Obwohl das Spracherkennungssystem von 3 zwei Spracherkenner verwendet, können andere Ausführungsbeispiele drei oder mehr Spracherkenner einsetzen, die jeweils für eine unterschiedliche Eigenschaft optimiert sind. Die Spracherkenner (ob zwei oder mehr an der Zahl) können für andere Eigenschaften als Echtzeit-Anprechbarkeit und hohe Genauigkeit optimiert werden, beispielsweise für unterschiedliche Schreibstile oder für unterschiedliche Sachgebiete. Je nach den Zielen des Systementwicklers können die optimierten Eigenschaften einander ergänzen, müssen dies jedoch nicht.
  • Ein für Schreibstil optimiertes System, zum Beispiel zum Gebrauch durch einen Rechtsanwalt, kann einen Spracherkenner haben, der für das Erkennen von Äußerungen (z. B. Wörtern oder Sprachbefehlen) optimiert ist, die typischerweise im förmlichen Schriftwechsel mit Mandanten Verwendung finden, einen anderen Spracherkenner, der für das Erkennen von Äußerungen optimiert ist, die typischerweise in rechtsverbindlichen Dokumenten wie Verträgen oder Testamenten verwendet werden, und noch einen anderen Spracherkenner, der für das Erkennen von Äußerungen optimiert ist, die bei der Erfassung von Rechnungseinträgen verwendet werden. Als Beispiel für Optimierung auf der Grundlage von Schreibstilen [sic] kann ein für den Gebrauch durch einen Arzt bestimmtes Spracherkennungssystem jeden der verschiedenen Spracherkenner für ein unterschiedliches medizinisches Fachgebiet optimieren – zum Beispiel ein Spracherkenner optimiert für Äußerungen, die typischerweise in der Pädiatrie Verwendung finden, und ein anderer Spracherkenner optimiert für Äußerungen, die typischerweise in der Immunologie verwendet werden.
  • Eine ausführlichere Beschreibung des vom System in 3 geleisteten Spracherkennungsprozesses wird mit Verweis auf das Ablaufdiagramm von 4 dargelegt. Zuerst wird das Diktat vom Sprecher durch das Mikrofon aufgenommen, durch einen A/D-Wandler digitalisiert und dem Echtzeit-Spracherkenner zur Verfügung gestellt (Schritt 400), der kontinuierliche Echtzeit-Spracherkennung an der Sprachprobe durchführt (Schritt 402).
  • Die Echtzeit-Spracherkennungsresultate, die potentiell einen oder mehrere Fehler enthalten, werden in Echtzeit auf einem Monitor, der mit dem Echtzeit-Spracherkenner gekoppelt ist, angezeigt (Schritt 404). Der Sprecher kann wahlweise die Online-Konektur etwaiger Erkennungsfehler vornehmen, indem er Sprachbefehle nutzt (z. B. durch Buchstabieren der korrekten Schreibweise oder durch nochmaliges Aussprechen des Wortes), indem er das korrekte Wort mit Hilfe der Tastatur eintippt oder indem er die Maus führt, um das korrekte Wort aus einer Wortvorschlagsliste, die vom Echtzeit- Spracherkennungssystem unterhalten wird, auszuwählen (Schritt 406). Zusätzlich zum Korrigieren von Erkennungsfehlern kann der Sprecher an diesem Punt die Wahl treffen, Abschnitte des erkannten Textes umzuschreiben.
  • Nachdem die Echtzeit-Spracherkennung abgeschlossen ist (alternativ auch, während der Echtzeit-Spracherkenner noch arbeitet), kann der Sprecher die Wahl treffen, die Sprachprobe weiter verarbeiten zu fassen, beispielsweise um etwaige Fehler zu korrigieren, die während der Echtzeit-Spracherkennung aufgetreten sein können, oder um das Format bzw. Erscheinungsbild des resultierenden Dokuments zu ändern. Zu diesem Zweck kann das System den Benutzer auffordern einzugeben, ob er die Probe zur Offline-Verarbeitung oder an einen Umschreiber (Transkriptionisten) senden möchte. In der Regel wird ein Sprecher, der ein nicht förmliches Dokument (z. B. eine E-Mail-Nachricht an einen Freund) diktiert hat, sich entscheiden, den zusätzlichen Aufwand an Zeit, Prozessorauslastung und möglicherweise Kosten für die Durchführung von Offline-Verarbeitung am Dokument nicht zu betreiben. Im Gegensatz dazu ist es eher wahrscheinlich, dass ein Sprecher, der ein förmliches Dokument (z. B. einen Geschäftsbrief oder Vertrag) diktiert hat, das Dokument zur Offline-Verarbeitung sendet, um sicherzustellen, dass das Dokument fehlerfrei und ordentlich formatiert ist.
  • Je nach Präferenzen des Sprechers kann die Sprachprobe für eine eigenständige (und typischerweise eine höhere Genauigkeit aufweisende) Spracherkennungsanalyse an den Offline-Spracherkenner gesendet werden (Schritt 408). In diesem Fall wird Offline-Spracherkennung durchgeführt (Schritt 410), und es werden sowohl die Resultate der Echtzeit-Spracherkennung als auch die Resultate der Offline-Spracherkennung zur Verarbeitung an den Combiner geschickt (Schritt 412).
  • Wie in 5 gezeigt, generieren der Offline-Spracherkenner 503 und der Echtzeit-Spracherkenner 505 gesonderte Sätze von wahrscheinlichen Kandidaten – d. h. von Phrasen, Wörtern, Phonemen oder sonstigen Spracheinheiten, die wahrscheinlich mit einem entsprechenden Abschnitt der Spracheingabe übereinstimmen – und zugehörige Punktwerte für jeden der Kandidaten. Die Punktwerte werden zwecks vereinfachter Verarbeitung typischerweise als negative logarithmische Werte verwaltet. Demzufolge bezeichnet ein niedrigerer Punktwert eine bessere Übereinstimmung (eine höhere Wahrscheinlichkeit), während ein höherer Punktwert eine weniger wahrscheinliche Übereinstimmung (eine geringere Wahrscheinlichkeit) bezeichnet, wobei die Wahrscheinlichkeit der Übereinstimmung in dem Maße sinkt, wie der Punktwert sich erhöht.
  • 6A und 6B zeigen Formate von Erkennungsresultat-Tabellen, die vom Echtzeit-Spracherkenner (6A) und vom Offline-Spracherkenner (6B) genutzt werden können. Für jede einzelne Spracheinheit (z. B. Phrasen, Wörter, Phoneme) in der Sprachprobe generiert jeder Spracherkenner eine Datentabelle, deren Einträge einen Kandidaten in einem Feld 600, 604 und den Punktwert des Kandidaten in einem angrenzenden Feld 602, 606 aufweisen. Die Anzahl von Kandidaten, die in der Datentabelle enthalten sind, ist eine Frage der Programmgestaltung, wird jedoch in der Regel im Bereich von 2 bis 4 liegen. Die Kandidaten- und Punktwerttabellen der Spracherkenner werden an den Combiner 511 geschickt. Der Combiner generiert daraufhin seine eigene Erkennungsresultat-Tabelle für jede Einheit von Spracheingabe, wie in 6C gezeigt, indem er die Vereinigung der Echtzeit-Erkennungskandidaten und der Offline-Erkennungskandidaten bestimmt. Demzufolge wird jede Tabelle des Combiners eben so viele oder mehr Kandidaten enthalten als die größere der entsprechenden Tabellen der zwei Spracherkenner. Die entsprechenden Punktwerte für die Kandidaten in den Tabellen des Combiners werden generiert, indem folgende Gleichung verwendet wird, um einen gewichteten Durchschnitt der Echtzeit- und Offline-Punktwerte zu berechnen: Sc (w) = λ · So(w) + (1 – λ · Sr(w)
  • Dabei ist w der betrachtete Kandidat, Sc (w) der kombinierte Punktwert für den Kandidaten w, So(w) der Punktwert des Offline-Spracherkenners für denKandidaten w, Sr(w) der Punktwert des Echtzeit-Spracherkenners für den Kandidaten w und λ ein Gewichtsfaktor im Bereich von 0 bis einschließlich 1, der empirisch bestimmt wird.
  • Falls der Benutzer angezeigt hat, dass ein Umschreiber (Transkriptionist) genutzt werden soll (Schritt 414), werden die Tabellen von kombinierten Kandidaten und Punktwerten an den Offline-Umschreiber (Transkriptionisten) geschickt, der diese Informationen benutzt, um etwaige Transkritptionsfehler zu korrigieren (Schritt 416). Der Offline-Umschreiber (Transkriptionist) kann ebenso die Rohsprachprobe in der Form eines digitalen Datenpakets vom Echtzeit-Spracherkenner empfangen. Die Offline-Transkriptionsstation ist in der Lage, auf eine Anforderung des Umschreibers (Transkriptionisten) hin auf einen beliebigen Abschnitt der Sprachprobe (oder die gesamte Sprachprobe) direkt zuzugreifen und diesen wiederzugeben.
  • Wie in 9 gezeigt, kann die Offline-Transkriptionsstation eine GUI 901 ähnlich der vom Offline-Spracherkenner verwendeten unterstützen, durch die dem Umschreiber (Transkriptionisten) der Text der Sprachprobe in ihrem gegenwärtigen Erkennungszustand präsentiert wird. Zusätzlich öffnet sich auf Befehl für jedes Wort im Text eine Wortvorschlagsliste 909, die die Kandidaten ab dem Echtzeit-Spracherkenner und ab dem Offline-Spracherkenner enthält. Die Reihenfolge der Kandidaten in der Wortvorschlagsliste entspricht den in Schritt 412 berechneten kombinierten Punktwerten – d. h., der Kandidat mit dem niedrigsten kombinierten Punktwert wird an erster Stelle aufgelistet, der Kandidat mit dem zweitniedrigsten kombinierten Punktwert wird an zweiter Stelle aufgelistet und so weiter für sämtliche Kandidaten. Der Umschreiber (Transkriptionist) kann jeden der Kandidaten bewerten, indem er zum Beispiel den Kontext untersucht, in dem die betrachtete Spracheinheit erscheint, oder indem er sich den Abschnitt der Sprachprobe, der jener Spracheinheit entspricht bzw. sie umgibt, anhört. Ein Kandidat in der Wortvorschlagsliste kann unter Verwendung der Maus oder durch Ausgeben eines geeigneten Sprachbefehls (r. B. "wähle 1 ") ausgewählt werden.
  • Vom menschlichen Umschreiber (Transkriptionisten) vorgenommene Korrekturen können wahlweise dazu genutzt werden, die vom Offline-Spracherkenner oder vom Echtzeit-Spracherkenner oder von beiden verwendeten Sprachmodelle anzupassen bzw. zu "trainieren" (Schritt 418), wenn man davon ausgeht, dass der menschliche Umschreiber (Transkriptionist) allein auf das Korrigieren von Erkennungsfehlern beschränkt wird und es ihm nicht gestattet ist, das Dokument anderweitig zu bearbeiten. Man nehme zum Beispiel an, der Offline-Umschreiber (Transkriptionist) hat das Wort "presume" zu "assume" geändert, weil der Umschreiber (Transkriptionist) der Ansicht war, dass "assume" vom Sprecher nicht korrekt verwendet wurde. Der Rückgriff auf diese Änderung als Grundlage für das Training würde in einer unkorrekten Anpassung der Sprachmodelle münden und kann sie potentiell verfälschen. Im Ergebnis wäre es hernach eher wahrscheinlich, dass die Sprachmodelle unkorrekterweise "presume" als wahrscheinlichsten Kandidaten in Reaktion auf eine Äußerung des Wortes "presume" hypothetisieren. Aus diesem Grunde sollten etwaige Änderungen am Text, die vom Sprecher auf der Echtzeit-Spracherkennerstufe online vorgenommen wurden (Schritt 406 in 4), nicht verwendet werden, um die Sprachmodelle anzupassen, da jegliche derartige Änderungen wahrscheinlich unterschiedliche Wörter oder andere Revisionen durch den Sprecher beinhalten, statt lediglich Korrekturen von Erkennungsfehlern. Das Training von Sprachmodellen wird im U.S. Patent Nr. 5,027,406 mit dem Titel "METHOD FOR INTERACTIVE SPEECH RECOGNITION AND TRAINING" eingehender diskutiert.
  • Falls der Sprecher die Wahl trifft, keine Offline-Spracherkennung an der Sprachprobe durchführen zu lassen, kann er sich dennoch dafür entscheiden, die Resultate der Echtzeit-Spracherkennung an die Offline-Transkriptionsstation zu senden, damit ein menschlicher Umschreiber (Transkriptionist) wie oben beschrieben Korrekturen vornimmt (Schritt 414). Alternativ kann der Sprecher wählen, gar keine Offline-Verarbeitung am Dokument durchführen zu lassen. In jedem Fall wird das fertig gestellte Dokument im gewünschten Format ausgegeben, indem es zum Beispiel auf Papier ausgedruckt oder in einer Datendatei abgespeichert wird (Schritt 420).
  • In den Schritten 408420 in 4 können dem Sprecher mehrere unterschiedliche Alternativen der Offline-Verarbeitung zur Verfügung stehen. Ein Sprecher kann zum Beispiel die Möglichkeit haben, zwischen zwei oder mehr unterschiedlichen Niveaus der Offline-Verarbeitung mit verschiedenen Graden von Geschwindigkeit, Genauigkeit, Kosten und anderen Parametern zu wählen. In ähnlicher Weise kann der Sprecherin der Lage sein, zwischen unterschiedlichen Offline-Transkriptionsdiensten mit verschiedenen Kosten oder Bearbeitungsfristen zu wählen. Die Offline-Optionen können vom Sprecher explizit auf individueller Grundlage gewählt werden, indem er beispielsweise bestimmt, dass ein auf einer ganz bestimmten Hardware-Plattform laufender Spracherkenner für die Offline-Erkennung zu verwenden ist. Alternativ kann der Sprecher eine Wichtigkeitsstufe (niedrig, mittel, hoch) oder eine Kostenobergrenze (z. B. nicht mehr als 30 Dollar für Offline-Verarbeitung) zuweisen, die von einem softwaregestützten Auswahlprozess genutzt werden würde, um Art und Umfang der auf ein Dokument anzuwendenden Offline-Verarbeitung zu wählen. Des Weiteren kann das Spracherkennungssystem auf vorbestimmten Kriterien beruhende Standardeinstellungen in Bezug auf die Art und den Grad der an einem bestimmten Dokument vorzunehmenden Offline-Verarbeitung haben. Zum Beispiel kann der Echtzeit-Spracherkenner 303 die Sprachprobe automatisch an den Offline-Spracherkenner 309 schicken, wenn der Vertrauensgrad hinsichtlich der Genauigkeit seiner Erkennungsresultate unterhalb eines Schwellenwerts liegt. Je nach den Zielen des Systemadministrators kann der Sprecher in der Lage oder nicht in der Lage sein, die Standardeinstellungen zu variieren oder zu übergehen.
  • Eine ausführlichere Beschreibung der Verarbeitung, die Combiner 311 und Offline- Transkriptionsstation 313 in den Schritten 412 und 416 von 4 durchführen, wird mit Verweis auf das Ablaufdiagramm von 7 gegeben. Der erste Schritt des Combiners besteht darin, die Erkennungsresultate sowohl vom Echtzeit-Spracherkenner als auch vom Offline-Spracherkenner einzuholen (Schritt 701). Der Combiner empfängt einen oder mehrere Kandidaten für jede Einheit von Spracheingabe ab dem Echtzeit-Spracherkenner und ab dem Offline-Spracherkenner. Wenn der Combiner von keinem der Spracherkenner für einen gemeldeten Kandidaten einen Punktwert erhält, ist der Combiner nicht in der Lage, einen kombinierten Punktwert für jenen Kandidaten zu berechnen. Demzufolge wird der Combiner, falls einer der Spracherkenner einen Kandidaten eingebracht hat, der in den vom anderen Spracherkenner kommunizierten Resultaten nicht erscheint, vom nicht meldenden Spracherkenner einen Punktwert für jenen Kandidaten abfordern und erhalten. Alternativ kann der Combiner einen etwas höheren Wert verwenden als den Punktwert des am schlechtesten abschneidenden Kandidaten, der durch den nicht meldenden Spracherkenner zur Verfügung gestellt wurde.
  • Sobald die Kandidaten und Punktwerte eingeholt sind, richtet der Combiner die Tabellen zeitlich darauf aus, dass sie mit den entsprechenden Spracheinheiten zwischen den Echtzeit-Erkennungsresultaten und den Offline-Erkennungsresultaten übereinstimmen (Schritt 703). Zum Beispiel kann eine Spracheingabeeinheit, die in Wirklichkeit das Wort "had" repräsentiert, vom Echtzeit-Spracherkenner unrichtig als "hat" erkannt worden sein, während der Offline-Spracherkenner sie korrekt als "had" erkannte. Um für die Spracheinheit eine kombinierte Liste von Kandidaten und deren entsprechenden Punktwerten richtig zu generieren, muss der Combiner demzufolge den Kandidaten des Echtzeit-Spracherkenners, "hat", und den Kandidaten des Offline-Spracherkenners, "had", zeitlich aufeinander ausrichten, damit sie derselben Spracheinheit entsprechen. Falls sich die zwei Spracherkenner jedoch bei mehreren Spracheinheiten hintereinander uneinig sind oder falls die Spracherkenner dahingehend uneinig sind, wie viele Spracheinheit während eines gegebenen Zeitraums überhaupt gesprochen wurden, behandelt der Combiner die umstrittene Sequenz von Spracheinheiten so, als handelte es sich bei der Sequenz um eine atomische Einheit, das heißt, verschiedene unmittelbar aufeinander folgende Kandidaten werden verknüpft, um einen einzigen Kandidaten zu bilden, der mehreren Spracheingabeeinheiten (z. B. einer Phraseneingabe) entspricht.
  • Sobald die zwei Sätze von Erkennungsresultaten zeitlich aufeinander ausgerichtet worden sind, wird unter Verwendung der oben aufgeführten Gleichung ein kombinierter Punktwert für jeden Kandidaten berechnet (Schritt 705). Der konkrete Wert für λ, der vom Combiner zur Berechnung der kombinierten Punktwerte verwendet wird, hängt von Vertrauensgraden ab, die der Combiner für jeden der Spracherkenner verwaltet. Diese Vertrauensgrade lassen sich im Laufe der Zeit, wenn der Combiner erlernt, welche Arten von Sprache durch den einen oder den anderen Spracherkenner besser erkannt werden, anpassen. Da der Offline-Spracherkenner für hohe Genauigkeit optimiert ist, während dies beim Echtzeit-Spracherkenner nicht so ist, könnte man erwarten, dass der Combiner für λ einen Wert 1 verwendet, womit der kombinierte Punktwert mit dem Punktwert des Offline-Spracherkenners gleichgesetzt würde. Bestünde der primäre Zweck darin, die kollektive Fehlerquote der Spracherkenner zu minimieren, dann könnte ein Systemadministrator die Wahl treffen, einen Wert 1 für λ zu verwenden. Dieses Vorgehen würde jedoch zum Verlust einer großen Datenmenge – und zwar der vom Echtzeit-Spracherkenner generierten Kandidaten und Punktwerte – führen, die potentiell für den Combiner oder für den menschlichen Umschreiber (Transkriptionisten) bzw. für beide von Nutzen wären. Wenn zum Beispiel der Punktwert des Offline-Spracherkenners für "hat" 9 war und 10 für "had" (d. h. eine vernachlässigbare Differenz), während der Echtzeit-Spracherkenner "hat" mit 5 bewertete und "had" mit 55, würden die Echtzeit-Werte einen beträchtlichen Einfluss auf den kombinierten Punktwert haben, der vom Wert für λ abhängt. Demzufolge wird λ typischerweise auf einen Wert weniger als 1 gesetzt, um die Erkennungsresultate ab dem Echtzeit-Spracherkenner für den Offline-Umschreiber (Transkriptionisten) zu bewahren. Auf diese Weise wird der Umschreiber (Transkriptionist) mit mehr Wortvorschlägen versorgt (d. h. Wortvorschläge von beiden anstatt nur vom einen oder vom anderen Spracherkenner) und wird daher mit größerer Wahrscheinlichkeit beim Korrigieren eines Erkennungsfehlers die richtige Wortwahl treffen.
  • Der Combiner verwendet die kombinierten Punktwerte, um Fälle von Unsicherheit bei den zwei Spracherkennern hinsichtlich der korrekten Erkennung einer Spracheinheit zu identifizieren (Schritt 707). Die korrekte Erkennung einer Spracheinheit ist unsicher, wenn sich (a) der Echtzeit-Spracherkenner seiner Ergebnisse unsicher ist, wenn sich (b) der Offline-Spracherkenner seiner Ergebnisse unsicher ist oder wenn sich (c) die zwei Spracherkenner uneinig sind (selbst wenn sich beide ihrer jeweiligen Resultate sicher sind). Ein Spracherkenner ist sich seiner Resultate unsicher, wenn die Differenz zwischen dem niedrigsten Punktwert (bester Vorschlag) und dem zweitniedrigsten Punktwert (zweitbester Vorschlag) unterhalb eines Schwellenwerts liegt.
  • Der Combiner kann jeden Fall von Unsicherheit hervorheben (z. B. durch Verwendung von Fettschrift oder Kontrastumkehr), um dem Umschreiber (Transkriptionisten) die Unsicherheit kenntlich zu machen, sobald der entsprechende Text auf dem Bildschirm der Offline-Transkriptionsstation erscheint (Schritt 709). Zusätzlich generiert der Combiner eine Wortliste für jeden Fall von Unsicherheit, die dem Umschreiber (Transkriptionisten) an der Offline-Transkriptionsstation gemeinsam mit den hervorgehobenen Fällen von Unsicherheit zu präsentieren ist (Schritt 713).
  • 8A8C und 9 zeigen ein vereinfachtes Beispiel für Spracherkennung unter Verwendung eines Systems von 3. In diesem Beispiel hat der Sprecher die Wörter "Dear Jim: [neuer Absatz] Enclosed please find a copy of a draft patent applicaton for your review" gesprochen. Wie in der Erkennungsresultat-Tabelle für den Echtzeit-Spracherkenner in 8A gezeigt, sind die vier Hauptkandidaten des Echtzeit-Spracherkenners für Übereinstimmung mit der dreizehnten Äußerung "Patton" mit einem Punktwert von 42, "patent" mit einem Punktwert von 43, "batten" mit einem Punktwert von 49 und "happened" mit einem Punktwert von 54. Da der Kandidat des Echtzeit-Spracherkenners mit dem niedrigsten Punktwert (d. h. sein bester Vorschlag) "Patton" ist, erkennt der Echtzeit-Spracherkenner die dreizehnte Äußerung nicht korrekt.
  • Man nehme bei diesem Beispiel an, dass der Sprecher die Wahl getroffen hat, die Sprachprobe an den Offline-Spracherkenner zu schicken, der als Reaktion darauf seine Erkennungsanalyse durchführt und die in 8B gezeigte Resultat-Tabelle generiert. Die vier Hauptkandidaten des Offline-Spracherkenners für Übereinstimmung mit der dreizehnten Äußerung sind "patent" mit einem Punktwert von 11, "Patton" mit einem Punktwert von 47, "happened" mit einem Punktwert von 51 und "had" mit einem Punktwert von 64. Nachdem beide Spracherkenner ihre jeweiligen Erkennungsanalysen durchgeführt haben, schickt jeder seine Erkennungsresultate zur Verarbeitung an den Combiner.
  • Bei Empfang der zwei Sätze von Erkennungsresultaten stellt der Combiner fest, dass der Echtzeit-Spracherkenner keinen Punktwert für einen der Kandidaten des Offline- Spracherkenners ("had") geliefert hat unddass Offline-Spracherkenner keinen Punktwert für einen der Kandidaten des Echtzeit-Spracherkenners ("batten") geliefert hat. Infolgedessen fordert der Combiner die Spracherkenner auf, für die nicht bewerteten Kandidaten Punktwerte zu liefern, so dass der Combiner für jeden Kandidat über zwei Punktwerte verfügt, mit denen sich ein kombinierter Punktwert berechnen lässt. Im vorliegenden Beispiel antwortet der Echtzeit-Spracherkenner mit einem Punktwert von 55 für "had", und der Offline-Spracherkenner reagiert mit einem Punktwert von 65 für "batten".
  • Der Combiner generiert anschließend eine Tabelle kombinierter Resultate wie in 8C gezeigt, indem er die Vereinigung der Kandidaten des Echtzeit-Spracherkenners mit den Kandidaten des Offline-Spracherkenners bestimmt. Der entsprechende kombinierte Punktwert für jeden Kandidat wird im vorliegenden Beispiel unter Verwendung eines Werts von 0,75 für λ berechnet, und die Kandidaten werden in der Tabelle kombinierter Resultate in aufsteigender Reihenfolge entsprechend dem kombinierten Punktwert angeordnet.
  • Die dreizehnte Äußerung in der Sprachprobe wird im vorliegenden Beispiel aus zwei voneinander unabhängigen Gründen als ein Fall von Erkennungsunsicherheit identifiziert. Zum Ersten waren sich die zwei Spracherkenner hinsichtlich der Erkennung der dreizehnten Äußerung ("patent" gegenüber "Patton") nicht einig. Zum Zweiten war die Differenz zwischen den Punktwerten für den ersten und zweiten Kandidaten des Echtzeit-Spracherkenners klein (42 gegenüber 43). Der Combiner markiert demzufolge die dreizehnte Äußerung 905 als eine Erkennungsunsicherheit, indem er sie zum Beispiel wie in 9 gezeigt in Fett- und Kursivschrift setzt und dem Umschreiber (Transkriptionisten) somit einen auffälligen Hinweis liefert, dass er dieser Äußerung besonderes Augenmerk widmen sollte.
  • Wie in 9 gezeigt, wird dem Offline-Umschreiber (Transkriptionisten) eine Transkription der Sprachprobe präsentiert, die "patent" als die dreizehnte Äußerung erkennt, weil "patent" in Relation zu den anderen Kandidaten für diese Äußerung den niedrigsten kombinierten Punktwert auswies. Dem Umschreiber (Transkriptionisten) wird außerdem eine Wortvorschlagsliste 909 präsentiert, die alle potentiellen Kandidaten hinsichtlich der Wahrscheinlichkeit, dass sie korrekt sind, in absteigender Reihenfolge aufführt (äquivalent in aufsteigender Reihenfolge nach kombinierten Punktwerten). Der Umschreiber (Transkriptionist) würde höchstwahrscheinlich beim ersten Vorschlag 913, der dem Wort "patent" entspricht, bleiben und damit bestätigen, dass der Offline-Spracherkenner in erster Instanz die richtige Entscheidung getroffen hat. Diese Bestätigung kann hergenommen werden, um die jeweiligen vom Echtzeit-Spracherkenner und vom Offline-Spracherkenner verwendeten Sprachmodelle anzupassen.
  • Mit der Durchführung von Spracherkennung in mehreren Stufen wie oben beschrieben (d. h. Echtzeit-Spracherkennung, Offline-Erkennung, Offline-Transkription) wird die Fehlerquote der Erkennung auf ein vernachlässigbares Maß herabgesetzt. In einem sprecherunabhängigen kontinuierlichen Spracherkennungssystem mit kurzer Einführungszeit (d. h. minimalem Zeitfonds für Sprachmodelftraining) beispielsweise resultiert der Einsatz eines Echtzeit-Spracherkenners allein in einer Erkennungsfehlerquote von 10–15 Prozent. Wird die Sprache des Weiteren durch einen Offline-Spracherkenner erkannt, sinkt die kumulative Erkennungsfehlerquote auf etwa 5–10 Prozent. Der Einsatz eines menschlichen Umschreibers (Transkriptionisten) zur weiteren Verarbeitung der Spracheingabe reduziert die Erkennungsfehlerquote auf etwa 1 Prozent oder weniger.
  • Die hier beschriebenen Methoden und Mechanismen sind nicht auf eine bestimmte Hardware- oder Softwarekonfiguration beschränkt, sondern sie können vielmehr in einer beliebigen Rechner- bzw. Verarbeitungsumgebung, die für Spracherkennung genutzt werden kann, Anwendung finden.
  • Die hier beschriebenen Ausführungsarten können in Hardware oder Software oder aber einer Kombination von beiden implementiert werden. Vorzugsweise werden die Ausführungsarten in Rechnersoftware implementiert, die auf programmierbaren Computern abläuft, welche jeweils mindestens einen Prozessor, ein vom Prozessor lesbares Speichermedium (einschließlich flüchtiger und nichtflüchtiger Internspeicher und/oder Speicherelemente), ein geeignetes Eingabegerät und geeignete Ausgabegeräte beinhalten. Auf unter Benutzung des Eingabegeräts eingegebene Daten wird Programmcode angewandt, um die beschriebenen Funktionen auszuführen und Ausgabeinformationen zu generieren. Die Ausgabeinformationen werden auf eines oder mehrere Ausgabegeräte angewandt.
  • Jedes Programm wird vorzugsweise in einer höheren, verfahrens- oder objektorientierten Programmiersprache implementiert, um mit einem Computersystem zu kommunizieren. Falls gewünscht, können die Programme jedoch in Assembler- oder Maschinensprache implementiert werden. In jedem Fall kann die Sprache eine kompilierte bzw. eine interpretierte Sprache sein.
  • Jedes derartige Computerprogramm wird vorzugsweise auf einem Speichermedium oder -gerät (z. B. CD-ROM, Festplatte oder Magnetdiskette) gespeichert, das von einem programmierbaren Allzweck- oder Spezialrechner lesbar ist, um den Computer zu konfigurieren und zu bedienen, wenn das Speichermedium bzw. -gerät vom Computer zwecks Ausführung der in diesem Dokument beschriebenen Verfahren gelesen wird. Eine weitere Überlegung wäre, das System als rechnerlesbares, mit einem Computerprogramm konfiguriertes, Speichermedium zu implementieren, wobei das so konfigurierte Speichermedium einen Computer veranlasst, in einer speziellen und vorbestimmten Weise zu arbeiten.
  • Weitere Ausführungsbeispiele werden durch die folgenden Ansprüche erfasst.
  • 1
  • 107
    Anzeige
    100
    Computer
    109
    Speicher
    111
    Betriebssystem
    113
    Anwendungsprogramm
    115
    Spracherkennungsprogramm
    117
    E/A-Einheit
    119
    Soundkarte
    121
    Zentralprozessoreinheit (CPU)
  • 2
  • 200
    Textverarbeitungsprogramm
    204
    Sprachmenü Wortvorgeschichte – [Wort 5]
    206
    obere Menüzeile nicht lesbar, d. Üb.] Wort 5 Wort 4 Wort 3 Wort 2 [Punkt] Wort 1 [Hoppla]
    210
    obere Menüzeile nicht lesbar, d. Üb.] Zum Beispiel, sagen Sie [Vorschlag 3], um das dritte Wort in der Vorschlagsliste zu akzeptieren und die Wortvorgeschichte zu schließen.Um mehr als einen Fehler zu korrigieren, können Sie [Wähle 3] und anschließend [Wort 4] sagen.
  • 3
  • 301
    Spracheingabe
    303
    Echtzeit-Spracherkenner
    305
    Monitor
    307
    Korrekturen durch Sprecher
    309
    Oftline-Spracherkenner
    311
    Combiner
    313
    Offline-Transkriptionsstation
  • 4
  • Start
    400
    Diktat durch Sprecher
    402
    Echtzeit-Spracherkennung
    404
    Echtzeit-Anzeige
    406
    Korrekturen durch Sprecher (optional)
    408
    Sende an Offline ? Ja Nein
    410
    Offline-Spracherkennung
    412
    Combiner-Verarbeitung
    414
    Sende an Transkriptionist ? Ja Nein
    416
    Korrekturen durch Transkriptionist
    418
    Sprachmodelle anpassen (optional)
    420
    Fertiges Dokument ausgeben
    Ende
  • 5
  • 501
    Eingabe Sprachprobe
    503
    Offline-Spracherkenner
    505
    Echtzeit-Spracherkenner
    507
    Offline-Kandidaten und -Punktwerte
    509
    Echtzeit-Kandidaten und -Punktwerte
    511
    Combiner
    513
    Kombinierte Kandidaten und Punktwerte
    515
    Transkriptionsstation
  • 6A
  • ECHTZEIT (EZ)
    600
    EZ-Wort (1) EZ-Wort (2) ... EZ-Wort (i)
    602
    EZ-Punktwert (1) EZ-Punktwert (2) ... EZ-Punktwert (i)
  • 6B
  • OFFLINE (OL)
    600
    OL-Wort (1) OL-Wort (2) ... OL-Wort (j)
    602
    OL-Punktwert (1) OL-Punktwert (2) ... OL-Punktwert (j)
  • 6C
  • KOMBINIERT (K)
    600
    K-Wort (1) K-Wort (2) ... K-Wort (k)
    602
    K-Punktwert (1) K-Punktwert (2) ... K-Punktwert (k)
  • 7
  • Start
    701
    Daten ab Echtzeit- und Offline-Spracherkenner einholen
    703
    Echtzeit- und Offline-Ergebnisse zeitgleich ausrichten
    705
    Kombinierte Punktwerte
    707
    Fälle von Unsicherheit identifizieren
    709
    Alle Fälle von Unsicherheit hervorheben
    711
    Wortvorschlagsliste erstellen
    713
    Resultate der Transkriptionsstation vorlegen
    Ende
  • 8A
  • ECHTZEIT
  • 8B
  • OFFLINE
  • 8C
  • KOMBINIERT (λ = 0.75)
  • 9
  • 901
    Offline-Transkription
    907
    Sprachmenü Wortvorgeschichte – [Wort 13]
    909
    obere Menüzeile nicht lesbar, d. Üb.] Wort 13 Wort 12 Wort 11 Wort 10 Wort 9
    913
    [obere Menüzeile nicht lesbar, d. Üb.] Zum Beispiel, sagen Sie [Vorschlag 3], um das dritte Wort in der Vorschlagsliste zu akzeptieren und die Wortvorgeschichte zu schließen. Um mehr als einen Fehler zu korrigieren, können Sie [Wähle 3] und anschließend [Wort 4] sagen.

Claims (43)

  1. Computergestütztes Spracherkennungsverfahren umfassend: Empfangen einer Sprachprobe (501); Verarbeiten der Sprachprobe mit einem ersten Spracherkenner (505; 303), der auf einem ersten Prozessor läuft und wenigstens einem zweiten Spracherkenner (503; 309), der auf einem zweiten Prozessor läuft, wobei die Spracherkenner (505, 503; 303, 309) verschiedene Leistungsmerkmale aufweisen; Wobei die Verarbeitung durch den ersten Spracherkenner (505; 303) kontinuierliche Online-Spracherkennung in Echtzeit umfasst und die Verarbeitung durch den zweiten Spracherkenner (503, 309) Offline-Spracherkennung in Nicht-Echtzeit umfasst, und Erkennen von Sprachinhalt der Sprachprobe (501) auf einem Prozessor (511, 311) auf den Erkennungsresultaten von den Spracherkennern (505, 503; 303, 309) beruht.
  2. Verfahren des Anspruchs 1, wobei die ersten und zweiten Spracherkenner (505, 503; 303, 309) für ihre entsprechenden Leistungsmerkmale optimiert sind.
  3. Verfahren des Anspruchs 2, wobei das optimierte Merkmal für den ersten Spracherkenner (505; 303) Echtzeit-Ansprechbarkeit umfasst.
  4. Verfahren des Anspruchs 2 oder Anspruchs 3, wobei das optimierte Merkmal für den zweiten Spracherkenner (503; 309) Erkennungsgenauigkeit umfasst.
  5. Verfahren des Anspruchs 1, wobei die Leistungsmerkmale auf Stil berulien.
  6. Verfahren des Anspruchs 1, wobei die Leistungsmerkmale auf behandelten Inhalt beruhen.
  7. Verfahren nach einem beliebigen der vorhergehenden Ansprüche, wobei die Verarbeitung durch den zweiten Spracherkenner (503; 309) Offline-Verarbeitung umfasst.
  8. Verfahren nach einem beliebigen der vorhergehenden Ansprüche, wobei die Verarbeitung das Durchführen einer ersten Erkennungsanalyse mit dem ersten Spracherkenner (505; 303) und eine zweite Erkennungsanalyse mit dem zweiten Spracherkenner (503; 309) parallel umfasst.
  9. Verfahren eines beliebigen der Ansprüche 1 bis 7, wobei die Verarbeitung das Durchführen einer ersten Erkennungsanalyse mit dem ersten Spracherkenner (505; 303) und eine zweite Sprachanalyse mit dem zweiten Spracherkenner (503; 309 seriell umfasst.
  10. Verfahren nach einem beliebigen der vorhergehenden Ansprüche, wobei die Verarbeitung durch den ersten Spracherkenner (505; 303) weiter das Bereitstellen einer Echtzeit-Textanzeige (208) umfasst, die der Sprachprobe (501) entspricht.
  11. Verfahren nach einem beliebigen der vorhergehenden Ansprüche, wobei die Verarbeitung durch den zweiten Spracherkenner (503; 309) das Durchführen kontinuierlicher Spracherkennung großen Vokabulars für die Sprachprobe (501) umfasst.
  12. Verfahren nach einem beliebigen der vorhergehenden Ansprüche, wobei die Verarbeitung umfasst, dass: der erste Spracherkenner (505; 303) einen ersten Satz von Kandidaten (600) identifiziert, die wahrscheinlich mit der Sprachprobe (501) übereinstimmen und einen entsprechenden ersten Satz von Punkten (602) kalkuliert, wobei die Punkte (602) auf einer Wahrscheinlichkeit beruhen mit der Sprachprobe (501) übereinzustimmen; und der zweite Spracherkenner (503; 309) einen zweiten Satz von Kandidaten (604) identifiziert, die wahrscheinlich mit der Sprachprobe (501) übereinstimmen und einen entsprechenden zweiten Satz von Punkten (606) kalkuliert, wobei die Punkte (606) auf einer Wahrscheinlichkeit beruhen mit der Sprachprobe (501) übereinzustimmen.
  13. Verfahren des Anspruchs 12, wobei die Verarbeitung weiter umfasst: Kombinieren des ersten Satzes von Kandidaten (600) und des zweiten Satzes von Kandidaten (604), um einen kombinierten Satz von Kandidaten (608) zu generieren; und Mischen des ersten Satzes von Punkten (602) und des zweiten Satzes von Punkten (604), um einen kombinierten Satz von Punkten zu generieren (610).
  14. Verfahren des Anspruchs 13, wobei das Kombinieren das Auffinden der Verbindung der ersten und zweiten Sätze von Kandidaten (600, 604) umfasst.
  15. Verfahren des Anspruchs 13; wobei das Mischen die Kalkulation eines gewichteten Durchschnitts von entsprechenden Punktpaaren in den ersten und zweiten Sätzen von Punkten (600, 604) umfasst.
  16. Verfahren eines beliebigen der Ansprüche 13 bis 15, das weiter das Präsentieren des kombinierten Kandidatensatzes (608) an einen Umschreiber (Transkriptionisten) in einer Prioritätsreihenfolge umfasst, die durch die betreffenden kombinierten Punkte der Kandidaten bestimmt wird.
  17. Verfahren eines beliebigen der vorhergehenden Ansprüche, das weiter das Präsentieren von Ergebnissen der Verarbeitung an einen Umschreiber (Transkriptionisten) an einem zweiten Computer (313) umfasst.
  18. Verfahren eines beliebigen der vorhergehenden Ansprüche, wobei die Erkennung das Erhalten von Feedback ab einem Umschreiber (Transkriptionisten) im Hinblick darauf umfasst, ob der Sprachkontext korrekt erkannt wurde.
  19. Verfahren des Anspruchs 18, das weiter das Adaptieren von Sprachmodellen umfasst, die von den ersten und zweiten Spracherkennern (505, 503; 303, 309) auf der Basis des vom Umschreiber (Transkriptionisten) erhaltenen Feedback verwendet wurden.
  20. Verfahren eines beliebigen der vorhergehenden Ansprüche, das selektives Durchführen von Offline-Verarbeitung der Sprachprobe (501) in Nicht-Echtzeit unter Verwendung des zweiten Spracherkenners (503; 309) umfasst.
  21. Verfahren des Anspruchs 20, wobei die selektive Durchführung das Entscheiden umfasst, ob Offline-Verarbeitung auf der Basis von Eingabe seitens eines menschlichen Bedieners ausgeführt werden soll.
  22. Verfahren des Anspruchs 20, wobei die selektive Durchführung das Entscheiden umfasst, ob Offline-Verarbeitung auf der Basis vorbestimmter Kriterien ausgeführt werden soll.
  23. Verfahren des Anspruchs 22, wobei die bestimmenden Kriterien mit Offline-Verarbeitung verbundene Kosten umfassen.
  24. Verfahren des Anspruchs 22, wobei die vorbestimmten Kriterien mit Offline-Verarbeitung verbundene Verarbeitungszeiten umfassen.
  25. Verfahren des Anspruchs 22, wobei die vorbestimmten Kriterien einen Vertrauensgrad von Erkennungsresultaten ab dem ersten Spracherkenner (505; 303) umfassen.
  26. Verfahren des Anspruchs 22, wobei die vorbestimmten Kriterien einen Wichtigkeitsgrad umfassen, der mit der Sprachprobe (501) verbunden ist.
  27. Verfahren eines beliebigen der vorhergehenden Ansprüche, das Bestimmen umfasst, ob eine Erkennungsunsicherheit auf der Basis der Verarbeitung durch die ersten und zweiten Spracherkenner (505, 503; 303, 309) existiert.
  28. Verfahren des Anspruchs 27, das die Identifizierung einer Erkennungsunsicherheit an einen Umschreiber (Transkriptionisten) umfasst.
  29. Verfahren des Anspruchs 27 oder Anspruchs 28, wobei eine Erkennungsunsicherheit als bestehend bestimmt wird, wenn ein Erkennungsresultat ab dem ersten Spracherkenner (505) mit einem Erkennungsresultat ab dem zweiten Spracherkenner (503; 309) nicht übereinstimmt.
  30. Verfahren des Anspruchs 12, das weiter Bestimmen für jeden Kandidatensatz (600 604) umfasst, dass eine Erkennungsunsicherheit vorliegt, wenn eine Differenz zwischen einer Punktzahl für einen am besten punktenden Kandidaten und einer Punktzahl für einen am zweit bestens punktenden Kandidaten weniger als einen Schwellwert beträgt.
  31. Verfahren des Anspruchs 1, weiter umfassend: Vergleichen von Resultaten der Verarbeitung durch die ersten und zweiten Spracherkenner (505, 503; 303, 309); und, Bestimmen, dass eine Erkennungsunsicherheit vorliegt, wenn sich ein vom ersten Spracherkenner (505; 303) produziertes bestes Resultat von einem vom zweiten Spracherkenner (503; 309) produzierten besten Resultat unterscheidet.
  32. Verfahren des Anspruchs 31, das weiter die Identifizierung eines Teils der Sprachprobe (501) als der Erkennungsunsicherheit entsprechend umfasst.
  33. Verfahren des Anspruchs 31 oder Anspruchs 32, das weiter das Präsentieren eines Indikators der Erkennungsunsicherheit an einen Umschreiber (Transkriptionisten) umfasst.
  34. Spracherkennungssystem, das umfasst: ein Eingabegerät (301), das konfiguriert ist eine zu erkennende Sprachprobe (501) zu empfangen; einen ersten Spracherkenner (505; 303), der auf einem ersten Prozessor läuft und mit dem Eingabegerät (301) gekoppelt ist, um Online-Spracherkennung für die Sprachprobe (501) in Echtzeit durchzuführen; mindestens einen anderen Spracherkenner (503; 30), der auf einem zweiten Prozessor läuft und mit dem ersten Spracherkenner (505; 303) gekoppelt ist, um Offline- Spracherkennung für die Sprachprobe (501) in Nicht-Echtzeit durchzuführen; und einen Prozessor (511; 311), der konfiguriert ist Erkennungsresultate ab den Spracherkennern (505, 503) zu empfangen und zu verarbeiten, um Sprachinhalt der Sprachprobe (501) zu erkennen.
  35. Spracherkennungssystem des Anspruchs 34, das ein Computersystem zum Kontrollieren des ersten Spracherkenners (505; 303) umfasst, wobei das Computersystem eine graphische Benutzerschnittstelle umfasst, um mit einem Benutzer Dialog zu führen.
  36. Spracherkennungssystem des Anspruchs 35, wobei die graphische Benutzerschnittstelle dem Benutzer gestattet ein Erkennungsresultat ab dem ersten Spracherkenner (505; 303) zu revidieren.
  37. Spracherkennungssystem des Anspruchs 35, wobei die graphische Benutzerschnittstelle dem Benutzer gestattet die Übertragung der Sprachprobe (501) an den mindestens einen anderen Spracherkenner (503; 309) selektiv einzuschränken.
  38. Spracherkennungssystem eines beliebigen der Ansprüche 34 bis 37, das weiter eine Transkriptionsstation umfasst, und bei dem die graphische Benutzerschnittfläche dem Benutzer gestattet die Sprachprobe (501) selektiv an die Transkriptionsstation zu übertragen.
  39. Spracherkennungssystem des Anspruchs 34, das weiter eine mit dem Prozessor gekoppelte Transkriptionsstation umfasst, die zum Korrigieren von Erkennungsfehlern von einem Umschreiber (Transkriptionisten) benutzt werden kann.
  40. Verfahren des Anspruchs 1, das weiter umfasst: Bestimmen, ob ein auf einer Benutzereingabe beruhendes vorbestimmtes Kriterium erfüllt ist; und selektive Durchführung von Offline-Verarbeitung der Sprachprobe in Nicht-Echtzeit unter Verwendung des zweiten Spracherkenners (503; 309), nur wenn das vorbestimmte Kriterium erfüllt ist.
  41. Verfahren des Anspruchs 1, das weiter umfasst: Bestimmen, ob ein vorbestimmtes Kriterium, das auf einem der mit der Sprachprobe verbundenen Dokumententyp beruht, erfüllt ist; und selektive Durchführung von Offline-Verarbeitung der Sprachprobe in Nicht-Echtzeit unter Verwendung des zweiten Spracherkenners (503; 309), nur wenn das vorbestimmte Kriterium erfüllt ist
  42. Bestimmen, ob ein vorbestimmtes Kriterium, das auf mit dem zweiten Spracherkenner verbundenen Kosten beruht, erfüllt ist; und, selektive Durchführung von Offline-Verarbeitung der Sprachprobe in Nicht-Echtzeit unter Verwendung des zweiten Spracherkenners (503; 309), nur wenn das vorbestimmte Kriterium erfüllt ist.
  43. Computerprogramm einschließlich Programmschritten zur Ausführung des Verfahrens nach einem beliebigen der Ansprüche 1 bis 33, 40, 41 oder 42.
DE69814589T 1997-01-30 1998-01-29 Spracherkennung unter verwendung mehrerer spracherkenner Expired - Lifetime DE69814589T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US08/791,680 US6122613A (en) 1997-01-30 1997-01-30 Speech recognition using multiple recognizers (selectively) applied to the same input sample
US791680 1997-01-30
PCT/US1998/001646 WO1998034217A1 (en) 1997-01-30 1998-01-29 Speech recognition using multiple recognizors

Publications (2)

Publication Number Publication Date
DE69814589D1 DE69814589D1 (de) 2003-06-18
DE69814589T2 true DE69814589T2 (de) 2004-03-25

Family

ID=25154463

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69814589T Expired - Lifetime DE69814589T2 (de) 1997-01-30 1998-01-29 Spracherkennung unter verwendung mehrerer spracherkenner

Country Status (4)

Country Link
US (1) US6122613A (de)
EP (1) EP0954848B1 (de)
DE (1) DE69814589T2 (de)
WO (1) WO1998034217A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102010040553A1 (de) * 2010-09-10 2012-03-15 Siemens Aktiengesellschaft Spracherkennungsverfahren

Families Citing this family (215)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6490555B1 (en) * 1997-03-14 2002-12-03 Scansoft, Inc. Discriminatively trained mixture models in continuous speech recognition
US6208959B1 (en) 1997-12-15 2001-03-27 Telefonaktibolaget Lm Ericsson (Publ) Mapping of digital data symbols onto one or more formant frequencies for transmission over a coded voice channel
US6490557B1 (en) * 1998-03-05 2002-12-03 John C. Jeppesen Method and apparatus for training an ultra-large vocabulary, continuous speech, speaker independent, automatic speech recognition system and consequential database
US6144938A (en) * 1998-05-01 2000-11-07 Sun Microsystems, Inc. Voice user interface with personality
US6629069B1 (en) * 1998-07-21 2003-09-30 British Telecommunications A Public Limited Company Speech recognizer using database linking
US6185535B1 (en) 1998-10-16 2001-02-06 Telefonaktiebolaget Lm Ericsson (Publ) Voice control of a user interface to service applications
FI116991B (fi) * 1999-01-18 2006-04-28 Nokia Corp Menetelmä puheen tunnistamisessa, puheentunnistuslaite ja puheella ohjattava langaton viestin
GB2390930B (en) * 1999-02-05 2004-03-10 Custom Speech Usa Inc System and method for automating transcription services
AP2001002243A0 (en) * 1999-02-19 2001-09-30 Custom Speech Usa Inc Automated transcription system and method using two speech converting instances and computer-assisted correction.
AU2004233462B2 (en) * 1999-02-19 2007-02-01 Custom Speech Usa, Inc. Automated transcription system and method using two speech converting instances and computer-assisted correction
US6961699B1 (en) 1999-02-19 2005-11-01 Custom Speech Usa, Inc. Automated transcription system and method using two speech converting instances and computer-assisted correction
AU777693B2 (en) * 1999-03-05 2004-10-28 Canon Kabushiki Kaisha Database annotation and retrieval
DE19910234A1 (de) * 1999-03-09 2000-09-21 Philips Corp Intellectual Pty Verfahren mit mehreren Spracherkennern
DE19910236A1 (de) * 1999-03-09 2000-09-21 Philips Corp Intellectual Pty Verfahren zur Spracherkennung
WO2000058946A1 (en) * 1999-03-26 2000-10-05 Koninklijke Philips Electronics N.V. Client-server speech recognition
US6885990B1 (en) 1999-05-31 2005-04-26 Nippon Telegraph And Telephone Company Speech recognition based on interactive information retrieval scheme using dialogue control to reduce user stress
DE19930407A1 (de) * 1999-06-09 2000-12-14 Philips Corp Intellectual Pty Verfahren zur sprachbasierten Navigation in einem Kommunikationsnetzwerk und zur Implementierung einer Spracheingabemöglichkeit in private Informationseinheiten
JP3417355B2 (ja) * 1999-08-23 2003-06-16 日本電気株式会社 音声エディット装置及びプログラムを記録した機械読み取り可能な記録媒体
US6789061B1 (en) * 1999-08-25 2004-09-07 International Business Machines Corporation Method and system for generating squeezed acoustic models for specialized speech recognizer
DE19944325A1 (de) * 1999-09-15 2001-03-22 Thomson Brandt Gmbh Verfahren und Vorrichtung zur Spracherkennung
DE60036486T2 (de) * 1999-10-28 2008-06-12 Canon K.K. Methode und apparat zum prüfen von musterübereinstimmungen
US7310600B1 (en) 1999-10-28 2007-12-18 Canon Kabushiki Kaisha Language recognition using a similarity measure
US7016835B2 (en) * 1999-10-29 2006-03-21 International Business Machines Corporation Speech and signal digitization by using recognition metrics to select from multiple techniques
US6789060B1 (en) * 1999-11-01 2004-09-07 Gene J. Wolfe Network based speech transcription that maintains dynamic templates
DE60045473D1 (de) * 1999-11-09 2011-02-17 Nuance Comm Austria Gmbh Spracherkennungsverfahren zur aktivierung von internet-hyperlinks
US7725307B2 (en) 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US9076448B2 (en) 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system
US7392185B2 (en) 1999-11-12 2008-06-24 Phoenix Solutions, Inc. Speech based learning/training system using semantic decoding
US7050977B1 (en) 1999-11-12 2006-05-23 Phoenix Solutions, Inc. Speech-enabled server for internet website and method
US6513003B1 (en) 2000-02-03 2003-01-28 Fair Disclosure Financial Network, Inc. System and method for integrated delivery of media and synchronized transcription
WO2001058165A2 (en) * 2000-02-03 2001-08-09 Fair Disclosure Financial Network, Inc. System and method for integrated delivery of media and associated characters, such as audio and synchronized text transcription
US6738745B1 (en) * 2000-04-07 2004-05-18 International Business Machines Corporation Methods and apparatus for identifying a non-target language in a speech recognition system
GB0011798D0 (en) * 2000-05-16 2000-07-05 Canon Kk Database annotation and retrieval
US6629075B1 (en) * 2000-06-09 2003-09-30 Speechworks International, Inc. Load-adjusted speech recogintion
US7003456B2 (en) * 2000-06-12 2006-02-21 Scansoft, Inc. Methods and systems of routing utterances based on confidence estimates
GB0023930D0 (en) * 2000-09-29 2000-11-15 Canon Kk Database annotation and retrieval
JP2002116796A (ja) * 2000-10-11 2002-04-19 Canon Inc 音声処理装置、音声処理方法及び記憶媒体
DE10050808C2 (de) * 2000-10-13 2002-12-19 Voicecom Ag Sprachgeführte Gerätesteuerung mit Benutzeroptimierung
JP2002132287A (ja) * 2000-10-20 2002-05-09 Canon Inc 音声収録方法および音声収録装置および記憶媒体
US20020077833A1 (en) * 2000-12-20 2002-06-20 Arons Barry M. Transcription and reporting system
US6975990B2 (en) * 2001-01-03 2005-12-13 Mudakara Global Solutions Sequential-data synchronization at real-time on an analog and a digital medium
US20060149556A1 (en) * 2001-01-03 2006-07-06 Sridhar Krishnamurthy Sequential-data correlation at real-time on multiple media and multiple data types
US6692170B2 (en) 2001-02-21 2004-02-17 Eli Abir Method and apparatus for text input
EP1374226B1 (de) * 2001-03-16 2005-07-20 Koninklijke Philips Electronics N.V. Transkriptionsdienst mit abbruch der automatischen transkription
US7392191B2 (en) * 2001-03-29 2008-06-24 Intellisist, Inc. Method and device to distinguish between voice conversation and automated speech recognition
US20020152071A1 (en) * 2001-04-12 2002-10-17 David Chaiken Human-augmented, automatic speech recognition engine
US7016829B2 (en) * 2001-05-04 2006-03-21 Microsoft Corporation Method and apparatus for unsupervised training of natural language processing units
US6973428B2 (en) * 2001-05-24 2005-12-06 International Business Machines Corporation System and method for searching, analyzing and displaying text transcripts of speech after imperfect speech recognition
US20030014254A1 (en) * 2001-07-11 2003-01-16 You Zhang Load-shared distribution of a speech system
JP2003044088A (ja) * 2001-07-27 2003-02-14 Sony Corp プログラム、記録媒体、並びに音声対話装置および方法
US7526431B2 (en) 2001-09-05 2009-04-28 Voice Signal Technologies, Inc. Speech recognition using ambiguous or phone key spelling and/or filtering
US7467089B2 (en) 2001-09-05 2008-12-16 Roth Daniel L Combined speech and handwriting recognition
US7444286B2 (en) 2001-09-05 2008-10-28 Roth Daniel L Speech recognition using re-utterance recognition
US20030050777A1 (en) * 2001-09-07 2003-03-13 Walker William Donald System and method for automatic transcription of conversations
US7418381B2 (en) * 2001-09-07 2008-08-26 Hewlett-Packard Development Company, L.P. Device for automatically translating and presenting voice messages as text messages
JP3795409B2 (ja) * 2001-09-14 2006-07-12 富士通株式会社 音声認識装置及び方法
US20030061053A1 (en) * 2001-09-27 2003-03-27 Payne Michael J. Method and apparatus for processing inputs into a computing device
WO2003030069A1 (en) * 2001-10-03 2003-04-10 Mdoffices.Com, Inc. Health care management method and system
US7133829B2 (en) * 2001-10-31 2006-11-07 Dictaphone Corporation Dynamic insertion of a speech recognition engine within a distributed speech recognition system
US7146321B2 (en) * 2001-10-31 2006-12-05 Dictaphone Corporation Distributed speech recognition system
US7099829B2 (en) * 2001-11-06 2006-08-29 International Business Machines Corporation Method of dynamically displaying speech recognition system information
US6785654B2 (en) 2001-11-30 2004-08-31 Dictaphone Corporation Distributed speech recognition system with speech recognition engines offering multiple functionalities
US6766294B2 (en) * 2001-11-30 2004-07-20 Dictaphone Corporation Performance gauge for a distributed speech recognition system
US7103542B2 (en) * 2001-12-14 2006-09-05 Ben Franklin Patent Holding Llc Automatically improving a voice recognition system
GB2383459B (en) * 2001-12-20 2005-05-18 Hewlett Packard Co Speech recognition system and method
US7013275B2 (en) * 2001-12-28 2006-03-14 Sri International Method and apparatus for providing a dynamic speech-driven control and remote service access system
US6898567B2 (en) * 2001-12-29 2005-05-24 Motorola, Inc. Method and apparatus for multi-level distributed speech recognition
US6996526B2 (en) * 2002-01-02 2006-02-07 International Business Machines Corporation Method and apparatus for transcribing speech when a plurality of speakers are participating
US20030130875A1 (en) * 2002-01-04 2003-07-10 Hawash Maher M. Real-time prescription renewal transaction across a network
US20030130867A1 (en) * 2002-01-04 2003-07-10 Rohan Coelho Consent system for accessing health information
US20030128856A1 (en) * 2002-01-08 2003-07-10 Boor Steven E. Digitally programmable gain amplifier
DE10204924A1 (de) * 2002-02-07 2003-08-21 Philips Intellectual Property Verfahren und Vorrichtung zur schnellen mustererkennungsunterstützten Transkription gesprochener und schriftlicher Äußerungen
US7016849B2 (en) * 2002-03-25 2006-03-21 Sri International Method and apparatus for providing speech-driven routing between spoken language applications
US8239197B2 (en) * 2002-03-28 2012-08-07 Intellisist, Inc. Efficient conversion of voice messages into text
US7236931B2 (en) 2002-05-01 2007-06-26 Usb Ag, Stamford Branch Systems and methods for automatic acoustic speaker adaptation in computer-assisted transcription systems
US7292975B2 (en) * 2002-05-01 2007-11-06 Nuance Communications, Inc. Systems and methods for evaluating speaker suitability for automatic speech recognition aided transcription
DE10220522B4 (de) * 2002-05-08 2005-11-17 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten mittels Spracherkennung und Frequenzanalyse
DE10220524B4 (de) * 2002-05-08 2006-08-10 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache
DE10220521B4 (de) * 2002-05-08 2005-11-24 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten und Klassifizierung von Gesprächen
EP1363271A1 (de) * 2002-05-08 2003-11-19 Sap Ag Verfahren und System zur Verarbeitung und Speicherung von Sprachinformationen eines Dialogs
DE10220520A1 (de) * 2002-05-08 2003-11-20 Sap Ag Verfahren zur Erkennung von Sprachinformation
EP1361740A1 (de) * 2002-05-08 2003-11-12 Sap Ag Verfahren und System zur Verarbeitung von Sprachinformationen eines Dialogs
US7380203B2 (en) * 2002-05-14 2008-05-27 Microsoft Corporation Natural input recognition tool
US7398209B2 (en) 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7693720B2 (en) 2002-07-15 2010-04-06 Voicebox Technologies, Inc. Mobile systems and methods for responding to natural language speech utterance
US7181392B2 (en) * 2002-07-16 2007-02-20 International Business Machines Corporation Determining speech recognition accuracy
US7260534B2 (en) * 2002-07-16 2007-08-21 International Business Machines Corporation Graphical user interface for determining speech recognition accuracy
EP1604350A4 (de) * 2002-09-06 2007-11-21 Voice Signal Technologies Inc Verfahren, systeme und programmierung zur durchführung der spracherkennung
US7016844B2 (en) * 2002-09-26 2006-03-21 Core Mobility, Inc. System and method for online transcription services
US7228275B1 (en) * 2002-10-21 2007-06-05 Toyota Infotechnology Center Co., Ltd. Speech recognition system having multiple speech recognizers
WO2004049192A2 (en) 2002-11-28 2004-06-10 Koninklijke Philips Electronics N.V. Method to assign word class information
US6834265B2 (en) 2002-12-13 2004-12-21 Motorola, Inc. Method and apparatus for selective speech recognition
US7197331B2 (en) * 2002-12-30 2007-03-27 Motorola, Inc. Method and apparatus for selective distributed speech recognition
US7076428B2 (en) * 2002-12-30 2006-07-11 Motorola, Inc. Method and apparatus for selective distributed speech recognition
US20040138885A1 (en) * 2003-01-09 2004-07-15 Xiaofan Lin Commercial automatic speech recognition engine combinations
US20040148169A1 (en) * 2003-01-23 2004-07-29 Aurilab, Llc Speech recognition with shadow modeling
US6823493B2 (en) 2003-01-23 2004-11-23 Aurilab, Llc Word recognition consistency check and error correction system and method
US7031915B2 (en) * 2003-01-23 2006-04-18 Aurilab Llc Assisted speech recognition by dual search acceleration technique
US20040158468A1 (en) * 2003-02-12 2004-08-12 Aurilab, Llc Speech recognition with soft pruning
US10733976B2 (en) * 2003-03-01 2020-08-04 Robert E. Coifman Method and apparatus for improving the transcription accuracy of speech recognition software
US7809565B2 (en) * 2003-03-01 2010-10-05 Coifman Robert E Method and apparatus for improving the transcription accuracy of speech recognition software
US20040186714A1 (en) * 2003-03-18 2004-09-23 Aurilab, Llc Speech recognition improvement through post-processsing
US20040193412A1 (en) * 2003-03-18 2004-09-30 Aurilab, Llc Non-linear score scrunching for more efficient comparison of hypotheses
US20040186819A1 (en) * 2003-03-18 2004-09-23 Aurilab, Llc Telephone directory information retrieval system and method
FR2853127A1 (fr) * 2003-03-25 2004-10-01 France Telecom Systeme de reconnaissance de parole distribuee
FR2853126A1 (fr) * 2003-03-25 2004-10-01 France Telecom Procede de reconnaissance de parole distribuee
US7146319B2 (en) * 2003-03-31 2006-12-05 Novauris Technologies Ltd. Phonetically based speech recognition system and method
WO2004088635A1 (en) * 2003-03-31 2004-10-14 Koninklijke Philips Electronics N.V. System for correction of speech recognition results with confidence level indication
US9710819B2 (en) * 2003-05-05 2017-07-18 Interactions Llc Real-time transcription system utilizing divided audio chunks
JP2005031758A (ja) * 2003-07-07 2005-02-03 Canon Inc 音声処理装置及び方法
DE10339973A1 (de) * 2003-08-29 2005-03-17 Daimlerchrysler Ag Intelligentes akustisches Mikrofon-Frontend mit Spracherkenner-Feedback
US20050065789A1 (en) * 2003-09-23 2005-03-24 Sherif Yacoub System and method with automated speech recognition engines
US7917364B2 (en) * 2003-09-23 2011-03-29 Hewlett-Packard Development Company, L.P. System and method using multiple automated speech recognition engines
US20050102140A1 (en) * 2003-11-12 2005-05-12 Joel Davne Method and system for real-time transcription and correction using an electronic communication environment
US7729912B1 (en) 2003-12-23 2010-06-01 At&T Intellectual Property Ii, L.P. System and method for latency reduction for automatic speech recognition using partial multi-pass results
US20050177371A1 (en) * 2004-02-06 2005-08-11 Sherif Yacoub Automated speech recognition
US8321786B2 (en) * 2004-06-17 2012-11-27 Apple Inc. Routine and interface for correcting electronic text
US20060004570A1 (en) * 2004-06-30 2006-01-05 Microsoft Corporation Transcribing speech data with dialog context and/or recognition alternative information
US7584103B2 (en) * 2004-08-20 2009-09-01 Multimodal Technologies, Inc. Automated extraction of semantic content and generation of a structured document from speech
US7844464B2 (en) * 2005-07-22 2010-11-30 Multimodal Technologies, Inc. Content-based audio playback emphasis
KR100728620B1 (ko) 2005-02-07 2007-06-14 한국정보통신대학교 산학협력단 집합적 음성인식 시스템 및 그 시스템에서의 음성인식 방법
US8818808B2 (en) 2005-02-23 2014-08-26 At&T Intellectual Property Ii, L.P. Unsupervised and active learning in automatic speech recognition for call classification
US20060235684A1 (en) * 2005-04-14 2006-10-19 Sbc Knowledge Ventures, Lp Wireless device to access network-based voice-activated services using distributed speech recognition
GB2428853A (en) * 2005-07-22 2007-02-07 Novauris Technologies Ltd Speech recognition application specific dictionary
GB0513820D0 (en) * 2005-07-06 2005-08-10 Ibm Distributed voice recognition system and method
US7640160B2 (en) 2005-08-05 2009-12-29 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
JP5394739B2 (ja) * 2005-08-09 2014-01-22 モバイル・ヴォイス・コントロール・エルエルシー 音声制御型ワイヤレス通信デバイス・システム
US7620549B2 (en) 2005-08-10 2009-11-17 Voicebox Technologies, Inc. System and method of supporting adaptive misrecognition in conversational speech
US8073699B2 (en) * 2005-08-16 2011-12-06 Nuance Communications, Inc. Numeric weighting of error recovery prompts for transfer to a human agent from an automated speech response system
US7949529B2 (en) 2005-08-29 2011-05-24 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions
US8032372B1 (en) 2005-09-13 2011-10-04 Escription, Inc. Dictation selection
EP1946292A1 (de) * 2005-10-21 2008-07-23 Robert E. Coifman Verfahren und vorrichtung zur verbesserung der transkriptionsgenauigkeit von spracherkennungssoftware
US8301448B2 (en) 2006-03-29 2012-10-30 Nuance Communications, Inc. System and method for applying dynamic contextual grammars and language models to improve automatic speech recognition accuracy
US7831423B2 (en) * 2006-05-25 2010-11-09 Multimodal Technologies, Inc. Replacing text representing a concept with an alternate written form of the concept
US8560314B2 (en) 2006-06-22 2013-10-15 Multimodal Technologies, Llc Applying service levels to transcripts
US8014591B2 (en) 2006-09-13 2011-09-06 Aurilab, Llc Robust pattern recognition system and method using socratic agents
US8073681B2 (en) 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
WO2008067562A2 (en) * 2006-11-30 2008-06-05 Rao Ashwin P Multimodal speech recognition system
TWI342010B (en) * 2006-12-13 2011-05-11 Delta Electronics Inc Speech recognition method and system with intelligent classification and adjustment
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
US20080255835A1 (en) * 2007-04-10 2008-10-16 Microsoft Corporation User directed adaptation of spoken language grammer
US8856002B2 (en) * 2007-04-12 2014-10-07 International Business Machines Corporation Distance metrics for universal pattern processing tasks
US7860716B2 (en) * 2007-04-24 2010-12-28 Microsoft Corporation Speech model refinement with transcription error detection
US8275615B2 (en) * 2007-07-13 2012-09-25 International Business Machines Corporation Model weighting, selection and hypotheses combination for automatic speech recognition and machine translation
US20090037171A1 (en) * 2007-08-03 2009-02-05 Mcfarland Tim J Real-time voice transcription system
GB0715369D0 (en) * 2007-08-07 2007-09-19 Aurix Ltd Methods and apparatus relating to searching of spoken audio data
US8209171B2 (en) 2007-08-07 2012-06-26 Aurix Limited Methods and apparatus relating to searching of spoken audio data
US8140335B2 (en) 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US20090192782A1 (en) * 2008-01-28 2009-07-30 William Drewes Method for increasing the accuracy of statistical machine translation (SMT)
US8639512B2 (en) * 2008-04-23 2014-01-28 Nvoq Incorporated Method and systems for measuring user performance with speech-to-text conversion for dictation systems
US9305548B2 (en) 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8589161B2 (en) 2008-05-27 2013-11-19 Voicebox Technologies, Inc. System and method for an integrated, multi-modal, multi-device natural language voice services environment
KR101462932B1 (ko) * 2008-05-28 2014-12-04 엘지전자 주식회사 이동 단말기 및 그의 텍스트 수정방법
US8364481B2 (en) * 2008-07-02 2013-01-29 Google Inc. Speech recognition with parallel recognition tasks
US8515748B2 (en) * 2009-02-03 2013-08-20 International Business Machines Corporation Mobile phone communication gap recovery
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
US9646603B2 (en) * 2009-02-27 2017-05-09 Longsand Limited Various apparatus and methods for a speech recognition system
US8930179B2 (en) * 2009-06-04 2015-01-06 Microsoft Corporation Recognition using re-recognition and statistical classification
US9171541B2 (en) * 2009-11-10 2015-10-27 Voicebox Technologies Corporation System and method for hybrid processing in a natural language voice services environment
WO2011059997A1 (en) * 2009-11-10 2011-05-19 Voicebox Technologies, Inc. System and method for providing a natural language content dedication service
US8346549B2 (en) * 2009-12-04 2013-01-01 At&T Intellectual Property I, L.P. System and method for supplemental speech recognition by identified idle resources
WO2011126716A2 (en) * 2010-03-30 2011-10-13 Nvoq Incorporated Dictation client feedback to facilitate audio quality
US9009040B2 (en) * 2010-05-05 2015-04-14 Cisco Technology, Inc. Training a transcription system
US9037463B2 (en) 2010-05-27 2015-05-19 Nuance Communications, Inc. Efficient exploitation of model complementariness by low confidence re-scoring in automatic speech recognition
US8600750B2 (en) 2010-06-08 2013-12-03 Cisco Technology, Inc. Speaker-cluster dependent speaker recognition (speaker-type automated speech recognition)
US9332319B2 (en) * 2010-09-27 2016-05-03 Unisys Corporation Amalgamating multimedia transcripts for closed captioning from a plurality of text to speech conversions
US8959102B2 (en) 2010-10-08 2015-02-17 Mmodal Ip Llc Structured searching of dynamic structured document corpuses
US10032127B2 (en) 2011-02-18 2018-07-24 Nuance Communications, Inc. Methods and apparatus for determining a clinician's intent to order an item
US10460288B2 (en) 2011-02-18 2019-10-29 Nuance Communications, Inc. Methods and apparatus for identifying unspecified diagnoses in clinical documentation
US9904768B2 (en) 2011-02-18 2018-02-27 Nuance Communications, Inc. Methods and apparatus for presenting alternative hypotheses for medical facts
US8768723B2 (en) 2011-02-18 2014-07-01 Nuance Communications, Inc. Methods and apparatus for formatting text for clinical fact extraction
US20150149167A1 (en) * 2011-03-31 2015-05-28 Google Inc. Dynamic selection among acoustic transforms
US8660847B2 (en) * 2011-09-02 2014-02-25 Microsoft Corporation Integrated local and cloud based speech recognition
US9536517B2 (en) 2011-11-18 2017-01-03 At&T Intellectual Property I, L.P. System and method for crowd-sourced data labeling
US9569594B2 (en) 2012-03-08 2017-02-14 Nuance Communications, Inc. Methods and apparatus for generating clinical reports
US9064492B2 (en) 2012-07-09 2015-06-23 Nuance Communications, Inc. Detecting potential significant errors in speech recognition results
US9311914B2 (en) * 2012-09-03 2016-04-12 Nice-Systems Ltd Method and apparatus for enhanced phonetic indexing and search
US11024406B2 (en) 2013-03-12 2021-06-01 Nuance Communications, Inc. Systems and methods for identifying errors and/or critical results in medical reports
US9477753B2 (en) * 2013-03-12 2016-10-25 International Business Machines Corporation Classifier-based system combination for spoken term detection
US10496743B2 (en) 2013-06-26 2019-12-03 Nuance Communications, Inc. Methods and apparatus for extracting facts from a medical text
US10186262B2 (en) 2013-07-31 2019-01-22 Microsoft Technology Licensing, Llc System with multiple simultaneous speech recognizers
US8688447B1 (en) * 2013-08-21 2014-04-01 Ask Ziggy, Inc. Method and system for domain-specific noisy channel natural language processing (NLP)
US10333995B2 (en) 2014-01-23 2019-06-25 International Business Machines Corporation Providing of recommendations determined from a collaboration session system and method
US20180270350A1 (en) 2014-02-28 2018-09-20 Ultratec, Inc. Semiautomated relay method and apparatus
US10389876B2 (en) 2014-02-28 2019-08-20 Ultratec, Inc. Semiautomated relay method and apparatus
US9552817B2 (en) * 2014-03-19 2017-01-24 Microsoft Technology Licensing, Llc Incremental utterance decoder combination for efficient and accurate decoding
AU2015271665B2 (en) * 2014-06-05 2020-09-10 Interdev Technologies Systems and methods of interpreting speech data
US9898459B2 (en) 2014-09-16 2018-02-20 Voicebox Technologies Corporation Integration of domain information into state transitions of a finite state transducer for natural language processing
EP3195145A4 (de) 2014-09-16 2018-01-24 VoiceBox Technologies Corporation Sprachhandel
CN107003999B (zh) 2014-10-15 2020-08-21 声钰科技 对用户的在先自然语言输入的后续响应的系统和方法
US10614799B2 (en) 2014-11-26 2020-04-07 Voicebox Technologies Corporation System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance
US10431214B2 (en) 2014-11-26 2019-10-01 Voicebox Technologies Corporation System and method of determining a domain and/or an action related to a natural language input
US10089977B2 (en) * 2015-07-07 2018-10-02 International Business Machines Corporation Method for system combination in an audio analytics application
KR20170032096A (ko) * 2015-09-14 2017-03-22 삼성전자주식회사 전자장치, 전자장치의 구동방법, 음성인식장치, 음성인식장치의 구동 방법 및 컴퓨터 판독가능 기록매체
US10049655B1 (en) * 2016-01-05 2018-08-14 Google Llc Biasing voice correction suggestions
US9971758B1 (en) 2016-01-06 2018-05-15 Google Llc Allowing spelling of arbitrary words
US10331784B2 (en) 2016-07-29 2019-06-25 Voicebox Technologies Corporation System and method of disambiguating natural language processing requests
US10062385B2 (en) * 2016-09-30 2018-08-28 International Business Machines Corporation Automatic speech-to-text engine selection
US10515632B2 (en) 2016-11-15 2019-12-24 At&T Intellectual Property I, L.P. Asynchronous virtual assistant
US10971157B2 (en) 2017-01-11 2021-04-06 Nuance Communications, Inc. Methods and apparatus for hybrid speech recognition processing
CN112802459A (zh) * 2017-05-23 2021-05-14 创新先进技术有限公司 一种基于语音识别的咨询业务处理方法及装置
US10192554B1 (en) 2018-02-26 2019-01-29 Sorenson Ip Holdings, Llc Transcription of communications using multiple speech recognition systems
TWI698857B (zh) 2018-11-21 2020-07-11 財團法人工業技術研究院 語音辨識系統及其方法、與電腦程式產品
US11170761B2 (en) 2018-12-04 2021-11-09 Sorenson Ip Holdings, Llc Training of speech recognition systems
US10388272B1 (en) 2018-12-04 2019-08-20 Sorenson Ip Holdings, Llc Training speech recognition systems using word sequences
US10573312B1 (en) 2018-12-04 2020-02-25 Sorenson Ip Holdings, Llc Transcription generation from multiple speech recognition systems
US11017778B1 (en) 2018-12-04 2021-05-25 Sorenson Ip Holdings, Llc Switching between speech recognition systems
CN109767769B (zh) 2019-02-21 2020-12-22 珠海格力电器股份有限公司 一种语音识别方法、装置、存储介质及空调
CN109949797B (zh) * 2019-03-11 2021-11-12 北京百度网讯科技有限公司 一种训练语料的生成方法、装置、设备及存储介质
US11107475B2 (en) * 2019-05-09 2021-08-31 Rovi Guides, Inc. Word correction using automatic speech recognition (ASR) incremental response
CN110473522B (zh) * 2019-08-23 2021-11-09 百可录(北京)科技有限公司 一种精确分析短语音片段的方法
US11488604B2 (en) 2020-08-19 2022-11-01 Sorenson Ip Holdings, Llc Transcription of audio
CN112669848B (zh) * 2020-12-14 2023-12-01 深圳市优必选科技股份有限公司 一种离线语音识别方法、装置、电子设备及存储介质
US11532312B2 (en) 2020-12-15 2022-12-20 Microsoft Technology Licensing, Llc User-perceived latency while maintaining accuracy
US11429780B1 (en) * 2021-01-11 2022-08-30 Suki AI, Inc. Systems and methods to briefly deviate from and resume back to amending a section of a note

Family Cites Families (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS50155105A (de) * 1974-06-04 1975-12-15
GB2088106B (en) * 1980-10-07 1983-11-30 Marconi Co Ltd Word processor systems
US4430726A (en) * 1981-06-18 1984-02-07 Bell Telephone Laboratories, Incorporated Dictation/transcription method and arrangement
US4489435A (en) * 1981-10-05 1984-12-18 Exxon Corporation Method and apparatus for continuous word string recognition
US4481593A (en) * 1981-10-05 1984-11-06 Exxon Corporation Continuous speech recognition
US4720864A (en) * 1982-05-04 1988-01-19 Sanyo Electric Co., Ltd. Speech recognition apparatus
US4991217A (en) * 1984-11-30 1991-02-05 Ibm Corporation Dual processor speech recognition system with dedicated data acquisition bus
WO1987002816A1 (en) * 1985-10-30 1987-05-07 Central Institute For The Deaf Speech processing apparatus and methods
US4783803A (en) * 1985-11-12 1988-11-08 Dragon Systems, Inc. Speech recognition apparatus and method
US4866778A (en) * 1986-08-11 1989-09-12 Dragon Systems, Inc. Interactive speech recognition apparatus
US4837831A (en) * 1986-10-15 1989-06-06 Dragon Systems, Inc. Method for creating and using multiple-word sound models in speech recognition
US4829576A (en) * 1986-10-21 1989-05-09 Dragon Systems, Inc. Voice recognition system
US4805219A (en) * 1987-04-03 1989-02-14 Dragon Systems, Inc. Method for speech recognition
US4805218A (en) * 1987-04-03 1989-02-14 Dragon Systems, Inc. Method for speech analysis and speech recognition
US4803729A (en) * 1987-04-03 1989-02-07 Dragon Systems, Inc. Speech recognition method
US5231670A (en) * 1987-06-01 1993-07-27 Kurzweil Applied Intelligence, Inc. Voice controlled system and method for generating text from a voice controlled input
US4931950A (en) * 1988-07-25 1990-06-05 Electric Power Research Institute Multimedia interface and method for computer system
US5027406A (en) * 1988-12-06 1991-06-25 Dragon Systems, Inc. Method for interactive speech recognition and training
US5127055A (en) * 1988-12-30 1992-06-30 Kurzweil Applied Intelligence, Inc. Speech recognition apparatus & method having dynamic reference pattern adaptation
US5036539A (en) * 1989-07-06 1991-07-30 Itt Corporation Real-time speech processing development system
JPH0375860A (ja) * 1989-08-18 1991-03-29 Hitachi Ltd パーソナライズド端末
US5202952A (en) * 1990-06-22 1993-04-13 Dragon Systems, Inc. Large-vocabulary continuous speech prefiltering and processing system
US5208897A (en) * 1990-08-21 1993-05-04 Emerson & Stern Associates, Inc. Method and apparatus for speech recognition based on subsyllable spellings
US5280563A (en) * 1991-12-20 1994-01-18 Kurzweil Applied Intelligence, Inc. Method of optimizing a composite speech recognition expert
DE69330427T2 (de) * 1992-03-06 2002-05-23 Dragon Systems Inc Spracherkennungssystem für sprachen mit zusammengesetzten wörtern
US5502774A (en) * 1992-06-09 1996-03-26 International Business Machines Corporation Automatic recognition of a consistent message using multiple complimentary sources of information
US5428707A (en) * 1992-11-13 1995-06-27 Dragon Systems, Inc. Apparatus and methods for training speech recognition systems and their users and otherwise improving speech recognition performance
US5519808A (en) * 1993-03-10 1996-05-21 Lanier Worldwide, Inc. Transcription interface for a word processing station
US5369704A (en) * 1993-03-24 1994-11-29 Engate Incorporated Down-line transcription system for manipulating real-time testimony
US5515475A (en) * 1993-06-24 1996-05-07 Northern Telecom Limited Speech recognition method using a two-pass search
US5566272A (en) * 1993-10-27 1996-10-15 Lucent Technologies Inc. Automatic speech recognition (ASR) processing using confidence measures
DE4407998C2 (de) * 1994-03-10 1996-03-14 Ibm Verfahren und Vorrichtung zur Erkennung eines Musters auf einem Beleg
US5497373A (en) * 1994-03-22 1996-03-05 Ericsson Messaging Systems Inc. Multi-media interface
US5586171A (en) * 1994-07-07 1996-12-17 Bell Atlantic Network Services, Inc. Selection of a voice recognition data base responsive to video data
US5677991A (en) * 1995-06-30 1997-10-14 Kurzweil Applied Intelligence, Inc. Speech recognition system using arbitration between continuous speech and isolated word modules
GB2303955B (en) * 1996-09-24 1997-05-14 Allvoice Computing Plc Data processing method and apparatus
US5857099A (en) * 1996-09-27 1999-01-05 Allvoice Computing Plc Speech-to-text dictation system with audio message capability

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102010040553A1 (de) * 2010-09-10 2012-03-15 Siemens Aktiengesellschaft Spracherkennungsverfahren

Also Published As

Publication number Publication date
DE69814589D1 (de) 2003-06-18
WO1998034217A1 (en) 1998-08-06
US6122613A (en) 2000-09-19
EP0954848A1 (de) 1999-11-10
EP0954848B1 (de) 2003-05-14

Similar Documents

Publication Publication Date Title
DE69814589T2 (de) Spracherkennung unter verwendung mehrerer spracherkenner
DE60201262T2 (de) Hierarchische sprachmodelle
DE69827988T2 (de) Sprachmodelle für die Spracherkennung
DE69818231T2 (de) Verfahren zum diskriminativen training von spracherkennungsmodellen
DE60005326T2 (de) Erkennungseinheiten mit komplementären sprachmodellen
DE69634239T2 (de) Erkennung kontinuierlich gesprochener Texte und Befehle
DE69829235T2 (de) Registrierung für die Spracherkennung
DE69632517T2 (de) Erkennung kontinuierlicher Sprache
DE60016722T2 (de) Spracherkennung in zwei Durchgängen mit Restriktion des aktiven Vokabulars
DE60004862T2 (de) Automatische bestimmung der genauigkeit eines aussprachewörterbuchs in einem spracherkennungssystem
DE602006000090T2 (de) Konfidenzmaß für ein Sprachdialogsystem
DE112014006542B4 (de) Einrichtung und Verfahren zum Verständnis von einer Benutzerintention
DE69828141T2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE60015531T2 (de) Client-server spracherkennungssystem
DE60318544T2 (de) Sprachmodell für die Spracherkennung
DE602004012347T2 (de) Spracherkennung
DE69834553T2 (de) Erweiterbares spracherkennungssystem mit einer audio-rückkopplung
DE4015905C2 (de) Sprachanalyseeinrichtung, -verfahren und -programm
DE60313706T2 (de) Spracherkennungs- und -antwortsystem, Spracherkennungs- und -antwortprogramm und zugehöriges Aufzeichnungsmedium
DE602005000308T2 (de) Vorrichtung für sprachgesteuerte Anwendungen
DE19847419A1 (de) Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äußerung
DE10306599B4 (de) Benutzeroberfläche, System und Verfahren zur automatischen Benennung von phonischen Symbolen für Sprachsignale zum Korrigieren von Aussprache
DE60316912T2 (de) Verfahren zur Spracherkennung
EP0802522A2 (de) Anordnung und Verfahren zur Aktionsermittlung
DE69738116T2 (de) Lokalisierung eines Musters in einem Signal

Legal Events

Date Code Title Description
8364 No opposition during term of opposition