DE60026637T2 - Verfahren zur Erweiterung des Wortschatzes eines Spracherkennungssystems - Google Patents

Verfahren zur Erweiterung des Wortschatzes eines Spracherkennungssystems Download PDF

Info

Publication number
DE60026637T2
DE60026637T2 DE60026637T DE60026637T DE60026637T2 DE 60026637 T2 DE60026637 T2 DE 60026637T2 DE 60026637 T DE60026637 T DE 60026637T DE 60026637 T DE60026637 T DE 60026637T DE 60026637 T2 DE60026637 T2 DE 60026637T2
Authority
DE
Germany
Prior art keywords
language
vocabulary
pronunciation
regularity
spelling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60026637T
Other languages
English (en)
Other versions
DE60026637D1 (de
Inventor
Gerhard Backfried
Hubert Crepy
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nuance Communications Inc
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of DE60026637D1 publication Critical patent/DE60026637D1/de
Application granted granted Critical
Publication of DE60026637T2 publication Critical patent/DE60026637T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training

Description

  • 1. Hintergrund der Erfindung
  • 1.1 Gebiet der Erfindung
  • Die vorliegende Erfindung bezieht sich im Allgemeinen auf verbesserte Sprachsysteme. Insbesondere bezieht sich die vorliegende Erfindung auf ein Verfahren und Mittel für die Aufnahme neuer Wörter mit bis dahin unbekannter Schreibweise und Aussprache in den Wortschatz eines Sprachsystems.
  • 1.2 Beschreibung und Nachteile des Stands der Technik
  • Heutige Spracherkennungssysteme wie beispielsweise Systeme mit Befehlseingabe und Steuerung oder auch Diktiersysteme beinhalten üblicherweise vordefinierte Wortschätze, die aus Wörtern, deren Aussprache und einem bestimmten Modell der Verwendung dieser Wörter bestehen, die durch ein Sprachmodell beschrieben wird. Systeme nach neuestem Stand der Technik können mehrere Zehntausend derartiger Einträge enthalten, anhand derer während der Laufzeit ermittelt wird, was gerade gesagt wird.
  • Unabhängig von der Größe des Wortschatzes leiden jedoch alle Systeme darunter, dass sie dem Benutzer lediglich einen begrenzten, vorgegebenen Wortschatz bieten. Die Tatsache, dass handelsübliche Systeme in der Regel lediglich Vollform- Wortschätze enthalten (d.h. die Morphologie der Sprache wird nicht eigens modelliert), schränkt den tatsächlichen Umfang heutiger Wortschätze weiter ein. Dies gilt insbesondere für Sprachen mit ausgeprägter Flexion wie Französisch, Deutsch oder auch slawische Sprachen. Um seinen persönlichen Anforderungen Genüge zu tun, muss daher nahezu jeder Benutzer diesem Wortschatz seine eigenen speziellen Begriffe, Namen oder Ausdrücke hinzufügen. Die Fähigkeit, den Grundwortschatz um spezifische Ausdrücke zu erweitern, wird so zu einem wichtigen Sachverhalt und zu einer häufigen Aktivität bei der Verwendung von Spracherkennungssystemen. Grundsätzlich müssen die Sprachwortschätze als offene oder „lebende" Systeme betrachtet werden, die in keinem Fall alle möglichen Wörter einer bestimmten Sprache umfassen können; technische Beschränkungen (Speicheranforderungen und Verarbeitungslast) tragen weiter dazu bei, dass sich dieses Ziels nicht realisieren lässt. Somit bilden die Vorgehensweise und Qualität des Prozesses zur Erweiterung eines bestimmten Wortschatzes um neue Wörter einen wichtigen Erfolgsfaktor für Sprachsysteme.
  • Die Aussprache der Wörter eines Wortschatzes wird üblicherweise als phonetische Transkription (in Form von Phonemen, Subphonemen oder Phonemkombinationen) gespeichert. Für die Aufnahme neuer Wörter in den Wortschatz müssen derartige phonetische Transkriptionen (Aussprachen) erzeugt werden, um so später diese Wörter erkennen zu können. Dabei muss ein Spracherkennungssystem unbedingt angemessene Lautmodelle entwickeln, da die Erkennungsgenauigkeit in hohem Maße von der Qualität dieser Modelle abhängt. Die Erzeugung unzureichender Modelle führt mit hoher Wahrscheinlichkeit zu einer schlechteren Gesamtleistung und geringeren Erkennungsgenauigkeit des Systems. Aus diesem Grund kommt jeder Verbesserung von Vorgehensweise und Qualität dieses Erweiterungsprozesses große Bedeutung zu.
  • Nach dem derzeitigen Stand der Technik wird dem System üblicherweise ein Wort hinzugefügt, indem der Benutzer das neue Wort eingibt und indem dann aus der Schreibweise (und in den meisten Fällen einer Klangprobe, d.h., der Benutzer spricht das neue Wort aus) ein neues Lautmuster erzeugt wird, das für die künftige Erkennung herangezogen wird. Anhand eines Algorithmus- oder Statistiksystems, im Allgemeinen auch als Buchstaben-zu-Klang-System (Letter-to-Sound System, LTS) bezeichnet, erhält man die wahrscheinlichste(n) Aussprache(n) der Buchstabenfolge, aus der sich die orthographische Darstellung des Worts zusammensetzt. Im Allgemeinen bildet ein Buchstaben-zu-Klang-System einzelne Buchstaben oder Buchstabenkombinationen als eine Folge von Phonemen ab, die ihrer Aussprache entsprechen. Häufig wird zur Erzeugung derartiger System ein statistischer Ansatz verwendet. Ein wichtiges Beispiel hierfür sind CARTs (Classification And Regression Trees, Klassifizierungs- und Regressionsbäume). Die durch ein LTS erzeugten Ergebnisse werden dann mit den vom Benutzer bereitgestellten Lauten kombiniert, um die tatsächliche(n) Aussprache(n) zu erzeugen. Eine ausführliche Beschreibung eines Beispiels, aus dem hervorgeht, wie ein Statistiksystem für diese Aufgabe eingesetzt werden kann, findet sich bei J.M. Lucassen und R.L. Mercer, „An Information Theoretic Approach to the Automatic Determination of Phonemic Baseforms", Proc. of ICASSP-84, 42.5.1 bis 42.5.4, 1982.
  • Ein weiteres Beispiel eines bekannten erweiterbaren Spracherkennungssystems, das ein LTS verwendet, wird in der Patentanmeldung WO-A-98/45834 offenbart.
  • Häufig handelt es sich bei den hinzugefügten Wörtern jedoch um Wörter aus einer Fremdsprache, um Kundennamen, Abkürzungen oder technische Fachbegriffe, die im Allgemeinen nicht unbedingt den Ausspracheregeln der betreffenden Sprache gehorchen. Dies führt mit einiger Wahrscheinlichkeit zur Erzeugung mangelhafter Aussprachen, was wiederum zu häufigen Erkennungsfehlern bei der Ausführung des Systems führt und somit die Gesamtleistung und -qualität des Spracherkennungssystems beeinträchtigt. Ausgefeilte Systeme erkennen unter Umständen, dass die (z.B. von dem Benutzer, der das Wort ausspricht) bereitgestellten Laute nicht mit den erzeugten und zur Auswahl stehenden Aussprachen übereinstimmen, und fordern den Benutzer zu einer weiteren Eingabe auf. Da die Benutzer dieser Systeme in der Regel jedoch keine Phonetikwissenschaftler oder -fachleute sind, ist es aus Gründen von Nutzbarkeit und Wirksamkeit wichtig, ihre Beteiligung an der Erzeugung dieser Aussprachen auf ein Mindestmaß zu begrenzen.
  • Zur Unterstützung dieses Prozesses erlauben einige Systeme die Angabe eines Musters der klangähnlichen Schreibweise (Sounds-Like-Spelling, SLS) (eine Pseudo-Schreibweise des Worts, die dessen Aussprache in der gegebenen Sprache entspricht, z.B. „eye-triple-ee" für die englische Aussprache von „IEEE"). Bei diesem Ansatz obliegt es dem Benutzer festzustellen, ob das hinzuzufügende Wort tatsächlich den Standardausspracheregeln entspricht, und eine alternative Schreibweise bereitzustellen, bei der dies der Fall ist. Diese Regeln sind nicht klar definiert und können sich sogar innerhalb von Teildomänen einer Sprache unterscheiden. Bei Benutzern, die entweder mangelnde Sorgfalt walten lassen, mit der Sprache und/oder Domäne wenig vertraut oder aber keine Phonetikfachleute sind, stößt dieser Ansatz schnell an seine Grenzen.
  • Buchstaben-zu-Klang-Systeme kommen auch bei verschiedenen anderen Anwendungen von Sprachsystemen zum Einsatz, z.B. bei der Sprachsynthese von Wörtern, die nicht im Grundwortschatz enthalten sind. Diese Text-zu-Sprache-Synthesesysteme (Text to Speech, TTS) stehen vor einer ähnlichen Schwierigkeit wie Spracherkennungssysteme, wenn sie versuchen, die Aussprache eines Worts zu erzeugen, das sich nicht in ihrem Grundwortschatz befindet.
  • Um die Dringlichkeit von Verbesserungen auf diesem Gebiet zu verdeutlichen, wird z.B. auf die Beschreibung der Angie-Struktur (ein Beispiel eines Buchstaben-zu-Klang-Systems) in der Dissertation von Aarati D. Parmar, MIT 97, A Semi-Automatic System for the Syllabification and Stress Asignment of Large Lexicons, verfügbar unter: http://www.sls.lcs.mit.edu/sls/publications/index.htm verwiesen. In diesem anhand der TIMIT-Datenbank durchgeführten wissenschaftlichen Versuch ergab sich bei 10 von 2500 Wörtern keine korrekte Aussprache aufgrund einer „unüblichen Schreibweise" oder „nicht eingehaltener Buchstabenregeln". Dabei beinhaltet diese Testanordnung noch nicht einmal Akronyme oder Ähnliches, wie sie im alltäglichen Geschäftsumfeld mit hoher Wahrscheinlichkeit anzutreffen sind.
  • 1.3 Zielsetzung der Erfindung
  • Die Erfindung beruht auf der Zielsetzung, ein verbessertes Verfahren und Mittel für die Aufnahme neuer Wörter mit bis dahin unbekannter Schreibweise und Aussprache in einen umfangreichen Wortschatz eines Sprachsystems bereitzustellen.
  • 2. Zusammenfassung und Vorteile der Erfindung
  • Die Zielsetzungen der Erfindung werden durch die Nebenansprüche realisiert. Weitere vorteilhafte Anordnungen und Ausführungsformen der Erfindung werden in den zugehörigen Unteransprüchen dargelegt.
  • Die Erfindung bezieht sich auf ein Computerverfahren für die Aufnahme eines neuen Worts in einen Wortschatz eines Sprachsystems, wobei der Wortschatz Wörter und zugehörige Lautmuster für eine Sprache oder Sprachdomäne umfasst. Im Rahmen eines Ermittlungsschritts für das neue Wort wird ein Regularitätswert ermittelt, der die Übereinstimmung mit der Aussprache der Sprache oder Sprachdomäne misst. In einem Vergleichsschritt wird der Regularitätswert mit einem Schwellenwert verglichen um zu entscheiden, ob die Übereinstimmung unzureichend ist. Nur wenn eine unzureichende Übereinstimmung bestätigt wird, wird ein Aufforderungsschritt ausgeführt, der zusätzliche Informationen zur Aussprache des neuen Worts anfordert. Schließlich werden das neue Wort und ein Lautmuster des neuen Worts in einem Erweiterungsschritt in den Wortschatz aufgenommen.
  • Die vorliegende Erfindung sieht vor, die Regularität eines vorgeschlagenen Worts mit Blick auf die Standardaussprache der Sprache automatisch zu ermitteln; dies mindert die für den Erweiterungsprozess eines Wortschatzes erforderliche Aufmerksamkeit und Fachkenntnis auf Seiten des Benutzers. Dabei ist es weder Aufgabe des Benutzers zu entscheiden, wann zusätzliche Informationen zur Aussprache eines neuen Wortes in das Sprachsystem aufgenommen werden müssen, noch werden diese zusätzlichen Informationen versäumt, obwohl sie eigentlich benötigt würden. Andernfalls würden in beiden Fällen mangelhafte Aussprachemodelle geschaffen. Da die Erkennungsgenauigkeit in hohem Maße von der Qualität dieser Modelle abhängt, führt die vorgeschlagene Lehre zu einer verbesserten Gesamtleistung und zu einer höheren Erkennungsgenauigkeit des Sprachsystems. Die Qualität der erzeugten Aussprachen von Sprachsystemen wird verbessert.
  • Da eine Benutzerbeteiligung in Form einer Aufforderung zur Eingabe zusätzlicher Ausspracheinformationen auf ein Mindestmaß begrenzt wird, kann außerdem die Benutzeroberfläche einfacher gehalten werden, und der Benutzer muss nicht unnötiger Komplexität ausgesetzt werden. Da für Wörter, die vermutlich einer Standardaussprache entsprechen, keine weiteren Maßnahmen erforderlich sind, ergeben sich wertvolle Zeiteinsparungen. Für typische Kunden, die Spracherkennungssysteme nutzen, wie beispielsweise Anwälte und Ärzte, ist dies ein wichtiges Verkaufsargument.
  • Die vorliegende Lehre ist von der Natur der Sache her sprach- und domänenunabhängig und kann somit ohne weitere Erweiterung auf eine Vielzahl verschiedener Sprachen angewendet werden. Diese Eigenschaft ist besonders vorteilhaft angesichts der großen Zahl unterschiedlicher Sprachen und Sprachdomänen, die alle mit einem einzigen Lösungsansatz unterstützt werden können.
  • Schließlich führt die geringere Anzahl von Fehlern bei der Aufnahme neuer Wörter in einen Wortschatz auch zu einer geringeren Benutzerfrustration und zu einer verbesserten Wahrnehmung der Nutzbarkeit des Systems.
  • 3. Kurze Beschreibung der Zeichnungen
  • 1 zeigt den Prozess der Aufnahme eines neuen Worts mit einer bis dahin unbekannten Schreibweise und Aussprache in den Wortschatz eines Spracherkennungssystems gemäß dem momentanen Stand der Technik.
  • 2 stellt den Prozess der Schaffung eines Sprachmodells dar, das die Grundlage für die Ermittlung des Regularitätswertes eines neuen Worts bildet, welches in den Wortschatz aufgenommen werden soll. Darüber hinaus wird dargestellt, an welcher Stelle des Gesamtprozesses die Ermittlung des Schwellenwerts erfolgt.
  • 3 zeigt einen typischen Satz von Perplexitätswertverteilungen über einen umfangreichen Satz von Proben hinweg. Wie daraus deutlich wird, läuft die Kurve mit zunehmender Perplexität flach aus. Gemäß der vorliegenden Erfindung definiert dies den Bereich, der sich am besten für die Festlegung des Schwellenwerts eignet, auf dem dieser Ansatz beruht.
  • 4 zeigt im Gegensatz zu 1 den Prozess der Aufnahme eines neuen Worts mit bis dahin unbekannter Schreibweise und Aussprache in den Wortschatz eines Spracherkennungssystems gemäß der vorliegenden Erfindung.
  • 4. Beschreibung der bevorzugten Ausführungsform
  • In den Zeichnungen und in der Beschreibung wird eine bevorzugte Ausführungsform der Erfindung dargelegt, wobei trotz der Verwendung spezifischer Begriffe die dadurch gegebene Beschreibung eine Terminologie verwendet, die lediglich in einem allgemeinen und beschreibenden Sinne und keinesfalls als Beschränkung des Geltungsumfangs zu verstehen ist.
  • Die vorliegende Erfindung verwendet den Begriff „Sprachsystem" in seiner allgemeinsten Bedeutung, die sowohl Spracherkennungssysteme als auch Sprachsynthesesysteme umfasst.
  • 4.1 Einleitung
  • Ein Beispiel für ein oben beschriebenes Spracherkennungssystem, das die Erweiterung und Anpassung seines Wortschatzes durch die Aufnahme neuer Wörter vorsieht, ist die Viavoice-Produktreihe von IBM (z.B. die ViaVoice 98 Executive, Home oder Office Edition). 1 zeigt beispielhaft den Prozess der Aufnahme eines neuen Worts in den Wortschatz eines Spracherkennungssystems gemäß dem momentanen Stand der Technik.
  • Bei diesen Systemen beinhaltet der Prozess der Aufnahme eines neuen Worts die Schritte des Erhaltens der neuen Schreibweise (101) sowie der Lautinformationen zur Aussprache dieser Schreibweise (102) von dem Benutzer. Diese Klangprobe wird dann gemeinsam mit einem Statistiksystem (103) – im vorliegenden Beispiel ein LTS-System – zur Abbildung von Buchstaben auf Phonemfolgen verwendet, um so letztlich eine phonetische Darstellung des neu aufgenommenen Worts zu erzeugen. Das bei diesem Prozess verwendete Statistiksystem wurde erhalten, indem es anhand einer vordefinierten umfangreichen Wortmenge, die den allgemeinen Ausspracheregeln der Sprache entspricht, trainiert wurde. Im Allgemeinen erbringt es bei regelgerecht ausgesprochenen Wörtern der Sprache sehr gute Ergebnisse.
  • Einige Wörter entsprechen jedoch nicht der Standardaussprache einer Sprache. Dies gilt insbesondere für Fremdwörter, aus einer Fremdsprache abgeleitete Wörter, Akronyme, Abkürzungen und Eigennamen. Der Prozess der Wortschatzerweiterung des ViaVoice-Produkts gestattet in diesen Fällen die Definition einer klangähnlichen Schreibweise (Sound-like-Spelling, 104), einer Pseudo-Schreibweise, die angibt, wie ein Wort in Wirklichkeit ausgesprochen werden soll, und die anstelle der Schreibweise (101) verwendet wird. Im Allgemeinen ist eine klangähnliche Schreibweise eine Pseudo-Schreibweise, welche die Aussprache einer anderen Schreibweise beschreibt. Für ein Akronym wie „IEEE" kann dies im Englischen z.B. „eye-tripple-ee" lauten. Die klangähnliche Schreibweise ist das Verbindungsglied zwischen der tatsächlichen Schreibweise und der Aussprache. Eine gute klangähnliche Aussprache ist der Schlüssel für die Erzeugung der richtigen Aussprache von Wörtern mit von der Regel abweichender Schreibweise. Ihr Vorhandensein ist von grundlegender Bedeutung für die Entwicklung eines geeigneten Aussprachemodells. Ausgehend von der Ausgabe, die von dem Statistiksystems (103) (aus der Schreibweise (101) oder dem Muster der klangähnlichen Schreibweise (104)) erzeugt wurde, und der Aussprache des neuen Worts (102) durch den Benutzer, wird eine phonetische Darstellung des neuen Worts erzeugt (105) und schließlich in den Wortschatz aufgenommen (106).
  • Wann genau eine derartige klangähnliche Schreibweise jedoch notwendig ist, wird dem Benutzer überlassen. Wenn auf sie verzichtet wird, obwohl sie eigentlich notwendig wäre, werden unter Umständen mangelhafte Aussprachemodelle erzeugt. Wenn sie bereitgestellt wird, ohne dass hierfür eine Notwendigkeit besteht, bedeutet dies zusätzlichen Aufwand für den Benutzer. Wenn sie nicht benötigt wird, kann außerdem auch die Benutzeroberfläche einfacher gehalten sein, und der Benutzer muss nicht unnötiger Komplexität ausgesetzt werden. Wenn kein Mechanismus bereitgestellt wird, der als Hilfestellung bei dieser Aufgabe dient, muss der Benutzer allein entscheiden, ob das hinzuzufügende Wort tatsächlich den Standardausspracheregeln entspricht, und gegebenenfalls eine alternative Schreibweise bereitstellen, bei der dies der Fall ist. Diese Regeln sind nicht klar definiert und können sich sogar innerhalb von Teildomänen einer Sprache unterscheiden. Bei Benutzern, die entweder die erforderliche Sorgfalt vermissen lassen, mit der Sprache und/oder Domäne wenig vertraut oder keine Phonetikfachleute sind, d.h. bei der Mehrheit aller Benutzer von Spracherkennungssystemen, stößt dieser Ansatz schnell an seine Grenzen.
  • 4.2 Die Problemlösung auf Grundlage des Regularitätsmesswertes
  • Die vorliegende Lehre legt ein Verfahren dar, mit dem die Anwendbarkeit eines Statistiksystems (wie beispielsweise ein LTS-System) bewertet werden kann, wenn neue Wörter in einen umfangreichen Wortschatz eines Sprachsystems wie z.B. eines Spracherkennungssystems aufgenommen werden. Genauer gesagt, wird eine Lösung vorgeschlagen, mit der die Erfolgsaussichten eines Buchstaben-zu-Klang-Statistiksystems bei der Aufnahme bis dahin unbekannter Schreibweisen in den Wortschatz eines Sprachsystems abgeschätzt werden können.
  • Der Grundgedanke der vorliegenden Erfindung besteht in der Verwendung eines Kriteriums, das ausgehend von der Schreibweise des hinzuzufügenden Worts berechnet wird, um zu ermitteln, ob das Wort vermutlich den Standardausspracheregeln der betreffenden Sprache entspricht, bzw. genauer gesagt, ob es vermutlich den Standardausspracheregeln aller Wörter entspricht, die für die Erzeugung des Statistiksystems des Sprachsystems verwendet wurden. Anders ausgedrückt, man könnte auch sagen, dass das Kriterium die Frage „Sieht dieses Wort bekannt bzw. wie etwas aus, das für die Erzeugung dieses Sprachsystems verwendet wurde?" beantwortet. Bei einer bejahenden Antwort geht die vorgeschlagene Lehre davon aus, dass die Aussichten für die Erzeugung eines angemessenen Aussprachemodells für das Wort gut sind, da dieses der Art von Wörtern entspricht, mit denen das Statistiksystem des Sprachsystems ursprünglich trainiert wurde. Nur wenn das Kriterium auf eine größere Abweichung der vermuteten Aussprache von den bekannten Standardregeln hinweist, muss ein anderes Verfahren für die Aufnahme des Worts in den Wortschatz des Sprachsystems verwendet werden. Als bevorzugtes Verfahren sieht die Erfindung vor (ohne darauf beschränkt zu sein), dass der Benutzer zur Bereitstellung eines Musters der klangähnlichen Schreibweise aufgefordert wird. In diesem Fall stellt die automatische Ermittlung der Notwendigkeit einer Aufforderung zur Eingabe zusätzlicher Informationen zur Aussprache eines neuen Worts (z.B. durch ein Muster der klangähnlichen Schreibweise) eine große Hilfe für den Benutzer dar. Die praktische Nutzung einer derartigen Maßnahme hat sich als Schlüssel zur Erzeugung guter Aussprachen erweisen, ohne den Benutzer dabei mit unangemessen aufwändigen Aufgaben zu belasten (z.B. ihn immer zur Bereitstellung eines derartigen Musters der klangähnlichen Schreibweise aufzufordern).
  • Da sich die Erfolgsaussichten des Buchstaben-zu-Klang-Systems mit der vorliegenden Lehre abschätzen lassen, können bei einer nicht den Regeln entsprechenden Schreibweise, genauer gesagt, bei einer Abweichung zwischen Schreibweise und Aussprache, die notwendigen Maßnahmen ergriffen werden. Diese Eigenschaft kann auch auf der Ebene der Benutzeroberfläche genutzt werden, indem ein Dialogfeld bereitgestellt wird, in das der Benutzer das neue Wort eingeben kann. Sie kann außerdem einfach gehalten werden, wenn eine den Regeln entsprechende Schreibweise festgestellt wurde. Wenn eine von den Regeln abweichende Schreibweise festgestellt wird, wird die Bereitstellung einer anderen Benutzeroberfläche vorgeschlagen, die den Benutzer zur Eingabe eines Musters der klangähnlichen Schreibweise z.B. gemeinsam mit weiteren Erläuterungen auffordert; als weitere Möglichkeiten könnten auch (Klang-)Proben bereitgestellt werden. Dabei besteht der grundlegende Ansatz der vorliegenden Lehre jedoch darin, dass ein Benutzer dieser komplexeren Art der Aufnahme eines neuen Worts in den Wortschatz nicht ausgesetzt wird, solange dies – wie durch das oben erwähnte Kriterium angezeigt – nicht wirklich notwendig ist.
  • Ziel der vorliegenden Erfindung ist die Bereitstellung eines Messwerts, anhand dessen vorhergesagt werden kann, ob und wann es notwendig ist, bei der Aufnahme eines neuen Worts in einen Wortschatz zusätzliche Informationen zur Aussprache wie beispielsweise eine klangähnliche Schreibweise bereitzustellen. Dabei geht die Lehre von der Beobachtung aus, dass Wörter, die im Allgemeinen nicht den Ausspracheregeln einer Sprache oder Domäne folgen, mit einiger Wahrscheinlich für eine derartige Aktion in Frage kommen. Die Erfindung entwickelt und verwendet aus diesem Grund ein Modell zur Berechnung eines derartigen Regularitätsmesswertes und schlägt vor, wie die sich daraus ergebenden Informationen während des laufenden Prozesses der Erweiterung eines Wortschatzes verwendet werden können. Falls das Regularitätsmodell den Regeln entsprechende Schreibweisen feststellt, fordert es den Benutzer nicht zur Eingabe zusätzliche Informationen auf und spart somit einen zusätzlichen Prozessschritt. Schreibweisen, die als nicht regelgerecht eingestuft werden, werden anders behandelt, indem der Benutzer sofort zur Eingabe zusätzliche Informationen aufgefordert wird, bei denen es sich bevorzugt um ein Muster der klangähnlichen Schreibweise handelt.
  • Das System erfasst automatisch, ob die Schreibweise mit seinem Modell der Rechtschreibregularität übereinstimmt. Hierfür wird, in Übereinstimmung mit einem zuvor berechneten statistischen Rechtschreibsprachmodell (Language Model, LM), für die neue Schreibweise eine Bewertung berechnet. Die Bewertung wird mit einem zuvor festgelegten Schwellenwert verglichen, der für eine Datenmenge ermittelt wurde, die bei der Entwicklung des tatsächlichen Modells nicht berücksichtigt wurde. Wenn der Schwellenwert nicht eingehalten wird, wird eine klangähnliche Schreibweise für notwendig erachtet. Diese Informationen werden an den Benutzer weitergeleitet, der aufgefordert/veranlasst wird, die Pseudo-Schreibweise bereitzustellen. Ohne diesen Mechanismus gibt es keinen Hinweis darauf, wann eine solche Vorgehensweise hilfreich ist bzw. wann sie sogar die einzige Art und Weise zur Aufnahme eines neuen Worts darstellt. Eine derartige Pseudo-Schreibweise stets zu erfordern, würde andererseits jedoch zusätzlichen Aufwand für den Benutzer bedeuten und sollte daher nur als letztes Mittel betrachtet werden.
  • Als bevorzugte Realisierung des Regularitätsmesswertes wird vorgeschlagen, die Perplexität der orthografischen Darstellung eines Worts mit Bezug auf ein Sprachmodell mit N Wörtern zu berechnen. Perplexität ist ein informationstheoretischer Fachausdruck, der sich auf die durchschnittliche Anzahl von Entscheidungen bezieht, die getroffen werden müssen (d.h. die Binärfragen, die gestellt werden müssen), um während des Erkennungsprozesses die Aussprache eines Buchstabens zu ermitteln. Informell kann die Perplexität als die durchschnittliche Anzahl der nachfolgenden Zeichen betrachtet werden, aus der ein zeichenbasiertes N-Gram-Sprachmodell unter Berücksichtigung der zu diesem Zeitpunkt gegebenen Zeichenhistorie möglicherweise wählen muss. Formell ist die Perplexität der Kehrwert des geometrischen Durchschnitts der Wahrscheinlichkeitswerte für eine hypothetisierte Zeichenfolge. Die Perplexität wird als Zahlenwert ausgedrückt und gibt an, wie viele andere Buchstaben auf einen bestimmten Kontext bestehend aus einer Folge von Zeichen wahrscheinlich folgen werden.
  • So könnten auf den Kontext „interna" mit einiger Wahrscheinlichkeit die Zeichen „t" („international") oder „1" („internal") folgen. Von den übrigen 254 ASCII-Zeichen weist keines eine hohe Wahrscheinlichkeit auf. Ohne ein Sprachmodell wäre die Perplexität gleich der Größe des Alphabets (d.h. 256 bei einem Rechtschreibwortschatz des ASCII-Zeichensatzes). Das Sprachmodell führt zu einer deutlichen Verringerung der Perplexität, da es die wahrscheinlichen Buchstabenkombinationen kennt, ohne dabei die Verwendung von Zeichenkombinationen zu verhindern, die ihm noch unbekannt sind.
  • Ein Rechtschreibsprachmodell enthält eine Zusammenstellung der Wahrscheinlichkeiten, mit denen ein Buchstabe auf einen anderen folgt. Ohne ein derartiges Modell ist die Wahrscheinlichkeit, dass ein bestimmter Buchstabe auf einen anderen folgt, für alle Zeichen des Alphabets gleich hoch. Ein Sprachmodell wie beispielsweise ein N-Gram-Modell hat die Berechnung von Pr(S) zur Aufgabe, der A-Priori-Wahrscheinlichkeit einer Zeichenfolge S in einer gegebenen Sprache. Theoretisch wäre es wünschenswert, ein neues Zeichen aus einer unendlich langen Historie von Vorgängerzeichen vorhersagen zu können. In der Praxis wären diese Wahrscheinlichkeiten jedoch unmöglich zu berechnen. Daher besteht ein üblicher Ansatz darin, durch ein Modell, das alle vergangenen Historien auf den gleichen Zustand abbildet, einen Näherungswert für alle Historien zu erhalten. Somit lautet die Annahme, dass das Auftreten eines Zeichens C vollständig durch die vorangegangenen N Zeichen bestimmt wird. Tri-Gram-Modelle verwenden beispielsweise die beiden vorangegangenen Zeichen, um das aktuelle Zeichen vorherzusagen. Da die Tri-Gram-Häufigkeiten jedoch unter Umständen nicht oft genug auftreten, um eine zufrieden stellende Vorhersage zu ermöglichen, wird das Tri-Gram-Modell häufig mit Modellen einer niedrigeren Ebene kombiniert, welche die Bi- und Uni-Gram-Wahrscheinlichkeiten vorhersagen.
  • Somit wird gemäß dem vorgeschlagenen leistungsfähigen Kriterium ein Regularitätswert ermittelt, indem das Statistikmodell der tatsächlichen Sprache angewendet wird, das die Übereinstimmung der vorgeschlagenen Schreibweise mit einer großen Menge von regelgerechten Wörtern der Sprache berechnet. So können z.B. für ein Sprachmodell mit drei Buchstaben (oder allgemein mit N Buchstaben), das mit einer derart großen Menge trainiert wurde, Glättungsfaktoren (Gewichtungen) verwendet werden (wobei bei diesem Modell tatsächlich Tri-Gram-, Bi-Gram- und Uni-Gram-Buchstabenfolgen verwendet werden), um den Einfluss eines jeden dieser drei Teilmodelle zu steuern. Die Glättungsfaktoren können durch Verfahren erzeugt werden, die nach dem Stand der Technik hinreichend bekannt sind. Als Kriterium wird die berechnete Perplexität der vorgeschlagenen Schreibweise mit Bezug auf dieses Sprachmodell mit einem Schwellenwert verglichen, um so zu entscheiden, ob eine ausreichende Übereinstimmung mit der Aussprache der Sprache oder Sprachdomäne gegeben ist.
  • Die vorgeschlagene Kombination eines statistischen Sprachmodells, wie z.B. eines drei Buchstaben umfassenden Modells für die Buchstabenhäufigkeit, mit dem Prozess für die Erzeugung einer klangähnlichen Schreibweise führt sowohl bei der Leistung als auch bei der Nutzbarkeit zu Verbesserungen – zwei der wichtigsten Faktoren, die über den Erfolg oder Misserfolg eines Sprachsystems entscheiden.
  • 4.3 Sprachmodell für den Regularitätsmesswert und die Ermittlung des Schwellenwerts
  • Mit Blick auf 2 wird im Folgenden der Prozess der Erzeugung eines Rechtschreibsprachmodells beschrieben, das die Grundlage für die Ermittlung des Regularitätswertes eines neuen Worts bildet, das in den Wortschatz aufgenommen werden soll.
    • 1. Der Prozess beginnt mit der Erfassung einer umfangreichen Menge von Wörtern (201), bei denen davon ausgegangen wird, dass sie den „normalen" Regeln für die Aussprache der bestimmten Sprache entsprechen. Ausgenommen sind insbesondere Akronyme („IBM", „IEEE" usw.), aus einer Fremdsprache übernommene Wörter (im Englischen z.B. „rendez-vous", „Gestalt" usw.), Abkürzungen („Mr", „Mrs", „usw." usw.) und Ähnliches.
    • 2. Für diese Wortmenge wird gemäß dem Stand der Technik ein Statistikmodell der in diesen Wörtern vorhandenen Wortfolge erzeugt. Eine bevorzugte Ausführungsform besteht aus einem drei Buchstaben umfassenden Sprachmodell (allgemein könnte auch ein Sprachmodell mit N Buchstaben verwendet werden), das berechnet wird, indem gezählt wird, wie oft Buchstaben und Buchstabenkombinationen in der Wortmenge vorkommen.
    • i. Dieses Modell zählt die Häufigkeit des Auftretens von einem, zwei und drei Buchstaben und verwendet diese als Näherungswert für die Wahrscheinlichkeit, mit der derartige Buchstabenfolgen auftreten. Aufbau und Funktionsweise von N-Gram-Modellen sind nach dem Stand der Technik bekannt.
    • ii. Die Gesamtwahrscheinlichkeit einer Folge von drei Buchstaben wird als eine lineare Kombination der Wahrscheinlichkeit für das Auftreten von einem, zwei und drei Buchstaben berechnet, wobei ein zusätzlicher Versatz vorgesehen wird, um für nie beobachtete Buchstabenfolgen eine Wahrscheinlichkeit von Null zu ergeben.
    • iii. Die Koeffizienten der linearen Kombination können geschätzt werden, indem die Leistung des Modells für eine bestimmte, zunächst nicht berücksichtigte Wortmenge (204) optimiert wird. Ein dem Stand der Technik entsprechender Ansatz für diesen Prozess kann den Ausführungen von F. Jelinek und R.L. Mercer in „Interpolated estimation of Markow Source Paramaters from Sparse Data", Proc. of the workshop on Pattern Recognition in Practice", North-Holland Publishing Company, 1980, entnommen werden.
    • 3. Der Schwellenwert für die Regularität wird wie folgt geschätzt:
    • i. Eine Testwortmenge (204) bestehend aus neuen Wörtern (die beim Training oder der Feinabstimmung des Sprachmodells nicht verwendet wurden) wird erstellt (203). Diese Testwortmenge sollte sowohl den Regeln entsprechende Wörter als auch „Sonderwörter" wie Akronyme, Abkürzungen, aus Fremdsprachen übernommene Wörter usw. enthalten.
    • ii. Für jedes Wort der Testwortmenge wird die gemäß dem Modell eine Regularitätsbewertung vorgenommen (205). So wird beispielsweise für ein drei Buchstaben umfassendes Modell die Perplexität eines jeden Worts gemäß dem Modell berechnet.
    • iii. Die Wörter der Testwortmenge werden nach ihrer Bewertung geordnet (d.h. nach der Perplexität gemäß dem Modell) und ergeben so eine Häufigkeitsverteilung, die für jeden Regularitätswert die zugehörige Anzahl der Wörter wiedergibt.
    • iv. Diese Häufigkeitsverteilung legt eine Rangfolge fest, mit der ein Schwellenwert ermittelt werden kann, bei dessen Überschreitung eine klangähnliche Schreibweise als erforderlich erachtet wird, wenn ein neues Wort hinzugefügt wird (206).
  • Die Ermittlung des Schwellenwerts beruht auf den folgenden Grundsätzen:
    Bei Annahme einer repräsentativen Testprobe von Schreibweisen weisen die regelgerechten Schreibweisen mit Blick auf ihre Perplexitätswerte eine Normalverteilung gemäß dem erzeugten Modell auf. Im Allgemeinen ergeben sie jedoch niedrigere Perplexitätswerte als die nicht den Regeln entsprechenden Schreibweisen. Mit der in Schritt 3 des obigen Verfahrens erhaltenen kombinierten Verteilung soll der Perplexitätswert ermittelt werden, der eine optimalen Trennung der nicht regelgerechten Schreibweisen von den regelgerechten Schreibweisen erzielt. Die Sichtprüfung der Häufigkeitsverteilung und die manuelle Auswahl eines Schwellenwerts zu Testzwecken haben ergeben, dass die Auswahl eines Werts in dem Bereich, in dem die Verteilungskurve mit steigenden Perplexitätswerten flach ausläuft, in der Regel gute Ergebnisse zeitigt. Daher wird als allgemeiner Ansatz vorgeschlagen, die Regularitätswerte aller Testwörter einer Testwortmenge zu ermitteln. Anhand dieser Werte wird dann die Häufigkeitsverteilung der Regularitätswerte erzeugt. Ausgehend von der Häufigkeitsverteilung kann ein Regularitätsbezugswert als das relative Maximum abgeleitet werden, das der geringsten Regelübereinstimmung (d.h. dem höchste Perplexitätswert) entspricht. Testanordnungen haben gezeigt, dass die Auswahl eines Werts mit einer geringeren Übereinstimmung (d.h. einer größeren Perplexität) als der Regularitätsbezugswert als Schwellenwert im Allgemeinen gute Ergebnisse erbringt. Selbstverständlich kann ein Systementwickler einen Schwellenwert auf Grundlage seiner Erfahrung und persönlichen Einschätzung so anpassen, dass weder zu häufig ein falscher Alarm bei regelgerechten Schreibweisen ausgelöst wird noch zu viele nicht den Regeln entsprechende Schreibweisen unerkannt bleiben.
  • Dieser Fall wird in 3 dargestellt, die einen typischen Satz von Perplexitätswertverteilungen für einen umfangreichen Probensatz zeigt, der auf den Perplexitätsmessungen für einen Datensatz in französischer Sprache beruht, wobei ein drei Buchstaben umfassendes Sprachmodell (LM) zum Einsatz kommt. Im Bereich eines Perplexitätswertes von 30 zeigt die Häufigkeitsverteilung ein relatives Maximum. Wie zu sehen ist, läuft die Kurve mit zunehmender Perplexität flach aus. Gemäß der vorliegenden Erfindung definiert dies den Bereich, der sich am besten für die Festlegung des Schwellenwerts eignet, auf dem dieser Ansatz beruht; d.h., Schwellenwerte, die größer als das relative Maximum sind, eignen sich für die Trennung der nicht regelgerechten von den regelgerechten Schreibweisen.
  • 4.4 Hinzufügen eines neuen Worts während der Laufzeit
  • 4 zeigt im Vergleich zu 1 den Prozess der Aufnahme eines neuen Worts mit bis dahin unbekannter Schreibweise und Aussprache in den Wortschatz eines Spracherkennungssystems gemäß der vorliegenden Erfindung.
  • Wenn der Benutzer versucht, ein neues Wort hinzuzufügen, werden während der Laufzeit die folgenden Schritte ausgeführt:
    • 1. Für das neue Wort wird ein Übereinstimmungswert – sein Regularitätswert – der Wortschreibung mit Blick auf das Modell berechnet (401). Im Falle des drei Buchstaben umfassenden Modells wird dieser Wert als die Perplexität der orthographischen Darstellung des Worts berechnet.
    • 2. Wenn die Perplexität über dem oben ermittelten Schwellenwert liegt und somit auf eine unzureichende Regelübereinstimmung (402) hinsichtlich der Aussprache der Sprache (Domäne) hinweist, wird dem Benutzer mitgeteilt, dass dieses Wort vermutlich nicht den üblichen Ausspracheregeln folgt, und er erhält die Möglichkeit, eine klangähnliche Schreibweise einzugeben, die dies tut (403). Die klangähnliche Schreibweise wird dann zur Erzeugung der phonetischen Darstellung verwendet.
  • 4.5 Beispiel
  • Zunächst soll angenommen werden, dass ein Benutzer z.B. das Wort „IEEE" in den Wortschatz aufnehmen möchte, da dieses noch nicht Bestandteil des vordefinierten Satzes von Wörtern ist. Seine tatsächliche Aussprache „eye-triple-e" weicht beträchtlich von der Art und Weise ab, wie das Wort bei einer den Regeln entsprechenden Aussprache der Buchstabenfolge ausgesprochen werden würde. Wenn die statistische Abbildung des Buchstaben-zu-Klang-Systems und die Lautäußerung des Benutzers ohne weitere Prüfung verwendet würden, ergäbe sich unter Umständen eine phonetische Darstellung, die mit dem englischen Vokal „i", gefolgt von einem lang ausgesprochenen Vokal „e" beginnen würde. Abhängig von der Klangqualität beim Aufnahmeprozess und der Qualität der Abstimmungseinheit könnte diese Aussprache unter Umständen sogar eine Gültigkeitsprüfung erfolgreich durchlaufen und damit in den Benutzerwortschatz eingehen. In diesem Fall würde sie nicht nur fast nie erkannt werden, wenn sie von dem Benutzer ausgesprochen wird, sondern sie würde sich auch nachteilig auf den gesamten Erkennungsprozess auswirken, indem sie an den falschen Stellen erkannt werden würde, da das fehlerhafte Modell an anderen, unerwünschten Stellen durchaus eine gute Übereinstimmung erbringen könnte. Mit dem vorgeschlagenen Verfahren für die Bewertung des Regularitätswertes der Schreibweise kann das System den Benutzer dagegen auffordern, eine klangähnliche Schreibweise für das tatsächliche Wort bereitzustellen. Diese kann dann (nachdem überprüft wurde, ob sie den Regeln der Standardaussprache folgt) gefahrlos dazu verwendet werden, ein angemessenes Modell der Aussprache zu erzeugen.
  • 4.6 Weitere Erweiterungen
  • Die oben dargelegte Lehre kann darüber hinaus in verschiedene Richtungen erweitert werden:
    Im obigen Szenario wird in erster Linie die Anwendung der Erfindung auf eine bestimmte natürliche Sprache beschrieben. Dabei eignet sich das Modell jedoch offensichtlich auch für einen beliebigen Teilsatz einer Sprache oder Sprachdomäne. Wenn das Spracherkennungssystem z.B. für eine spezielle Domäne ausgelegt werden würde, könnten Wörter, die nicht zu dieser bestimmten Domäne (jedoch durchaus zu der betreffenden Sprache) gehören würden, erkannt werden, und bei ihrer Aufnahme in den Wortschatz könnten die geeigneten Maßnahmen ergriffen werden. Somit lässt sich die Erfindung durch diese Erweiterung auf eine Vielzahl von Sprachdomänen anwenden.
  • Wenn der Vergleich des Regularitätswertes mit dem Schwellenwert eine mangelnde Übereinstimmung mit der Standardaussprache ergibt, beschränkt sich die Aufforderung zur Eingabe zusätzlicher Informationen zur Aussprache des Worts nicht auf ein Muster der klangähnlichen Schreibweise. Die Erfindung erlaubt vielmehr die Erfassung nahezu jeder Art von zusätzlichen Informationen zur Aussprache, wodurch die Aussprachezuverlässigkeit erhöht wird. So kann das Sprachsystem den Benutzer sogar zur Bereitstellung einer zusätzlichen und direkten Lauteingabe auffordern.
  • Als weitere Erweiterung kann anstelle eines einzigen Schwellenwerts alternativ auch ein Satz von Schwellenwerten verwendet werden, um zu entscheiden, ob das neue Wort vermutlich den Standardausspracheregeln der betreffenden Sprache folgt. So könnte ein erster Schwellenwert wie oben beschrieben dazu dienen, Wörter zu erkennen, die den Regeln sehr genau entsprechen und mit Sicherheit keine Modifizierungen benötigen. Ein zweiter Schwellenwert (für eine geringere Übereinstimmung mit der Standardaussprache) könnte angeben, dass auf jeden Fall zusätzliche Maßnahmen wie eine klangähnliche Schreibweise notwendig sind. Wörter mit einer Bewertung zwischen diesen beiden Schwellenwerten könnten anhand automatischer Modifizierungen der Schreibweise verarbeitet werden. Eine mögliche Ausführungsform könnte einen Satz von Übereinstimmungsregeln anwenden, mit denen die Schreibweise in eine stärker den Regeln entsprechende Schreibweise umgeformt werden könnte. Die Regeln könnten vorgefertigt sein und dazu dienen, typische problematische Buchstabenkombinationen wie z.B. bestimmte bekannte Endungen fremdsprachlicher Wörter zu modellieren.
  • Indem der Verlauf der Perplexitätsbewertung (oder analog der log-Wahrscheinlichkeit) für das Wort beobachtet wird, können die problematischen Buchstabenfolgen möglicherweise ermittelt werden. Bei einer weiteren Ausführungsform der vorliegenden Erfindung kann anhand dieser Informationen das Augenmerk des Benutzers gezielt auf den Teil des neuen Worts gelenkt werden, der das Problem verursacht. Dieser Teil des Wortes muss dann anders behandelt werden, z.B. durch Verwendung einer klangähnlichen Schreibweise zur Beschreibung seiner Aussprache. Genauer gesagt, die Bewertung kann auch während der Eingabe des neuen Worts dynamisch erfolgen. Bei Entdeckung einer Unregelmäßigkeit kann sofort darauf reagiert werden, indem z.B. der Benutzer zur Eingabe einer alternativen Beschreibung aufgefordert wird.
  • Da die Abbildung von Buchstaben auf Laute eine der zentralen Aktivitäten eines jeden Text-zu-Sprache-Systems darstellt, kann das vorgeschlagene Bewertungsmodell selbstverständlich auch zur Erkennung von nicht den Regeln entsprechenden Schreibwesen verwendet werden, wenn diese dem TTS-System vorgelegt werden. Auf diese Weise kann das TTS-System je nach Art des übertragenen Worts verschiedene Strategien anwenden. Wenn mehrere Systeme zur Verfügung stehen, kann anhand der berechneten Bewertung ermittelt werden, welches System ausgewählt werden sollte.
  • Bisher wurde als Messwert zur Bestimmung der Regularität die Perplexität bezüglich des Sprachmodells herangezogen. Allerdings können auch andere zugehörige Messwerte wie die „log-Wahrscheinlichkeit" für eine derartige Modellierung verwendet werden. (Perplexität und log-Wahrscheinlichkeit können als zwei Seiten derselben Medaille betrachtet werden, die einander ergänzende Aspekte messen. Dabei misst die log-Wahrscheinlichkeit die gewichtete Durchschnittswahrscheinlichkeit der in einem Wort vorkommenden Buchstabenkombinationen, während die Entropie die durchschnittliche Unsicherheit misst, mit der die Buchstabenfolgen auftreten. Anders ausgedrückt, der vorgeschlagene Regularitätsmesswert kann als log-Wahrscheinlichkeit oder als Perplexität ausgedrückt werden.) Bei einem modularen Ansatz kann die obige Lehre auf eine Vielzahl von in Frage kommenden Wortschätzen einer Vielzahl von Sprachen oder Sprachdomänen angewendet werden. So kann z.B. die Schreibweise eines neuen Worts mit einem regulären Modell (z.B. Standard-Deutsch) sowie mit einem Modell auf Grundlage der lateinischen Rechtschreibung (z.B. für eine Spezialdomäne aus dem Medizinbereich) verglichen werden, wobei eine Vielzahl von Regularitätswerten berechnet werden, die den einzelnen Wortschätzen entsprechen. Wenn das Wort im obigen Beispiel aus dem Lateinischen stammt, erzielt das letztgenannte Modell eine höhere Bewertung für das neue Wort und sollte daher für die Erzeugung einer Aussprache ausgewählt werden. Mehrere derartiger Modelle zur Hand zu haben und parallel anwenden zu können, ist besonders für Spezialdomänen wie den Rechts- und Medizinbereich von hohem Wert.
  • 5. Vorteile der Erfindung
  • Die vorliegende Erfindung sieht eine automatische Ermittlung der Regularität eines vorgeschlagenen Worts mit Blick auf die Standardaussprache der Sprache vor; dies mindert die für den Erweiterungsprozess eines Wortschatzes erforderliche Aufmerksamkeit und Fachkenntnis auf Seiten des Benutzers. Weder ist es Aufgabe des Benutzers zu entscheiden, wann zusätzliche Informationen zur Aussprache eines neuen Wortes in das Sprachsystem aufgenommen werden müssen, noch werden diese zusätzlichen Informationen versäumt, obwohl sie eigentlich benötigt werden. Andernfalls würden in beiden Fällen mangelhafte Aussprachemodelle geschaffen. Da die Erkennungsgenauigkeit in hohem Maße von der Qualität dieser Modelle abhängt, führt die vorgeschlagene Lehre zu einer verbesserten Gesamtleistung und zu einer höheren Erkennungsgenauigkeit des Sprachsystems. Die Qualität der erzeugten Aussprachen von Sprachsystemen wird verbessert.
  • Da eine Benutzerbeteiligung in Form einer Aufforderung zur Eingabe zusätzlicher Ausspracheinformationen auf ein Mindestmaß begrenzt wird, kann außerdem die Benutzeroberfläche einfacher gehalten werden, und der Benutzer muss nicht unnötiger Komplexität ausgesetzt werden. Da für Wörter mit einer vermutlichen Standardaussprache keine weiteren Maßnahmen erforderlich sind, ergeben sich wertvolle Zeiteinsparungen. Für typische Kunden, die Spracherkennungssysteme nutzen, wie beispielsweise Anwälte und Ärzte, ist dies ein wichtiges Verkaufsargument.
  • Die vorliegende Lehre ist von der Natur der Sache her sprach- und domänenunabhängig und kann somit ohne weitere Erweiterung auf eine Vielzahl verschiedener Sprachen angewendet werden. Diese Eigenschaft ist besonders vorteilhaft angesichts der großen Zahl unterschiedlicher Sprachen und Sprachdomänen, die alle mit einem einzigen Lösungsansatz unterstützt werden können.
  • Schließlich führt die geringere Anzahl von Fehlern bei der Aufnahme neuer Wörter in einen Wortschatz auch zu einer geringeren Benutzerfrustration und zu einer verbesserten Wahrnehmung der Nutzbarkeit des Systems.
  • Zur Ermittlung der Regularitätswahrscheinlichkeit der Aussprache hat es sich als äußerst wirksam erwiesen, mit Blick auf ein Sprachmodell die berechnete Perplexität der Wortschreibung als Regularitätswert zu verwenden. Dabei hat sich gezeigt, dass sich dieser statistische Ansatz sehr gut zur Verarbeitung unbekannter Wörter eignet und gute Generalisierungen für bis dahin unbekannte Daten erbringt; für derartige Probleme ist er besser geeignet als auf Regeln beruhende Ansätze.
  • Die Aufforderung zur Eingabe eines Musters der klangähnlichen Schreibweise, die für die Aussprache des neuen Worts steht, als zusätzliche Ausspracheinformation ist ein leistungsfähiger Ansatz, an den die Benutzer gewöhnt sind und der von ihnen akzeptiert wird.
  • Darüber hinaus wirkt sich die Nutzung eines Buchstaben-zu-Klang-Systems mit den vom Benutzer bereitgestellten Zusatzinformationen, um so das Lautmuster des neuen Worts zu erhalten, vorteilhaft auf zwei Aspekte aus: Sie erbringt gute Ausspracheergebnisse und erlaubt außerdem ein Höchstmaß an Automatisierung des Ableitungsprozesses.
  • Verschiedene Tests haben gezeigt, dass die vorgeschlagene Methodik zur Ermittlung des Schwellenwerts zu einem Wert führt, der eine optimale Trennung der nicht regelgerechten von den regelrechten Aussprachen erzielt. Da außerdem eine große Menge von Daten, die als Testwortmenge für das Training des Systems dienen sollen, problemlos zur Verfügung steht, lässt sich durch die Verwendung einer umfangreichen Testwortmenge ein wirksamer Wert als Schwellenwert festgelegen.
  • Schließlich kann die vorliegende Lehre aufgrund ihrer hohen Flexibilität auf alle Arten von Sprachsystemen angewendet werden, zu denen sowohl Spracherkennungssysteme als auch Sprachsynthesesysteme gehören.

Claims (11)

  1. Computerverfahren für die Aufnahme eines neuen Worts in einen Wortschatz eines Sprachsystems, wobei der Wortschatz Wörter und zugehörige Lautmuster einer Sprache oder Sprachdomäne umfasst, wobei das Verfahren einen Ermittlungsschritt umfasst, der einen Regularitätswert für das neue Wort ermittelt, welcher die Übereinstimmung mit der Aussprache der Sprache oder Sprachdomäne misst; wobei das Verfahren einen Vergleichsschritt umfasst, der den Regularitätswert mit einem Schwellenwert vergleicht, um so zu entscheiden, ob die Übereinstimmung unzureichend ist; wobei das Verfahren im Falle einer Bejahung einen Aufforderungsschritt umfasst, der zur Eingabe zusätzlicher Informationen zur Aussprache des neuen Worts auffordert; wobei das Verfahren einen Erweiterungsschritt umfasst, der das neue Wort und ein Lautmuster des neuen Worts in den Wortschatz aufnimmt.
  2. Verfahren nach Anspruch 1, wobei in dem Ermittlungsschritt der Regularitätswert auf der berechneten Perplexität oder log-Wahrscheinlichkeit der Wortschreibung mit Blick auf ein Rechtschreibsprachmodell beruht.
  3. Verfahren nach Anspruch 1, wobei in dem Aufforderungsschritt die zusätzlichen Informationen ein Muster der klangähnlichen Schreibweise umfassen, das für die Aussprache des neuen Worts steht.
  4. Verfahren nach Anspruch 1, wobei in dem Erweiterungsschritt das Lautmuster aus den zusätzlichen Informationen und aus der Aussprache des neuen Worts, die durch ein Buchstaben-zu-Klang-System erzeugt wurde, abgeleitet wird.
  5. Verfahren nach Anspruch 1, wobei in dem Vergleichsschritt der Schwellenwert durch folgende Schritte berechnet wird: Ermitteln der Regularitätswerte aller Testwörter einer Testwortmenge, die nicht Teil des Wortschatzes ist; und Ermitteln der Häufigkeitsverteilung der Regularitätswerte; und Ermitteln desjenigen relativen Maximums, das der geringsten Übereinstimmung entspricht, aus der Häufigkeitsverteilung als Regularitätsbezugswert; und Auswählen eines Werts mit einer geringeren Übereinstimmung als der Regularitätsbezugswert als Schwellenwert.
  6. Verfahren nach Anspruch 1, wobei in dem Ermittlungsschritt eine Vielzahl von Regularitätswerten für eine Vielzahl von in Frage kommenden Wortschätzen ermittelt und als ausgewählter Wortschatz der in Frage kommende Wortschatz ausgewählt wird, dessen Regularitätswert auf die größte Übereinstimmung hinweist; wobei in dem Erweiterungsschritt das Lautmuster unter Verwendung des ausgewählten Wortschatzes abgeleitet wird.
  7. Verfahren nach Anspruch 2, wobei das Sprachmodell gemäß einer N-Gram-Statistik ermittelt wird.
  8. Verfahren nach einem beliebigen der vorangegangenen Ansprüche, wobei das Sprachsystem ein Spracherkennungssystem oder ein Sprachsynthesesystem ist.
  9. System, das ein Mittel umfasst, welches zur Durchführung der Verfahrensschritte gemäß einem beliebigen der vorangegangenen Ansprüche 1 bis 8 geeignet ist.
  10. Datenverarbeitungsprogrammprodukt zur Ausführung in einem Datenverarbeitungssystem, das Softwarecodebestandteile zur Durchführung eines Verfahrens gemäß einem beliebigen der vorangegangenen Ansprüche 1 bis 8 umfasst, wenn das Datenverarbeitungsprogrammprodukt in das Datenverarbeitungssystem geladen wird.
  11. Computerprogrammprodukt, das auf einem computernutzbaren Medium gespeichert ist und ein computerlesbares Programmmittel umfasst, mit dem ein Computer veranlasst wird, ein Verfahren gemäß einem beliebigen der vorangegangenen Ansprüche 1 bis 8 durchzuführen, wenn das Computerprogrammprodukt in den Computer geladen wird.
DE60026637T 1999-06-30 2000-05-11 Verfahren zur Erweiterung des Wortschatzes eines Spracherkennungssystems Expired - Lifetime DE60026637T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP99112441 1999-06-30
EP99112441 1999-06-30

Publications (2)

Publication Number Publication Date
DE60026637D1 DE60026637D1 (de) 2006-05-11
DE60026637T2 true DE60026637T2 (de) 2006-10-05

Family

ID=33017069

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60026637T Expired - Lifetime DE60026637T2 (de) 1999-06-30 2000-05-11 Verfahren zur Erweiterung des Wortschatzes eines Spracherkennungssystems

Country Status (3)

Country Link
US (1) US6801893B1 (de)
AT (1) ATE320650T1 (de)
DE (1) DE60026637T2 (de)

Families Citing this family (59)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW472232B (en) * 2000-08-11 2002-01-11 Ind Tech Res Inst Probability-base fault-tolerance natural language understanding method
US7158935B1 (en) * 2000-11-15 2007-01-02 At&T Corp. Method and system for predicting problematic situations in a automated dialog
US7103533B2 (en) * 2001-02-21 2006-09-05 International Business Machines Corporation Method for preserving contextual accuracy in an extendible speech recognition language model
DE10119677A1 (de) * 2001-04-20 2002-10-24 Philips Corp Intellectual Pty Verfahren zum Ermitteln von Datenbankeinträgen
US7577569B2 (en) * 2001-09-05 2009-08-18 Voice Signal Technologies, Inc. Combined speech recognition and text-to-speech generation
JP2003271182A (ja) * 2002-03-18 2003-09-25 Toshiba Corp 音響モデル作成装置及び音響モデル作成方法
US7398209B2 (en) 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7680649B2 (en) * 2002-06-17 2010-03-16 International Business Machines Corporation System, method, program product, and networking use for recognizing words and their parts of speech in one or more natural languages
US7693720B2 (en) 2002-07-15 2010-04-06 Voicebox Technologies, Inc. Mobile systems and methods for responding to natural language speech utterance
DE10311581A1 (de) * 2003-03-10 2004-09-23 Deutsche Telekom Ag Verfahren und System zum automatisierten Erstellen von Sprachwortschätzen
US7392188B2 (en) * 2003-07-31 2008-06-24 Telefonaktiebolaget Lm Ericsson (Publ) System and method enabling acoustic barge-in
US8577681B2 (en) * 2003-09-11 2013-11-05 Nuance Communications, Inc. Pronunciation discovery for spoken words
US8019602B2 (en) * 2004-01-20 2011-09-13 Microsoft Corporation Automatic speech recognition learning using user corrections
US8954325B1 (en) * 2004-03-22 2015-02-10 Rockstar Consortium Us Lp Speech recognition in automated information services systems
ATE449401T1 (de) * 2004-05-21 2009-12-15 Harman Becker Automotive Sys Automatische erzeugung einer wortaussprache für die spracherkennung
CN100530171C (zh) * 2005-01-31 2009-08-19 日电(中国)有限公司 字典学习方法和字典学习装置
US7640160B2 (en) 2005-08-05 2009-12-29 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7620549B2 (en) 2005-08-10 2009-11-17 Voicebox Technologies, Inc. System and method of supporting adaptive misrecognition in conversational speech
US7949529B2 (en) 2005-08-29 2011-05-24 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions
EP1934971A4 (de) 2005-08-31 2010-10-27 Voicebox Technologies Inc Dynamische sprachverschärfung
US7590536B2 (en) * 2005-10-07 2009-09-15 Nuance Communications, Inc. Voice language model adjustment based on user affinity
US20070094024A1 (en) * 2005-10-22 2007-04-26 International Business Machines Corporation System and method for improving text input in a shorthand-on-keyboard interface
US20070233490A1 (en) * 2006-04-03 2007-10-04 Texas Instruments, Incorporated System and method for text-to-phoneme mapping with prior knowledge
US7870142B2 (en) * 2006-04-04 2011-01-11 Johnson Controls Technology Company Text to grammar enhancements for media files
EP2005319B1 (de) 2006-04-04 2017-01-11 Johnson Controls Technology Company System und verfahren zur extraktion von metadaten aus einer digitalen medienspeicherungsvorrichtung zur medienauswahl in einem fahrzeug
US8073681B2 (en) 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
US7818176B2 (en) * 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
US8140335B2 (en) 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US20090240501A1 (en) * 2008-03-19 2009-09-24 Microsoft Corporation Automatically generating new words for letter-to-sound conversion
US9305548B2 (en) 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8589161B2 (en) 2008-05-27 2013-11-19 Voicebox Technologies, Inc. System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8751230B2 (en) * 2008-06-27 2014-06-10 Koninklijke Philips N.V. Method and device for generating vocabulary entry from acoustic data
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
US9438741B2 (en) * 2009-09-30 2016-09-06 Nuance Communications, Inc. Spoken tags for telecom web platforms in a social network
US9502025B2 (en) 2009-11-10 2016-11-22 Voicebox Technologies Corporation System and method for providing a natural language content dedication service
US9171541B2 (en) 2009-11-10 2015-10-27 Voicebox Technologies Corporation System and method for hybrid processing in a natural language voice services environment
US9275640B2 (en) * 2009-11-24 2016-03-01 Nexidia Inc. Augmented characterization for speech recognition
US20110184723A1 (en) * 2010-01-25 2011-07-28 Microsoft Corporation Phonetic suggestion engine
US8527270B2 (en) 2010-07-30 2013-09-03 Sri International Method and apparatus for conducting an interactive dialogue
US9576570B2 (en) * 2010-07-30 2017-02-21 Sri International Method and apparatus for adding new vocabulary to interactive translation and dialogue systems
US8688435B2 (en) 2010-09-22 2014-04-01 Voice On The Go Inc. Systems and methods for normalizing input media
US9348479B2 (en) 2011-12-08 2016-05-24 Microsoft Technology Licensing, Llc Sentiment aware user interface customization
US9378290B2 (en) 2011-12-20 2016-06-28 Microsoft Technology Licensing, Llc Scenario-adaptive input method editor
CN104428734A (zh) 2012-06-25 2015-03-18 微软公司 输入法编辑器应用平台
US20150199332A1 (en) * 2012-07-20 2015-07-16 Mu Li Browsing history language model for input method editor
US8959109B2 (en) 2012-08-06 2015-02-17 Microsoft Corporation Business intelligent in-document suggestions
US20140067394A1 (en) * 2012-08-28 2014-03-06 King Abdulaziz City For Science And Technology System and method for decoding speech
JP6122499B2 (ja) 2012-08-30 2017-04-26 マイクロソフト テクノロジー ライセンシング,エルエルシー 特徴に基づく候補選択
CN105580004A (zh) 2013-08-09 2016-05-11 微软技术许可有限责任公司 提供语言帮助的输入方法编辑器
US9898459B2 (en) 2014-09-16 2018-02-20 Voicebox Technologies Corporation Integration of domain information into state transitions of a finite state transducer for natural language processing
WO2016044290A1 (en) 2014-09-16 2016-03-24 Kennewick Michael R Voice commerce
EP3207467A4 (de) 2014-10-15 2018-05-23 VoiceBox Technologies Corporation System und verfahren zur bereitstellung nachfolgender reaktionen auf natürliche spracheingaben eines benutzers
US10614799B2 (en) 2014-11-26 2020-04-07 Voicebox Technologies Corporation System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance
US10431214B2 (en) 2014-11-26 2019-10-01 Voicebox Technologies Corporation System and method of determining a domain and/or an action related to a natural language input
US10331784B2 (en) 2016-07-29 2019-06-25 Voicebox Technologies Corporation System and method of disambiguating natural language processing requests
US11043213B2 (en) 2018-12-07 2021-06-22 Soundhound, Inc. System and method for detection and correction of incorrectly pronounced words
US11232786B2 (en) 2019-11-27 2022-01-25 Disney Enterprises, Inc. System and method to improve performance of a speech recognition system by measuring amount of confusion between words
US20220093098A1 (en) * 2020-09-23 2022-03-24 Samsung Electronics Co., Ltd. Electronic apparatus and control method thereof
TWI759003B (zh) * 2020-12-10 2022-03-21 國立成功大學 語音辨識模型的訓練方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4763278A (en) * 1983-04-13 1988-08-09 Texas Instruments Incorporated Speaker-independent word recognizer
US4852170A (en) * 1986-12-18 1989-07-25 R & D Associates Real time computer speech recognition system
US5212730A (en) 1991-07-01 1993-05-18 Texas Instruments Incorporated Voice recognition of proper names using text-derived recognition models
US5850627A (en) * 1992-11-13 1998-12-15 Dragon Systems, Inc. Apparatuses and methods for training and operating speech recognition systems
US5467425A (en) * 1993-02-26 1995-11-14 International Business Machines Corporation Building scalable N-gram language models using maximum likelihood maximum entropy N-gram models
US5623578A (en) * 1993-10-28 1997-04-22 Lucent Technologies Inc. Speech recognition system allows new vocabulary words to be added without requiring spoken samples of the words
CN1130688C (zh) * 1995-05-03 2003-12-10 皇家菲利浦电子有限公司 基于新字建模的语音识别方法和装置
US5680511A (en) * 1995-06-07 1997-10-21 Dragon Systems, Inc. Systems and methods for word recognition
US5852801A (en) * 1995-10-04 1998-12-22 Apple Computer, Inc. Method and apparatus for automatically invoking a new word module for unrecognized user input
US5905773A (en) * 1996-03-28 1999-05-18 Northern Telecom Limited Apparatus and method for reducing speech recognition vocabulary perplexity and dynamically selecting acoustic models
US5933804A (en) 1997-04-10 1999-08-03 Microsoft Corporation Extensible speech recognition system that provides a user with audio feedback
US6490561B1 (en) * 1997-06-25 2002-12-03 Dennis L. Wilson Continuous speech voice transcription
US6076060A (en) * 1998-05-01 2000-06-13 Compaq Computer Corporation Computer method and apparatus for translating text to sound

Also Published As

Publication number Publication date
DE60026637D1 (de) 2006-05-11
US6801893B1 (en) 2004-10-05
ATE320650T1 (de) 2006-04-15

Similar Documents

Publication Publication Date Title
DE60026637T2 (de) Verfahren zur Erweiterung des Wortschatzes eines Spracherkennungssystems
DE69818231T2 (de) Verfahren zum diskriminativen training von spracherkennungsmodellen
DE69327188T2 (de) Einrichtung für automatische Spracherkennung
DE60201262T2 (de) Hierarchische sprachmodelle
DE69923379T2 (de) Nicht-interaktive Registrierung zur Spracherkennung
EP0925578B1 (de) Sprachverarbeitungssystem und verfahren zur sprachverarbeitung
DE69822296T2 (de) Mustererkennungsregistrierung in einem verteilten system
DE602004012909T2 (de) Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text
DE69919842T2 (de) Sprachmodell basierend auf der spracherkennungshistorie
DE69722980T2 (de) Aufzeichnung von Sprachdaten mit Segmenten von akustisch verschiedenen Umgebungen
DE69829235T2 (de) Registrierung für die Spracherkennung
DE69827988T2 (de) Sprachmodelle für die Spracherkennung
DE60115738T2 (de) Sprachmodelle für die Spracherkennung
DE60305568T2 (de) Schlüsselworterkennung in einem Sprachsignal
DE102017124264B4 (de) Computerimplementiertes Verfahren und Rechensystem zum Bestimmen phonetischer Beziehungen
DE19510083C2 (de) Verfahren und Anordnung zur Spracherkennung bei Wortkomposita enthaltenden Sprachen
EP0836175B1 (de) Verfahren und Anordnung zum Ableiten wenigstens einer Folge von Wörtern aus einem Sprachsignal
DE60318385T2 (de) Sprachverarbeitungseinrichtung und -verfahren, aufzeichnungsmedium und programm
DE112006000225B4 (de) Dialogsystem und Dialogsoftware
EP1251489A2 (de) Training von Parametern eines Spracherkennungssystems zur Erkennung von Aussprachevarianten
DE10018134A1 (de) Verfahren und Vorrichtung zum Bestimmen prosodischer Markierungen
EP0987682B1 (de) Verfahren zur Adaption von linguistischen Sprachmodellen
DE19654549C2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE102020215954A1 (de) Dialogsystem und verfahren zum steuern desselben
EP2034472B1 (de) Spracherkennungsverfahren und Spracherkennungsvorrichtung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8320 Willingness to grant licences declared (paragraph 23)
8327 Change in the person/name/address of the patent owner

Owner name: NUANCE COMMUNICATIONS,INC., BURLINGTON, MASS., US

8328 Change in the person/name/address of the agent

Representative=s name: VOSSIUS & PARTNER, 81675 MUENCHEN