-
1. Hintergrund
der Erfindung
-
1.1 Gebiet der Erfindung
-
Die
vorliegende Erfindung bezieht sich im Allgemeinen auf verbesserte
Sprachsysteme. Insbesondere bezieht sich die vorliegende Erfindung
auf ein Verfahren und Mittel für
die Aufnahme neuer Wörter
mit bis dahin unbekannter Schreibweise und Aussprache in den Wortschatz
eines Sprachsystems.
-
1.2 Beschreibung und Nachteile
des Stands der Technik
-
Heutige
Spracherkennungssysteme wie beispielsweise Systeme mit Befehlseingabe
und Steuerung oder auch Diktiersysteme beinhalten üblicherweise
vordefinierte Wortschätze,
die aus Wörtern, deren
Aussprache und einem bestimmten Modell der Verwendung dieser Wörter bestehen,
die durch ein Sprachmodell beschrieben wird. Systeme nach neuestem
Stand der Technik können
mehrere Zehntausend derartiger Einträge enthalten, anhand derer während der
Laufzeit ermittelt wird, was gerade gesagt wird.
-
Unabhängig von
der Größe des Wortschatzes
leiden jedoch alle Systeme darunter, dass sie dem Benutzer lediglich
einen begrenzten, vorgegebenen Wortschatz bieten. Die Tatsache,
dass handelsübliche
Systeme in der Regel lediglich Vollform- Wortschätze enthalten (d.h. die Morphologie der
Sprache wird nicht eigens modelliert), schränkt den tatsächlichen
Umfang heutiger Wortschätze
weiter ein. Dies gilt insbesondere für Sprachen mit ausgeprägter Flexion
wie Französisch,
Deutsch oder auch slawische Sprachen. Um seinen persönlichen Anforderungen
Genüge
zu tun, muss daher nahezu jeder Benutzer diesem Wortschatz seine
eigenen speziellen Begriffe, Namen oder Ausdrücke hinzufügen. Die Fähigkeit, den Grundwortschatz
um spezifische Ausdrücke
zu erweitern, wird so zu einem wichtigen Sachverhalt und zu einer
häufigen
Aktivität
bei der Verwendung von Spracherkennungssystemen. Grundsätzlich müssen die
Sprachwortschätze
als offene oder „lebende" Systeme betrachtet
werden, die in keinem Fall alle möglichen Wörter einer bestimmten Sprache
umfassen können;
technische Beschränkungen
(Speicheranforderungen und Verarbeitungslast) tragen weiter dazu
bei, dass sich dieses Ziels nicht realisieren lässt. Somit bilden die Vorgehensweise
und Qualität
des Prozesses zur Erweiterung eines bestimmten Wortschatzes um neue
Wörter
einen wichtigen Erfolgsfaktor für
Sprachsysteme.
-
Die
Aussprache der Wörter
eines Wortschatzes wird üblicherweise
als phonetische Transkription (in Form von Phonemen, Subphonemen
oder Phonemkombinationen) gespeichert. Für die Aufnahme neuer Wörter in
den Wortschatz müssen
derartige phonetische Transkriptionen (Aussprachen) erzeugt werden,
um so später
diese Wörter
erkennen zu können.
Dabei muss ein Spracherkennungssystem unbedingt angemessene Lautmodelle
entwickeln, da die Erkennungsgenauigkeit in hohem Maße von der Qualität dieser
Modelle abhängt.
Die Erzeugung unzureichender Modelle führt mit hoher Wahrscheinlichkeit
zu einer schlechteren Gesamtleistung und geringeren Erkennungsgenauigkeit
des Systems. Aus diesem Grund kommt jeder Verbesserung von Vorgehensweise
und Qualität
dieses Erweiterungsprozesses große Bedeutung zu.
-
Nach
dem derzeitigen Stand der Technik wird dem System üblicherweise
ein Wort hinzugefügt,
indem der Benutzer das neue Wort eingibt und indem dann aus der
Schreibweise (und in den meisten Fällen einer Klangprobe, d.h.,
der Benutzer spricht das neue Wort aus) ein neues Lautmuster erzeugt
wird, das für
die künftige
Erkennung herangezogen wird. Anhand eines Algorithmus- oder Statistiksystems,
im Allgemeinen auch als Buchstaben-zu-Klang-System (Letter-to-Sound
System, LTS) bezeichnet, erhält
man die wahrscheinlichste(n) Aussprache(n) der Buchstabenfolge,
aus der sich die orthographische Darstellung des Worts zusammensetzt.
Im Allgemeinen bildet ein Buchstaben-zu-Klang-System einzelne Buchstaben
oder Buchstabenkombinationen als eine Folge von Phonemen ab, die
ihrer Aussprache entsprechen. Häufig wird
zur Erzeugung derartiger System ein statistischer Ansatz verwendet.
Ein wichtiges Beispiel hierfür
sind CARTs (Classification And Regression Trees, Klassifizierungs-
und Regressionsbäume).
Die durch ein LTS erzeugten Ergebnisse werden dann mit den vom Benutzer
bereitgestellten Lauten kombiniert, um die tatsächliche(n) Aussprache(n) zu
erzeugen. Eine ausführliche
Beschreibung eines Beispiels, aus dem hervorgeht, wie ein Statistiksystem
für diese
Aufgabe eingesetzt werden kann, findet sich bei J.M. Lucassen und
R.L. Mercer, „An
Information Theoretic Approach to the Automatic Determination of
Phonemic Baseforms",
Proc. of ICASSP-84, 42.5.1 bis 42.5.4, 1982.
-
Ein
weiteres Beispiel eines bekannten erweiterbaren Spracherkennungssystems,
das ein LTS verwendet, wird in der Patentanmeldung WO-A-98/45834
offenbart.
-
Häufig handelt
es sich bei den hinzugefügten Wörtern jedoch
um Wörter
aus einer Fremdsprache, um Kundennamen, Abkürzungen oder technische Fachbegriffe,
die im Allgemeinen nicht unbedingt den Ausspracheregeln der betreffenden
Sprache gehorchen. Dies führt
mit einiger Wahrscheinlichkeit zur Erzeugung mangelhafter Aussprachen,
was wiederum zu häufigen
Erkennungsfehlern bei der Ausführung
des Systems führt
und somit die Gesamtleistung und -qualität des Spracherkennungssystems
beeinträchtigt.
Ausgefeilte Systeme erkennen unter Umständen, dass die (z.B. von dem
Benutzer, der das Wort ausspricht) bereitgestellten Laute nicht
mit den erzeugten und zur Auswahl stehenden Aussprachen übereinstimmen,
und fordern den Benutzer zu einer weiteren Eingabe auf. Da die Benutzer
dieser Systeme in der Regel jedoch keine Phonetikwissenschaftler
oder -fachleute sind, ist es aus Gründen von Nutzbarkeit und Wirksamkeit
wichtig, ihre Beteiligung an der Erzeugung dieser Aussprachen auf
ein Mindestmaß zu
begrenzen.
-
Zur
Unterstützung
dieses Prozesses erlauben einige Systeme die Angabe eines Musters
der klangähnlichen
Schreibweise (Sounds-Like-Spelling, SLS)
(eine Pseudo-Schreibweise des Worts, die dessen Aussprache in der
gegebenen Sprache entspricht, z.B. „eye-triple-ee" für die englische
Aussprache von „IEEE"). Bei diesem Ansatz
obliegt es dem Benutzer festzustellen, ob das hinzuzufügende Wort tatsächlich den
Standardausspracheregeln entspricht, und eine alternative Schreibweise
bereitzustellen, bei der dies der Fall ist. Diese Regeln sind nicht
klar definiert und können
sich sogar innerhalb von Teildomänen
einer Sprache unterscheiden. Bei Benutzern, die entweder mangelnde
Sorgfalt walten lassen, mit der Sprache und/oder Domäne wenig
vertraut oder aber keine Phonetikfachleute sind, stößt dieser
Ansatz schnell an seine Grenzen.
-
Buchstaben-zu-Klang-Systeme
kommen auch bei verschiedenen anderen Anwendungen von Sprachsystemen
zum Einsatz, z.B. bei der Sprachsynthese von Wörtern, die nicht im Grundwortschatz enthalten
sind. Diese Text-zu-Sprache-Synthesesysteme (Text to Speech, TTS)
stehen vor einer ähnlichen
Schwierigkeit wie Spracherkennungssysteme, wenn sie versuchen, die
Aussprache eines Worts zu erzeugen, das sich nicht in ihrem Grundwortschatz befindet.
-
Um
die Dringlichkeit von Verbesserungen auf diesem Gebiet zu verdeutlichen,
wird z.B. auf die Beschreibung der Angie-Struktur (ein Beispiel eines Buchstaben-zu-Klang-Systems)
in der Dissertation von Aarati D. Parmar, MIT 97, A Semi-Automatic System
for the Syllabification and Stress Asignment of Large Lexicons,
verfügbar
unter: http://www.sls.lcs.mit.edu/sls/publications/index.htm verwiesen.
In diesem anhand der TIMIT-Datenbank durchgeführten wissenschaftlichen Versuch
ergab sich bei 10 von 2500 Wörtern
keine korrekte Aussprache aufgrund einer „unüblichen Schreibweise" oder „nicht
eingehaltener Buchstabenregeln".
Dabei beinhaltet diese Testanordnung noch nicht einmal Akronyme
oder Ähnliches,
wie sie im alltäglichen
Geschäftsumfeld
mit hoher Wahrscheinlichkeit anzutreffen sind.
-
1.3 Zielsetzung der Erfindung
-
Die
Erfindung beruht auf der Zielsetzung, ein verbessertes Verfahren
und Mittel für
die Aufnahme neuer Wörter
mit bis dahin unbekannter Schreibweise und Aussprache in einen umfangreichen
Wortschatz eines Sprachsystems bereitzustellen.
-
2. Zusammenfassung
und Vorteile der Erfindung
-
Die
Zielsetzungen der Erfindung werden durch die Nebenansprüche realisiert.
Weitere vorteilhafte Anordnungen und Ausführungsformen der Erfindung
werden in den zugehörigen
Unteransprüchen dargelegt.
-
Die
Erfindung bezieht sich auf ein Computerverfahren für die Aufnahme
eines neuen Worts in einen Wortschatz eines Sprachsystems, wobei
der Wortschatz Wörter
und zugehörige
Lautmuster für eine
Sprache oder Sprachdomäne
umfasst. Im Rahmen eines Ermittlungsschritts für das neue Wort wird ein Regularitätswert ermittelt,
der die Übereinstimmung
mit der Aussprache der Sprache oder Sprachdomäne misst. In einem Vergleichsschritt
wird der Regularitätswert
mit einem Schwellenwert verglichen um zu entscheiden, ob die Übereinstimmung
unzureichend ist. Nur wenn eine unzureichende Übereinstimmung bestätigt wird,
wird ein Aufforderungsschritt ausgeführt, der zusätzliche
Informationen zur Aussprache des neuen Worts anfordert. Schließlich werden
das neue Wort und ein Lautmuster des neuen Worts in einem Erweiterungsschritt
in den Wortschatz aufgenommen.
-
Die
vorliegende Erfindung sieht vor, die Regularität eines vorgeschlagenen Worts
mit Blick auf die Standardaussprache der Sprache automatisch zu ermitteln;
dies mindert die für
den Erweiterungsprozess eines Wortschatzes erforderliche Aufmerksamkeit
und Fachkenntnis auf Seiten des Benutzers. Dabei ist es weder Aufgabe
des Benutzers zu entscheiden, wann zusätzliche Informationen zur Aussprache eines
neuen Wortes in das Sprachsystem aufgenommen werden müssen, noch
werden diese zusätzlichen
Informationen versäumt,
obwohl sie eigentlich benötigt
würden.
Andernfalls würden
in beiden Fällen mangelhafte
Aussprachemodelle geschaffen. Da die Erkennungsgenauigkeit in hohem
Maße von
der Qualität
dieser Modelle abhängt,
führt die
vorgeschlagene Lehre zu einer verbesserten Gesamtleistung und zu
einer höheren
Erkennungsgenauigkeit des Sprachsystems. Die Qualität der erzeugten
Aussprachen von Sprachsystemen wird verbessert.
-
Da
eine Benutzerbeteiligung in Form einer Aufforderung zur Eingabe
zusätzlicher
Ausspracheinformationen auf ein Mindestmaß begrenzt wird, kann außerdem die
Benutzeroberfläche
einfacher gehalten werden, und der Benutzer muss nicht unnötiger Komplexität ausgesetzt
werden. Da für
Wörter, die
vermutlich einer Standardaussprache entsprechen, keine weiteren
Maßnahmen
erforderlich sind, ergeben sich wertvolle Zeiteinsparungen. Für typische
Kunden, die Spracherkennungssysteme nutzen, wie beispielsweise Anwälte und Ärzte, ist
dies ein wichtiges Verkaufsargument.
-
Die
vorliegende Lehre ist von der Natur der Sache her sprach- und domänenunabhängig und kann
somit ohne weitere Erweiterung auf eine Vielzahl verschiedener Sprachen
angewendet werden. Diese Eigenschaft ist besonders vorteilhaft angesichts
der großen
Zahl unterschiedlicher Sprachen und Sprachdomänen, die alle mit einem einzigen
Lösungsansatz
unterstützt
werden können.
-
Schließlich führt die
geringere Anzahl von Fehlern bei der Aufnahme neuer Wörter in
einen Wortschatz auch zu einer geringeren Benutzerfrustration und
zu einer verbesserten Wahrnehmung der Nutzbarkeit des Systems.
-
3. Kurze Beschreibung
der Zeichnungen
-
1 zeigt
den Prozess der Aufnahme eines neuen Worts mit einer bis dahin unbekannten Schreibweise
und Aussprache in den Wortschatz eines Spracherkennungssystems gemäß dem momentanen
Stand der Technik.
-
2 stellt
den Prozess der Schaffung eines Sprachmodells dar, das die Grundlage
für die
Ermittlung des Regularitätswertes
eines neuen Worts bildet, welches in den Wortschatz aufgenommen
werden soll. Darüber
hinaus wird dargestellt, an welcher Stelle des Gesamtprozesses die
Ermittlung des Schwellenwerts erfolgt.
-
3 zeigt
einen typischen Satz von Perplexitätswertverteilungen über einen
umfangreichen Satz von Proben hinweg. Wie daraus deutlich wird, läuft die
Kurve mit zunehmender Perplexität
flach aus. Gemäß der vorliegenden
Erfindung definiert dies den Bereich, der sich am besten für die Festlegung
des Schwellenwerts eignet, auf dem dieser Ansatz beruht.
-
4 zeigt
im Gegensatz zu 1 den Prozess der Aufnahme eines
neuen Worts mit bis dahin unbekannter Schreibweise und Aussprache
in den Wortschatz eines Spracherkennungssystems gemäß der vorliegenden
Erfindung.
-
4. Beschreibung
der bevorzugten Ausführungsform
-
In
den Zeichnungen und in der Beschreibung wird eine bevorzugte Ausführungsform
der Erfindung dargelegt, wobei trotz der Verwendung spezifischer Begriffe
die dadurch gegebene Beschreibung eine Terminologie verwendet, die
lediglich in einem allgemeinen und beschreibenden Sinne und keinesfalls als
Beschränkung
des Geltungsumfangs zu verstehen ist.
-
Die
vorliegende Erfindung verwendet den Begriff „Sprachsystem" in seiner allgemeinsten
Bedeutung, die sowohl Spracherkennungssysteme als auch Sprachsynthesesysteme
umfasst.
-
4.1 Einleitung
-
Ein
Beispiel für
ein oben beschriebenes Spracherkennungssystem, das die Erweiterung
und Anpassung seines Wortschatzes durch die Aufnahme neuer Wörter vorsieht,
ist die Viavoice-Produktreihe von IBM (z.B. die ViaVoice 98 Executive,
Home oder Office Edition). 1 zeigt
beispielhaft den Prozess der Aufnahme eines neuen Worts in den Wortschatz
eines Spracherkennungssystems gemäß dem momentanen Stand der
Technik.
-
Bei
diesen Systemen beinhaltet der Prozess der Aufnahme eines neuen
Worts die Schritte des Erhaltens der neuen Schreibweise (101)
sowie der Lautinformationen zur Aussprache dieser Schreibweise (102)
von dem Benutzer. Diese Klangprobe wird dann gemeinsam mit einem
Statistiksystem (103) – im
vorliegenden Beispiel ein LTS-System – zur Abbildung von Buchstaben
auf Phonemfolgen verwendet, um so letztlich eine phonetische Darstellung
des neu aufgenommenen Worts zu erzeugen. Das bei diesem Prozess
verwendete Statistiksystem wurde erhalten, indem es anhand einer
vordefinierten umfangreichen Wortmenge, die den allgemeinen Ausspracheregeln der
Sprache entspricht, trainiert wurde. Im Allgemeinen erbringt es
bei regelgerecht ausgesprochenen Wörtern der Sprache sehr gute
Ergebnisse.
-
Einige
Wörter
entsprechen jedoch nicht der Standardaussprache einer Sprache. Dies
gilt insbesondere für
Fremdwörter,
aus einer Fremdsprache abgeleitete Wörter, Akronyme, Abkürzungen
und Eigennamen. Der Prozess der Wortschatzerweiterung des ViaVoice-Produkts
gestattet in diesen Fällen
die Definition einer klangähnlichen
Schreibweise (Sound-like-Spelling, 104), einer Pseudo-Schreibweise,
die angibt, wie ein Wort in Wirklichkeit ausgesprochen werden soll,
und die anstelle der Schreibweise (101) verwendet wird.
Im Allgemeinen ist eine klangähnliche
Schreibweise eine Pseudo-Schreibweise, welche die Aussprache einer
anderen Schreibweise beschreibt. Für ein Akronym wie „IEEE" kann dies im Englischen
z.B. „eye-tripple-ee" lauten. Die klangähnliche
Schreibweise ist das Verbindungsglied zwischen der tatsächlichen
Schreibweise und der Aussprache. Eine gute klangähnliche Aussprache ist der
Schlüssel
für die
Erzeugung der richtigen Aussprache von Wörtern mit von der Regel abweichender
Schreibweise. Ihr Vorhandensein ist von grundlegender Bedeutung
für die
Entwicklung eines geeigneten Aussprachemodells. Ausgehend von der
Ausgabe, die von dem Statistiksystems (103) (aus der Schreibweise
(101) oder dem Muster der klangähnlichen Schreibweise (104))
erzeugt wurde, und der Aussprache des neuen Worts (102)
durch den Benutzer, wird eine phonetische Darstellung des neuen
Worts erzeugt (105) und schließlich in den Wortschatz aufgenommen
(106).
-
Wann
genau eine derartige klangähnliche Schreibweise
jedoch notwendig ist, wird dem Benutzer überlassen. Wenn auf sie verzichtet
wird, obwohl sie eigentlich notwendig wäre, werden unter Umständen mangelhafte
Aussprachemodelle erzeugt. Wenn sie bereitgestellt wird, ohne dass
hierfür
eine Notwendigkeit besteht, bedeutet dies zusätzlichen Aufwand für den Benutzer.
Wenn sie nicht benötigt
wird, kann außerdem
auch die Benutzeroberfläche
einfacher gehalten sein, und der Benutzer muss nicht unnötiger Komplexität ausgesetzt
werden. Wenn kein Mechanismus bereitgestellt wird, der als Hilfestellung bei
dieser Aufgabe dient, muss der Benutzer allein entscheiden, ob das
hinzuzufügende
Wort tatsächlich
den Standardausspracheregeln entspricht, und gegebenenfalls eine
alternative Schreibweise bereitstellen, bei der dies der Fall ist.
Diese Regeln sind nicht klar definiert und können sich sogar innerhalb von
Teildomänen
einer Sprache unterscheiden. Bei Benutzern, die entweder die erforderliche
Sorgfalt vermissen lassen, mit der Sprache und/oder Domäne wenig
vertraut oder keine Phonetikfachleute sind, d.h. bei der Mehrheit
aller Benutzer von Spracherkennungssystemen, stößt dieser Ansatz schnell an seine
Grenzen.
-
4.2 Die Problemlösung auf
Grundlage des Regularitätsmesswertes
-
Die
vorliegende Lehre legt ein Verfahren dar, mit dem die Anwendbarkeit
eines Statistiksystems (wie beispielsweise ein LTS-System) bewertet
werden kann, wenn neue Wörter
in einen umfangreichen Wortschatz eines Sprachsystems wie z.B. eines Spracherkennungssystems
aufgenommen werden. Genauer gesagt, wird eine Lösung vorgeschlagen, mit der
die Erfolgsaussichten eines Buchstaben-zu-Klang-Statistiksystems
bei der Aufnahme bis dahin unbekannter Schreibweisen in den Wortschatz eines
Sprachsystems abgeschätzt
werden können.
-
Der
Grundgedanke der vorliegenden Erfindung besteht in der Verwendung
eines Kriteriums, das ausgehend von der Schreibweise des hinzuzufügenden Worts
berechnet wird, um zu ermitteln, ob das Wort vermutlich den Standardausspracheregeln der
betreffenden Sprache entspricht, bzw. genauer gesagt, ob es vermutlich
den Standardausspracheregeln aller Wörter entspricht, die für die Erzeugung des
Statistiksystems des Sprachsystems verwendet wurden. Anders ausgedrückt, man
könnte
auch sagen, dass das Kriterium die Frage „Sieht dieses Wort bekannt
bzw. wie etwas aus, das für
die Erzeugung dieses Sprachsystems verwendet wurde?" beantwortet. Bei
einer bejahenden Antwort geht die vorgeschlagene Lehre davon aus,
dass die Aussichten für die
Erzeugung eines angemessenen Aussprachemodells für das Wort gut sind, da dieses
der Art von Wörtern
entspricht, mit denen das Statistiksystem des Sprachsystems ursprünglich trainiert
wurde. Nur wenn das Kriterium auf eine größere Abweichung der vermuteten
Aussprache von den bekannten Standardregeln hinweist, muss ein anderes
Verfahren für die
Aufnahme des Worts in den Wortschatz des Sprachsystems verwendet
werden. Als bevorzugtes Verfahren sieht die Erfindung vor (ohne
darauf beschränkt
zu sein), dass der Benutzer zur Bereitstellung eines Musters der
klangähnlichen
Schreibweise aufgefordert wird. In diesem Fall stellt die automatische
Ermittlung der Notwendigkeit einer Aufforderung zur Eingabe zusätzlicher
Informationen zur Aussprache eines neuen Worts (z.B. durch ein Muster der
klangähnlichen
Schreibweise) eine große
Hilfe für
den Benutzer dar. Die praktische Nutzung einer derartigen Maßnahme hat
sich als Schlüssel
zur Erzeugung guter Aussprachen erweisen, ohne den Benutzer dabei
mit unangemessen aufwändigen
Aufgaben zu belasten (z.B. ihn immer zur Bereitstellung eines derartigen
Musters der klangähnlichen
Schreibweise aufzufordern).
-
Da
sich die Erfolgsaussichten des Buchstaben-zu-Klang-Systems mit der
vorliegenden Lehre abschätzen
lassen, können
bei einer nicht den Regeln entsprechenden Schreibweise, genauer
gesagt, bei einer Abweichung zwischen Schreibweise und Aussprache,
die notwendigen Maßnahmen
ergriffen werden. Diese Eigenschaft kann auch auf der Ebene der
Benutzeroberfläche
genutzt werden, indem ein Dialogfeld bereitgestellt wird, in das
der Benutzer das neue Wort eingeben kann. Sie kann außerdem einfach
gehalten werden, wenn eine den Regeln entsprechende Schreibweise
festgestellt wurde. Wenn eine von den Regeln abweichende Schreibweise festgestellt
wird, wird die Bereitstellung einer anderen Benutzeroberfläche vorgeschlagen,
die den Benutzer zur Eingabe eines Musters der klangähnlichen Schreibweise
z.B. gemeinsam mit weiteren Erläuterungen
auffordert; als weitere Möglichkeiten
könnten auch
(Klang-)Proben bereitgestellt
werden. Dabei besteht der grundlegende Ansatz der vorliegenden Lehre
jedoch darin, dass ein Benutzer dieser komplexeren Art der Aufnahme
eines neuen Worts in den Wortschatz nicht ausgesetzt wird, solange
dies – wie durch
das oben erwähnte
Kriterium angezeigt – nicht wirklich
notwendig ist.
-
Ziel
der vorliegenden Erfindung ist die Bereitstellung eines Messwerts,
anhand dessen vorhergesagt werden kann, ob und wann es notwendig
ist, bei der Aufnahme eines neuen Worts in einen Wortschatz zusätzliche
Informationen zur Aussprache wie beispielsweise eine klangähnliche
Schreibweise bereitzustellen. Dabei geht die Lehre von der Beobachtung
aus, dass Wörter,
die im Allgemeinen nicht den Ausspracheregeln einer Sprache oder
Domäne
folgen, mit einiger Wahrscheinlich für eine derartige Aktion in
Frage kommen. Die Erfindung entwickelt und verwendet aus diesem
Grund ein Modell zur Berechnung eines derartigen Regularitätsmesswertes
und schlägt
vor, wie die sich daraus ergebenden Informationen während des
laufenden Prozesses der Erweiterung eines Wortschatzes verwendet
werden können.
Falls das Regularitätsmodell
den Regeln entsprechende Schreibweisen feststellt, fordert es den Benutzer
nicht zur Eingabe zusätzliche
Informationen auf und spart somit einen zusätzlichen Prozessschritt. Schreibweisen,
die als nicht regelgerecht eingestuft werden, werden anders behandelt,
indem der Benutzer sofort zur Eingabe zusätzliche Informationen aufgefordert
wird, bei denen es sich bevorzugt um ein Muster der klangähnlichen
Schreibweise handelt.
-
Das
System erfasst automatisch, ob die Schreibweise mit seinem Modell
der Rechtschreibregularität übereinstimmt.
Hierfür
wird, in Übereinstimmung
mit einem zuvor berechneten statistischen Rechtschreibsprachmodell
(Language Model, LM), für
die neue Schreibweise eine Bewertung berechnet. Die Bewertung wird
mit einem zuvor festgelegten Schwellenwert verglichen, der für eine Datenmenge ermittelt
wurde, die bei der Entwicklung des tatsächlichen Modells nicht berücksichtigt
wurde. Wenn der Schwellenwert nicht eingehalten wird, wird eine
klangähnliche
Schreibweise für
notwendig erachtet. Diese Informationen werden an den Benutzer weitergeleitet,
der aufgefordert/veranlasst wird, die Pseudo-Schreibweise bereitzustellen.
Ohne diesen Mechanismus gibt es keinen Hinweis darauf, wann eine solche
Vorgehensweise hilfreich ist bzw. wann sie sogar die einzige Art
und Weise zur Aufnahme eines neuen Worts darstellt. Eine derartige
Pseudo-Schreibweise
stets zu erfordern, würde
andererseits jedoch zusätzlichen
Aufwand für
den Benutzer bedeuten und sollte daher nur als letztes Mittel betrachtet
werden.
-
Als
bevorzugte Realisierung des Regularitätsmesswertes wird vorgeschlagen,
die Perplexität der
orthografischen Darstellung eines Worts mit Bezug auf ein Sprachmodell
mit N Wörtern
zu berechnen. Perplexität
ist ein informationstheoretischer Fachausdruck, der sich auf die
durchschnittliche Anzahl von Entscheidungen bezieht, die getroffen
werden müssen
(d.h. die Binärfragen,
die gestellt werden müssen),
um während
des Erkennungsprozesses die Aussprache eines Buchstabens zu ermitteln.
Informell kann die Perplexität
als die durchschnittliche Anzahl der nachfolgenden Zeichen betrachtet
werden, aus der ein zeichenbasiertes N-Gram-Sprachmodell unter Berücksichtigung
der zu diesem Zeitpunkt gegebenen Zeichenhistorie möglicherweise
wählen muss.
Formell ist die Perplexität
der Kehrwert des geometrischen Durchschnitts der Wahrscheinlichkeitswerte
für eine
hypothetisierte Zeichenfolge. Die Perplexität wird als Zahlenwert ausgedrückt und
gibt an, wie viele andere Buchstaben auf einen bestimmten Kontext
bestehend aus einer Folge von Zeichen wahrscheinlich folgen werden.
-
So
könnten
auf den Kontext „interna" mit einiger Wahrscheinlichkeit
die Zeichen „t" („international") oder „1" („internal") folgen. Von den übrigen 254 ASCII-Zeichen
weist keines eine hohe Wahrscheinlichkeit auf. Ohne ein Sprachmodell
wäre die
Perplexität
gleich der Größe des Alphabets
(d.h. 256 bei einem Rechtschreibwortschatz des ASCII-Zeichensatzes).
Das Sprachmodell führt
zu einer deutlichen Verringerung der Perplexität, da es die wahrscheinlichen Buchstabenkombinationen
kennt, ohne dabei die Verwendung von Zeichenkombinationen zu verhindern,
die ihm noch unbekannt sind.
-
Ein
Rechtschreibsprachmodell enthält
eine Zusammenstellung der Wahrscheinlichkeiten, mit denen ein Buchstabe
auf einen anderen folgt. Ohne ein derartiges Modell ist die Wahrscheinlichkeit,
dass ein bestimmter Buchstabe auf einen anderen folgt, für alle Zeichen
des Alphabets gleich hoch. Ein Sprachmodell wie beispielsweise ein
N-Gram-Modell hat die Berechnung von Pr(S) zur Aufgabe, der A-Priori-Wahrscheinlichkeit
einer Zeichenfolge S in einer gegebenen Sprache. Theoretisch wäre es wünschenswert,
ein neues Zeichen aus einer unendlich langen Historie von Vorgängerzeichen
vorhersagen zu können.
In der Praxis wären
diese Wahrscheinlichkeiten jedoch unmöglich zu berechnen. Daher besteht
ein üblicher
Ansatz darin, durch ein Modell, das alle vergangenen Historien auf
den gleichen Zustand abbildet, einen Näherungswert für alle Historien
zu erhalten. Somit lautet die Annahme, dass das Auftreten eines
Zeichens C vollständig
durch die vorangegangenen N Zeichen bestimmt wird. Tri-Gram-Modelle
verwenden beispielsweise die beiden vorangegangenen Zeichen, um
das aktuelle Zeichen vorherzusagen. Da die Tri-Gram-Häufigkeiten jedoch unter Umständen nicht
oft genug auftreten, um eine zufrieden stellende Vorhersage zu ermöglichen,
wird das Tri-Gram-Modell häufig
mit Modellen einer niedrigeren Ebene kombiniert, welche die Bi-
und Uni-Gram-Wahrscheinlichkeiten
vorhersagen.
-
Somit
wird gemäß dem vorgeschlagenen leistungsfähigen Kriterium
ein Regularitätswert
ermittelt, indem das Statistikmodell der tatsächlichen Sprache angewendet
wird, das die Übereinstimmung der
vorgeschlagenen Schreibweise mit einer großen Menge von regelgerechten
Wörtern
der Sprache berechnet. So können
z.B. für
ein Sprachmodell mit drei Buchstaben (oder allgemein mit N Buchstaben),
das mit einer derart großen
Menge trainiert wurde, Glättungsfaktoren
(Gewichtungen) verwendet werden (wobei bei diesem Modell tatsächlich Tri-Gram-, Bi-Gram- und Uni-Gram-Buchstabenfolgen
verwendet werden), um den Einfluss eines jeden dieser drei Teilmodelle
zu steuern. Die Glättungsfaktoren
können
durch Verfahren erzeugt werden, die nach dem Stand der Technik hinreichend
bekannt sind. Als Kriterium wird die berechnete Perplexität der vorgeschlagenen
Schreibweise mit Bezug auf dieses Sprachmodell mit einem Schwellenwert
verglichen, um so zu entscheiden, ob eine ausreichende Übereinstimmung
mit der Aussprache der Sprache oder Sprachdomäne gegeben ist.
-
Die
vorgeschlagene Kombination eines statistischen Sprachmodells, wie
z.B. eines drei Buchstaben umfassenden Modells für die Buchstabenhäufigkeit,
mit dem Prozess für
die Erzeugung einer klangähnlichen
Schreibweise führt
sowohl bei der Leistung als auch bei der Nutzbarkeit zu Verbesserungen – zwei der
wichtigsten Faktoren, die über
den Erfolg oder Misserfolg eines Sprachsystems entscheiden.
-
4.3 Sprachmodell für den Regularitätsmesswert
und die Ermittlung des Schwellenwerts
-
Mit
Blick auf 2 wird im Folgenden der Prozess
der Erzeugung eines Rechtschreibsprachmodells beschrieben, das die
Grundlage für
die Ermittlung des Regularitätswertes
eines neuen Worts bildet, das in den Wortschatz aufgenommen werden soll.
- 1. Der Prozess beginnt mit der Erfassung einer umfangreichen
Menge von Wörtern
(201), bei denen davon ausgegangen wird, dass sie den „normalen" Regeln für die Aussprache
der bestimmten Sprache entsprechen. Ausgenommen sind insbesondere
Akronyme („IBM", „IEEE" usw.), aus einer
Fremdsprache übernommene
Wörter
(im Englischen z.B. „rendez-vous", „Gestalt" usw.), Abkürzungen
(„Mr", „Mrs", „usw." usw.) und Ähnliches.
- 2. Für
diese Wortmenge wird gemäß dem Stand der
Technik ein Statistikmodell der in diesen Wörtern vorhandenen Wortfolge
erzeugt. Eine bevorzugte Ausführungsform
besteht aus einem drei Buchstaben umfassenden Sprachmodell (allgemein
könnte
auch ein Sprachmodell mit N Buchstaben verwendet werden), das berechnet
wird, indem gezählt
wird, wie oft Buchstaben und Buchstabenkombinationen in der Wortmenge
vorkommen.
- i. Dieses Modell zählt
die Häufigkeit
des Auftretens von einem, zwei und drei Buchstaben und verwendet
diese als Näherungswert
für die
Wahrscheinlichkeit, mit der derartige Buchstabenfolgen auftreten.
Aufbau und Funktionsweise von N-Gram-Modellen sind nach dem Stand
der Technik bekannt.
- ii. Die Gesamtwahrscheinlichkeit einer Folge von drei Buchstaben
wird als eine lineare Kombination der Wahrscheinlichkeit für das Auftreten
von einem, zwei und drei Buchstaben berechnet, wobei ein zusätzlicher
Versatz vorgesehen wird, um für nie
beobachtete Buchstabenfolgen eine Wahrscheinlichkeit von Null zu
ergeben.
- iii. Die Koeffizienten der linearen Kombination können geschätzt werden,
indem die Leistung des Modells für
eine bestimmte, zunächst
nicht berücksichtigte
Wortmenge (204) optimiert wird. Ein dem Stand der Technik
entsprechender Ansatz für diesen
Prozess kann den Ausführungen
von F. Jelinek und R.L. Mercer in „Interpolated estimation of
Markow Source Paramaters from Sparse Data", Proc. of the workshop on Pattern Recognition
in Practice", North-Holland
Publishing Company, 1980, entnommen werden.
- 3. Der Schwellenwert für
die Regularität
wird wie folgt geschätzt:
- i. Eine Testwortmenge (204) bestehend aus neuen Wörtern (die
beim Training oder der Feinabstimmung des Sprachmodells nicht verwendet wurden)
wird erstellt (203). Diese Testwortmenge sollte sowohl
den Regeln entsprechende Wörter als
auch „Sonderwörter" wie Akronyme, Abkürzungen,
aus Fremdsprachen übernommene
Wörter
usw. enthalten.
- ii. Für
jedes Wort der Testwortmenge wird die gemäß dem Modell eine Regularitätsbewertung
vorgenommen (205). So wird beispielsweise für ein drei
Buchstaben umfassendes Modell die Perplexität eines jeden Worts gemäß dem Modell
berechnet.
- iii. Die Wörter
der Testwortmenge werden nach ihrer Bewertung geordnet (d.h. nach
der Perplexität gemäß dem Modell)
und ergeben so eine Häufigkeitsverteilung,
die für
jeden Regularitätswert
die zugehörige
Anzahl der Wörter
wiedergibt.
- iv. Diese Häufigkeitsverteilung
legt eine Rangfolge fest, mit der ein Schwellenwert ermittelt werden
kann, bei dessen Überschreitung
eine klangähnliche
Schreibweise als erforderlich erachtet wird, wenn ein neues Wort
hinzugefügt
wird (206).
-
Die
Ermittlung des Schwellenwerts beruht auf den folgenden Grundsätzen:
Bei
Annahme einer repräsentativen
Testprobe von Schreibweisen weisen die regelgerechten Schreibweisen
mit Blick auf ihre Perplexitätswerte
eine Normalverteilung gemäß dem erzeugten
Modell auf. Im Allgemeinen ergeben sie jedoch niedrigere Perplexitätswerte
als die nicht den Regeln entsprechenden Schreibweisen. Mit der in
Schritt 3 des obigen Verfahrens erhaltenen kombinierten Verteilung
soll der Perplexitätswert
ermittelt werden, der eine optimalen Trennung der nicht regelgerechten
Schreibweisen von den regelgerechten Schreibweisen erzielt. Die Sichtprüfung der
Häufigkeitsverteilung
und die manuelle Auswahl eines Schwellenwerts zu Testzwecken haben
ergeben, dass die Auswahl eines Werts in dem Bereich, in dem die
Verteilungskurve mit steigenden Perplexitätswerten flach ausläuft, in
der Regel gute Ergebnisse zeitigt. Daher wird als allgemeiner Ansatz
vorgeschlagen, die Regularitätswerte
aller Testwörter
einer Testwortmenge zu ermitteln. Anhand dieser Werte wird dann
die Häufigkeitsverteilung
der Regularitätswerte
erzeugt. Ausgehend von der Häufigkeitsverteilung
kann ein Regularitätsbezugswert
als das relative Maximum abgeleitet werden, das der geringsten Regelübereinstimmung
(d.h. dem höchste
Perplexitätswert)
entspricht. Testanordnungen haben gezeigt, dass die Auswahl eines Werts
mit einer geringeren Übereinstimmung
(d.h. einer größeren Perplexität) als der
Regularitätsbezugswert
als Schwellenwert im Allgemeinen gute Ergebnisse erbringt. Selbstverständlich kann
ein Systementwickler einen Schwellenwert auf Grundlage seiner Erfahrung
und persönlichen
Einschätzung
so anpassen, dass weder zu häufig
ein falscher Alarm bei regelgerechten Schreibweisen ausgelöst wird
noch zu viele nicht den Regeln entsprechende Schreibweisen unerkannt
bleiben.
-
Dieser
Fall wird in 3 dargestellt, die einen typischen
Satz von Perplexitätswertverteilungen für einen
umfangreichen Probensatz zeigt, der auf den Perplexitätsmessungen
für einen
Datensatz in französischer
Sprache beruht, wobei ein drei Buchstaben umfassendes Sprachmodell
(LM) zum Einsatz kommt. Im Bereich eines Perplexitätswertes
von 30 zeigt die Häufigkeitsverteilung
ein relatives Maximum. Wie zu sehen ist, läuft die Kurve mit zunehmender
Perplexität
flach aus. Gemäß der vorliegenden
Erfindung definiert dies den Bereich, der sich am besten für die Festlegung
des Schwellenwerts eignet, auf dem dieser Ansatz beruht; d.h., Schwellenwerte,
die größer als
das relative Maximum sind, eignen sich für die Trennung der nicht regelgerechten von
den regelgerechten Schreibweisen.
-
4.4 Hinzufügen eines
neuen Worts während
der Laufzeit
-
4 zeigt
im Vergleich zu 1 den Prozess der Aufnahme eines
neuen Worts mit bis dahin unbekannter Schreibweise und Aussprache
in den Wortschatz eines Spracherkennungssystems gemäß der vorliegenden
Erfindung.
-
Wenn
der Benutzer versucht, ein neues Wort hinzuzufügen, werden während der
Laufzeit die folgenden Schritte ausgeführt:
- 1.
Für das
neue Wort wird ein Übereinstimmungswert – sein Regularitätswert – der Wortschreibung mit
Blick auf das Modell berechnet (401). Im Falle des drei
Buchstaben umfassenden Modells wird dieser Wert als die Perplexität der orthographischen
Darstellung des Worts berechnet.
- 2. Wenn die Perplexität über dem
oben ermittelten Schwellenwert liegt und somit auf eine unzureichende
Regelübereinstimmung
(402) hinsichtlich der Aussprache der Sprache (Domäne) hinweist, wird
dem Benutzer mitgeteilt, dass dieses Wort vermutlich nicht den üblichen
Ausspracheregeln folgt, und er erhält die Möglichkeit, eine klangähnliche
Schreibweise einzugeben, die dies tut (403). Die klangähnliche
Schreibweise wird dann zur Erzeugung der phonetischen Darstellung
verwendet.
-
4.5 Beispiel
-
Zunächst soll
angenommen werden, dass ein Benutzer z.B. das Wort „IEEE" in den Wortschatz aufnehmen
möchte,
da dieses noch nicht Bestandteil des vordefinierten Satzes von Wörtern ist.
Seine tatsächliche
Aussprache „eye-triple-e" weicht beträchtlich
von der Art und Weise ab, wie das Wort bei einer den Regeln entsprechenden
Aussprache der Buchstabenfolge ausgesprochen werden würde. Wenn die
statistische Abbildung des Buchstaben-zu-Klang-Systems und die Lautäußerung des Benutzers
ohne weitere Prüfung
verwendet würden, ergäbe sich
unter Umständen
eine phonetische Darstellung, die mit dem englischen Vokal „i", gefolgt von einem
lang ausgesprochenen Vokal „e" beginnen würde. Abhängig von
der Klangqualität
beim Aufnahmeprozess und der Qualität der Abstimmungseinheit könnte diese
Aussprache unter Umständen
sogar eine Gültigkeitsprüfung erfolgreich
durchlaufen und damit in den Benutzerwortschatz eingehen. In diesem
Fall würde
sie nicht nur fast nie erkannt werden, wenn sie von dem Benutzer
ausgesprochen wird, sondern sie würde sich auch nachteilig auf
den gesamten Erkennungsprozess auswirken, indem sie an den falschen
Stellen erkannt werden würde,
da das fehlerhafte Modell an anderen, unerwünschten Stellen durchaus eine
gute Übereinstimmung
erbringen könnte.
Mit dem vorgeschlagenen Verfahren für die Bewertung des Regularitätswertes
der Schreibweise kann das System den Benutzer dagegen auffordern, eine
klangähnliche
Schreibweise für
das tatsächliche Wort
bereitzustellen. Diese kann dann (nachdem überprüft wurde, ob sie den Regeln
der Standardaussprache folgt) gefahrlos dazu verwendet werden, ein angemessenes
Modell der Aussprache zu erzeugen.
-
4.6 Weitere Erweiterungen
-
Die
oben dargelegte Lehre kann darüber
hinaus in verschiedene Richtungen erweitert werden:
Im obigen
Szenario wird in erster Linie die Anwendung der Erfindung auf eine
bestimmte natürliche Sprache
beschrieben. Dabei eignet sich das Modell jedoch offensichtlich
auch für
einen beliebigen Teilsatz einer Sprache oder Sprachdomäne. Wenn
das Spracherkennungssystem z.B. für eine spezielle Domäne ausgelegt
werden würde,
könnten
Wörter,
die nicht zu dieser bestimmten Domäne (jedoch durchaus zu der
betreffenden Sprache) gehören
würden, erkannt
werden, und bei ihrer Aufnahme in den Wortschatz könnten die
geeigneten Maßnahmen
ergriffen werden. Somit lässt
sich die Erfindung durch diese Erweiterung auf eine Vielzahl von
Sprachdomänen anwenden.
-
Wenn
der Vergleich des Regularitätswertes mit
dem Schwellenwert eine mangelnde Übereinstimmung mit der Standardaussprache
ergibt, beschränkt
sich die Aufforderung zur Eingabe zusätzlicher Informationen zur
Aussprache des Worts nicht auf ein Muster der klangähnlichen
Schreibweise. Die Erfindung erlaubt vielmehr die Erfassung nahezu
jeder Art von zusätzlichen
Informationen zur Aussprache, wodurch die Aussprachezuverlässigkeit
erhöht wird.
So kann das Sprachsystem den Benutzer sogar zur Bereitstellung einer
zusätzlichen
und direkten Lauteingabe auffordern.
-
Als
weitere Erweiterung kann anstelle eines einzigen Schwellenwerts
alternativ auch ein Satz von Schwellenwerten verwendet werden, um
zu entscheiden, ob das neue Wort vermutlich den Standardausspracheregeln
der betreffenden Sprache folgt. So könnte ein erster Schwellenwert
wie oben beschrieben dazu dienen, Wörter zu erkennen, die den Regeln
sehr genau entsprechen und mit Sicherheit keine Modifizierungen
benötigen.
Ein zweiter Schwellenwert (für
eine geringere Übereinstimmung mit
der Standardaussprache) könnte
angeben, dass auf jeden Fall zusätzliche
Maßnahmen
wie eine klangähnliche
Schreibweise notwendig sind. Wörter
mit einer Bewertung zwischen diesen beiden Schwellenwerten könnten anhand
automatischer Modifizierungen der Schreibweise verarbeitet werden.
Eine mögliche
Ausführungsform
könnte
einen Satz von Übereinstimmungsregeln
anwenden, mit denen die Schreibweise in eine stärker den Regeln entsprechende
Schreibweise umgeformt werden könnte.
Die Regeln könnten
vorgefertigt sein und dazu dienen, typische problematische Buchstabenkombinationen wie
z.B. bestimmte bekannte Endungen fremdsprachlicher Wörter zu
modellieren.
-
Indem
der Verlauf der Perplexitätsbewertung (oder
analog der log-Wahrscheinlichkeit) für das Wort beobachtet wird,
können
die problematischen Buchstabenfolgen möglicherweise ermittelt werden.
Bei einer weiteren Ausführungsform
der vorliegenden Erfindung kann anhand dieser Informationen das
Augenmerk des Benutzers gezielt auf den Teil des neuen Worts gelenkt
werden, der das Problem verursacht. Dieser Teil des Wortes muss
dann anders behandelt werden, z.B. durch Verwendung einer klangähnlichen
Schreibweise zur Beschreibung seiner Aussprache. Genauer gesagt,
die Bewertung kann auch während
der Eingabe des neuen Worts dynamisch erfolgen. Bei Entdeckung einer
Unregelmäßigkeit
kann sofort darauf reagiert werden, indem z.B. der Benutzer zur
Eingabe einer alternativen Beschreibung aufgefordert wird.
-
Da
die Abbildung von Buchstaben auf Laute eine der zentralen Aktivitäten eines
jeden Text-zu-Sprache-Systems darstellt, kann das vorgeschlagene
Bewertungsmodell selbstverständlich auch
zur Erkennung von nicht den Regeln entsprechenden Schreibwesen verwendet
werden, wenn diese dem TTS-System vorgelegt werden. Auf diese Weise
kann das TTS-System je nach Art des übertragenen Worts verschiedene
Strategien anwenden. Wenn mehrere Systeme zur Verfügung stehen,
kann anhand der berechneten Bewertung ermittelt werden, welches
System ausgewählt
werden sollte.
-
Bisher
wurde als Messwert zur Bestimmung der Regularität die Perplexität bezüglich des
Sprachmodells herangezogen. Allerdings können auch andere zugehörige Messwerte
wie die „log-Wahrscheinlichkeit" für eine derartige
Modellierung verwendet werden. (Perplexität und log-Wahrscheinlichkeit
können
als zwei Seiten derselben Medaille betrachtet werden, die einander
ergänzende
Aspekte messen. Dabei misst die log-Wahrscheinlichkeit die gewichtete Durchschnittswahrscheinlichkeit
der in einem Wort vorkommenden Buchstabenkombinationen, während die
Entropie die durchschnittliche Unsicherheit misst, mit der die Buchstabenfolgen
auftreten. Anders ausgedrückt,
der vorgeschlagene Regularitätsmesswert kann
als log-Wahrscheinlichkeit
oder als Perplexität ausgedrückt werden.)
Bei einem modularen Ansatz kann die obige Lehre auf eine Vielzahl
von in Frage kommenden Wortschätzen
einer Vielzahl von Sprachen oder Sprachdomänen angewendet werden. So kann
z.B. die Schreibweise eines neuen Worts mit einem regulären Modell
(z.B. Standard-Deutsch) sowie mit einem Modell auf Grundlage der
lateinischen Rechtschreibung (z.B. für eine Spezialdomäne aus dem
Medizinbereich) verglichen werden, wobei eine Vielzahl von Regularitätswerten
berechnet werden, die den einzelnen Wortschätzen entsprechen. Wenn das
Wort im obigen Beispiel aus dem Lateinischen stammt, erzielt das
letztgenannte Modell eine höhere Bewertung
für das
neue Wort und sollte daher für
die Erzeugung einer Aussprache ausgewählt werden. Mehrere derartiger
Modelle zur Hand zu haben und parallel anwenden zu können, ist
besonders für
Spezialdomänen
wie den Rechts- und Medizinbereich von hohem Wert.
-
5. Vorteile
der Erfindung
-
Die
vorliegende Erfindung sieht eine automatische Ermittlung der Regularität eines
vorgeschlagenen Worts mit Blick auf die Standardaussprache der Sprache
vor; dies mindert die für
den Erweiterungsprozess eines Wortschatzes erforderliche Aufmerksamkeit
und Fachkenntnis auf Seiten des Benutzers. Weder ist es Aufgabe
des Benutzers zu entscheiden, wann zusätzliche Informationen zur Aussprache
eines neuen Wortes in das Sprachsystem aufgenommen werden müssen, noch
werden diese zusätzlichen
Informationen versäumt,
obwohl sie eigentlich benötigt
werden. Andernfalls würden
in beiden Fällen
mangelhafte Aussprachemodelle geschaffen. Da die Erkennungsgenauigkeit
in hohem Maße
von der Qualität
dieser Modelle abhängt,
führt die
vorgeschlagene Lehre zu einer verbesserten Gesamtleistung und zu
einer höheren
Erkennungsgenauigkeit des Sprachsystems. Die Qualität der erzeugten
Aussprachen von Sprachsystemen wird verbessert.
-
Da
eine Benutzerbeteiligung in Form einer Aufforderung zur Eingabe
zusätzlicher
Ausspracheinformationen auf ein Mindestmaß begrenzt wird, kann außerdem die
Benutzeroberfläche einfacher gehalten
werden, und der Benutzer muss nicht unnötiger Komplexität ausgesetzt
werden. Da für
Wörter mit
einer vermutlichen Standardaussprache keine weiteren Maßnahmen
erforderlich sind, ergeben sich wertvolle Zeiteinsparungen. Für typische
Kunden, die Spracherkennungssysteme nutzen, wie beispielsweise Anwälte und Ärzte, ist
dies ein wichtiges Verkaufsargument.
-
Die
vorliegende Lehre ist von der Natur der Sache her sprach- und domänenunabhängig und kann
somit ohne weitere Erweiterung auf eine Vielzahl verschiedener Sprachen
angewendet werden. Diese Eigenschaft ist besonders vorteilhaft angesichts
der großen
Zahl unterschiedlicher Sprachen und Sprachdomänen, die alle mit einem einzigen
Lösungsansatz
unterstützt
werden können.
-
Schließlich führt die
geringere Anzahl von Fehlern bei der Aufnahme neuer Wörter in
einen Wortschatz auch zu einer geringeren Benutzerfrustration und
zu einer verbesserten Wahrnehmung der Nutzbarkeit des Systems.
-
Zur
Ermittlung der Regularitätswahrscheinlichkeit
der Aussprache hat es sich als äußerst wirksam
erwiesen, mit Blick auf ein Sprachmodell die berechnete Perplexität der Wortschreibung
als Regularitätswert
zu verwenden. Dabei hat sich gezeigt, dass sich dieser statistische
Ansatz sehr gut zur Verarbeitung unbekannter Wörter eignet und gute Generalisierungen
für bis
dahin unbekannte Daten erbringt; für derartige Probleme ist er
besser geeignet als auf Regeln beruhende Ansätze.
-
Die
Aufforderung zur Eingabe eines Musters der klangähnlichen Schreibweise, die
für die
Aussprache des neuen Worts steht, als zusätzliche Ausspracheinformation
ist ein leistungsfähiger
Ansatz, an den die Benutzer gewöhnt
sind und der von ihnen akzeptiert wird.
-
Darüber hinaus
wirkt sich die Nutzung eines Buchstaben-zu-Klang-Systems mit den vom Benutzer bereitgestellten
Zusatzinformationen, um so das Lautmuster des neuen Worts zu erhalten,
vorteilhaft auf zwei Aspekte aus: Sie erbringt gute Ausspracheergebnisse
und erlaubt außerdem
ein Höchstmaß an Automatisierung
des Ableitungsprozesses.
-
Verschiedene
Tests haben gezeigt, dass die vorgeschlagene Methodik zur Ermittlung
des Schwellenwerts zu einem Wert führt, der eine optimale Trennung
der nicht regelgerechten von den regelrechten Aussprachen erzielt.
Da außerdem
eine große
Menge von Daten, die als Testwortmenge für das Training des Systems
dienen sollen, problemlos zur Verfügung steht, lässt sich
durch die Verwendung einer umfangreichen Testwortmenge ein wirksamer
Wert als Schwellenwert festgelegen.
-
Schließlich kann
die vorliegende Lehre aufgrund ihrer hohen Flexibilität auf alle
Arten von Sprachsystemen angewendet werden, zu denen sowohl Spracherkennungssysteme
als auch Sprachsynthesesysteme gehören.