WO2002049004A2 - Verfahren und anordnung zur spracherkennung für ein kleingerät - Google Patents

Verfahren und anordnung zur spracherkennung für ein kleingerät Download PDF

Info

Publication number
WO2002049004A2
WO2002049004A2 PCT/EP2001/014616 EP0114616W WO0249004A2 WO 2002049004 A2 WO2002049004 A2 WO 2002049004A2 EP 0114616 W EP0114616 W EP 0114616W WO 0249004 A2 WO0249004 A2 WO 0249004A2
Authority
WO
WIPO (PCT)
Prior art keywords
letter
server
character string
small device
network
Prior art date
Application number
PCT/EP2001/014616
Other languages
English (en)
French (fr)
Other versions
WO2002049004A3 (de
Inventor
Meinrad Niemöller
Original Assignee
Siemens Aktiengesellschaft
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens Aktiengesellschaft filed Critical Siemens Aktiengesellschaft
Priority to EP01991834A priority Critical patent/EP1352388B1/de
Priority to US10/450,580 priority patent/US20040049386A1/en
Priority to DE50106056T priority patent/DE50106056D1/de
Publication of WO2002049004A2 publication Critical patent/WO2002049004A2/de
Publication of WO2002049004A3 publication Critical patent/WO2002049004A3/de

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications

Definitions

  • the invention relates to a method for speech recognition for a small device connected to a telecommunications or data network according to the preamble of claim 1 and a corresponding arrangement or a corresponding device.
  • the invention includes the basic idea of shifting at least the memory-intensive steps of recognizing a letter sequence spoken on a small device out of the small device. It also includes the idea of using a central server in the telecommunications or data network for these parts of the process, which has practically unlimited capacity for this.
  • the small device preferably only has a simple character string recognition for which little computing power and memory space is required and which is therefore also possible with microcontrollers and DSPs (digital signal processors) of the small devices mentioned.
  • the preferred embodiment of the invention therefore sees, in the sense of the division of labor between the small device as client and the central server, a speech-text conversion of the spoken letter or character strings into a provisional written letter or character string in the small device, and then the transmission thereof the server, then a check and, if necessary, correction of these letter or character strings at Server and the retransmission of the checked letters or Character string to the small device, according to which further simple processing in the sense of a confirmation of the received word can take place in the small device.
  • the essential procedural component at the server runs in particular on the basis of one or more letter confusion matrices or a letter language model, which can use complex algorithms and extensive context databases due to the practically unlimited resources of the server.
  • a word classifier is entered on the small device in connection with the letter or character string by the user and transmitted together with the provisional written letter or character string to the server, where it is used as additional information for the recognition process running there ( Review and, if necessary, correction) is used.
  • a so-called word hypothesis graph is formed in particular from the letter string search and transmitted to the server, and a search is carried out on the server on this word hypothesis graph in a text lexicon database with several memory areas or in several lexicon databases.
  • the word classes specified by the word classifier can be, for example, personal names, street or place names, or Internet addresses or also technical terms of a certain area or the like, for each a directory or lexicon is kept at the server.
  • the centralized processing also offers the particular advantage of an effortless updating and maintenance of the data stock - which is very important in view of the rapidly increasing number of domain names, especially for Internet addresses.
  • the proposed method is implemented as a service of a telecommunications company or a service provider and, as such, is offered to users in particular for a fee, but occasionally also as a free service.
  • the most highly developed available resources are preferably used for the transmission of the new words entered to the server.
  • the transmission is preferably carried out as a text short message by SMS, and in the case of a WAP-capable mobile phone preferably as a text message according to the WAP standard.
  • Their protocols will offer corresponding possibilities for future mobile radio standards - in particular for a UMTS network, transmission using a standard Internet protocol (HTTP) will be possible.
  • HTTP Internet protocol
  • the transmission takes place via a data channel of the ISDN network. The entry is preferably made (as with a mobile phone) using an alphanumeric keyboard or DTMF.
  • the small device can also be designed in particular as a handheld PC or PDA for connection to a telecommunications and / or data network or as a mobile input unit of a remote control system. It has in particular one for displaying several letters or Character strings trained display device and a confirmation device for confirming a word recognized on the server. This can be implemented in particular as a softkey in connection with a menu control or on a touch screen.
  • an ISDN fixed network telephone T and a GSM mobile telephone MS which are connected to a line-bound telephone network TN or a mobile radio network GSM are connected, in cooperation with a letter sequence recognizer CSR, which is assigned to both communication networks TN and GSM together.
  • the fixed network telephone T and the mobile telephone MS are each connected to an exchange SC or MSC of their network via an ISDN telephone line ISDN or an air interface (not specifically designated) and a base station BTS / BSC.
  • a connection to a common administration and service center PRO of a service provider is established via this (in the case of the fixed network) or indirectly via an additional gateway server GS, which has a transcription service as a fee provider in the fixed network TN as well as in the GSM mobile network Offers service.
  • the letter sequence recognizer CSR is assigned several text lexicon databases PDB1 to PDB3 and (schematically shown in the form of two function blocks) a letter confusion matrix CMA and a letter language mode 11 SMO for development. Furthermore, the letter sequence recognizer is assigned a charging device BM for charging for use of the transcription service.
  • An ISDN interface device IF is installed in the fixed network telephone T and is only shown symbolically in the figure as a separate block.
  • the ISDN line between the fixed network telephone T and the associated switching center SC has a voice channel A and an independent data channel B in a known manner.
  • provisional character string recognition for words spelled by the user is carried out.
  • the result of the recognition is transmitted via the letter chain transmission stage CCT together with the word classifier entered by the user via the keyboard to the administration and service center PRO of the provider and the associated letter sequence recognizer CSR.
  • the reference lexicon data bases PDB1 to PDB3, the letter confusion matrix CMA and the letter language model SMO the latter performs a check of the letter string output by the mobile phone against a comprehensive linguistic background and context knowledge of the respective national language of the user.
  • the national language is selected on the basis of the information stored in the SIM card. saved user data and / or based on a selection made by the user at the beginning of the corresponding menu. It goes without saying that pronunciations of characters, spelling habits etc. typical for the national language are taken into account here.
  • the checked letter string recognition works analogously for letter strings spoken on the fixed network telephone T.
  • the checked back and possibly corrected letter chain or chains are transmitted back here in particular via the B channel of the ISDN network.
  • the user can preselect or confirm the knowledge sources to be used in the central check for the character string recognizer CSR, or these are corresponding to the

Abstract

Verfahren zur Spracherkennung für ein mit einem Telekommunikationsnetz bzw. Datennetz (GSM, TN) verbundenes Kleingerät (MS, T), wobei das Verfahren eine Erkennung von aus gesprochenen einzelnen Buchstaben bzw. Zeichen gebildeten Buchstaben- bzw. Zeichenketten als Worte umfaßt, welche als geschriebenes Wort ausgegeben und/oder zu Steuerzwecken genutzt werden, wobei die Erkennung der Buchstaben- bzw. Zeichenketten mindestens teilweise in einem über das Telekommunikations- bzw. Datennetz mit dem Kleingerät verbundenen zentralen Server (PRO) ausgeführt wird.

Description

Beschreibung
Verfahren und Anordnung zur Spracherkennung für ein Kleingerät
Die Erfindung betrifft ein Verfahren zur Spracherkennung für ein mit einem Telekommunikations- bzw. Datennetz verbundenes Kleingerät nach dem Oberbegriff des Anspruchs 1 sowie eine entsprechende Anordnung bzw. ein entsprechendes Gerät.
Elektronische Kleingeräte, deren Siegeszug in der Konsumelektronik mit dem tragbaren bzw. Taschen-Transistorradio begonnen und sich mit dem Walkman und später dem Discman im Bereich der Audiogeräte sowie mit Taschenrechnern und Taschen- Übersetzern sowie Datenbasen im Bereich der Datenverarbei- tungs- und -speichergeräte eindrucksvoll fortgesetzt hat, werden immer leistungsfähiger und komplexer und stellen teilweise recht hohe Anforderungen an die Bedienfertigkeit des Benutzers. Auch intelligente Dialogsysteme, wie sie heute bei komplexen Kleingeräten wie Mobiltelefonen oder Handheld-PCs angewandt werden, stellen in ihrer Bedienung noch relativ hohe Anforderungen an die Fertigkeiten und die Geduld ihrer Benutzer. Insbesondere im Interesse vielbeschäftigter Nutzer mit professionellem Einsatzschwerpunkt einerseits und älterer Menschen sowie von Kindern andererseits liegt daher die Einführung der Spracherkennung zur Steuerung solcher Geräte.
Kleingeräte mit Sprachsteuerung sind - insbesondere als Mobiltelefone - bereits bekannt und auf dem Markt erhältlich. Die dort implementierten Spracherkennungssysteme können aber wegen der trotz aller Fortschritte in der Prozessor- und Speichertechnik notwendigerweise begrenzten Verarbeitungsund Speicherkapazität von Kleingeräten nicht die Leistungsfähigkeit der Spracherkennungssysteme erreicht, wie sie bei PCs beispielsweise für die Texteingabe verwendet werden. Derzeit sind vielfach nur Wortschätze von einigen hunderten von Worten realisierbar. Hierbei tritt das generelle Problem der Fehlerkennungen beim Einsprechen unbekannter Worte, welches bei allen SpracherkennungsSystemen existiert, besonders gravierend hervor.
In der menschlichen Kommunikation wird für die Erkennung unbekannter Worte bzw. Schreibweisen seit Jahrhunderten auf das Buchstabieren zurückgegriffen. Beim einfachen Aussprechen einer Folge von Buchstaben ist aber bereits bei der menschlichen Kommunikation die Fehlerrate relativ hoch, und aktuelle Spracherkennungssysteme liefern noch weniger befriedigende
Ergebnisse. Insbesondere Buchstabengruppen wie die Gruppen c, b, d, e, g, p, t, w oder m, n oder a, h, k bergen große Verwechslungsgefahren, da sie sehr ähnlich klingen.
Bei einer Folge von Buchstaben kann der Mensch allerdings sein Sprachgefühl und Kontextwissen nutzbringend einsetzen und eindeutig oder wahrscheinlich unsinnige Buchstabenkombinationen, die sich aus der Fehlerkennung einzelner Buchstaben einer Folge ergeben, ausscheiden und an ihre Stelle sinnvolle Kombinationen „denken". Neben dem erwähnten Kontextwissen sind ihm auch die Kenntnis wahrscheinlicher Buchstabenfolgen und von Redundanzen in Worten hilfreich. Hierdurch wird in der menschlichen Kommunikation die Fehlerrate beim Buchstabieren wesentlich gesenkt.
Es ist auch bekannt, bei SpracherkennungsSystemen die Wahrscheinlichkeit von bestimmten Buchstabenfolgen für die Erkennung von durch Buchstabieren eingesprochenen Worten zu nutzen. Entsprechende Systeme werden im übrigen bereits seit längerem bei' Mobiltelefonen für die Eingabe von Kurznachrichten (SMS) über die Tastatur genutzt und haben sich dort bewährt. Grundsätzlich ist auch die Nutzung von Kontextwissen in Spracherkennungssystemen möglich, diese erfordert jedoch sehr große Speicherkapazitäten und ist daher bei Kleingeräten derzeit praktisch nicht realisierbar. Der Erfindung liegt daher die Aufgabe der Bereitstellung eines gattungsgemäßen Verfahrens sowie einer entsprechenden Anordnung zugrunde, mit denen die Erkennung von gesprochenen Buchstaben- bzw. Zeichenketten mit vertretbarem Aufwand we- sentlich verbessert werden kann.
Diese Aufgabe wird hinsichtlich ihres Verfahrensaspektes durch ein Verfahren mit den Merkmalen des Anspruchs 1 und hinsichtlich ihres Vorrichtungsaspektes durch eine Anordnung bzw. ein Kleingerät mit den Merkmalen des Anspruchs 11 gelöst .
Die Erfindung schließt den grundlegenden Gedanken ein, mindestens die speicherplatzaufwendigen Schritte der Erkennung einer an einem Kleingerät eingesprochenen Buchstabenfolge aus dem Kleingerät heraus zu verlagern. Weiter schließt sie den Gedanken ein, für diese Verfahrensteile einen im Telekommunikations- bzw. Datennetz angeordneten zentralen Server zu nutzen, der hierfür über praktisch unbegrenzte Kapazität ver- fügt. Auf dem Kleingerät verbleibt vorzugsweise nur eine einfache Buchstabenkettenerkennung, für die wenig Rechenleistung und Speicherplatz benötigt wird und die daher auch mit Mikro- controllern und DSPs (Digital Signal Processors) der erwähnten Kleingeräte möglich ist.
Durch den Einsatz von Hintergrund- bzw. Kontextwissen auf dem Server können auch dann insgesamt sehr gute Erkennungsleistungen auf Wortebene erreicht werden, wenn bei der vorangegangenen initialen Buchstabenkettenerkennung eine sehr hohe Fehlerrate aufgetreten war. Die bevorzugte Ausführung der Erfindung sieht im Sinne der erwähnten Arbeitsteilung zwischen dem Kleingerät als Client und dem zentralen Server mithin eine Sprache-Text-Wandlung der gesprochenen Buchstaben- bzw. Zeichenketten in eine vorläufige geschriebene Buchstaben- bzw. Zeichenkette beim Kleingerät, anschließend deren Übertragung an den Server, danach eine Überprüfung und gegebenenfalls Korrektur dieser Buchstaben- bzw. Zeichenketten beim Server und die Zurückübertragung der geprüften Buchstabenbzw. Zeichenkette an das Kleingerät vor, wonach beim Kleingerät eine weitere einfache Verarbeitung im Sinne einer Bestätigung des empfangenen Wortes erfolgen kann.
In einer modifizierten Ausführung ist vorgesehen, daß die Erkennung bereits beim Server abgeschlossen und das endgültige Wort an das Kleingerät zurückübertragen, von diesem empfangen und dort gespeichert wird. Es versteht sich, daß eine Spei- cherung beim Kleingerät sinnvollerweise auch dann erfolgt, wenn die endgültige Fixierung des erkannten Wortes dort erfolgt.
Die beim Server liegende wesentliche Verfahrenskomponente läuft insbesondere anhand einer oder mehrerer Buchstaben-Ver- wechslungsmatrixen bzw. eines Buchstaben-Sprachmodells ab, wobei dieses aufgrund der praktisch unbegrenzten Ressourcen des Servers aufwendige Algorithmen und umfangreiche Kontext- Datenbasen nutzen kann.
In einer weiter bevorzugten Ausführung der Erfindung wird am Kleingerät in Verbindung mit der Buchstaben- bzw. Zeichenkette durch den Benutzer ein Wortklassifikator eingegeben und zusammen mit der vorläufigen geschriebenen Buchstaben- bzw. Zeichenkette zum Server übertragen, wo er als Zusatzinformation für den dort ablaufenden Erkennungsprozeß (Überprüfung und gegebenenfalls Korrektur) genutzt wird. Im Kleingerät wird insbesondere aus der Buchstabenketten-Suche ein sogenannter Worthypothesengraph gebildet und zum Server übertra- gen und auf dem Server auf diesem Worthypothesengraphen eine Suche in einer Textlexikon-Datenbasis mit mehreren Speicherbereichen oder in mehreren Lexikon-Datenbasen ausgeführt .
Bei den durch den Wortklassifikator spezifizierten Wortklas- sen kann es sich beispielsweise um Personennamen, Straßenoder Ortsnamen, oder Internetadressen oder auch um Fachtermini eines bestimmten Gebietes o. ä. handeln, für die jeweils ein Verzeichnis bzw. Lexikon beim Server geführt wird. Die zentralisierte Verarbeitung bietet hier auch den besonderen Vorteil einer unaufwendigen Aktualisierung und Pflege des Datenbestandes - was angesichts der schnell zunehmenden Anzahl von Domain-Namen insbesondere für Internet-Adressen sehr wichtig ist.
In einer wirtschaftlich besonders interessanten Variante wird das vorgeschlagene Verfahren als Dienst einer Telekommunika- tionsgesellschaft bzw. eines Dienstanbieters realisiert und als solcher den Benutzern insbesondere gegen Entgelt, fallweise aber auch als kostenloser Service, angeboten.
Je nach konkreter Ausführung des Telekommunikations- bzw. Da- tennetzes und des zugehörigen Endgerätes werden jeweils bevorzugt die höchstentwickelten verfügbaren Ressourcen für die Übertragung der eingegeben neuen Worte zum Server genutzt. Bei einem an ein Mobilfunknetz nach dem GSM-Standard angeschlossenen Mobiltelefon erfolgt die Übertragung bevorzugt als Text-Kurznachricht per SMS, und bei einem WAP-fähigen Mobiltelefon bevorzugt als Textnachricht nach dem WAP-Standard. Für künftige Mobilfunkstandards werden deren Protokolle entsprechende Möglichkeiten bieten - insbesondere wird für ein UMTS-Netz die Übertragung mittels eines Standard-Internetpro- tokolls (HTTP) möglich sein. Bei einem an ein ISDN-Netz angeschlossenes Festnetztelefon erfolgt die Übertragung über einen Datenkanal des ISDN-Netzes. Die Eingabe erfolgt hier bevorzugt (wie beim Mobiltelefon) über eine alphanumerische Tastatur oder per MFV.
Neben den oben erwähnten Ausführungen kann das Kleingerät insbesondere auch als Handheld-PC bzw. PDA zum Anschluß an ein Telekommunikations- und/oder Datennetz oder auch als mobile Eingabeeinheit eines Fernbedien-Steuersystems ausgeführt sein. Es weist insbesondere eine zur Anzeige mehrerer Buchstabenbzw. Zeichenketten ausgebildete Anzeigeeinrichtung und eine Bestätigungseinrichtung zur Bestätigung eines auf dem Server erkannten Wortes auf. Diese kann insbesondere als Softkey in Verbindung mit einer Menüsteuerung oder auf einem Touch- Screen realisiert sein.
Vorteile und Zweckmäßigkeiten der Erfindung ergeben sich im übrigen aus den Unteransprüchen sowie der nachfolgenden Be- Schreibung eines bevorzugten Ausführungsbeispiels anhand der Figur.
Diese zeigt - in einer synoptischen Darstellung, die aber bei Bestehen der wirtschaftlichen Voraussetzungen auch technisch realisierbar ist - bevorzugte Ausführungen der Erfindung auf einem ISDN-Festnetztelefon T und einem GSM-Mobiltelefon MS, die an ein leitungsgebundenes Telefonnetz TN bzw. ein Mobil- funknetz GSM angeschlossen sind, im Zusammenwirken mit einem Buchstabenfolgen-Erkenner CSR, der beiden Kommunikationsnetze TN und GSM gemeinsam zugeordnet ist. Das Festnetztelefon T und das Mobiltelefon MS stehen über eine ISDN-Telefonleitung ISDN bzw. eine (nicht gesondert bezeichnete) Luftschnittstelle sowie eine Basisstation BTS/BSC jeweils mit einer Vermittlungsstelle SC bzw. MSC ihres Netzes in Verbindung. Über die- se wird direkt (beim Festnetz) bzw. indirekt über einen zusätzlichen Gateway-Server GS eine Verbindung zu einem gemeinsamen Verwaltungs- und Dienstzentrum PRO eines Dienstanbieters hergestellt, der sowohl im Festnetz TN als auch im Mobilfunknetz GSM einen Transkriptionsdienst als gebühren- Pflichtigen Dienst anbietet.
In der Figur sind für das Mobiltelefon MS interne Signalverarbeitungskomponenten skizzenhaft dargestellt, die am Gesamtprozeß der Buchstabenkettenerkennung beteiligt sind; über analoge Komponenten kann natürlich auch das Festnetztelefon T verfügen. Es handelt sich hierbei um einen Sprache-Text-Wandler STC zur Umwandlung der eingesprochenen Buchstabenketten in Buchstabenketten in Textform, einen hiermit in Verbindung stehenden Worthypothesengraphen WHG sowie einen mit der Eingabetastatur in Verbindung stehenden Wortklassifikator WCL und schließlich eine Buchstabenketten-Sendestufe CCT, die von den eingangs genannten Komponenten gespeist wird.
Dem Buchstabenfolgen-Erkenner CSR sind mehrere Textlexikon- Datenbasen PDB1 bis PDB3 sowie (schematisch in Gestalt von zwei Funktionsblöcken dargestellt) eine Buchstaben-Verwechs- lungsmatrix CMA sowie ein Buchstaben-Sprachmode11 SMO zur Erarbeitung zugeordnet. Weiterhin ist dem Buchstabenfolgen-Erkenner eine Vergebührungseinrichtung BM zur Vergebührung einer Nutzung des Transkriptionsdienstes zugeordnet.
Beim Festnetztelefon T ist eine ISDN-Schnittstelleneinrichtung IF eingebaut, die in der Figur lediglich symbolisch als gesonderter Block gezeigt ist. Die ISDN-Leitung zwischen dem Festnetztelefon T und der zugehörigen Vermittlungsstelle SC hat in bekannter Weise einen Sprachkanal A und einen unabhän- gigen Datenkanal B.
Wie oben erwähnt, wird im Mobiltelefon nach der Sprache-Text- Wandlung im Sprache-Text-Wandler STC und unter Heranziehung des Worthypothesengraphen WHG eine vorläufige Buchstabenket- ten-Erkennung für vom Benutzer buchstabierte Worte ausgeführt. Das Erkennungsergebnis wird über die Buchstabenketten- Sendestufe CCT zusammen mit dem durch den Benutzer per Tastatur eingegebenen Wortklassifikator an das Verwaltungs- und Dienstzentrum PRO des Providers und den damit den dort ange- bundenen Buchstabenfolgen-Erkenner CSR übertragen. Dieser führt unter Zugriff auf die Referenzlexikon-Datenbasen PDB1 bis PDB3, die Buchstaben-Verwechslungsmatrix CMA und das Buchstaben-Sprachmodell SMO eine Überprüfung der vom Mobiltelefon ausgegebenen Buchstabenkette an einem umfangreichen sprachlichen Hintergrund- und Kontextwissen der jeweiligen Landessprache des Benutzers durch. Die Auswahl der Landessprache erfolgt dabei aufgrund der in der SIM-Karte gespei- cherten Benutzerdaten und/oder aufgrund einer durch den Benutzer zu Beginn des entsprechenden Menüs getroffenen Auswahl. Es versteht sich, daß landessprachtypische Aussprachen von Zeichen, Buchstabiergewohnheiten etc. hierbei berücksich- tigt werden.
Ergibt sich bei der Überprüfung, daß für andere Buchstabenketten als die vom Mobiltelefon ausgegebene vorläufige Buchstabenkette, d. h. andere buchstabierte Worte, signifikante Wahrscheinlichkeiten bestehen, so werden all diese Worte an das Mobiltelefon zurückübertragen und auf dessen Display zusammen mit einer an den Benutzer gerichteten Auswahlaufforderung angezeigt. Nachdem der Benutzer durch Betätigung eines Softkey seine Auswahl getroffen hat, ist das zutreffende Wort festgelegt und wird in den internen Wortschatzspeicher übernommen. (Es ist auch möglich, daß ausschließlich die Buchstabenkette bzw. das Wort mit der durch den Buchstabenketten- Erkenner ermittelten höchsten Wahrscheinlichkeit an das Mobiltelefon zurückübertragen und dort als endgültiges Ergebnis des Erkennungsvorganges verarbeitet und (wahlweise) gespeichert wird. )
Analog arbeitet die überprüfte Buchstabenketten-Erkennung für am Festnetztelefon T eingesprochene Buchstabenketten. Die Zu- rückÜbertragung der geprüften und gegebenenfalls korrigierten Buchstabenkette oder -ketten erfolgt hier insbesondere über den B-Kanal des ISDN-Netzes. Auch hier kann eine Vorauswahl bzw. Bestätigung der bei der zentralen Überprüfung beim Buchstabenketten-Erkenner CSR einzusetzenden Wissensquellen durch den Benutzer erfolgen, oder diese werden entsprechend der
Landes- bzw. Ortsnetzkennzahl des Benutzers des Festnetztele- fones ausgewählt.
Die Ausführung der Erfindung ist nicht auf dieses Beispiel beschränkt, sondern im Rahmen der Ansprüche auch in einer
Vielzahl von Abwandlungen möglich, die im Rahmen fachgemäßen Handelns liegen.

Claims

Patentansprüche
1. Verfahren zur Spracherkennung für ein mit einem Telekommunikationsnetz bzw. Datennetz (GSM, TN) verbundenes Kleingerät (MS, T) , wobei das Verfahren eine Erkennung von aus gesprochenen einzelnen Buchstaben bzw. Zeichen gebildeten Buchstaben- bzw. Zeichenketten als Worte umfaßt, welche als geschriebenes Wort ausgegeben und/oder zu Steuerzwecken genutzt werden, d a d u r c h g e k e n n z e i c h n e t, daß die Erkennung der Buchstaben- bzw. Zeichenketten mindestens teilweise in einem über das Telekommunikations- bzw. Datennetz mit dem Kleingerät verbundenen zentralen Server (PRO) ausgeführt wird.
2. Verfahren nach Anspruch 1 , d a d u r c h g e k e n n z e i c h n e t, daß in dem Kleingerät (MS, T) in einem ersten Transformations- schritt eine Sprache-Text-Wandlung der gesprochenen Buchsta- ben- bzw. Zeichenkette in eine vorläufige geschriebene Buchstaben- bzw. Zeichenkette ausgeführt, die vorläufige geschriebene Buchstaben- bzw. Zeichenkette an den zentralen Server (PRO) übertragen, in dem Server in einem zweiten Transformationsschritt die vorläufige Buchstaben- bzw. Zeichenkette anhand einer Buchstaben-Verwechslungsmatrix (CMA) und/oder eines Buchstaben- Sprachmodells (SMO) überprüft und gegebenenfalls korrigiert und das Wort erstellt und das Wort an das Kleingerät zurückübertragen und von diesem empfangen und in diesem verarbeitet und/oder gespeichert wird.
3. Verfahren nach Anspruch 1, d a d u r c h g e k e n n z e i c h n e t, daß in dem Kleingerät (MS, T) in einem ersten Transformations- schritt eine vorläufige Sprache-Text-Wandlung der gesproche- nen Buchstaben- bzw. Zeichenkette in eine vorläufige geschriebene Buchstaben- bzw. Zeichenkette ausgeführt, die vorläufige geschriebene Buchstaben- bzw. Zeichenkette an den zentralen Server übertragen, in dem Server in einem zweiten Transformationsschritt die vorläufige Buchstaben- bzw. Zeichenkette anhand einer Buchstaben-Verwechslungsmatrix und/oder eines Buchstaben-Sprachmodells überprüft und gegebenenfalls korrigiert und mindestens eine überprüfte und korrigierte Buchstaben- bzw. Zei- chenkette erstellt, die geprüfte Buchstaben- bzw. Zeichenkette oder die geprüften Buchstaben- bzw. Zeichenketten an das Kleingerät zurückübertragen und von diesem empfangen werden und in dem Kleingerät in einem dritten Transformationsschritt aus der geprüften Buchstaben- bzw. Zeichenkette oder den geprüften Buchstaben- bzw. Zeichenketten das Wort gebildet und gespeichert und/oder verarbeitet wird.
4. Verfahren nach einem der vorangehenden Ansprüche, d a d u r c h g e k e n n z e i c h n e t, daß am Kleingerät (MS, T) in Verbindung mit der Buchstaben- bzw. Zeichenkette ein Wortklassifikator eingegeben, der Wortklassifikator zusammen mit der vorläufigen Buchstaben- bzw. Zeichenkette zum Server (PRO) übertragen und als Zusatzinformation für die Erkennung ausgewertet wird.
5. Verfahren nach Anspruch 4 , d a d u r c h g e k e n n z e i c h n e t, daß im Kleingerät (MS, T) aus der Buchstabenketten-Erkennung ein Worthypothesengraph gebildet und zum Server (PRO) übertragen und auf dem Server auf dem Worthypothesengraphen eine Suche in einer Textlexikon-Datenbasis mit mehreren, jeweils einer Wortklasse zugeordneten Speicherbereichen ausgeführt wird.
6. Verfahren nach einem der Ansprüche 3 bis 5, d a d u r c h g e k e n n z e i c h n e t, daß die geprüfte Buchstaben- bzw. Zeichenkette oder geprüften Buchstaben- bzw. Zeichenketten auf dem Kleingerät (MS, T) zur endgültigen Festlegung durch den Nutzer angezeigt wird bzw. werden.
7. Verfahren nach Anspruch 6 , d a du r c h g e k e n n z e i c h n e t, daß die Anzeige der Buchstaben- bzw. Zeichenketten in der Reihenfolge ihrer durch den Server bestimmten Wahrscheinlichkeit erfolgt .
8. Verfahren nach einem der vorangehenden Ansprüche, d a d u r c h g e k e n n z e i c h n e t, daß der beim Server (PRO) ablaufende Teil der Erkennung als Dienst im Telekommunikations- bzw. Datennetz organisiert ist.
9. Verfahren nach einem der vorangehenden Ansprüche, d a du r c h g e k e n n z e i c h n e t, daß die Übertragung von und zu einem Mobilfunk-Endgerät (MS) als Kurznachricht oder über das WAP über ein Mobilfunknetz (GSM) , insbesondere unter Einbeziehung einer Verbindung zu einem IP- Netz, erfolgt.
10. Verfahren nach einem der Ansprüche 1 bis 8, d a d u r c h g e k e n n z e i c h n e t, daß die Übertragung von und zu einem Festnetztelefon (T) über einen ISDN-Datenkanal (B) eines ISDN-Festnetzes (ISDN) erfolgt.
11. Anordnung zur Durchführung des Verfahrens nach einem der vorangehenden Ansprüche, g e k e n n z e i c h n e t d u r c h eine Mehrzahl von an das Telekommunikations- bzw. Datennetz (GSM, ISDN) angeschlossenen Endgeräten (MS, T) und einen an eine Dienstzentrale des Telekommunikations- bzw. Datennetzes angeschlossenen Server (PRO) , der Mittel (CSR) zur Erkennung der Buchstaben- bzw. Zeichenkette aufweist. .
12. Anordnung nach Anspruch 11, d a d u r c h g e k e n n z e i c h n e t, daß die Mittel (CSR) zur Erkennung der Buchstaben- bzw. Zeichenkette mindestens eine Buchstaben-Verwechslungsmatrix (CMA) und/oder mindestens ein Buchstaben-Sprachmodell (SMO) aufweisen.
13. Anordnung nach Anspruch 11 oder 12, g e k e n n z e i c h n e t d u r c h eine dem Server (PRO) zugeordnete Vergebührungseinrichtung
(BM) zur Vergebührung des durch den Server geleisteten Teils der Erkennung der Buchstaben- bzw. Zeichenkette als Dienst.
14. Anordnung nach einem der Ansprüche 11 bis 13, d a d u r c h g e k e n n z e i c h n e t, daß das Kleingerät als Mobilfunk-Endgerät (MS) ausgebildet ist, welches über ein Mobilfunknetz (GSM) , insbesondere unter Einbeziehung einer Verbindung zu einem IP-Netz, mit dem Server verbunden ist.
15. Anordnung nach einem der Ansprüche 1 bis 14, d a d u r c h g e k e n n z e i c h n e t, daß das Kleingerät als Festnetztelefon (T) ausgebildet ist, welches über einen ISDN-Datenkanal (B) eines ISDN-Festnetzes (ISDN) mit dem Server verbunden ist.
16. Anordnung nach einem der Ansprüche 11 bis 15, d a d u r c h g e k e n n z e i c h n e t, daß das Kleingerät als über ein Telefon-Festnetz, insbesondere ISDN-Festnetz, ein Mobilfunknetz oder ein Datennetz mit dem Server verbundenes Datenverarbeitungs- oder Bediengerät, insbesondere als Handheld-PC oder mobile Eingabeeinheit eines Fernbedien-Steuersystems ausgebildet ist.
17. Anordnung nach einem der Ansprüche 11 bis 16, d a d u r c h g e k e n n z e i c h n e t, daß das Kleingerät eine zur Anzeige mehrerer Buchstaben- bzw. Zeichenketten ausgebildete Anzeigeeinrichtung und eine Betätigungseinrichtung zur endgültigen Festlegung des Wortes aufweist.
18. Anordnung nach Anspruch 17, d a d u r c h g e k e n n z e i c h n e t, daß die Anzeigeeinrichtung zur Anzeige der Buchstaben- bzw. Zeichenketten gemäß ihrer durch den Server bestimmten Wahrscheinlichkeit ausgebildet ist.
19. Anordnung nach Anspruch 17 oder 18, d a d u r c h g e k e n n z e i c h n e t, daß die Bestätigungseinrichtung einen Touch-Screen oder eine Menüsteuerung in Verbindung mit einer Eingabetaste, insbesonde- re einem Softkey, aufweist.
PCT/EP2001/014616 2000-12-14 2001-12-12 Verfahren und anordnung zur spracherkennung für ein kleingerät WO2002049004A2 (de)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP01991834A EP1352388B1 (de) 2000-12-14 2001-12-12 Verfahren und anordnung zur spracherkennung für ein kleingerät
US10/450,580 US20040049386A1 (en) 2000-12-14 2001-12-12 Speech recognition method and system for a small device
DE50106056T DE50106056D1 (de) 2000-12-14 2001-12-12 Verfahren und anordnung zur spracherkennung für ein kleingerät

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP00127457 2000-12-14
EP00127457.0 2000-12-14

Publications (2)

Publication Number Publication Date
WO2002049004A2 true WO2002049004A2 (de) 2002-06-20
WO2002049004A3 WO2002049004A3 (de) 2002-09-19

Family

ID=8170671

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2001/014616 WO2002049004A2 (de) 2000-12-14 2001-12-12 Verfahren und anordnung zur spracherkennung für ein kleingerät

Country Status (5)

Country Link
US (1) US20040049386A1 (de)
EP (1) EP1352388B1 (de)
DE (1) DE50106056D1 (de)
ES (1) ES2238054T3 (de)
WO (1) WO2002049004A2 (de)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7418381B2 (en) * 2001-09-07 2008-08-26 Hewlett-Packard Development Company, L.P. Device for automatically translating and presenting voice messages as text messages
US7117153B2 (en) * 2003-02-13 2006-10-03 Microsoft Corporation Method and apparatus for predicting word error rates from text
US20070016420A1 (en) * 2005-07-07 2007-01-18 International Business Machines Corporation Dictionary lookup for mobile devices using spelling recognition
US10540957B2 (en) * 2014-12-15 2020-01-21 Baidu Usa Llc Systems and methods for speech transcription
US10049198B2 (en) * 2015-03-18 2018-08-14 International Business Machines Corporation Securing a device using graphical analysis
US10049199B2 (en) * 2015-03-18 2018-08-14 International Business Machines Corporation Securing a device using graphical analysis

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5677990A (en) * 1995-05-05 1997-10-14 Panasonic Technologies, Inc. System and method using N-best strategy for real time recognition of continuously spelled names
EP0848536A2 (de) * 1996-12-13 1998-06-17 AT&T Corp. Statistische Datenbank-Korrektur von alphanumerischen Kontennummern unter Verwendung von Spracherkennung und Wahltonerkennung
WO1999021171A1 (en) * 1997-10-21 1999-04-29 Bell Canada A method and apparatus for improving the utility of speech recognition
US5995928A (en) * 1996-10-02 1999-11-30 Speechworks International, Inc. Method and apparatus for continuous spelling speech recognition with early identification

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5303299A (en) * 1990-05-15 1994-04-12 Vcs Industries, Inc. Method for continuous recognition of alphanumeric strings spoken over a telephone network
FR2696067B1 (fr) * 1992-09-21 1994-11-25 France Telecom Installation de télécommunication à téléchargement sécurisé de moyens de pré-paiement et procédé de téléchargement correspondant.
AU5803394A (en) * 1992-12-17 1994-07-04 Bell Atlantic Network Services, Inc. Mechanized directory assistance
US5812639A (en) * 1994-12-05 1998-09-22 Bell Atlantic Network Services, Inc. Message communication via common signaling channel
US6161082A (en) * 1997-11-18 2000-12-12 At&T Corp Network based language translation system
US20020055351A1 (en) * 1999-11-12 2002-05-09 Elsey Nicholas J. Technique for providing personalized information and communications services

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5677990A (en) * 1995-05-05 1997-10-14 Panasonic Technologies, Inc. System and method using N-best strategy for real time recognition of continuously spelled names
US5995928A (en) * 1996-10-02 1999-11-30 Speechworks International, Inc. Method and apparatus for continuous spelling speech recognition with early identification
EP0848536A2 (de) * 1996-12-13 1998-06-17 AT&T Corp. Statistische Datenbank-Korrektur von alphanumerischen Kontennummern unter Verwendung von Spracherkennung und Wahltonerkennung
WO1999021171A1 (en) * 1997-10-21 1999-04-29 Bell Canada A method and apparatus for improving the utility of speech recognition

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
GILLOIRE A ET AL: "Innovative speech processing for mobile terminals: an annotated bibliography" SIGNAL PROCESSING,NL,AMSTERDAM, Bd. 80, Nr. 7, Juli 2000 (2000-07), Seiten 1149-1166, XP004200934 ISSN: 0165-1684 *
LAMEL L ET AL: "The LIMSI Arise system" SPEECH COMMUNICATION,ELSEVIER SCIENCE PUBLISHERS, AMSTERDAM,NL, Bd. 31, Nr. 4, August 2000 (2000-08), Seiten 339-353, XP004210025 ISSN: 0167-6393 *

Also Published As

Publication number Publication date
ES2238054T3 (es) 2005-08-16
WO2002049004A3 (de) 2002-09-19
EP1352388A2 (de) 2003-10-15
DE50106056D1 (de) 2005-06-02
EP1352388B1 (de) 2005-04-27
US20040049386A1 (en) 2004-03-11

Similar Documents

Publication Publication Date Title
DE60217241T2 (de) Fokussierte Sprachmodelle zur Verbesserung der Spracheingabe von strukturierten Dokumenten
DE60219943T2 (de) Verfahren zum komprimieren von wörterbuchdaten
DE10235548B4 (de) Verfahren und Vorrichtung für die Prädiktion einer Textnachrichteneingabe
DE69725761T2 (de) System und verfahren zur kodierung und zur aussendung von sprachdaten
US8392453B2 (en) Nonstandard text entry
DE60021761T2 (de) System zur speicherung und bereitstellung von mobilkommunikations - adress - informationen
US20060025999A1 (en) Predicting tone pattern information for textual information used in telecommunication systems
US6526292B1 (en) System and method for creating a digit string for use by a portable phone
DE112005000924T5 (de) Stimme über Short Message Service
DE60304246T2 (de) Einstellung der Betriebsartauswahl in Abhängigkeit von Sprachinformation
DE60114759T2 (de) Verfahren und vorrichtung zur konvertierung von addressbücheintragen in einem drahtlosen kommunikationsgerät
EP2815396A1 (de) Verfahren zum phonetisieren einer datenliste und sprachgesteuerte benutzerschnittstelle
DE112007000728T5 (de) Tragbare elektronische Vorrichtung zum Vorsehen einer vorgeschlagenen korrigierten Eingabe als Reaktion auf eine fehlerhafte Texteingabe in einer Umgebung eines Textes, der mehrere sequentielle Betätigungen derselben Taste erfordert, und zugehöriges Verfahren
EP1352388B1 (de) Verfahren und anordnung zur spracherkennung für ein kleingerät
EP1220200B1 (de) Verfahren und Anordnung zur sprecherunabhängigen Spracherkennung für ein Telekommunikations- bzw. Datenendgerät
DE19851287A1 (de) Datenverarbeitungssystem oder Kommunikationsendgerät mit einer Einrichtung zur Erkennugn gesprochener Sprache und Verfahren zur Erkennung bestimmter akustischer Objekte
WO2002005263A1 (de) Verfahren zur spracheingabe und -erkennung
DE10211777A1 (de) Erzeugung von Nachrichtentexten
WO2002049325A1 (de) Verfahren zur konfigurierung einer benutzeroberfläche
EP1414223B1 (de) Texteingabe für ein Endgerät
DE10003529A1 (de) Verfahren und Vorrichtung zum Erstellen einer Textdatei mittels Spracherkennung
WO2006061266A1 (de) Automatische spracheinstellung für die beantwortung einer empfangenen sms-nachricht
EP1215653B1 (de) Verfahren und Anordnung zur Spracherkennung für ein Kleingerät
EP4203449A1 (de) Verbindungsdienst für ein mobilfunknetz
EP1302928A1 (de) Verfahren zur Spracherkennung, insbesondere von Namen, und Spracherkenner

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A2

Designated state(s): US

AL Designated countries for regional patents

Kind code of ref document: A2

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE TR

AK Designated states

Kind code of ref document: A3

Designated state(s): US

AL Designated countries for regional patents

Kind code of ref document: A3

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE TR

121 Ep: the epo has been informed by wipo that ep was designated in this application
DFPE Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101)
WWE Wipo information: entry into national phase

Ref document number: 2001991834

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 10450580

Country of ref document: US

WWP Wipo information: published in national office

Ref document number: 2001991834

Country of ref document: EP

WWG Wipo information: grant in national office

Ref document number: 2001991834

Country of ref document: EP