DE60130880T2 - Web-gestützte spracherkennung durch scripting und semantische objekte - Google Patents

Web-gestützte spracherkennung durch scripting und semantische objekte Download PDF

Info

Publication number
DE60130880T2
DE60130880T2 DE60130880T DE60130880T DE60130880T2 DE 60130880 T2 DE60130880 T2 DE 60130880T2 DE 60130880 T DE60130880 T DE 60130880T DE 60130880 T DE60130880 T DE 60130880T DE 60130880 T2 DE60130880 T2 DE 60130880T2
Authority
DE
Germany
Prior art keywords
applications
application
semantic
script
computer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60130880T
Other languages
English (en)
Other versions
DE60130880D1 (de
Inventor
John Hamilton KROEKER
Oleg Beverly BOULANOV
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Eliza Corp
Original Assignee
Eliza Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Eliza Corp filed Critical Eliza Corp
Publication of DE60130880D1 publication Critical patent/DE60130880D1/de
Application granted granted Critical
Publication of DE60130880T2 publication Critical patent/DE60130880T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/193Formal grammars, e.g. finite state automata, context free grammars or word networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Description

  • Gebiet der Erfindung
  • Die vorliegende Erfindung bezieht sich allgemein auf Systeme und Verfahren zur Entwicklung und Implementierung von Transaktions-Sprach-Anwendungen. Insbesondere bezieht sich die vorliegende Erfindung auf Systeme und Verfahren zum Entwickeln und Implementieren von Transaktions-Sprach-Anwendungen unter Verwendung von Web-basierten Technologien.
  • Querverweis auf verwandte Anmeldungen
  • Diese Anmeldung beansprucht die Vergünstigungen der Priorität aus der vorläufigen US-Patentanmeldung 60/192,091 vom 24. März 2000 mit dem Titel „COMBINED SYNTACTIC AND SEMENTIC SEARCH, PARSING, AND APPLICATION ACCESS", der vorläufigen US-Patentanmeldung 60/191,915 vom 24. März 2000 mit dem Titel „SPEECH RECOGNITION APPLICATION TECHNOLOGY USING WEB, SCRIPTING AND SEMANTIC OBJECTS", der vorläufigen US-Patentanmeldung 60/192,090 vom 24. März 2000 mit dem Titel „A NOVEL APPROACH TO SPEECH RECOGNITION", und der vorläufigen US-Patentanmeldung 60/192,076 vom 24. März 2000 mit dem Titel „REMOTE SERVER OBJECT ARCHITECTURE FOR SPEECH RECOGNITION" die sich in gemeinsamen Besitz befinden.
  • Hintergrund der Erfindung
  • Mit der Verbreitung von Computer-Systemen wurde ein zunehmendes Ausmaß der Verarbeitung automatisiert. Gleichzeitig setzt sich die Entwicklung der Verarbeitungsleistung derartiger Systeme weiter fort. Um diese zunehmend verfügbare Verarbeitungsleistung auszunutzen, versuchen Organisationen, Funktionen, die bisher von Personen ausgeführt wurden, wenn überhaupt, auf automatisierte Systeme zu übertragen. Beispielsweise werden zunehmend Computer-Systeme entwickelt und verwendet, um mit Personen über einen Sprach-Dialog in Kontakt zu treten. Es wurden beispielsweise einige Systeme implementiert, um Interviews und Befragungen von Einzelpersonen über ein Telefon durchzuführen, während andere Systeme mit Personen ohne die Verwendung eines Netzwerkes in einen Dialog treten können. Zusätzlich ist anzunehmen, dass wenn Sprache über das Weltweite Datennetz (das „Web") und das Internet (beispielsweise Sprache-über-IP) mehr und mehr üblich wird, der Sprache-basierte Mensch-Computer-Dialog zunehmend unter Verwendung dieses Mediums ausgeführt wird.
  • Ein Bespiel eines Sprache-basierten Mensch-Computer-Dialogs besteht in Umfrage-Systemen, bei denen ein Computer eine automatisierte Sprache-basierte Befragung einer Person über ein Telefon ausführt. In einem derartigen Fall kann das Umfrage-System eine in einem Skript niedergelegte Umfrage (das heißt eine Serie von Fragen) haben, die an die Person gestellt werden. Das Umfrage-System kann eine erste Frage als eine Aufforderung stellen und dann (beispielsweise über 5 Sekunden) auf eine Antwort durch die Person warten. Wenn das Umfrage-System keine Antwort empfängt oder eine Antwort empfängt, die es nicht interpretieren kann, so kann das Umfrage-System die Frage erneut stellen oder eine Reaktion vom Anweisungs-Typ liefern. Wenn das Umfrage-System eine Antwort empfängt, die es interpretieren kann, geht das Umfrage-System zum Stellen einer nächsten Frage oder zur Vorlage einer nächsten Aufforderung über.
  • Derartige Mensch-Computer-Systeme schließen üblicherweise ein automatisches Spracherkennungs-(ASR-)System ein, das ankommende akustische Information in brauchbare linguistische Einheiten umwandelt, wie zum Beispiel Worte oder Sätze. In einem Transaktions-ASR-System, beispielsweise einem System, das über ein Telefon-Netz arbeitet, gibt es einen Satz von zulässigen Worten und Sätzen, die durch Grammatik definiert sind. Der Prozess des Durchsortierens der Grammatik auf eine bestimmte Wort- oder Satz-Verwendung wird als eine syntaktische Suche bezeichnet, bei der die Worte und ihre Reihenfolge bestimmt werden, typischerweise auf der Grundlage der Wahrscheinlichkeit. Derartige syntaktische Such-Systeme werten typischerweise ein Wort unter Verwendung eines festen Startpunktes und eines festen Endpunktes aus, und sie verarbeiten diese Daten, um das Wort mit einer zugehörigen Wahrscheinlichkeit zu bestimmen. Diese Lösung erweist sich jedoch als wenig wirkungsvoll, weil der Zeitrahmen zwischen Start- und Endpunkten für einige Audio-Eingänge ausreichend sein kann, jedoch für andere unzureichend ist, wobei einige Daten über eine Endpunkt hinaus abgeschnitten werden und in anderen Fällen mehr Zeit auf ein Wort verwendet wird, als dies erforderlich ist. Zusätzlich können, wenn keine Ergebnisse oberhalb einer bestimmten Schwellenwert-Wahrscheinlichkeit erzielt werden, derartige Systeme zurücksteigen und die Audio-Eingabe erneut bearbeiten, um die phonetischen Abschätzungen zu verbessern. Anderenfalls kann das System nur eine beste Schätzung, jedoch mit niedriger Verlässlichkeit weiterleiten.
  • Bei derartigen Systemen werden typischerweise Audio-Eingänge, unabhängig davon, ob sie Sprache- oder Hintergrund-Störungen sind, in den meisten Fällen als gültige Sprache verarbeitet. Das heißt, derartige Systeme unterhalten üblicherweise keine ausreichende Kontext-Kenntnis über die erwartete Antwort, um externe Störungen (oder ein „Hereinplatzen") zu beseitigen. Als Ergebnis können derartige Systeme versuchen, derartige Störungen als Sprache zu interpretieren, wodurch ein Ergebnis erzeugt wird, das eingebettete Fehler aufweist, oder sie verwerfen das Ergebnis vollständig.
  • Die Entwicklung von Sprach-Anwendungen, die Spracherkennungs-(SR-)Systeme verwenden, zur Erzeugung derartiger Mensch-Computer-Systeme ist allgemein eine aufwendige zeitraubende Anstrengung, die ein Team erfordert, das aus mehrfachen Disziplinen stammt. Die dominierende Lösung zur Verbesserung der Einfachheit einer derartigen Anwendungs-Entwicklung bestand in der Schaffung von Web-basierten Anwendungen unter Verwendung von HTML-Erweiterungen. Beispielsweise sind VOXML, VoiceXML und SpeechML bekannte Arten von Erweiterungen, die speziell für SR-Systeme geschaffen wurden. Diese Lösungen waren jedoch schwerwiegend hinsichtlich ihrer Fähigkeit beschränkt, komplizierte Sprach-Wechselwirkungen darzustellen, und zwar aufgrund der starken Beschränkungen hinsichtlich ihrer Codierungs-Leistung sowie von Beschränkungen hinsichtlich ihrer Steuerung bei grundlegenden SR-Maschinen und des Zugriffs hierauf. Das heißt, dass HTML keine wirkliche Programmier-Sprache ist, sondern vielmehr eine Markierungs-Sprache ist. Daher ergibt sie lediglich ein sehr beschränktes Rahmenwerk, das nicht besonders für die Schaffung robuster Anwendungen geeignet ist. Der Zugang an Spracherkennungs-Maschinen, wie zum Beispiel VoiceXML-Anwendungen ist durch die Einschränkungen der Markierungs-Sprache begrenzt, wie zum Beispiel das Fehlen von Programmiersprachen-Fähigkeiten und festen vordefinierten Schnittstellen zu der SR-Maschine.
  • Derartige VoiceXML-Anwendungen befinden sich typischerweise bei einem SR-System auf einem Sprach-Portal (oder einer Überleiteinrichtung), das als ein Klient für einen Web-Server wirkt, der Hilfsdienste für die VoiceXML-Anwendung liefert. Die Hilfsdienste schließen Standard-Web-Dienste und üblicherweise eine kundenspezifische Software ein, die von der VoiceXML-Anwendung benötigt wird. Beispielsweise wird typischerweise ein Unterstützungs-(das heißt ein Server-seitiges) Produktdaten-Servlet typischerweise eingefügt, das für den Verkehr mit Unterstützungs- oder Hilfsdiensten verantwortlich ist, unter Einschluss der Umwandlung empfangener Antworten in XML. Ein Produkt-Präsentations-Servlet ist typischerweise ebenfalls auf der Server-Seite eingefügt. Dieses Servlet wird zum Überführen von Inhalt in einem Format verwendet, das von der VoiceXML-Anwendung (oder dem Klienten) benötigt wird. Ein Aufbewahrungsort für VoiceXML-spezifische XSL-Schablonen befindet sich an der Unterstützungs-Einrichtung und definiert die Formate, die von dem Produkt-Präsentations-Servlet verwendet werden. Weiterhin ist ein Produkt-Dienst auf der Unterstützungs-Seite vorgesehen, der die Verbreitung von Produkt-bezogener Information verwaltet, beispielsweise um das Produkt-Browsen zu erleichtern. Weiterhin befindet sich eine Produkt-Datenbank, die von den verschiedenen Server-seitigen Servlets und Diensten verwendet wird, ebenfalls an der Unterstützungs-Seite.
  • Diese Lösung mit einer starken Abhängigkeit von Unterstützungs-Server-seitigen Diensten ist bei derartigen VoiceXML-Anwendungen erforderlich, weil VoiceXML-Anwendungen als solche nicht in der Lage sind, komplexe und robuste Funktionen zur Verfügung zu stellen.
  • Aus der US 5 748 841 ist ein System bekannt, um ein Programm über Sprache zu betreiben. Sprachbefehle werden von einem Dialog-System empfangen und in einem semantischen Ausdruck umgewandelt. Das Dialog-System verfolgt den Dialog, der abläuft, durch Unterhalten einer Dialog-Historie.
  • Das System empfängt eine von dem Benutzer gelieferte Eingabe. Diese Eingabe wird erkannt und einem semantischen Ausdruck umgewandelt. Der Ausdruck wird dann gegen ein Dialog-Modell getestet, ob dies ein Meta-Befehl oder ein einfacher Befehl ist. Wenn der Eingabe-Ausdruck in dem Dialog-Kontext Sinn macht, so wird er interpretiert, und schließlich laufen Anwendungs-Skripte ab. Anwendungs-Skripte werden zum Analysieren und Auswerten von Benutzer-Eingaben verwendet. Sie definieren keinen Kontext. Eine Schnittstelle wird als eine Benutzer-Schnittstelle verwendet.
  • Zusammenfassung der Erfindung
  • Die vorliegende Erfindung ist ein System und Verfahren zur Erzeugung und Implementierung von Transaktions-Sprach-Anwendungen (SAs) unter Verwendung von Web-Technologien ohne Abhängigkeit von Server-seitigen Standard- oder kundenspezifischen Diensten. Eine Transaktions-Sprach-Anwendung kann irgendeine Anwendung sein, die eine Interpretation von Sprache in Verbindung mit einem Spracherkennungs-(SR-)System erfordert, wie zum Beispiel Kundenbefragungs-Anwendungen oder Systeme. Eine Sprach-Anwendung gemäß der vorliegenden Erfindung ist innerhalb einer Web-Seite als ein Anwendungs-Skript dargestellt, das semantische Objekte entsprechend einem Kontext interpretiert. Irgendeine allgemein bekannte Skript-Sprache kann zum Schreiben des Anwendungs-Skriptes verwendet werden, wie zum Beispiel Jscript, PerlSript und VBscript. Die vorliegende Erfindung ist in dem Ausmaß „Web-basiert", das sie Web-Technologien implementiert, das weltweite Datennetz jedoch nicht einschließen oder einen Zugriff auf dieses ausführen muss.
  • Die vorliegende Erfindung ist durch die beigefügten unabhängigen Ansprüche definiert.
  • Ein SR-System schließt eine SR-Plattform und ein SR-Anwendungs-Programm ein. Das SR-System dient als eine Schnittstelle oder Überleiteinrichtung zwischen einem für einen Benutzer zugänglichen Netzwerk und einem Anwendungs-System (beispielsweise einer Quelle), die eine Web-Seite erzeugt, die das Anwendungs-Skript einschließt. Die Anwendungs-Skript-Quelle kann örtlich oder an einer entfernten Stelle oder von dem SR-System entfernt angeordnet sein. Wenn das SR-System eine Zugriff auf ein an einer entfernten Stelle angeordnetes Anwendung-System ausführen muss, schließt das SR-System eine Seiten-Adressen-Information (beispielsweise URLs) ein, und es kann so konfiguriert sein, dass es einen Zugriff auf das Anwendungs-System ausführt und die Web-Seite als Antwort auf einen ankommenden Anruf herunterlädt.
  • Die SR-Plattform kann beispielsweise ein Standard-Server mit einer Netzwerk-Schnittstelle sein, die den Empfang von Audio-Information ermöglicht. Die Netzwerk-Schnittstelle kann den Empfang von Audio-Information über irgendeines einer Vielfalt von Netzwerken ermöglichen, wie zum Beispiel Telefon-Netzwerke, Zellular-Telefon-Netzwerke, das Web, Internet, lokale Netzwerke (LANs), Weitbereichs-Netzwerke (WANs), private Netzwerke, virtuelle private Netzwerke (VPNs), Intranets, Extranets, drahtlose Netzwerke und dergleichen, oder irgendeine Kombination hiervon. Das SR-System kann mit Hilfe irgendeiner oder mehrerer einer Vielfalt von Geräten zugänglich sein, die in der Lage sind, Audio-Information zu übermitteln, wie zum Beispiel Telefone, Zellular-Telefone, persönliche Computer (PC), persönliche digitalen Assistenten (PDA) oder andere Arten von Audio-fähigen Geräten.
  • Die Web-Seite unter Einschluss des Anwendungs-Skriptes kann sich an dem SR-System örtlich zu diesem befinden, oder es kann von einem Transaktions-Sprach-Anwendungs-System über ein Netzwerk heruntergeladen werden, wie zum Beispiel die vorstehend beschriebenen Netzwerke. Die Funktionalität der Sprach-Anwendung wird von dem Anwendungs-Skript an das SR-System ohne die Notwendigkeit einer Server-seitigen Anwendungs-Codierung an einem Anwendungs-Server geliefert, wie dies bei Systemen erforderlich ist, die in VoiceXML geschriebene Sprach-Anwendungen verwenden, um ein Beispiel zu nennen. Das heißt, die gesamte erforderliche Anwendungs-Funktionalität kann heruntergeladen werden, falls erforderlich, und an dem SR-System ausgeführt werden. Diese Funktionalität schließt das Darbieten von Benutzer-Aufforderungen, die Verarbeitung von Benutzer-Antworten, die Gesamt-Anwendungs-Sitzungs-Verwaltung, eine Schnittstellen-Verbindung mit anderen verfügbaren Modulen oder Einrichtungen ein, die eine Funktionalität ergeben. Eine derartige Funktionalität schließt weiterhin eine SR-System-Steuerfunktionalität und eine Standard-HTML- und Betriebssystem-Funktionalität ein. Schnittstellen an eine derartige Funktionalität werden vorzugsweise als selbständige wiederverwendbare Objekte geschrieben.
  • Allgemein entsprechen alle die Schnittstellen-Objekte, die von dem Anwendungs-Skript verwendet werden, einem Standard-Schnittstellen-Modell, wie zum Beispiel ActiveX. Das Anwendungs-Skript kann sehr einfach einen Zugriff auf alle von Natur aus vorhandenen ActiveX-Fähigkeiten des Betriebssystems (beispielsweise Mitteilungs-Übermittlung, Datenbank-Zugriff usw.) über diese Standard-Schnittstellen unter Verwendung von Standard-ActiveX-Steuerungen ausführen. Die Verwendung von ActiveX-Schnittstellen-Objekten (das heißt genormte konsistente Objekte) für Zugriffs- und Steuer-Funktionen, die für das Anwendungs-Skript verfügbar sind, vereinfacht sehr stark die Entwicklung und Integration derartiger Anwendungen, die lediglich konfiguriert werden müssen, um diese Standard-ActiveX-Schnittstellen-Objekte zu verwenden, so dass sie keine speziellen oder kundenspezifischen Schnittstellen erfordern.
  • Eine semantische Schnittstelle an die SR-Anwendung stellt das Anwendungs-Skript im SR-System zur Verfügung. Die semantische Schnittstelle ist als ein Objekt beschrieben, das für das SR-System örtlich ist, wie zum Beispiel ein ActiveX-Objekt. Das semantische Schnittstellen-Objekt schließt eine Standard-HTML-Browser-Funktionalität ein, unter Einschluss einer Etikett-Verarbeitung, einer Hyper-Referenz usw.. Das semantische Schnittstellen-Objekt unterstützt weiterhin HTML-Erweiterungen, wie zum Beispiel Wiedergabe, Abspielen und Aufzeichnung, sowie andere bekannte HTML-Erweiterungen. Wenn es Skript-Etiketten gibt, die sich auf der Web-Seite befinden, so lädt die semantische Schnittstelle eine entsprechende Skript-Maschine. Weil die semantische Schnittstelle als eine Objekt-Schnittstelle hoher Ebene codiert ist, muss sie nicht für das Anwendungs-Skript kundenspezifisch gemacht werden. Über das semantische Schnittstellen-Objekt steuert das Anwendungs-Skript das SR-System. Beispielsweise kann das Anwendungs-Skript die SR-Anwendung beauftragen, mit der Erkennung zu beginnen, eine Datei abzuspielen, eine Aufforderung abzuspielen, und so weiter. Derartige Aufgabenstellungen können unter Verwendung genormter Objektorientierter Entwurfs-(OOD-)Aufrufe und Verfahren bewirkt werden.
  • Die SR-Anwendungs-Funktionalität ist so konfiguriert, dass sie einen Kontext-freien Satz von semantischen Daten erzeugt und zurückliefert, die alle möglichen gültigen Interpretationen einer empfangenen Audio-Eingabe darstellen. Das heißt, dass das SR-System so konfiguriert sein kann, dass es eine syntaktische und semantische Verarbeitung unter Verwendung einer gemeinsamen Grund-Grammatik oder eines Satzes von Grammatiken ausführt, um semantische Daten zu erzeugen, die eine Vielzahl von gültigen Interpretationen einer empfangenen Audio-Eingabe darstellen. Die semantischen Daten werden in einem semantischen Objekt (oder Objekten) dargestellt, das bzw. die von der SR-Anwendung an das Anwendungs-Skript weitergeleitet werden. Jedes semantische Objekt durchläuft die semantische Schnittstelle zu einer Auswertungs-Schnittstelle des Anwendungs-Skripts. Die Auswertungs-Schnittstelle kann ebenfalls als ein ActiveX-Objekt beschrieben sein, das als ein Auswertungs-(oder Interpretations-)Werkzeug für das Anwendungs-Skript dienen kann. Das Anwendungs-Skript ergibt einen Kontext für die Auswertungs-Schnittstelle. Die Auswertungs-Schnittstelle bestimmt die Kategorie als eine Funktion des Kontextes, und wendet die Kategorie auf den Satz von semantischen Daten an, um spezifische Interpretationen des Satzes von semantischen Daten aus all den möglichen Interpretationen zu gewinnen. Dieses spezielle Ergebnis kann als ein linguistisches Ergebnis bezeichnet werden, das ein Wort, einen Satz oder Werte darstellt. Sobald das linguistische Ergebnis bestimmt wurde, verarbeitet das Anwendungs-Skript das Ergebnis, um die nächste Aktion oder Aufforderung an den Benutzer zu bestimmen.
  • Kurze Beschreibung der Zeichnungen
  • Die vorstehenden und anderen Ziele der Erfindung, deren verschiedene Merkmale sowohl die Erfindung selbst werden weiter aus der folgenden Beschreibung verständlich, wenn diese anhand der beigefügten Zeichnungen gelesen wird, in denen:
  • 1 eine Netzwerk-Architektur ist, innerhalb der die vorliegende Erfindung implementiert werden kann;
  • 2 ein Blockschaltbild ist, dass die verschiedenen Elemente einer Implementierung einer Sprach-Anwendung und des Spracherkennungs-Systems gemäß der vorliegenden Erfindung zeigt; und
  • 3 ein Ablaufdiagramm ist, das ein Verfahren der vorliegenden Erfindung zeigt.
  • Zum größten Teil, und wie dies aus der Bezugnahme auf die Figuren zu erkennen ist, wird, wenn ein Element in mehr als einer Figur unverändert verwendet wird, es durch die gleiche alphanumerische Bezeichnungs-Angabe in allen Figuren identifiziert.
  • Ausführliche Beschreibung der bevorzugten Ausführungsform
  • Die vorliegende Erfindung ist ein System und Verfahren zur Schaffung und Implementierung von Transaktions-Sprach-Anwendungen (SAs) unter Verwendung von Web-Technologien ohne Abhängigkeit von Server-seitigen Standard- oder kundenspezifischen Diensten. Eine Transaktions-Sprach-Anwendung kann irgendeine Anwendung sein, die eine Interpretation von Sprache in Verbindung mit einem Spracherkennungs-(SR-)System erfordert, wie zum Beispiel Kundenbefragungs-Anwendungen oder -Systeme. Eine Sprach-Anwendung gemäß der vorliegenden Erfindung wird in einer Web-Seite als ein Anwendungs-Skript dargestellt, das semantische Objekte entsprechend einem Kontext interpretiert. Irgendeine üblicherweise bekannte Skript-Sprache kann zum Schreiben des Anwendungs-Skripts verwendet werden, wie zum Beispiel Jscript, PerScript und Vbscript. Die vorliegende Erfindung ist in der Hinsicht „Web-basiert", dass sie Web-Technologien implementiert, sie muss jedoch das weltweite Datennetz (Web) nicht einschließen oder einen Zugriff hierauf haben.
  • Die vorliegende Erfindung kann auf irgendeiner oder mehreren einer Vielzahl von Geräten, Netzwerken und Architekturen implementiert werden. 1A zeigt eine mögliche Architektur 100, auf der die vorliegende Erfindung implementiert werden kann. Das SR-System 120 schließt ein SR-Anwendungsprogramm ein, das auf einer Standard-Plattform abläuft, wie zum Beispiel einem SR-Server 122. Ein oder mehrere zugehörige Datenbanken 124 schließen die SR-Anwendung und die Daten ein, wie zum Beispiel Kontext-freie Grammatik-Datenbanken. Das SR-System dient als eine Schnittstelle oder Überleiteinrichtung zwischen einem für einen Benutzer zugänglichen Netzwerk 130 und einem Anwendungs-System (beispielsweise einer Quelle), die die Web-Seite erzeugt und die das Anwendungs-Skript einschließt. Die Anwendungs-Quelle kann örtlich oder entfernt von dem SR-System angeordnet sein. Tatsächlich kann sich die Anwendungs-Skript-Quelle ebenfalls auf dem Server 122 befinden. Bei anderen Ausführungsformen kann sich der Anwendungs-Code auf einem Anwendungs-Server 110 befinden, der eine zugehörige Datenbank (DB) 112 hat, die mit dem SR-System über irgendeines einer Anzahl von Standard-Netzwerken 150 gekoppelt ist. Bei weiteren Ausführungsformen kann das SR-System eine Vielzahl von Anwendungs-Quellen mit Diensten versorgen, von denen einige örtlich sein können, während andere von dem SR-System entfernt angeordnet sein können. Wenn das SR-System auf ein entfernt angeordnetes Anwendungs-System zugreifen soll, so schließt das SR-System Seiten-Adressen-Information (beispielsweise URLs) ein, und es kann so konfiguriert sein, dass es einen Zugriff auf das Anwendungs-System ausführt und die Web-Seite als Antwort auf einen ankommenden Anruf herunterlädt.
  • Das SR-System 120 kann eine Netzwerk-Schnittstelle einschließen, die den Empfang von Audio-Information durch irgendeines eine Vielzahl von Netzwerken ermöglicht, wie zum Beispiel Telefon-Netzwerken, Zellular-Telefon-Netzwerken, dem weltweiten Datennetz (Web), Internet, lokalen Netzwerken (LANs), Weitbereichs-Netzwerken (WANs), privaten Netzwerken, virtuellen privaten Netzwerken (VPNs), Intranets, Extranets, drahtlosen Netzwerken und dergleichen, oder Kombinationen hiervon. Auf das SR-System kann durch irgendeines oder mehrere einer Vielzahl von Geräten 140 zugegriffen werden, die in der Lage sind, Audio-Information zu übertragen. Derartige Geräte 140 können ohne Beschränkung hierauf ein Standard-Telefon (unter Einschluss von Zellular-Telefonen) 142, einen Laptop-Computer 144 oder einen Desktop-Computer 146 sowie andere Audiofähige Geräte einschließen (beispielsweise persönliche digitale Assistenten, Audio-Empfänger und Anwendungs-Server).
  • Eine Sprach-Anwendung kann irgendeine interaktive Anwendung sein, die Information sammelt, bereitstellt und/oder verteilt. Als Beispiele können bei der vorliegenden Erfindung eine Sprach-Anwendung und ein Anwendungs-Skript irgendeine einer Gruppe von interaktiven Anwendungen sein, unter Einschluss von Kundenbefragungs-Anwendungen, Web-Zugriffs-Anwendungen; Erziehungs-Anwendungen, unter Einschluss von Gesundheits-Erziehungs-Anwendungen, und Computer-basierten Unterrichts-Anwendungen und Test-Anwendungen; Überprüfungs-Anwendungen, unter Einschluss von Patienten-Prüfungs-Anwendungen und Verbraucher-Überprüfungs-Anwendungen; Gesundheitsgefahr-Abschätzungs-Anwendungen; Überwachungs-Anwendungen, unter Einschluss von Überwachungs-Anwendungen von Gesundheits-Daten und Überwachungs-Anwendungen für Verbraucher-Vorlieben; Befolgungs-Anwendungen, insbesondere Anwendungen zur Erzeugung von Benachrichtigungen über über Befolgungsbezogene Aktivitäten, unter Einschluss von Benachrichtigungen hinsichtlich einer Einhaltung von Gesundheits- oder Produkt-Vorschriften; Testergebnis-Anwendungen unter Einschluss von Anwendungen, die zumindest eines von Labor-Testergebnissen, Standard-Testergebnissen, Verbraucher-Produkt-Testergebnissen und Wartungs-Ergebnissen ergeben; und Verknüpfungs-Anwendungen unter Einschluss von Anwendungen, die zwei oder mehr der vorstehenden Anwendungen verknüpfen.
  • In 2 ist ein Blockschaltbild 200 gezeigt, das eine Implementierung der vorliegenden Erfindung zeigt. Die Web-Seite 220, die das Anwendungs-Skript 222 einschließt, kann sich am Ort des SR-Systems befinden, oder sie kann von einem Transaktions-Sprach-Anwendungs-System 110 über das Netzwerk 150 heruntergeladen werden. In jedem Fall wird die Web-Seite 220 auf das SR-System 120 (oder eine hierzu örtliche Plattform) geladen, die als Web-Seite 220' mit dem Anwendungs-Skript 222' gezeigt ist. Die Funktionalität der Sprach-Anwendung wird dem SR-System 120 von dem Anwendungs-Skript 222' geliefert, ohne dass die Notwendigkeit einer Server-seitigen Anwendungs-Codierung an einem Anwendungs-Server 110 besteht, wie dies bei Systemen erforderlich ist, die beispielsweise in VoiceXML geschriebene Sprach-Anwendungen verwenden. Das heißt, dass alle erforderliche Anwendungs-Funktionalität als Teil des Anwendungs-Skriptes heruntergeladen und an dem SR-System 120 ausgeführt wird. Diese Funktionalität ergibt die Darbietung von Benutzer-Aufforderungen, die Verarbeitung von Benutzer-Antworten, die Gesamt-Anwendungs-Sitzungs-Verwaltung und die Bildung von Schnittstellen mit anderen verfügbaren Modulen oder Einrichtungen, die eine Funktionalität ergeben. Derartige Aufforderungen können Fragen einschließen, wie zum Beispiel „waren Sie jemals in Aruba?". Benutzer-Antworten schließen beispielsweise Antworten auf derartige Fragen ein, beispielsweise „einhundert Mal!". Die Gesamt-Sitzungs-Verwaltung kann die Durchführung einer Umfrage einschließen, die derartige Aufforderungen liefert und derartige Antworten verarbeitet. Eine derartige Funktionalität schließt auch eine Funktionalität zur Steuerung des SR-Systems 120 und eine Standard-HTML- und Betriebssystem-Funktionalität ein. Schnittstellen zu einer derartigen Funktionalität sind vorzugsweise als selbständige wiederbenutzbare Objekte geschrieben.
  • Bei der bevorzugten Ausführungsform gehorchen alle die Schnittstellen-Objekte, die von dem Anwendungs-Skript 222' verwendet werden, einem Standard- Schnittstellen-Modell, wie zum Beispiel ActiveX. Das heißt, die ActiveX-Objekte 230 geben dem Anwendungs-Skript 222' Zugang an Standard-Web-Dienste. Daher kann das Anwendungs-Skript 222' einen einfachen Zugriff auf alle die von Natur aus vorhandenen ActiveX-Fähigkeiten des Betriebssystems durchführen (beispielsweise Mitteilungs-Übermittlung, Datenbank-Zugriff usw.) und zwar über diese Standard-Schnittstellen 230 unter Verwendung von Standard-ActiveX-Steuerungen. Die Verwendung von ActiveX-Schnittstellen-Objekten 23 (das heißt genormten gleichförmigen Objekten) für den Zugriff und die Steuerung von Funktionen, die für das Anwendungs-Skript 222' zur Verfügung stehen, vereinfacht sehr stark die Entwicklung und Integration derartiger Anwendungen. Sprach-Anwendungen gemäß der vorliegenden Erfindung müssen nur zur Verwendung dieser Standard-ActiveX-Schnittstellen-Objekt 230 konfiguriert werden, so dass sie keine speziellen oder kundenspezifischen Schnittstellen benötigen. Die ActiveX-Objekte 230 sind für das SR-System lokal und können mit irgendeinem Anwendungs-Skript verwendet werden, das zugeführt oder hierauf geladen wird.
  • Eine semantische Schnittstelle, die als die „Teller"-Schnittstelle 240 bezeichnet wird, bietet das Anwendungs-Skript 222' der SR-Anwendung 210 an. Die Teller-Schnittstelle ist als ein ActiveX-Objekt geschrieben, das für das SR-System 210 lokal ist. Das Teller-Schnittstellen-Objekt 240 schließt eine Standard-HTML-Browser-Funktionalität, unter Einschluss von Etikett-Verarbeitung, Hyper-Verweisen usw. ein. Das Teller-Schnittstellen-Objekt 240 unterstützt weiterhin HTML-Erweiterungen, wie zum Beispiel Dialog, Play und Record, wie andere bekannte HTML-Erweiterungen. Wenn es Skript-Etiketten gibt, die sich auf der Web-Seite befinden, so lädt das Teller-Schnittstellen-Objekt 240 eine entsprechende Skript-Maschine.
  • Weil die Teller-Schnittstelle als eine Objekt-Schnittstelle hoher Ebene codiert ist, muss sie nicht für das Anwendungs-Skript 222' spezifisch angepasst werden. Vielmehr können viele Instanzen des Teller-Schnittstellen-Objektes 240 geschaffen werden, die jeweils eines einer Vielfalt von Anwendungs-Skripten mit Diensten versorgen. Eine Instanz des Teller-Schnittstellen-Objektes 240 kann im voraus oder bei einem ankommenden Aufruf von einem Geräte 140 geschaffen werden. Über das Teller-Schnittstellen-Objekt 240 steuert das Anwendungs-Skript 222' die SR-Anwendung 210, was als Pfeil 242 dargestellt ist. Beispielsweise kann das Anwendungs-Skript der SR-Anwendung die Aufgabe geben, die Erkennung zu beginnen, eine Datei wiederzugeben, eine Aufforderung abzuspielen, usw.. Derartige Aufgabenstellungen können unter Verwendung von Standardobjektorientierten Entwurfs-(OOD-)Aufrufen und Verfahren durchgeführt werden.
  • Das Teller-Schnittstellen-Objekt 240 wird weiter unter Bezugnahme auf das folgende Pseudo-Code-Segment verständlich:
    Figure 00130001
  • Die Funktionalität der SR-Anwendung 210 wird so konfiguriert, dass sie einen Kontext-freien Satz von semantischen Daten erzeugt und zurückliefert, die alle möglichen gültigen Interpretationen eines empfangenen Audio-Einganges darstellen, das heißt, das SR-System 120 kann so konfiguriert werden, dass es eine syntaktische und semantische Verarbeitung unter Verwendung einer gemeinsamen Wurzel-Grammatik ohne eines Satzes von Grammatiken ausführt, um eine semantische Baum-Instanz zu erzeugen, die alle möglichen gültigen Interpretationen eines empfangenen Audio-Stroms darstellt. Die semantischen Daten sind in einem semantischen Objekt (oder Objekten) 244 dargestellt, die von der SR-Anwendung 210 zu Anwendungs-Skript 222' weitergeleitet werden. Jedes semantische Objekt 244 durchläuft die Teller-Schnittstelle 240 zu einer Auswertungs-Schnittstelle 250 des Anwendungs-Skriptes.
  • Die Auswertungs-Schnittstelle 250 kann ebenfalls als ein ActiveX-Objekt beschrieben werden, das als ein Auswertungs-(oder Interpretations-)Werkzeug für das Anwendungs-Skript 222' dienen kann. Das Anwendungs-Skript 222' liefert einen Kontext an die Auswertungs-Schnittstelle 250. Die Auswertungs-Schnittstelle 250 bestimmt eine Kategorie, die dem Kontext zugeordnet ist, und wendet die Kategorie auf die semantischen Objekte 244 an, um eine spezielle Interpretation des Satzes von semantischen Daten aus allen den möglichen Interpretationen zu gewinnen. Dieses Ergebnis kann als ein linguistisches Ergebnis bezeichnet werden, das ein Wort, einen Satz oder Werte darstellt. Sobald das linguistische Ergebnis bestimmt ist, verarbeitet das Anwendungs-Skript 222' das Ergebnis, um seine nächste Aktion oder Aufforderung für den Benutzer zu bestimmen. Die Auswertungs-Schnittstelle 250 wird weiter aus dem folgenden Pseudo-Code-Segment verständlich:
    Figure 00140001
  • Kategorien werden durch ihre Namen identifiziert. Sie spezifizieren die spezielle erforderliche semantische Interpretation. Es sei darauf hingewiesen, dass ein semantisches Objekt 244 zur Interpretation unter Verwendung irgendeiner von mehreren gültigen Kategorien fähig ist. Diese Kategorien steuern unterschiedliche semantische Interpretationen des semantischen Objektes, in Abhängigkeit von dem Kontext. Zusammen beschreiben die Kategorien alle möglichen gültigen Interpretationen des semantischen Objektes. Weil alle Kontexte dargestellt sind, ermöglicht es dies, dass das semantische Objekt in einer Kontext-unabhängigen Weise verwendet und erneut verwendet wird. Beispiel von Kategorien sind „Zahl", „Zeichenkette", „Ziffer", „Auto-Modell".
  • 3 zeigt ein Ablaufdiagramm, das durch die Anwendungen und Objekte nach 2 durch eine Transaktions-Sprach-Anwendung gemäß der vorliegenden Erfindung implementiert werden kann. Der Prozess beginnt beispielsweise mit dem Empfang einer Audio-Eingabe von dem Gerät 140 über das Netzwerk 130. Diese Audio-Eingabe wird von dem SR-System im Schritt 302 empfangen. Wenn das Anwendungs-Skript 222' noch nicht zu dem SR-System 120 heruntergeladen wurden, wird das Anwendungs-Skript 222' von einer Quelle im Schritt 304 heruntergeladen. Bei Empfangen einer Audio-Eingabe liefert das Anwendungs-Skript 222' dem SR-System die Aufgaben über Steuerungen 242, beispielsweise für eine Interpretation des Audio-Einganges im Schritt 306.
  • Durch Interpretieren der Audio-Eigabe erzeugt die SR-Anwendung 210 eine Kontext-frei semantische Baum-Instanz, die alle möglichen gültigen Interpretationen des Audio-Einganges darstellt, die als ein oder mehrere semantische Objekte 244 im Schritt 308 dargestellt wird. Im Schritt 310 leitet die SR-Anwendung 210 das oder die semantischen Objekte 244 an das Anwendungs-Objekt 222' über die Teller-Schnittstelle 240 weiter. Die Teller-Schnittstelle führt keine wesentliche Verarbeitung des oder der semantischen Objekte 244 aus. Vielmehr empfängt eine semantische Baum-Auswertungs-Einrichtung 250 die semantische Baum-Instanz und einen Kontext, der durch das Anwendungs-Skript bestimmt ist, im Schritt 312. Die Auswertungs-Einrichtung 250 kann von dem Anwendungs-Skript 222' mit dem Kontext vor dem Empfang der semantischen Baum-Instanz versorgt werden, die in dem semantischen Objekt 244 verkörpert ist. Die semantische Baum-Instanz kann direkt von der SR-Anwendung 210 empfangen werden, oder sie kann über das Anwendungs-Skript 222' weitergeleitet werden, in Abhängigkeit von der Ausführungsform.
  • In der bevorzugten Form bestimmt die semantische Baum-Auswertungs-Einrichtung 250 im Schritt 314 eine Kategorie, die an jedem Knoten der semantischen Baum-Instanz anzuwenden ist. Weil die semantische Baum-Instanz von der SR-Anwendung 210 als Kontext-frei empfangen wird und alle gültigen Interpretationen der Audio-Eingabe darstellt, ist die Anwendung des Kontextes und einer entsprechenden Kategorie an jedem Knoten erforderlich, um ein einziges korrektes linguistisches Ergebnis zu erzielen. Dieses Ergebnis dient als eine Antwort auf eine anhängige Aufforderung durch das Anwendungs-Skript 222'. Entsprechend wird auch im Schritt 314 das linguistische Ergebnis an das Anwendungs-Skript 222' weitergeleitet. Das Anwendungs-Skript 222' bestimmt seine nächste Aktion, beispielsweise das Senden einer weiteren Aufforderung, als eine Funktion des linguistischen Ergebnisses.
  • Während die Sitzung ausgeführt wird, muss das Anwendungs-Skript 222' keinen Zugriff auf Stütz-Server aus irgendeinem Grund ausführen. Wenn die Sitzung beendet ist, wenn beispielsweise eine Umfrage, die von dem Anwendungs-Skript 222' verwaltet wird, abgeschlossen ist, so kann das Anwendungs-Skript 222' gelöscht werden. Die ActiveX-Objekte bleiben resident an dem SR-System, und sie können durch andere Anwendungs-Skripte neu verwendet werden, die auf das SR-System heruntergeladen werden.
  • Die Erfindung kann in anderen speziellen Ausführungsformen verwirklicht werden, ohne von dem Schutzumfang abzuweichen, wie er von den beigefügten Ansprüchen umfasst ist.

Claims (18)

  1. Sprachanwendungs-System, mit: A. einem Spracherkennungs-(SR-)System, das zum Empfang eines Audio-Eingangssignals und zur Erzeugung eines Kontext-freien Satzes von semantischen Daten konfiguriert ist, die alle möglichen gültigen Interpretationen des Audio-Eingangs darstellen; B. ein Sprachanwendungs-Skript, das an dem SR-System geladen und zum Bewirken eines Arbeitsschrittes des SR-Systems konfiguriert ist, wobei das Anwendungs-Skript einen Kontext definiert; C. eine semantische Daten-Auswerteeinrichtung, die zum Empfang des Kontext-freien Satzes von semantischen Daten und des durch das Anwendungs-Skript definierten Kontextes und zur Erzeugung, als Funktion hiervon, eines linguistischen Ergebnisses konfiguriert ist, das dem Audio-Eingang entspricht und eine spezifische Interpretation des Satzes von gültigen Interpretationen darstellt, und um das linguistische Ergebnis an das Anwendungs-Skript zurückzuliefern; D. einen Satz von wiederverwendbaren objektorientierten Schnittstellen, die für das SR-System lokal sind, wobei die Schnittstellen zur Schnittstellenverbindung des Anwendungs-Skriptes mit dem SR-System konfiguriert sind.
  2. System nach Anspruch 1, bei dem ein oder mehrere Anwendungs-Skripte in einer Web-Seite enthalten sind.
  3. System nach Anspruch 1, bei dem ein oder mehrere der Schnittstellen Objekte sind, die über ActiveX-Einrichtungen ausgebildet werden.
  4. System nach Anspruch 1, bei dem das Anwendungs-Skript Programmier-Code einschließt, der in einer Sprache geschrieben ist, die aus einer Gruppe von Skript-Sprachen ausgewählt sind, die Folgendes umfasst: (1) JSkript; (2) PerlSkript; und (3) VBscript.
  5. System nach Anspruch 1, bei dem der Satz von semantischen Daten als eine semantische Baum-Instanz dargestellt ist.
  6. System nach Anspruch 1, bei dem der Satz von semantischen Daten in einem semantischen Objekt dargestellt ist.
  7. System nach Anspruch 1, bei dem der Audio-Eingang von einem Gerät empfangen wird, das aus der Gruppe ausgewählt ist, die Folgendes umfasst: A. ein Telefon; B. ein Zellulartelefon; C. einen persönlicher Computer; D. einen Anwendungs-Server; und E. einen Audio-Empfänger.
  8. System nach Anspruch 1, bei dem der Audio-Eingang über ein Netzwerk empfangen wird, das ein oder mehrere drahtgebundene oder drahtlose Netzwerke aus einer Gruppe umfasst, die Folgendes umfasst: A. ein Telefon-Netzwerk; B. ein Zellulartelefon-Netzwerk; C. ein LAN; D. ein WAN; E. ein virtuelles privates Netzwerk; F. das Internet; und G. das weltweite Datennetz (Web).
  9. System nach Anspruch 1, bei dem die Vielzahl von gültigen Interpretationen des Audio-Einganges alle gültigen Interpretationen des Audio-Einganges innerhalb des Kontextes einschließt.
  10. System nach Anspruch 1, dadurch gekennzeichnet, dass die Sprachanwendung aus einer Gruppe von interaktiven Sprachanwendungen ausgewählt ist, die Folgendes umfasst: A. Verbraucher-Umfrageanwendungen; B. Zugangsanwendungen des weltweiten Datennetzes; C. Unterrichtsanwendungen unter Einschluss von Gesundheits-Unterrichtsanwendungen und Computer-basierten Unterrichtsanwendungen und Testanwendungen; D. Übersichtsanwendungen unter Einschluss von Patienten-Übersichtsanwendungen und Verbraucher-Übersichtsanwendungen; E. Gesundheitsgefahr-Abschätzungsanwendungen; F. Überwachungsanwendungen, unter Einschluss von Gesundheitsdaten-Überwachungsanwendungen und Verbraucher-Vorlieben-Überwachungsanwendungen; G. Einhaltungsanwendungen unter Einschluss von Anwendungen, die Benachrichtigungen über Einhaltungs-bezogene Aktivitäten erzeugen, unter Einschluss von Benachrichtigungen hinsichtlich der Gesundheit und der Produkt-Wartung; H. Testergebnisanwendungen, unter Einschluss von Anwendungen, die zumindest eines von Labor-Testergebnissen, genormten Testergebnissen, Verbraucher-Produkt-Testergebnissen und Wartungsergebnissen einschließen; und I. Verknüpfungsanwendungen, die Anwendungen einschließen, die zwei oder mehr der Anwendungen in den Teilen A bis H miteinander verknüpfen.
  11. System nach einem der Ansprüche 1 bis 10, bei dem: A. das Spracherkennungs-(SR-)System auf einem ersten Computer untergebracht ist und so konfiguriert ist, dass es den Audio-Eingang von einer Eingabe-Vorrichtung empfängt und ein oder mehrere semantische Objekte erzeugt, die eine Vielzahl von gültigen Interpretationen des Audio-Einganges darstellen; B. die Web-Seite auf den ersten Computer von einem zweiten Computer geladen wird, wobei die Web-Seite ein Anwendungs-Skript einschließt, das einen Satz von Sprachanwendungs-Funktionalität umfasst und zum Wechselwirken mit der Eingabe-Vorrichtung über das SR-System konfiguriert ist, wobei die Sprachanwendung so konfiguriert ist, dass sie Sprachanwendungs-Sitzungen ohne Zugriff auf den zweiten Computer ausführt; C. der Satz von wiederverwendbaren objektorientierten Schnittstellen lokal an dem ersten Computer angeordnet ist, wobei die Schnittstellen Folgendes einschließen: (1) ein oder mehrere Schnittstellen-Objekte, die zur Erleichterung des Zuganges des Anwendungs-Skriptes auf Standard-Dienste des ersten Computers konfiguriert sind; und (2) eine semantische Schnittstelle, die zur Erleichterung des Zuganges an und zur Steuerung des SR-Systems durch das Anwendungs-Skript konfiguriert ist; und D. die semantische Objekt-Auswertungseinrichtung so konfiguriert ist, dass sie aus den semantischen Objekten als eine Funktion des Kontextes eine einzige Interpretation des Audio-Einganges erzeugt und diese einzelne Interpretation an das Anwendungs-Skript zurückzuliefert.
  12. System nach Anspruch 1, bei dem die Sprachanwendung aus einer Gruppe von interaktiven Sprachanwendungen ausgewählt ist, die Folgendes umfasst: A. Verbraucherumfrageanwendungen; B. Web-Zugangsanwendungen; C. Unterrichtsanwendungen unter Einschluss von Gesundheits-Unterrichtsanwendungen und Computer-basierten Unterrichtsanwendungen und Testanwendungen; D. Übersichtsanwendungen unter Einschluss von Patienten-Übersichtsanwendungen und Verbraucher-Übersichtsanwendungen; E. Gesundheitsgefahr-Abschätzungsanwendungen; F. Überwachungsanwendungen, unter Einschluss von Gesundheitsdaten-Überwachungsanwendungen und Verbraucher-Vorlieben-Überwachungsanwendungen; G. Einhaltungsanwendungen unter Einschluss von Anwendungen, die Benachrichtigungen über Einhaltungs-bezogene Aktivitäten erzeugen, unter Einschluss von Benachrichtigungen hinsichtlich der Gesundheit und der Produkt-Wartung; H. Testergebnisanwendungen, unter Einschluss von Anwendungen, die zumindest eines von Labor-Testergebnissen, genormten Testergebnissen, Verbraucher-Produkt-Testergebnissen und Wartungsergebnissen einschließen; und I. Verknüpfungsanwendungen, die Anwendungen einschließen, die zwei oder mehr der Anwendungen in den Teilen A bis H miteinander verknüpfen.
  13. System nach Anspruch 11, bei dem der Satz von wiederverwendbaren Objekt orientierten Schnittstellen und die semantische Objekt-Auswertungseinrichtung Objekte sind, die über ActiveX-Einrichtungen beaufschlagt sind.
  14. Sprachanwendungs-Skript für eine Web-Seite, wobei das Skript so konfiguriert ist, dass es mit einem Spracherkennungs-(SR-) System zusammen wirkt, das auf einem ersten Computer abläuft und zum Empfang eines Audio-Eingangs und zur Erzeugung eines oder mehrerer semantischer Objekte konfiguriert ist, die eine Vielzahl von gültigen Interpretationen des Audio-Einganges darstellen, wobei der erste Computer weiterhin eine Vielzahl von Schnittstellen-Objekten und eine semantische Objekt-Auswertungseinrichtung einschließt, die zur Erzeugung aus dem einen oder mehreren semantischen Objekten einer einzigen Interpretation des Audio-Einganges als eine Funktion des Kontextes konfiguriert ist, wobei das Anwendungs-Skript Folgendes umfasst: A. eine Kontext-Definition; B. eine Verknüpfung zu der semantischen Objekt-Auswertungseinrichtung; C. eine Verknüpfung zu dem SR-System über ein semantisches Schnittstellen-Objekt von der Vielzahl von Schnittstellen-Objekten; D. einen Satz von Steuer-Funktionalität, der Folgendes umfasst: (1) eine Sitzungs-Verwaltung, die zur Erzeugung von Benutzer-Aufforderungen und zur Bestimmung einer nächsten Aktion als eine Funktion der einzigen Interpretation konfiguriert ist; (2) eine SR-System-Steuerung, die zur Lieferung von Aufgabenstellungen an das SR-System konfiguriert ist; (3) eine Kommunikations-Verwaltung, die zur Verwaltung der Wechselwirkung mit der Eingabe-Vorrichtung über das SR-System konfiguriert ist, wobei das Sprachanwendungs-Skript auf den ersten Computer von einem zweiten Computer aus ladbar ist und die Sprachanwendung so konfiguriert ist, dass sie Sprachanwendungs-Sitzungen ohne Zugriff auf den zweiten Computer ausführt.
  15. System nach Anspruch 14, bei dem die Schnittstellen-Objekte Objekte sind, die über ActiveX-Einrichtungen ausgebildet sind.
  16. Anwendungs-Skript nach Anspruch 14, bei dem das Sprachanwendungs-Skript eine Sprachanwendung ist, die aus einer Gruppe von interaktiven Sprachanwendungen ausgewählt ist, die Folgendes umfasst: A. Verbraucherumfrageanwendungen; B. Web-Zugangsanwendungen; C. Unterrichtsanwendungen unter Einschluss von Gesundheits-Unterrichtsanwendungen und Computer-basierten Unterrichtsanwendungen und Testanwendungen; D. Übersichtsanwendungen unter Einschluss von Patienten-Übersichtsanwendungen und Verbraucher-Übersichtsanwendungen; E. Gesundheitsgefahr-Abschätzungsanwendungen; F. Überwachungsanwendungen, unter Einschluss von Gesundheitsdaten-Überwachungsanwendungen und Verbraucher-Vorlieben-Überwachungsanwendungen; G. Einhaltungsanwendungen unter Einschluss von Anwendungen, die Benachrichtigungen über Einhaltungs-bezogene Aktivitäten erzeugen, unter Einschluss von Benachrichtigungen hinsichtlich der Gesundheit und der Produkt-Wartung; H. Testergebnisanwendungen, unter Einschluss von Anwendungen, die zumindest eines von Labor-Testergebnissen, genormten Testergebnissen, Verbraucher-Produkt-Testergebnissen und Wartungsergebnissen einschließen; und I. Verknüpfungsanwendungen, die Anwendungen einschließen, die zwei oder mehr der Anwendungen in den Teilen A bis H miteinander verknüpfen.
  17. Verfahren zur Konfiguration eines Sprachanwendungs-Systems, mit einem Spracherkennungs-(SR-)System, das auf einem ersten Computer abläuft und Einrichtungen zum Empfang eines Audio-Eingangs einschließt, wobei das Verfahren Folgendes umfasst: A. Erzeugen einer Web-Seite auf einem zweiten Computer; B. Definieren eines Sprachanwendungs-Skriptes gemäß Anspruch 14; C. Integration des Anwendungs-Skriptes in die Web-Seite; D. Laden der Web-Seite, unter Einschluss des Anwendungs-Skriptes, von dem zweiten Computer auf den ersten Computer; und E. Ausbilden eines Satzes von Standard-Schnittstellen zwischen dem Anwendungs-Skript und dem SR-System.
  18. Verfahren zum Betrieb eines Sprachanwendungs-Systems, das ein Verfahren nach Anspruch 17 umfasst, das weiterhin Folgendes umfasst: A. Empfangen des Audio-Einganges durch das SR-System; B. Laden der Web-Seite, die das Anwendungs-Skript einschließt, auf den ersten Computer; C. Ausbilden eines Satzes von Standard-Schnittstellen zwischen dem SR-System und dem Anwendungs-Skript, unter Einschluss der Ausbildung einer semantischen Auswerteeinrichtung; D. als Antwort auf die Aufgaben-Beauftragung durch das Anwendungs-Skript, Erzeugen eines oder mehrerer semantischer Objekte durch das SR-System, die alle möglichen Interpretationen des Audio-Einganges darstellen; E. als Antwort auf den Empfang eines Kontextes, der von dem Anwendungs-Skript definiert ist, Bestimmen einer einzigen semantischen Interpretation durch die semantische Auswerteeinrichtung aus dem einen oder mehreren semantischen Objekten; und F. Bestimmen einer nächsten Aktion durch das Anwendungs-Skript als eine Funktion der einzigen semantischen Interpretation.
DE60130880T 2000-03-24 2001-03-23 Web-gestützte spracherkennung durch scripting und semantische objekte Expired - Lifetime DE60130880T2 (de)

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
US19191500P 2000-03-24 2000-03-24
US19209000P 2000-03-24 2000-03-24
US19209100P 2000-03-24 2000-03-24
US19207600P 2000-03-24 2000-03-24
US192091P 2000-03-24
US191915P 2000-03-24
US192090P 2000-03-24
US192076P 2000-03-24
PCT/US2001/009300 WO2001073755A1 (en) 2000-03-24 2001-03-23 Web-based speech recognition with scripting and semantic objects

Publications (2)

Publication Number Publication Date
DE60130880D1 DE60130880D1 (de) 2007-11-22
DE60130880T2 true DE60130880T2 (de) 2008-07-17

Family

ID=27497914

Family Applications (2)

Application Number Title Priority Date Filing Date
DE60143797T Expired - Lifetime DE60143797D1 (de) 2000-03-24 2001-03-23 Spracherkennung
DE60130880T Expired - Lifetime DE60130880T2 (de) 2000-03-24 2001-03-23 Web-gestützte spracherkennung durch scripting und semantische objekte

Family Applications Before (1)

Application Number Title Priority Date Filing Date
DE60143797T Expired - Lifetime DE60143797D1 (de) 2000-03-24 2001-03-23 Spracherkennung

Country Status (6)

Country Link
US (2) US6895377B2 (de)
EP (2) EP1279165B1 (de)
AT (2) ATE494610T1 (de)
AU (4) AU2001252951A1 (de)
DE (2) DE60143797D1 (de)
WO (4) WO2001073753A1 (de)

Families Citing this family (72)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7286984B1 (en) 1999-11-05 2007-10-23 At&T Corp. Method and system for automatically detecting morphemes in a task classification system using lattices
US8392188B1 (en) 1999-11-05 2013-03-05 At&T Intellectual Property Ii, L.P. Method and system for building a phonotactic model for domain independent speech recognition
US20030191625A1 (en) * 1999-11-05 2003-10-09 Gorin Allen Louis Method and system for creating a named entity language model
US7263484B1 (en) 2000-03-04 2007-08-28 Georgia Tech Research Corporation Phonetic searching
JP2002057930A (ja) * 2000-05-30 2002-02-22 Fuji Photo Film Co Ltd ディジタル・スチル・カメラおよびその動作制御方法
US6970185B2 (en) * 2001-01-31 2005-11-29 International Business Machines Corporation Method and apparatus for enhancing digital images with textual explanations
US7392191B2 (en) * 2001-03-29 2008-06-24 Intellisist, Inc. Method and device to distinguish between voice conversation and automated speech recognition
US8301503B2 (en) * 2001-07-17 2012-10-30 Incucomm, Inc. System and method for providing requested information to thin clients
US20090157483A1 (en) * 2001-11-14 2009-06-18 Retaildna, Llc Method and system for using artificial intelligence to generate or modify an employee prompt or a customer survey
US7336602B2 (en) * 2002-01-29 2008-02-26 Intel Corporation Apparatus and method for wireless/wired communications interface
US7369532B2 (en) * 2002-02-26 2008-05-06 Intel Corporation Apparatus and method for an audio channel switching wireless device
US7254708B2 (en) * 2002-03-05 2007-08-07 Intel Corporation Apparatus and method for wireless device set-up and authentication using audio authentication—information
US20030208451A1 (en) * 2002-05-03 2003-11-06 Jim-Shih Liaw Artificial neural systems with dynamic synapses
US7398209B2 (en) 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7693720B2 (en) 2002-07-15 2010-04-06 Voicebox Technologies, Inc. Mobile systems and methods for responding to natural language speech utterance
US7133828B2 (en) * 2002-10-18 2006-11-07 Ser Solutions, Inc. Methods and apparatus for audio data analysis and data mining using speech recognition
US8055503B2 (en) * 2002-10-18 2011-11-08 Siemens Enterprise Communications, Inc. Methods and apparatus for audio data analysis and data mining using speech recognition
US7076427B2 (en) * 2002-10-18 2006-07-11 Ser Solutions, Inc. Methods and apparatus for audio data monitoring and evaluation using speech recognition
US20040111272A1 (en) * 2002-12-10 2004-06-10 International Business Machines Corporation Multimodal speech-to-speech language translation and display
WO2005020209A2 (en) 2003-08-22 2005-03-03 Ser Solutions, Ic. System for and method of automated quality monitoring
US20050138137A1 (en) * 2003-12-19 2005-06-23 Microsoft Corporation Using parameterized URLs for retrieving resource content items
US7555543B2 (en) * 2003-12-19 2009-06-30 Microsoft Corporation Server architecture for network resource information routing
US7668939B2 (en) * 2003-12-19 2010-02-23 Microsoft Corporation Routing of resource information in a network
US7647385B2 (en) * 2003-12-19 2010-01-12 Microsoft Corporation Techniques for limiting network access
US20060095628A1 (en) * 2003-12-19 2006-05-04 Microsoft Corporation External-Network Data Content Exposure to Network-Connected Devices
US7570746B2 (en) * 2004-03-18 2009-08-04 Sony Corporation Method and apparatus for voice interactive messaging
KR100695127B1 (ko) * 2004-10-08 2007-03-14 삼성전자주식회사 다 단계 음성 인식 장치 및 방법
JP4802489B2 (ja) * 2004-12-07 2011-10-26 日本電気株式会社 音データ提供システムおよびその方法
US20070027808A1 (en) * 2005-07-29 2007-02-01 Microsoft Corporation Strategies for queuing events for subsequent processing
US7640160B2 (en) 2005-08-05 2009-12-29 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7620549B2 (en) 2005-08-10 2009-11-17 Voicebox Technologies, Inc. System and method of supporting adaptive misrecognition in conversational speech
US7949529B2 (en) 2005-08-29 2011-05-24 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions
WO2007027989A2 (en) * 2005-08-31 2007-03-08 Voicebox Technologies, Inc. Dynamic speech sharpening
JP5132565B2 (ja) * 2005-10-14 2013-01-30 アプライド メディカル リソーシーズ コーポレイション 腹腔鏡検査用ハンド接近器具の製造方法
US20070143307A1 (en) * 2005-12-15 2007-06-21 Bowers Matthew N Communication system employing a context engine
US8117246B2 (en) 2006-04-17 2012-02-14 Microsoft Corporation Registering, transfering, and acting on event metadata
WO2008043582A1 (en) * 2006-10-13 2008-04-17 International Business Machines Corporation Systems and methods for building an electronic dictionary of multi-word names and for performing fuzzy searches in said dictionary
US8073681B2 (en) 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
US7742922B2 (en) * 2006-11-09 2010-06-22 Goller Michael D Speech interface for search engines
US20080148284A1 (en) * 2006-12-15 2008-06-19 Maui Media Lab Llc Apparatus and method for developing and executing applications with declarative objects
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
US8140335B2 (en) 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US8131714B2 (en) * 2008-01-02 2012-03-06 Think Village-OIP, LLC Linguistic assistance systems and methods
US20090171663A1 (en) * 2008-01-02 2009-07-02 International Business Machines Corporation Reducing a size of a compiled speech recognition grammar
US8589161B2 (en) 2008-05-27 2013-11-19 Voicebox Technologies, Inc. System and method for an integrated, multi-modal, multi-device natural language voice services environment
US9305548B2 (en) 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
US20110044447A1 (en) * 2009-08-21 2011-02-24 Nexidia Inc. Trend discovery in audio signals
KR20110036385A (ko) * 2009-10-01 2011-04-07 삼성전자주식회사 사용자 의도 분석 장치 및 방법
US9502025B2 (en) 2009-11-10 2016-11-22 Voicebox Technologies Corporation System and method for providing a natural language content dedication service
US9171541B2 (en) 2009-11-10 2015-10-27 Voicebox Technologies Corporation System and method for hybrid processing in a natural language voice services environment
US9378202B2 (en) 2010-03-26 2016-06-28 Virtuoz Sa Semantic clustering
US9524291B2 (en) * 2010-10-06 2016-12-20 Virtuoz Sa Visual display of semantic information
US10957310B1 (en) 2012-07-23 2021-03-23 Soundhound, Inc. Integrated programming framework for speech and text understanding with meaning parsing
US9390708B1 (en) * 2013-05-28 2016-07-12 Amazon Technologies, Inc. Low latency and memory efficient keywork spotting
US11295730B1 (en) 2014-02-27 2022-04-05 Soundhound, Inc. Using phonetic variants in a local context to improve natural language understanding
US9898459B2 (en) 2014-09-16 2018-02-20 Voicebox Technologies Corporation Integration of domain information into state transitions of a finite state transducer for natural language processing
US9626703B2 (en) 2014-09-16 2017-04-18 Voicebox Technologies Corporation Voice commerce
EP3207467A4 (de) 2014-10-15 2018-05-23 VoiceBox Technologies Corporation System und verfahren zur bereitstellung nachfolgender reaktionen auf natürliche spracheingaben eines benutzers
US10614799B2 (en) 2014-11-26 2020-04-07 Voicebox Technologies Corporation System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance
US10431214B2 (en) 2014-11-26 2019-10-01 Voicebox Technologies Corporation System and method of determining a domain and/or an action related to a natural language input
US10515150B2 (en) * 2015-07-14 2019-12-24 Genesys Telecommunications Laboratories, Inc. Data driven speech enabled self-help systems and methods of operating thereof
US10382623B2 (en) 2015-10-21 2019-08-13 Genesys Telecommunications Laboratories, Inc. Data-driven dialogue enabled self-help systems
US10455088B2 (en) 2015-10-21 2019-10-22 Genesys Telecommunications Laboratories, Inc. Dialogue flow optimization and personalization
US10204146B2 (en) * 2016-02-09 2019-02-12 Ca, Inc. Automatic natural language processing based data extraction
US20170242886A1 (en) * 2016-02-19 2017-08-24 Jack Mobile Inc. User intent and context based search results
US10515086B2 (en) 2016-02-19 2019-12-24 Facebook, Inc. Intelligent agent and interface to provide enhanced search
US10331784B2 (en) 2016-07-29 2019-06-25 Voicebox Technologies Corporation System and method of disambiguating natural language processing requests
EP4125029A1 (de) 2017-03-23 2023-02-01 Samsung Electronics Co., Ltd. Elektronische vorrichtung, steuerungsverfahren dafür und nichttransitorisches computerlesbares aufzeichnungsmedium
CN109979464A (zh) * 2017-12-28 2019-07-05 南昌弘为企业管理有限公司 基于智能免流app的语音语义识别的方法及系统
KR20200052612A (ko) 2018-11-07 2020-05-15 삼성전자주식회사 사용자 발화를 처리하는 전자 장치, 및 그 전자 장치의 제어 방법
CN112102840A (zh) * 2020-09-09 2020-12-18 中移(杭州)信息技术有限公司 语义识别方法、装置、终端及存储介质

Family Cites Families (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4829423A (en) * 1983-01-28 1989-05-09 Texas Instruments Incorporated Menu-based natural language understanding system
US4688195A (en) * 1983-01-28 1987-08-18 Texas Instruments Incorporated Natural-language interface generating system
US5083268A (en) 1986-10-15 1992-01-21 Texas Instruments Incorporated System and method for parsing natural language by unifying lexical features of words
US5027408A (en) 1987-04-09 1991-06-25 Kroeker John P Speech-recognition circuitry employing phoneme estimation
US5168524A (en) 1989-08-17 1992-12-01 Eliza Corporation Speech-recognition circuitry employing nonlinear processing, speech element modeling and phoneme estimation
WO1991011766A2 (en) * 1990-01-30 1991-08-08 Johnson Service Company Networked facilities management system
US5297257A (en) * 1991-04-15 1994-03-22 Allen-Bradley Company, Inc. Distributing a real-time control program to a plurality of input/output nodes
JPH05197389A (ja) * 1991-08-13 1993-08-06 Toshiba Corp 音声認識装置
US5864614A (en) 1992-04-17 1999-01-26 Bell Atlantic Network Services, Inc. Intelligent peripheral and network control
US5615296A (en) * 1993-11-12 1997-03-25 International Business Machines Corporation Continuous speech recognition and voice response system and method to enable conversational dialogues with microprocessors
US5687212A (en) * 1995-07-25 1997-11-11 Bell Atlantic Network Services, Inc. System for reactively maintaining telephone network facilities in a public switched telephone network
JP3476237B2 (ja) * 1993-12-28 2003-12-10 富士通株式会社 構文解析装置
US5748841A (en) * 1994-02-25 1998-05-05 Morin; Philippe Supervised contextual language acquisition system
US5729656A (en) 1994-11-30 1998-03-17 International Business Machines Corporation Reduction of search space in speech recognition using phone boundaries and phone ranking
US5659542A (en) 1995-03-03 1997-08-19 Intecom, Inc. System and method for signalling and call processing for private and hybrid communications systems including multimedia systems
US5675723A (en) * 1995-05-19 1997-10-07 Compaq Computer Corporation Multi-server fault tolerance using in-band signalling
JP3385146B2 (ja) * 1995-06-13 2003-03-10 シャープ株式会社 会話文翻訳装置
US5974409A (en) * 1995-08-23 1999-10-26 Microsoft Corporation System and method for locating information in an on-line network
US5647002A (en) 1995-09-01 1997-07-08 Lucent Technologies Inc. Synchronization of mailboxes of different types
US5825977A (en) 1995-09-08 1998-10-20 Morin; Philippe R. Word hypothesizer based on reliably detected phoneme similarity regions
US5822728A (en) 1995-09-08 1998-10-13 Matsushita Electric Industrial Co., Ltd. Multistage word recognizer based on reliably detected phoneme similarity regions
US6173261B1 (en) 1998-09-30 2001-01-09 At&T Corp Grammar fragment acquisition using syntactic and semantic clustering
US5799276A (en) * 1995-11-07 1998-08-25 Accent Incorporated Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals
US6343313B1 (en) * 1996-03-26 2002-01-29 Pixion, Inc. Computer conferencing system with real-time multipoint, multi-speed, multi-stream scalability
US5822729A (en) 1996-06-05 1998-10-13 Massachusetts Institute Of Technology Feature-based speech recognizer having probabilistic linguistic processor providing word matching based on the entire space of feature vectors
US5881230A (en) * 1996-06-24 1999-03-09 Microsoft Corporation Method and system for remote automation of object oriented applications
US5966686A (en) * 1996-06-28 1999-10-12 Microsoft Corporation Method and system for computing semantic logical forms from syntax trees
US5835890A (en) 1996-08-02 1998-11-10 Nippon Telegraph And Telephone Corporation Method for speaker adaptation of speech models recognition scheme using the method and recording medium having the speech recognition method recorded thereon
US5960399A (en) * 1996-12-24 1999-09-28 Gte Internetworking Incorporated Client/server speech processor/recognizer
US6456974B1 (en) * 1997-01-06 2002-09-24 Texas Instruments Incorporated System and method for adding speech recognition capabilities to java
US6078886A (en) * 1997-04-14 2000-06-20 At&T Corporation System and method for providing remote automatic speech recognition services via a packet network
US6052682A (en) 1997-05-02 2000-04-18 Bbn Corporation Method of and apparatus for recognizing and labeling instances of name classes in textual environments
US6112176A (en) * 1997-05-16 2000-08-29 Compaq Computer Corporation Speech data collection over the world wide web
US5897616A (en) * 1997-06-11 1999-04-27 International Business Machines Corporation Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases
US5953700A (en) * 1997-06-11 1999-09-14 International Business Machines Corporation Portable acoustic interface for remote access to automatic speech/speaker recognition server
JP2002511989A (ja) * 1997-06-20 2002-04-16 スイスコム アーゲー 音声情報放送システムおよび方法
US5941996A (en) * 1997-07-25 1999-08-24 Merrill Lynch & Company, Incorporated Distributed network agents
US6192338B1 (en) * 1997-08-12 2001-02-20 At&T Corp. Natural language knowledge servers as network resources
US6138249A (en) * 1997-12-11 2000-10-24 Emc Corporation Method and apparatus for monitoring computer systems during manufacturing, testing and in the field
US6397179B2 (en) * 1997-12-24 2002-05-28 Nortel Networks Limited Search optimization system and method for continuous speech recognition
US6163765A (en) * 1998-03-30 2000-12-19 Motorola, Inc. Subband normalization, transformation, and voiceness to recognize phonemes for text messaging in a radio communication system
US6173279B1 (en) * 1998-04-09 2001-01-09 At&T Corp. Method of using a natural language interface to retrieve information from one or more data resources
US6243670B1 (en) * 1998-09-02 2001-06-05 Nippon Telegraph And Telephone Corporation Method, apparatus, and computer readable medium for performing semantic analysis and generating a semantic structure having linked frames
US6230190B1 (en) * 1998-10-09 2001-05-08 Openwave Systems Inc. Shared-everything file storage for clustered system
US6247057B1 (en) * 1998-10-22 2001-06-12 Microsoft Corporation Network server supporting multiple instance of services to operate concurrently by having endpoint mapping subsystem for mapping virtual network names to virtual endpoint IDs
US6134548A (en) 1998-11-19 2000-10-17 Ac Properties B.V. System, method and article of manufacture for advanced mobile bargain shopping
GB9904663D0 (en) * 1999-03-01 1999-04-21 Canon Kk Apparatus and method for generating processor usable data from natural langage input data
US6233561B1 (en) 1999-04-12 2001-05-15 Matsushita Electric Industrial Co., Ltd. Method for goal-oriented speech translation in hand-held devices using meaning extraction and dialogue
EP1059782A3 (de) * 1999-06-10 2004-02-04 Lucent Technologies Inc. Verfahren und Vorrichtung zur dynamische benutzung der bandbreite in einem Packetfernsprechernetz
US6615172B1 (en) * 1999-11-12 2003-09-02 Phoenix Solutions, Inc. Intelligent query engine for processing voice based queries
US20020097692A1 (en) * 2000-12-29 2002-07-25 Nokia Mobile Phones Ltd. User interface for a mobile station
US20020152292A1 (en) * 2001-01-09 2002-10-17 Ricoh Company Limited Method and system of remote support of device using e-mail

Also Published As

Publication number Publication date
US6895377B2 (en) 2005-05-17
DE60130880D1 (de) 2007-11-22
WO2001073593A1 (en) 2001-10-04
AU2001250975A1 (en) 2001-10-08
WO2001073755A1 (en) 2001-10-04
EP1277201B1 (de) 2007-10-10
WO2001073757A1 (en) 2001-10-04
AU2001252951A1 (en) 2001-10-08
US20010037197A1 (en) 2001-11-01
EP1279165A4 (de) 2005-10-05
US20010049601A1 (en) 2001-12-06
EP1277201A4 (de) 2005-09-21
AU2001250050A1 (en) 2001-10-08
ATE494610T1 (de) 2011-01-15
ATE375589T1 (de) 2007-10-15
DE60143797D1 (de) 2011-02-17
EP1279165B1 (de) 2011-01-05
WO2001073753A1 (en) 2001-10-04
EP1279165A1 (de) 2003-01-29
AU2001247708A1 (en) 2001-10-08
EP1277201A1 (de) 2003-01-22
US7120585B2 (en) 2006-10-10

Similar Documents

Publication Publication Date Title
DE60130880T2 (de) Web-gestützte spracherkennung durch scripting und semantische objekte
DE69822296T2 (de) Mustererkennungsregistrierung in einem verteilten system
DE60015531T2 (de) Client-server spracherkennungssystem
DE60004862T2 (de) Automatische bestimmung der genauigkeit eines aussprachewörterbuchs in einem spracherkennungssystem
DE60005326T2 (de) Erkennungseinheiten mit komplementären sprachmodellen
DE69814114T2 (de) Natürliche sprache verstehendes verfahren und verstehende vorrichung zur sprachsteuerung einer anwendung
EP1435088B1 (de) Dynamischer aufbau einer dialogsteuerung aus dialogobjekten
EP3652664A1 (de) Verfahren zur dialogführung zwischen mensch und computer
US8024422B2 (en) Web-based speech recognition with scripting and semantic objects
DE102009045187A1 (de) System und Verfahren zum Kommunizieren mit Telefonagenten in einem automatischen Call Center
DE60123153T2 (de) Sprachgesteuertes Browsersystem
DE10220521B4 (de) Verfahren und System zur Verarbeitung von Sprachdaten und Klassifizierung von Gesprächen
WO2003054731A2 (de) Verfahren zur rechnergestützten transformation strukturierter dokumente
DE60128372T2 (de) Verfahren und system zur verbesserung der genauigkeit in einem spracherkennungssystem
US7366766B2 (en) Web-based speech recognition with scripting and semantic objects
DE10220522B4 (de) Verfahren und System zur Verarbeitung von Sprachdaten mittels Spracherkennung und Frequenzanalyse
EP1659571A2 (de) Sprachdialogsystem und Verfahren zum Betreiben
DE19930407A1 (de) Verfahren zur sprachbasierten Navigation in einem Kommunikationsnetzwerk und zur Implementierung einer Spracheingabemöglichkeit in private Informationseinheiten
EP1363271A1 (de) Verfahren und System zur Verarbeitung und Speicherung von Sprachinformationen eines Dialogs
DE112019005921T5 (de) Informationsverarbeitungsvorrichtung, informationsverarbeitungsverfahren und programm
EP1240775B1 (de) Kommunikationssystem und verfahren zum bereitstellen eines internet-zugangs über ein telefon
DE10127852A1 (de) Verfahren zur Erkennung von Sprachinformationen
Möller et al. Qualität von Sprachdialogsystemen
DE10220518B4 (de) Verfahren und System zur Verarbeitung und Speicherung von Sprachinformation
DE102023112724A1 (de) Ein Sprachverarbeitungssystem mit Kodierer-Dekodierer-Modell und entsprechende Verfahren zur Sythese von Sprache mit gewünschter Sprecheridentität und emotionalem Stil

Legal Events

Date Code Title Description
8364 No opposition during term of opposition