DE60130880T2

DE60130880T2 - Web-gestützte spracherkennung durch scripting und semantische objekte

Info

Publication number: DE60130880T2
Application number: DE60130880T
Authority: DE
Inventors: John Hamilton KROEKER; Oleg Beverly BOULANOV
Original assignee: Eliza Corp
Current assignee: Eliza Corp
Priority date: 2000-03-24
Filing date: 2001-03-23
Publication date: 2008-07-17
Anticipated expiration: 2021-03-24
Also published as: US6895377B2; DE60130880D1; WO2001073593A1; AU2001250975A1; WO2001073755A1; EP1277201B1; WO2001073757A1; AU2001252951A1; US20010037197A1; EP1279165A4; US20010049601A1; EP1277201A4; AU2001250050A1; ATE494610T1; ATE375589T1; DE60143797D1; EP1279165B1; WO2001073753A1; EP1279165A1; AU2001247708A1

Description

Gebiet der Erfindung
Die vorliegende Erfindung bezieht sich allgemein auf Systeme und Verfahren zur Entwicklung und Implementierung von Transaktions-Sprach-Anwendungen. Insbesondere bezieht sich die vorliegende Erfindung auf Systeme und Verfahren zum Entwickeln und Implementieren von Transaktions-Sprach-Anwendungen unter Verwendung von Web-basierten Technologien.
Querverweis auf verwandte Anmeldungen
Diese Anmeldung beansprucht die Vergünstigungen der Priorität aus der vorläufigen US-Patentanmeldung 60/192,091 vom 24. März 2000 mit dem Titel „COMBINED SYNTACTIC AND SEMENTIC SEARCH, PARSING, AND APPLICATION ACCESS", der vorläufigen US-Patentanmeldung 60/191,915 vom 24. März 2000 mit dem Titel „SPEECH RECOGNITION APPLICATION TECHNOLOGY USING WEB, SCRIPTING AND SEMANTIC OBJECTS", der vorläufigen US-Patentanmeldung 60/192,090 vom 24. März 2000 mit dem Titel „A NOVEL APPROACH TO SPEECH RECOGNITION", und der vorläufigen US-Patentanmeldung 60/192,076 vom 24. März 2000 mit dem Titel „REMOTE SERVER OBJECT ARCHITECTURE FOR SPEECH RECOGNITION" die sich in gemeinsamen Besitz befinden.
Hintergrund der Erfindung
Mit der Verbreitung von Computer-Systemen wurde ein zunehmendes Ausmaß der Verarbeitung automatisiert. Gleichzeitig setzt sich die Entwicklung der Verarbeitungsleistung derartiger Systeme weiter fort. Um diese zunehmend verfügbare Verarbeitungsleistung auszunutzen, versuchen Organisationen, Funktionen, die bisher von Personen ausgeführt wurden, wenn überhaupt, auf automatisierte Systeme zu übertragen. Beispielsweise werden zunehmend Computer-Systeme entwickelt und verwendet, um mit Personen über einen Sprach-Dialog in Kontakt zu treten. Es wurden beispielsweise einige Systeme implementiert, um Interviews und Befragungen von Einzelpersonen über ein Telefon durchzuführen, während andere Systeme mit Personen ohne die Verwendung eines Netzwerkes in einen Dialog treten können. Zusätzlich ist anzunehmen, dass wenn Sprache über das Weltweite Datennetz (das „Web") und das Internet (beispielsweise Sprache-über-IP) mehr und mehr üblich wird, der Sprache-basierte Mensch-Computer-Dialog zunehmend unter Verwendung dieses Mediums ausgeführt wird.
Ein Bespiel eines Sprache-basierten Mensch-Computer-Dialogs besteht in Umfrage-Systemen, bei denen ein Computer eine automatisierte Sprache-basierte Befragung einer Person über ein Telefon ausführt. In einem derartigen Fall kann das Umfrage-System eine in einem Skript niedergelegte Umfrage (das heißt eine Serie von Fragen) haben, die an die Person gestellt werden. Das Umfrage-System kann eine erste Frage als eine Aufforderung stellen und dann (beispielsweise über 5 Sekunden) auf eine Antwort durch die Person warten. Wenn das Umfrage-System keine Antwort empfängt oder eine Antwort empfängt, die es nicht interpretieren kann, so kann das Umfrage-System die Frage erneut stellen oder eine Reaktion vom Anweisungs-Typ liefern. Wenn das Umfrage-System eine Antwort empfängt, die es interpretieren kann, geht das Umfrage-System zum Stellen einer nächsten Frage oder zur Vorlage einer nächsten Aufforderung über.
Derartige Mensch-Computer-Systeme schließen üblicherweise ein automatisches Spracherkennungs-(ASR-)System ein, das ankommende akustische Information in brauchbare linguistische Einheiten umwandelt, wie zum Beispiel Worte oder Sätze. In einem Transaktions-ASR-System, beispielsweise einem System, das über ein Telefon-Netz arbeitet, gibt es einen Satz von zulässigen Worten und Sätzen, die durch Grammatik definiert sind. Der Prozess des Durchsortierens der Grammatik auf eine bestimmte Wort- oder Satz-Verwendung wird als eine syntaktische Suche bezeichnet, bei der die Worte und ihre Reihenfolge bestimmt werden, typischerweise auf der Grundlage der Wahrscheinlichkeit. Derartige syntaktische Such-Systeme werten typischerweise ein Wort unter Verwendung eines festen Startpunktes und eines festen Endpunktes aus, und sie verarbeiten diese Daten, um das Wort mit einer zugehörigen Wahrscheinlichkeit zu bestimmen. Diese Lösung erweist sich jedoch als wenig wirkungsvoll, weil der Zeitrahmen zwischen Start- und Endpunkten für einige Audio-Eingänge ausreichend sein kann, jedoch für andere unzureichend ist, wobei einige Daten über eine Endpunkt hinaus abgeschnitten werden und in anderen Fällen mehr Zeit auf ein Wort verwendet wird, als dies erforderlich ist. Zusätzlich können, wenn keine Ergebnisse oberhalb einer bestimmten Schwellenwert-Wahrscheinlichkeit erzielt werden, derartige Systeme zurücksteigen und die Audio-Eingabe erneut bearbeiten, um die phonetischen Abschätzungen zu verbessern. Anderenfalls kann das System nur eine beste Schätzung, jedoch mit niedriger Verlässlichkeit weiterleiten.
Bei derartigen Systemen werden typischerweise Audio-Eingänge, unabhängig davon, ob sie Sprache- oder Hintergrund-Störungen sind, in den meisten Fällen als gültige Sprache verarbeitet. Das heißt, derartige Systeme unterhalten üblicherweise keine ausreichende Kontext-Kenntnis über die erwartete Antwort, um externe Störungen (oder ein „Hereinplatzen") zu beseitigen. Als Ergebnis können derartige Systeme versuchen, derartige Störungen als Sprache zu interpretieren, wodurch ein Ergebnis erzeugt wird, das eingebettete Fehler aufweist, oder sie verwerfen das Ergebnis vollständig.
Die Entwicklung von Sprach-Anwendungen, die Spracherkennungs-(SR-)Systeme verwenden, zur Erzeugung derartiger Mensch-Computer-Systeme ist allgemein eine aufwendige zeitraubende Anstrengung, die ein Team erfordert, das aus mehrfachen Disziplinen stammt. Die dominierende Lösung zur Verbesserung der Einfachheit einer derartigen Anwendungs-Entwicklung bestand in der Schaffung von Web-basierten Anwendungen unter Verwendung von HTML-Erweiterungen. Beispielsweise sind VOXML, VoiceXML und SpeechML bekannte Arten von Erweiterungen, die speziell für SR-Systeme geschaffen wurden. Diese Lösungen waren jedoch schwerwiegend hinsichtlich ihrer Fähigkeit beschränkt, komplizierte Sprach-Wechselwirkungen darzustellen, und zwar aufgrund der starken Beschränkungen hinsichtlich ihrer Codierungs-Leistung sowie von Beschränkungen hinsichtlich ihrer Steuerung bei grundlegenden SR-Maschinen und des Zugriffs hierauf. Das heißt, dass HTML keine wirkliche Programmier-Sprache ist, sondern vielmehr eine Markierungs-Sprache ist. Daher ergibt sie lediglich ein sehr beschränktes Rahmenwerk, das nicht besonders für die Schaffung robuster Anwendungen geeignet ist. Der Zugang an Spracherkennungs-Maschinen, wie zum Beispiel VoiceXML-Anwendungen ist durch die Einschränkungen der Markierungs-Sprache begrenzt, wie zum Beispiel das Fehlen von Programmiersprachen-Fähigkeiten und festen vordefinierten Schnittstellen zu der SR-Maschine.
Derartige VoiceXML-Anwendungen befinden sich typischerweise bei einem SR-System auf einem Sprach-Portal (oder einer Überleiteinrichtung), das als ein Klient für einen Web-Server wirkt, der Hilfsdienste für die VoiceXML-Anwendung liefert. Die Hilfsdienste schließen Standard-Web-Dienste und üblicherweise eine kundenspezifische Software ein, die von der VoiceXML-Anwendung benötigt wird. Beispielsweise wird typischerweise ein Unterstützungs-(das heißt ein Server-seitiges) Produktdaten-Servlet typischerweise eingefügt, das für den Verkehr mit Unterstützungs- oder Hilfsdiensten verantwortlich ist, unter Einschluss der Umwandlung empfangener Antworten in XML. Ein Produkt-Präsentations-Servlet ist typischerweise ebenfalls auf der Server-Seite eingefügt. Dieses Servlet wird zum Überführen von Inhalt in einem Format verwendet, das von der VoiceXML-Anwendung (oder dem Klienten) benötigt wird. Ein Aufbewahrungsort für VoiceXML-spezifische XSL-Schablonen befindet sich an der Unterstützungs-Einrichtung und definiert die Formate, die von dem Produkt-Präsentations-Servlet verwendet werden. Weiterhin ist ein Produkt-Dienst auf der Unterstützungs-Seite vorgesehen, der die Verbreitung von Produkt-bezogener Information verwaltet, beispielsweise um das Produkt-Browsen zu erleichtern. Weiterhin befindet sich eine Produkt-Datenbank, die von den verschiedenen Server-seitigen Servlets und Diensten verwendet wird, ebenfalls an der Unterstützungs-Seite.
Diese Lösung mit einer starken Abhängigkeit von Unterstützungs-Server-seitigen Diensten ist bei derartigen VoiceXML-Anwendungen erforderlich, weil VoiceXML-Anwendungen als solche nicht in der Lage sind, komplexe und robuste Funktionen zur Verfügung zu stellen.
Aus der US 5 748 841 ist ein System bekannt, um ein Programm über Sprache zu betreiben. Sprachbefehle werden von einem Dialog-System empfangen und in einem semantischen Ausdruck umgewandelt. Das Dialog-System verfolgt den Dialog, der abläuft, durch Unterhalten einer Dialog-Historie.
Das System empfängt eine von dem Benutzer gelieferte Eingabe. Diese Eingabe wird erkannt und einem semantischen Ausdruck umgewandelt. Der Ausdruck wird dann gegen ein Dialog-Modell getestet, ob dies ein Meta-Befehl oder ein einfacher Befehl ist. Wenn der Eingabe-Ausdruck in dem Dialog-Kontext Sinn macht, so wird er interpretiert, und schließlich laufen Anwendungs-Skripte ab. Anwendungs-Skripte werden zum Analysieren und Auswerten von Benutzer-Eingaben verwendet. Sie definieren keinen Kontext. Eine Schnittstelle wird als eine Benutzer-Schnittstelle verwendet.
Zusammenfassung der Erfindung
Die vorliegende Erfindung ist ein System und Verfahren zur Erzeugung und Implementierung von Transaktions-Sprach-Anwendungen (SAs) unter Verwendung von Web-Technologien ohne Abhängigkeit von Server-seitigen Standard- oder kundenspezifischen Diensten. Eine Transaktions-Sprach-Anwendung kann irgendeine Anwendung sein, die eine Interpretation von Sprache in Verbindung mit einem Spracherkennungs-(SR-)System erfordert, wie zum Beispiel Kundenbefragungs-Anwendungen oder Systeme. Eine Sprach-Anwendung gemäß der vorliegenden Erfindung ist innerhalb einer Web-Seite als ein Anwendungs-Skript dargestellt, das semantische Objekte entsprechend einem Kontext interpretiert. Irgendeine allgemein bekannte Skript-Sprache kann zum Schreiben des Anwendungs-Skriptes verwendet werden, wie zum Beispiel Jscript, PerlSript und VBscript. Die vorliegende Erfindung ist in dem Ausmaß „Web-basiert", das sie Web-Technologien implementiert, das weltweite Datennetz jedoch nicht einschließen oder einen Zugriff auf dieses ausführen muss.
Die vorliegende Erfindung ist durch die beigefügten unabhängigen Ansprüche definiert.
Ein SR-System schließt eine SR-Plattform und ein SR-Anwendungs-Programm ein. Das SR-System dient als eine Schnittstelle oder Überleiteinrichtung zwischen einem für einen Benutzer zugänglichen Netzwerk und einem Anwendungs-System (beispielsweise einer Quelle), die eine Web-Seite erzeugt, die das Anwendungs-Skript einschließt. Die Anwendungs-Skript-Quelle kann örtlich oder an einer entfernten Stelle oder von dem SR-System entfernt angeordnet sein. Wenn das SR-System eine Zugriff auf ein an einer entfernten Stelle angeordnetes Anwendung-System ausführen muss, schließt das SR-System eine Seiten-Adressen-Information (beispielsweise URLs) ein, und es kann so konfiguriert sein, dass es einen Zugriff auf das Anwendungs-System ausführt und die Web-Seite als Antwort auf einen ankommenden Anruf herunterlädt.
Die SR-Plattform kann beispielsweise ein Standard-Server mit einer Netzwerk-Schnittstelle sein, die den Empfang von Audio-Information ermöglicht. Die Netzwerk-Schnittstelle kann den Empfang von Audio-Information über irgendeines einer Vielfalt von Netzwerken ermöglichen, wie zum Beispiel Telefon-Netzwerke, Zellular-Telefon-Netzwerke, das Web, Internet, lokale Netzwerke (LANs), Weitbereichs-Netzwerke (WANs), private Netzwerke, virtuelle private Netzwerke (VPNs), Intranets, Extranets, drahtlose Netzwerke und dergleichen, oder irgendeine Kombination hiervon. Das SR-System kann mit Hilfe irgendeiner oder mehrerer einer Vielfalt von Geräten zugänglich sein, die in der Lage sind, Audio-Information zu übermitteln, wie zum Beispiel Telefone, Zellular-Telefone, persönliche Computer (PC), persönliche digitalen Assistenten (PDA) oder andere Arten von Audio-fähigen Geräten.
Die Web-Seite unter Einschluss des Anwendungs-Skriptes kann sich an dem SR-System örtlich zu diesem befinden, oder es kann von einem Transaktions-Sprach-Anwendungs-System über ein Netzwerk heruntergeladen werden, wie zum Beispiel die vorstehend beschriebenen Netzwerke. Die Funktionalität der Sprach-Anwendung wird von dem Anwendungs-Skript an das SR-System ohne die Notwendigkeit einer Server-seitigen Anwendungs-Codierung an einem Anwendungs-Server geliefert, wie dies bei Systemen erforderlich ist, die in VoiceXML geschriebene Sprach-Anwendungen verwenden, um ein Beispiel zu nennen. Das heißt, die gesamte erforderliche Anwendungs-Funktionalität kann heruntergeladen werden, falls erforderlich, und an dem SR-System ausgeführt werden. Diese Funktionalität schließt das Darbieten von Benutzer-Aufforderungen, die Verarbeitung von Benutzer-Antworten, die Gesamt-Anwendungs-Sitzungs-Verwaltung, eine Schnittstellen-Verbindung mit anderen verfügbaren Modulen oder Einrichtungen ein, die eine Funktionalität ergeben. Eine derartige Funktionalität schließt weiterhin eine SR-System-Steuerfunktionalität und eine Standard-HTML- und Betriebssystem-Funktionalität ein. Schnittstellen an eine derartige Funktionalität werden vorzugsweise als selbständige wiederverwendbare Objekte geschrieben.
Allgemein entsprechen alle die Schnittstellen-Objekte, die von dem Anwendungs-Skript verwendet werden, einem Standard-Schnittstellen-Modell, wie zum Beispiel ActiveX. Das Anwendungs-Skript kann sehr einfach einen Zugriff auf alle von Natur aus vorhandenen ActiveX-Fähigkeiten des Betriebssystems (beispielsweise Mitteilungs-Übermittlung, Datenbank-Zugriff usw.) über diese Standard-Schnittstellen unter Verwendung von Standard-ActiveX-Steuerungen ausführen. Die Verwendung von ActiveX-Schnittstellen-Objekten (das heißt genormte konsistente Objekte) für Zugriffs- und Steuer-Funktionen, die für das Anwendungs-Skript verfügbar sind, vereinfacht sehr stark die Entwicklung und Integration derartiger Anwendungen, die lediglich konfiguriert werden müssen, um diese Standard-ActiveX-Schnittstellen-Objekte zu verwenden, so dass sie keine speziellen oder kundenspezifischen Schnittstellen erfordern.
Eine semantische Schnittstelle an die SR-Anwendung stellt das Anwendungs-Skript im SR-System zur Verfügung. Die semantische Schnittstelle ist als ein Objekt beschrieben, das für das SR-System örtlich ist, wie zum Beispiel ein ActiveX-Objekt. Das semantische Schnittstellen-Objekt schließt eine Standard-HTML-Browser-Funktionalität ein, unter Einschluss einer Etikett-Verarbeitung, einer Hyper-Referenz usw.. Das semantische Schnittstellen-Objekt unterstützt weiterhin HTML-Erweiterungen, wie zum Beispiel Wiedergabe, Abspielen und Aufzeichnung, sowie andere bekannte HTML-Erweiterungen. Wenn es Skript-Etiketten gibt, die sich auf der Web-Seite befinden, so lädt die semantische Schnittstelle eine entsprechende Skript-Maschine. Weil die semantische Schnittstelle als eine Objekt-Schnittstelle hoher Ebene codiert ist, muss sie nicht für das Anwendungs-Skript kundenspezifisch gemacht werden. Über das semantische Schnittstellen-Objekt steuert das Anwendungs-Skript das SR-System. Beispielsweise kann das Anwendungs-Skript die SR-Anwendung beauftragen, mit der Erkennung zu beginnen, eine Datei abzuspielen, eine Aufforderung abzuspielen, und so weiter. Derartige Aufgabenstellungen können unter Verwendung genormter Objektorientierter Entwurfs-(OOD-)Aufrufe und Verfahren bewirkt werden.
Die SR-Anwendungs-Funktionalität ist so konfiguriert, dass sie einen Kontext-freien Satz von semantischen Daten erzeugt und zurückliefert, die alle möglichen gültigen Interpretationen einer empfangenen Audio-Eingabe darstellen. Das heißt, dass das SR-System so konfiguriert sein kann, dass es eine syntaktische und semantische Verarbeitung unter Verwendung einer gemeinsamen Grund-Grammatik oder eines Satzes von Grammatiken ausführt, um semantische Daten zu erzeugen, die eine Vielzahl von gültigen Interpretationen einer empfangenen Audio-Eingabe darstellen. Die semantischen Daten werden in einem semantischen Objekt (oder Objekten) dargestellt, das bzw. die von der SR-Anwendung an das Anwendungs-Skript weitergeleitet werden. Jedes semantische Objekt durchläuft die semantische Schnittstelle zu einer Auswertungs-Schnittstelle des Anwendungs-Skripts. Die Auswertungs-Schnittstelle kann ebenfalls als ein ActiveX-Objekt beschrieben sein, das als ein Auswertungs-(oder Interpretations-)Werkzeug für das Anwendungs-Skript dienen kann. Das Anwendungs-Skript ergibt einen Kontext für die Auswertungs-Schnittstelle. Die Auswertungs-Schnittstelle bestimmt die Kategorie als eine Funktion des Kontextes, und wendet die Kategorie auf den Satz von semantischen Daten an, um spezifische Interpretationen des Satzes von semantischen Daten aus all den möglichen Interpretationen zu gewinnen. Dieses spezielle Ergebnis kann als ein linguistisches Ergebnis bezeichnet werden, das ein Wort, einen Satz oder Werte darstellt. Sobald das linguistische Ergebnis bestimmt wurde, verarbeitet das Anwendungs-Skript das Ergebnis, um die nächste Aktion oder Aufforderung an den Benutzer zu bestimmen.
Kurze Beschreibung der Zeichnungen
Die vorstehenden und anderen Ziele der Erfindung, deren verschiedene Merkmale sowohl die Erfindung selbst werden weiter aus der folgenden Beschreibung verständlich, wenn diese anhand der beigefügten Zeichnungen gelesen wird, in denen:
1 eine Netzwerk-Architektur ist, innerhalb der die vorliegende Erfindung implementiert werden kann;
2 ein Blockschaltbild ist, dass die verschiedenen Elemente einer Implementierung einer Sprach-Anwendung und des Spracherkennungs-Systems gemäß der vorliegenden Erfindung zeigt; und
3 ein Ablaufdiagramm ist, das ein Verfahren der vorliegenden Erfindung zeigt.
Zum größten Teil, und wie dies aus der Bezugnahme auf die Figuren zu erkennen ist, wird, wenn ein Element in mehr als einer Figur unverändert verwendet wird, es durch die gleiche alphanumerische Bezeichnungs-Angabe in allen Figuren identifiziert.
Ausführliche Beschreibung der bevorzugten Ausführungsform
Die vorliegende Erfindung ist ein System und Verfahren zur Schaffung und Implementierung von Transaktions-Sprach-Anwendungen (SAs) unter Verwendung von Web-Technologien ohne Abhängigkeit von Server-seitigen Standard- oder kundenspezifischen Diensten. Eine Transaktions-Sprach-Anwendung kann irgendeine Anwendung sein, die eine Interpretation von Sprache in Verbindung mit einem Spracherkennungs-(SR-)System erfordert, wie zum Beispiel Kundenbefragungs-Anwendungen oder -Systeme. Eine Sprach-Anwendung gemäß der vorliegenden Erfindung wird in einer Web-Seite als ein Anwendungs-Skript dargestellt, das semantische Objekte entsprechend einem Kontext interpretiert. Irgendeine üblicherweise bekannte Skript-Sprache kann zum Schreiben des Anwendungs-Skripts verwendet werden, wie zum Beispiel Jscript, PerScript und Vbscript. Die vorliegende Erfindung ist in der Hinsicht „Web-basiert", dass sie Web-Technologien implementiert, sie muss jedoch das weltweite Datennetz (Web) nicht einschließen oder einen Zugriff hierauf haben.
Die vorliegende Erfindung kann auf irgendeiner oder mehreren einer Vielzahl von Geräten, Netzwerken und Architekturen implementiert werden. 1A zeigt eine mögliche Architektur 100, auf der die vorliegende Erfindung implementiert werden kann. Das SR-System 120 schließt ein SR-Anwendungsprogramm ein, das auf einer Standard-Plattform abläuft, wie zum Beispiel einem SR-Server 122. Ein oder mehrere zugehörige Datenbanken 124 schließen die SR-Anwendung und die Daten ein, wie zum Beispiel Kontext-freie Grammatik-Datenbanken. Das SR-System dient als eine Schnittstelle oder Überleiteinrichtung zwischen einem für einen Benutzer zugänglichen Netzwerk 130 und einem Anwendungs-System (beispielsweise einer Quelle), die die Web-Seite erzeugt und die das Anwendungs-Skript einschließt. Die Anwendungs-Quelle kann örtlich oder entfernt von dem SR-System angeordnet sein. Tatsächlich kann sich die Anwendungs-Skript-Quelle ebenfalls auf dem Server 122 befinden. Bei anderen Ausführungsformen kann sich der Anwendungs-Code auf einem Anwendungs-Server 110 befinden, der eine zugehörige Datenbank (DB) 112 hat, die mit dem SR-System über irgendeines einer Anzahl von Standard-Netzwerken 150 gekoppelt ist. Bei weiteren Ausführungsformen kann das SR-System eine Vielzahl von Anwendungs-Quellen mit Diensten versorgen, von denen einige örtlich sein können, während andere von dem SR-System entfernt angeordnet sein können. Wenn das SR-System auf ein entfernt angeordnetes Anwendungs-System zugreifen soll, so schließt das SR-System Seiten-Adressen-Information (beispielsweise URLs) ein, und es kann so konfiguriert sein, dass es einen Zugriff auf das Anwendungs-System ausführt und die Web-Seite als Antwort auf einen ankommenden Anruf herunterlädt.
Das SR-System 120 kann eine Netzwerk-Schnittstelle einschließen, die den Empfang von Audio-Information durch irgendeines eine Vielzahl von Netzwerken ermöglicht, wie zum Beispiel Telefon-Netzwerken, Zellular-Telefon-Netzwerken, dem weltweiten Datennetz (Web), Internet, lokalen Netzwerken (LANs), Weitbereichs-Netzwerken (WANs), privaten Netzwerken, virtuellen privaten Netzwerken (VPNs), Intranets, Extranets, drahtlosen Netzwerken und dergleichen, oder Kombinationen hiervon. Auf das SR-System kann durch irgendeines oder mehrere einer Vielzahl von Geräten 140 zugegriffen werden, die in der Lage sind, Audio-Information zu übertragen. Derartige Geräte 140 können ohne Beschränkung hierauf ein Standard-Telefon (unter Einschluss von Zellular-Telefonen) 142, einen Laptop-Computer 144 oder einen Desktop-Computer 146 sowie andere Audiofähige Geräte einschließen (beispielsweise persönliche digitale Assistenten, Audio-Empfänger und Anwendungs-Server).
Eine Sprach-Anwendung kann irgendeine interaktive Anwendung sein, die Information sammelt, bereitstellt und/oder verteilt. Als Beispiele können bei der vorliegenden Erfindung eine Sprach-Anwendung und ein Anwendungs-Skript irgendeine einer Gruppe von interaktiven Anwendungen sein, unter Einschluss von Kundenbefragungs-Anwendungen, Web-Zugriffs-Anwendungen; Erziehungs-Anwendungen, unter Einschluss von Gesundheits-Erziehungs-Anwendungen, und Computer-basierten Unterrichts-Anwendungen und Test-Anwendungen; Überprüfungs-Anwendungen, unter Einschluss von Patienten-Prüfungs-Anwendungen und Verbraucher-Überprüfungs-Anwendungen; Gesundheitsgefahr-Abschätzungs-Anwendungen; Überwachungs-Anwendungen, unter Einschluss von Überwachungs-Anwendungen von Gesundheits-Daten und Überwachungs-Anwendungen für Verbraucher-Vorlieben; Befolgungs-Anwendungen, insbesondere Anwendungen zur Erzeugung von Benachrichtigungen über über Befolgungsbezogene Aktivitäten, unter Einschluss von Benachrichtigungen hinsichtlich einer Einhaltung von Gesundheits- oder Produkt-Vorschriften; Testergebnis-Anwendungen unter Einschluss von Anwendungen, die zumindest eines von Labor-Testergebnissen, Standard-Testergebnissen, Verbraucher-Produkt-Testergebnissen und Wartungs-Ergebnissen ergeben; und Verknüpfungs-Anwendungen unter Einschluss von Anwendungen, die zwei oder mehr der vorstehenden Anwendungen verknüpfen.
In 2 ist ein Blockschaltbild 200 gezeigt, das eine Implementierung der vorliegenden Erfindung zeigt. Die Web-Seite 220, die das Anwendungs-Skript 222 einschließt, kann sich am Ort des SR-Systems befinden, oder sie kann von einem Transaktions-Sprach-Anwendungs-System 110 über das Netzwerk 150 heruntergeladen werden. In jedem Fall wird die Web-Seite 220 auf das SR-System 120 (oder eine hierzu örtliche Plattform) geladen, die als Web-Seite 220' mit dem Anwendungs-Skript 222' gezeigt ist. Die Funktionalität der Sprach-Anwendung wird dem SR-System 120 von dem Anwendungs-Skript 222' geliefert, ohne dass die Notwendigkeit einer Server-seitigen Anwendungs-Codierung an einem Anwendungs-Server 110 besteht, wie dies bei Systemen erforderlich ist, die beispielsweise in VoiceXML geschriebene Sprach-Anwendungen verwenden. Das heißt, dass alle erforderliche Anwendungs-Funktionalität als Teil des Anwendungs-Skriptes heruntergeladen und an dem SR-System 120 ausgeführt wird. Diese Funktionalität ergibt die Darbietung von Benutzer-Aufforderungen, die Verarbeitung von Benutzer-Antworten, die Gesamt-Anwendungs-Sitzungs-Verwaltung und die Bildung von Schnittstellen mit anderen verfügbaren Modulen oder Einrichtungen, die eine Funktionalität ergeben. Derartige Aufforderungen können Fragen einschließen, wie zum Beispiel „waren Sie jemals in Aruba?". Benutzer-Antworten schließen beispielsweise Antworten auf derartige Fragen ein, beispielsweise „einhundert Mal!". Die Gesamt-Sitzungs-Verwaltung kann die Durchführung einer Umfrage einschließen, die derartige Aufforderungen liefert und derartige Antworten verarbeitet. Eine derartige Funktionalität schließt auch eine Funktionalität zur Steuerung des SR-Systems 120 und eine Standard-HTML- und Betriebssystem-Funktionalität ein. Schnittstellen zu einer derartigen Funktionalität sind vorzugsweise als selbständige wiederbenutzbare Objekte geschrieben.
Bei der bevorzugten Ausführungsform gehorchen alle die Schnittstellen-Objekte, die von dem Anwendungs-Skript 222' verwendet werden, einem Standard- Schnittstellen-Modell, wie zum Beispiel ActiveX. Das heißt, die ActiveX-Objekte 230 geben dem Anwendungs-Skript 222' Zugang an Standard-Web-Dienste. Daher kann das Anwendungs-Skript 222' einen einfachen Zugriff auf alle die von Natur aus vorhandenen ActiveX-Fähigkeiten des Betriebssystems durchführen (beispielsweise Mitteilungs-Übermittlung, Datenbank-Zugriff usw.) und zwar über diese Standard-Schnittstellen 230 unter Verwendung von Standard-ActiveX-Steuerungen. Die Verwendung von ActiveX-Schnittstellen-Objekten 23 (das heißt genormten gleichförmigen Objekten) für den Zugriff und die Steuerung von Funktionen, die für das Anwendungs-Skript 222' zur Verfügung stehen, vereinfacht sehr stark die Entwicklung und Integration derartiger Anwendungen. Sprach-Anwendungen gemäß der vorliegenden Erfindung müssen nur zur Verwendung dieser Standard-ActiveX-Schnittstellen-Objekt 230 konfiguriert werden, so dass sie keine speziellen oder kundenspezifischen Schnittstellen benötigen. Die ActiveX-Objekte 230 sind für das SR-System lokal und können mit irgendeinem Anwendungs-Skript verwendet werden, das zugeführt oder hierauf geladen wird.
Eine semantische Schnittstelle, die als die „Teller"-Schnittstelle 240 bezeichnet wird, bietet das Anwendungs-Skript 222' der SR-Anwendung 210 an. Die Teller-Schnittstelle ist als ein ActiveX-Objekt geschrieben, das für das SR-System 210 lokal ist. Das Teller-Schnittstellen-Objekt 240 schließt eine Standard-HTML-Browser-Funktionalität, unter Einschluss von Etikett-Verarbeitung, Hyper-Verweisen usw. ein. Das Teller-Schnittstellen-Objekt 240 unterstützt weiterhin HTML-Erweiterungen, wie zum Beispiel Dialog, Play und Record, wie andere bekannte HTML-Erweiterungen. Wenn es Skript-Etiketten gibt, die sich auf der Web-Seite befinden, so lädt das Teller-Schnittstellen-Objekt 240 eine entsprechende Skript-Maschine.
Weil die Teller-Schnittstelle als eine Objekt-Schnittstelle hoher Ebene codiert ist, muss sie nicht für das Anwendungs-Skript 222' spezifisch angepasst werden. Vielmehr können viele Instanzen des Teller-Schnittstellen-Objektes 240 geschaffen werden, die jeweils eines einer Vielfalt von Anwendungs-Skripten mit Diensten versorgen. Eine Instanz des Teller-Schnittstellen-Objektes 240 kann im voraus oder bei einem ankommenden Aufruf von einem Geräte 140 geschaffen werden. Über das Teller-Schnittstellen-Objekt 240 steuert das Anwendungs-Skript 222' die SR-Anwendung 210, was als Pfeil 242 dargestellt ist. Beispielsweise kann das Anwendungs-Skript der SR-Anwendung die Aufgabe geben, die Erkennung zu beginnen, eine Datei wiederzugeben, eine Aufforderung abzuspielen, usw.. Derartige Aufgabenstellungen können unter Verwendung von Standardobjektorientierten Entwurfs-(OOD-)Aufrufen und Verfahren durchgeführt werden.
Das Teller-Schnittstellen-Objekt 240 wird weiter unter Bezugnahme auf das folgende Pseudo-Code-Segment verständlich:
Die Funktionalität der SR-Anwendung 210 wird so konfiguriert, dass sie einen Kontext-freien Satz von semantischen Daten erzeugt und zurückliefert, die alle möglichen gültigen Interpretationen eines empfangenen Audio-Einganges darstellen, das heißt, das SR-System 120 kann so konfiguriert werden, dass es eine syntaktische und semantische Verarbeitung unter Verwendung einer gemeinsamen Wurzel-Grammatik ohne eines Satzes von Grammatiken ausführt, um eine semantische Baum-Instanz zu erzeugen, die alle möglichen gültigen Interpretationen eines empfangenen Audio-Stroms darstellt. Die semantischen Daten sind in einem semantischen Objekt (oder Objekten) 244 dargestellt, die von der SR-Anwendung 210 zu Anwendungs-Skript 222' weitergeleitet werden. Jedes semantische Objekt 244 durchläuft die Teller-Schnittstelle 240 zu einer Auswertungs-Schnittstelle 250 des Anwendungs-Skriptes.
Die Auswertungs-Schnittstelle 250 kann ebenfalls als ein ActiveX-Objekt beschrieben werden, das als ein Auswertungs-(oder Interpretations-)Werkzeug für das Anwendungs-Skript 222' dienen kann. Das Anwendungs-Skript 222' liefert einen Kontext an die Auswertungs-Schnittstelle 250. Die Auswertungs-Schnittstelle 250 bestimmt eine Kategorie, die dem Kontext zugeordnet ist, und wendet die Kategorie auf die semantischen Objekte 244 an, um eine spezielle Interpretation des Satzes von semantischen Daten aus allen den möglichen Interpretationen zu gewinnen. Dieses Ergebnis kann als ein linguistisches Ergebnis bezeichnet werden, das ein Wort, einen Satz oder Werte darstellt. Sobald das linguistische Ergebnis bestimmt ist, verarbeitet das Anwendungs-Skript 222' das Ergebnis, um seine nächste Aktion oder Aufforderung für den Benutzer zu bestimmen. Die Auswertungs-Schnittstelle 250 wird weiter aus dem folgenden Pseudo-Code-Segment verständlich:
Kategorien werden durch ihre Namen identifiziert. Sie spezifizieren die spezielle erforderliche semantische Interpretation. Es sei darauf hingewiesen, dass ein semantisches Objekt 244 zur Interpretation unter Verwendung irgendeiner von mehreren gültigen Kategorien fähig ist. Diese Kategorien steuern unterschiedliche semantische Interpretationen des semantischen Objektes, in Abhängigkeit von dem Kontext. Zusammen beschreiben die Kategorien alle möglichen gültigen Interpretationen des semantischen Objektes. Weil alle Kontexte dargestellt sind, ermöglicht es dies, dass das semantische Objekt in einer Kontext-unabhängigen Weise verwendet und erneut verwendet wird. Beispiel von Kategorien sind „Zahl", „Zeichenkette", „Ziffer", „Auto-Modell".
3 zeigt ein Ablaufdiagramm, das durch die Anwendungen und Objekte nach 2 durch eine Transaktions-Sprach-Anwendung gemäß der vorliegenden Erfindung implementiert werden kann. Der Prozess beginnt beispielsweise mit dem Empfang einer Audio-Eingabe von dem Gerät 140 über das Netzwerk 130. Diese Audio-Eingabe wird von dem SR-System im Schritt 302 empfangen. Wenn das Anwendungs-Skript 222' noch nicht zu dem SR-System 120 heruntergeladen wurden, wird das Anwendungs-Skript 222' von einer Quelle im Schritt 304 heruntergeladen. Bei Empfangen einer Audio-Eingabe liefert das Anwendungs-Skript 222' dem SR-System die Aufgaben über Steuerungen 242, beispielsweise für eine Interpretation des Audio-Einganges im Schritt 306.
Durch Interpretieren der Audio-Eigabe erzeugt die SR-Anwendung 210 eine Kontext-frei semantische Baum-Instanz, die alle möglichen gültigen Interpretationen des Audio-Einganges darstellt, die als ein oder mehrere semantische Objekte 244 im Schritt 308 dargestellt wird. Im Schritt 310 leitet die SR-Anwendung 210 das oder die semantischen Objekte 244 an das Anwendungs-Objekt 222' über die Teller-Schnittstelle 240 weiter. Die Teller-Schnittstelle führt keine wesentliche Verarbeitung des oder der semantischen Objekte 244 aus. Vielmehr empfängt eine semantische Baum-Auswertungs-Einrichtung 250 die semantische Baum-Instanz und einen Kontext, der durch das Anwendungs-Skript bestimmt ist, im Schritt 312. Die Auswertungs-Einrichtung 250 kann von dem Anwendungs-Skript 222' mit dem Kontext vor dem Empfang der semantischen Baum-Instanz versorgt werden, die in dem semantischen Objekt 244 verkörpert ist. Die semantische Baum-Instanz kann direkt von der SR-Anwendung 210 empfangen werden, oder sie kann über das Anwendungs-Skript 222' weitergeleitet werden, in Abhängigkeit von der Ausführungsform.
In der bevorzugten Form bestimmt die semantische Baum-Auswertungs-Einrichtung 250 im Schritt 314 eine Kategorie, die an jedem Knoten der semantischen Baum-Instanz anzuwenden ist. Weil die semantische Baum-Instanz von der SR-Anwendung 210 als Kontext-frei empfangen wird und alle gültigen Interpretationen der Audio-Eingabe darstellt, ist die Anwendung des Kontextes und einer entsprechenden Kategorie an jedem Knoten erforderlich, um ein einziges korrektes linguistisches Ergebnis zu erzielen. Dieses Ergebnis dient als eine Antwort auf eine anhängige Aufforderung durch das Anwendungs-Skript 222'. Entsprechend wird auch im Schritt 314 das linguistische Ergebnis an das Anwendungs-Skript 222' weitergeleitet. Das Anwendungs-Skript 222' bestimmt seine nächste Aktion, beispielsweise das Senden einer weiteren Aufforderung, als eine Funktion des linguistischen Ergebnisses.
Während die Sitzung ausgeführt wird, muss das Anwendungs-Skript 222' keinen Zugriff auf Stütz-Server aus irgendeinem Grund ausführen. Wenn die Sitzung beendet ist, wenn beispielsweise eine Umfrage, die von dem Anwendungs-Skript 222' verwaltet wird, abgeschlossen ist, so kann das Anwendungs-Skript 222' gelöscht werden. Die ActiveX-Objekte bleiben resident an dem SR-System, und sie können durch andere Anwendungs-Skripte neu verwendet werden, die auf das SR-System heruntergeladen werden.
Die Erfindung kann in anderen speziellen Ausführungsformen verwirklicht werden, ohne von dem Schutzumfang abzuweichen, wie er von den beigefügten Ansprüchen umfasst ist.

Claims

Sprachanwendungs-System, mit: A. einem Spracherkennungs-(SR-)System, das zum Empfang eines Audio-Eingangssignals und zur Erzeugung eines Kontext-freien Satzes von semantischen Daten konfiguriert ist, die alle möglichen gültigen Interpretationen des Audio-Eingangs darstellen; B. ein Sprachanwendungs-Skript, das an dem SR-System geladen und zum Bewirken eines Arbeitsschrittes des SR-Systems konfiguriert ist, wobei das Anwendungs-Skript einen Kontext definiert; C. eine semantische Daten-Auswerteeinrichtung, die zum Empfang des Kontext-freien Satzes von semantischen Daten und des durch das Anwendungs-Skript definierten Kontextes und zur Erzeugung, als Funktion hiervon, eines linguistischen Ergebnisses konfiguriert ist, das dem Audio-Eingang entspricht und eine spezifische Interpretation des Satzes von gültigen Interpretationen darstellt, und um das linguistische Ergebnis an das Anwendungs-Skript zurückzuliefern; D. einen Satz von wiederverwendbaren objektorientierten Schnittstellen, die für das SR-System lokal sind, wobei die Schnittstellen zur Schnittstellenverbindung des Anwendungs-Skriptes mit dem SR-System konfiguriert sind.
System nach Anspruch 1, bei dem ein oder mehrere Anwendungs-Skripte in einer Web-Seite enthalten sind.
System nach Anspruch 1, bei dem ein oder mehrere der Schnittstellen Objekte sind, die über ActiveX-Einrichtungen ausgebildet werden.
System nach Anspruch 1, bei dem das Anwendungs-Skript Programmier-Code einschließt, der in einer Sprache geschrieben ist, die aus einer Gruppe von Skript-Sprachen ausgewählt sind, die Folgendes umfasst: (1) JSkript; (2) PerlSkript; und (3) VBscript.
System nach Anspruch 1, bei dem der Satz von semantischen Daten als eine semantische Baum-Instanz dargestellt ist.
System nach Anspruch 1, bei dem der Satz von semantischen Daten in einem semantischen Objekt dargestellt ist.
System nach Anspruch 1, bei dem der Audio-Eingang von einem Gerät empfangen wird, das aus der Gruppe ausgewählt ist, die Folgendes umfasst: A. ein Telefon; B. ein Zellulartelefon; C. einen persönlicher Computer; D. einen Anwendungs-Server; und E. einen Audio-Empfänger.
System nach Anspruch 1, bei dem der Audio-Eingang über ein Netzwerk empfangen wird, das ein oder mehrere drahtgebundene oder drahtlose Netzwerke aus einer Gruppe umfasst, die Folgendes umfasst: A. ein Telefon-Netzwerk; B. ein Zellulartelefon-Netzwerk; C. ein LAN; D. ein WAN; E. ein virtuelles privates Netzwerk; F. das Internet; und G. das weltweite Datennetz (Web).
System nach Anspruch 1, bei dem die Vielzahl von gültigen Interpretationen des Audio-Einganges alle gültigen Interpretationen des Audio-Einganges innerhalb des Kontextes einschließt.
System nach Anspruch 1, dadurch gekennzeichnet, dass die Sprachanwendung aus einer Gruppe von interaktiven Sprachanwendungen ausgewählt ist, die Folgendes umfasst: A. Verbraucher-Umfrageanwendungen; B. Zugangsanwendungen des weltweiten Datennetzes; C. Unterrichtsanwendungen unter Einschluss von Gesundheits-Unterrichtsanwendungen und Computer-basierten Unterrichtsanwendungen und Testanwendungen; D. Übersichtsanwendungen unter Einschluss von Patienten-Übersichtsanwendungen und Verbraucher-Übersichtsanwendungen; E. Gesundheitsgefahr-Abschätzungsanwendungen; F. Überwachungsanwendungen, unter Einschluss von Gesundheitsdaten-Überwachungsanwendungen und Verbraucher-Vorlieben-Überwachungsanwendungen; G. Einhaltungsanwendungen unter Einschluss von Anwendungen, die Benachrichtigungen über Einhaltungs-bezogene Aktivitäten erzeugen, unter Einschluss von Benachrichtigungen hinsichtlich der Gesundheit und der Produkt-Wartung; H. Testergebnisanwendungen, unter Einschluss von Anwendungen, die zumindest eines von Labor-Testergebnissen, genormten Testergebnissen, Verbraucher-Produkt-Testergebnissen und Wartungsergebnissen einschließen; und I. Verknüpfungsanwendungen, die Anwendungen einschließen, die zwei oder mehr der Anwendungen in den Teilen A bis H miteinander verknüpfen.
System nach einem der Ansprüche 1 bis 10, bei dem: A. das Spracherkennungs-(SR-)System auf einem ersten Computer untergebracht ist und so konfiguriert ist, dass es den Audio-Eingang von einer Eingabe-Vorrichtung empfängt und ein oder mehrere semantische Objekte erzeugt, die eine Vielzahl von gültigen Interpretationen des Audio-Einganges darstellen; B. die Web-Seite auf den ersten Computer von einem zweiten Computer geladen wird, wobei die Web-Seite ein Anwendungs-Skript einschließt, das einen Satz von Sprachanwendungs-Funktionalität umfasst und zum Wechselwirken mit der Eingabe-Vorrichtung über das SR-System konfiguriert ist, wobei die Sprachanwendung so konfiguriert ist, dass sie Sprachanwendungs-Sitzungen ohne Zugriff auf den zweiten Computer ausführt; C. der Satz von wiederverwendbaren objektorientierten Schnittstellen lokal an dem ersten Computer angeordnet ist, wobei die Schnittstellen Folgendes einschließen: (1) ein oder mehrere Schnittstellen-Objekte, die zur Erleichterung des Zuganges des Anwendungs-Skriptes auf Standard-Dienste des ersten Computers konfiguriert sind; und (2) eine semantische Schnittstelle, die zur Erleichterung des Zuganges an und zur Steuerung des SR-Systems durch das Anwendungs-Skript konfiguriert ist; und D. die semantische Objekt-Auswertungseinrichtung so konfiguriert ist, dass sie aus den semantischen Objekten als eine Funktion des Kontextes eine einzige Interpretation des Audio-Einganges erzeugt und diese einzelne Interpretation an das Anwendungs-Skript zurückzuliefert.
System nach Anspruch 1, bei dem die Sprachanwendung aus einer Gruppe von interaktiven Sprachanwendungen ausgewählt ist, die Folgendes umfasst: A. Verbraucherumfrageanwendungen; B. Web-Zugangsanwendungen; C. Unterrichtsanwendungen unter Einschluss von Gesundheits-Unterrichtsanwendungen und Computer-basierten Unterrichtsanwendungen und Testanwendungen; D. Übersichtsanwendungen unter Einschluss von Patienten-Übersichtsanwendungen und Verbraucher-Übersichtsanwendungen; E. Gesundheitsgefahr-Abschätzungsanwendungen; F. Überwachungsanwendungen, unter Einschluss von Gesundheitsdaten-Überwachungsanwendungen und Verbraucher-Vorlieben-Überwachungsanwendungen; G. Einhaltungsanwendungen unter Einschluss von Anwendungen, die Benachrichtigungen über Einhaltungs-bezogene Aktivitäten erzeugen, unter Einschluss von Benachrichtigungen hinsichtlich der Gesundheit und der Produkt-Wartung; H. Testergebnisanwendungen, unter Einschluss von Anwendungen, die zumindest eines von Labor-Testergebnissen, genormten Testergebnissen, Verbraucher-Produkt-Testergebnissen und Wartungsergebnissen einschließen; und I. Verknüpfungsanwendungen, die Anwendungen einschließen, die zwei oder mehr der Anwendungen in den Teilen A bis H miteinander verknüpfen.
System nach Anspruch 11, bei dem der Satz von wiederverwendbaren Objekt orientierten Schnittstellen und die semantische Objekt-Auswertungseinrichtung Objekte sind, die über ActiveX-Einrichtungen beaufschlagt sind.
Sprachanwendungs-Skript für eine Web-Seite, wobei das Skript so konfiguriert ist, dass es mit einem Spracherkennungs-(SR-) System zusammen wirkt, das auf einem ersten Computer abläuft und zum Empfang eines Audio-Eingangs und zur Erzeugung eines oder mehrerer semantischer Objekte konfiguriert ist, die eine Vielzahl von gültigen Interpretationen des Audio-Einganges darstellen, wobei der erste Computer weiterhin eine Vielzahl von Schnittstellen-Objekten und eine semantische Objekt-Auswertungseinrichtung einschließt, die zur Erzeugung aus dem einen oder mehreren semantischen Objekten einer einzigen Interpretation des Audio-Einganges als eine Funktion des Kontextes konfiguriert ist, wobei das Anwendungs-Skript Folgendes umfasst: A. eine Kontext-Definition; B. eine Verknüpfung zu der semantischen Objekt-Auswertungseinrichtung; C. eine Verknüpfung zu dem SR-System über ein semantisches Schnittstellen-Objekt von der Vielzahl von Schnittstellen-Objekten; D. einen Satz von Steuer-Funktionalität, der Folgendes umfasst: (1) eine Sitzungs-Verwaltung, die zur Erzeugung von Benutzer-Aufforderungen und zur Bestimmung einer nächsten Aktion als eine Funktion der einzigen Interpretation konfiguriert ist; (2) eine SR-System-Steuerung, die zur Lieferung von Aufgabenstellungen an das SR-System konfiguriert ist; (3) eine Kommunikations-Verwaltung, die zur Verwaltung der Wechselwirkung mit der Eingabe-Vorrichtung über das SR-System konfiguriert ist, wobei das Sprachanwendungs-Skript auf den ersten Computer von einem zweiten Computer aus ladbar ist und die Sprachanwendung so konfiguriert ist, dass sie Sprachanwendungs-Sitzungen ohne Zugriff auf den zweiten Computer ausführt.
System nach Anspruch 14, bei dem die Schnittstellen-Objekte Objekte sind, die über ActiveX-Einrichtungen ausgebildet sind.
Anwendungs-Skript nach Anspruch 14, bei dem das Sprachanwendungs-Skript eine Sprachanwendung ist, die aus einer Gruppe von interaktiven Sprachanwendungen ausgewählt ist, die Folgendes umfasst: A. Verbraucherumfrageanwendungen; B. Web-Zugangsanwendungen; C. Unterrichtsanwendungen unter Einschluss von Gesundheits-Unterrichtsanwendungen und Computer-basierten Unterrichtsanwendungen und Testanwendungen; D. Übersichtsanwendungen unter Einschluss von Patienten-Übersichtsanwendungen und Verbraucher-Übersichtsanwendungen; E. Gesundheitsgefahr-Abschätzungsanwendungen; F. Überwachungsanwendungen, unter Einschluss von Gesundheitsdaten-Überwachungsanwendungen und Verbraucher-Vorlieben-Überwachungsanwendungen; G. Einhaltungsanwendungen unter Einschluss von Anwendungen, die Benachrichtigungen über Einhaltungs-bezogene Aktivitäten erzeugen, unter Einschluss von Benachrichtigungen hinsichtlich der Gesundheit und der Produkt-Wartung; H. Testergebnisanwendungen, unter Einschluss von Anwendungen, die zumindest eines von Labor-Testergebnissen, genormten Testergebnissen, Verbraucher-Produkt-Testergebnissen und Wartungsergebnissen einschließen; und I. Verknüpfungsanwendungen, die Anwendungen einschließen, die zwei oder mehr der Anwendungen in den Teilen A bis H miteinander verknüpfen.
Verfahren zur Konfiguration eines Sprachanwendungs-Systems, mit einem Spracherkennungs-(SR-)System, das auf einem ersten Computer abläuft und Einrichtungen zum Empfang eines Audio-Eingangs einschließt, wobei das Verfahren Folgendes umfasst: A. Erzeugen einer Web-Seite auf einem zweiten Computer; B. Definieren eines Sprachanwendungs-Skriptes gemäß Anspruch 14; C. Integration des Anwendungs-Skriptes in die Web-Seite; D. Laden der Web-Seite, unter Einschluss des Anwendungs-Skriptes, von dem zweiten Computer auf den ersten Computer; und E. Ausbilden eines Satzes von Standard-Schnittstellen zwischen dem Anwendungs-Skript und dem SR-System.
Verfahren zum Betrieb eines Sprachanwendungs-Systems, das ein Verfahren nach Anspruch 17 umfasst, das weiterhin Folgendes umfasst: A. Empfangen des Audio-Einganges durch das SR-System; B. Laden der Web-Seite, die das Anwendungs-Skript einschließt, auf den ersten Computer; C. Ausbilden eines Satzes von Standard-Schnittstellen zwischen dem SR-System und dem Anwendungs-Skript, unter Einschluss der Ausbildung einer semantischen Auswerteeinrichtung; D. als Antwort auf die Aufgaben-Beauftragung durch das Anwendungs-Skript, Erzeugen eines oder mehrerer semantischer Objekte durch das SR-System, die alle möglichen Interpretationen des Audio-Einganges darstellen; E. als Antwort auf den Empfang eines Kontextes, der von dem Anwendungs-Skript definiert ist, Bestimmen einer einzigen semantischen Interpretation durch die semantische Auswerteeinrichtung aus dem einen oder mehreren semantischen Objekten; und F. Bestimmen einer nächsten Aktion durch das Anwendungs-Skript als eine Funktion der einzigen semantischen Interpretation.