-
Die
Erfindung betrifft ein Telefonzugriffssystem, welches einem Benutzer
gestattet, mit einem Computer über
einen Telefonapparat in Wechselwirkung zu treten.
-
Computer
können
Informationen über
eine Vielzahl unterschiedlicher Kommunikationsgeräte übermitteln,
empfangen und anzeigen. Beispielsweise können Personalcomputer interne
Fax- und Modem-Platinen enthalten,
die es dem System gestatten, Faxe und elektronische Post zu senden
und zu empfangen. Der Computer kann außerdem digitale Möglichkeiten
zur Klangerzeugung und zur Umsetzung von Sprache in Text haben,
welche es dem System gestatten, aufgezeichnete Sprachnachrichten
zu speichern und zu erzeugen. Diese Kommunikationswerkzeuge sind
zusätzlich
zu den herkömmlichen
Systemdateien, Spreadsheets, usw. vorgesehen.
-
Die
Schnittstelle zwischen einem Personalcomputer und einem Benutzer
stellt gegenwärtig
ein Bildschirm und eine Tastatur dar. Die Schnittstelle kann durch
eine "Maus" unterstützt werden,
welche es dem Benutzer gestattet, den Bildschirmcursor zu einem
grafischen Bildschirmsymbol zu bewegen und eine Funktion auszuwählen, die
dem Bildschirmsymbol entspricht. Um beispielsweise den Inhalt eines
Dokuments durchzusehen, muß der
Benutzer zunächst
den Text auf dem Bildschirm anzeigen, indem er typischerweise eine
Anzahl von Tastatur- und/oder Maus-Eingaben erzeugt. Sobald das
Dokument auf dem Bildschirm angezeigt ist, kann der Benutzer den
Inhalt des Dokuments visuell lesen. Die Kommunikation über ein
Fax oder über
elektronische Post wird ebenfalls ausgeführt, indem eine Anzahl von
Tastatur/Maus-Eingaben entsprechend den Instruktionen vorgesehen
wird, die von einer der Operation des Kommunikationsgeräts angepaßten Software zur
Verfügung
gestellt werden.
-
Es
kann der Fall eintreten, daß Computer
lebenswichtige Nachrichten, Dokumente, Zeitpläne usw. enthalten, die von
dem Benutzer durchgesehen werden müssen, selbst wenn der Benutzer
nicht in der Lage ist, die Tastatur des Systems zu bedienen. Beispielsweise
kann es sein, daß der
Benutzer auf Reisen ist und ein Dokument durchsehen muß oder in
ein "Kalender-Programm" sehen muß, wobei
sich das Dokument bzw. das Programm auf einem in einem Büro aufgestellten
Computer befindet.
-
Aus
der Technik sind Systeme bekannt, die eine sprachliche Schnittstelle
für Computersysteme
bereitstellen.
-
Ein
Terminal-System, das mit einer Sprachausgabe ausgestattet ist, um
Daten in sprachlicher Wiedergabe über ein Telefon wiederzugeben,
ist in der
US 4 716 583 beschrieben.
-
Die
EP 0 214 347 A1 beschreibt
ein automatisiertes Lernsystem, bei dem ein Lernender über ein
Telefon ein automatisiertes Bildungs- und Testcenter anrufen kann.
Dem Anrufenden werden automatisiert eine Reihe Fragen gestellt und
mögliche
Antworten vorgeschlagen die durch Druck auf eine Taste auswählbar sind.
-
In
Muller, M.J.; Daniel, J.E.: Toward a Definition of Voice Documents.
in: Proceedings of COIS, 1990, S. 174-183 wird eine Verwendung von
Sprachdokumenten in einem Sprach-I/O-Hypermedia-System und insbesondere die Navigation,
Verwaltung und Autorisierung solcher Sprachdokumente beschrieben.
-
Die
US 5 179 585 beschreibt
ein integriertes Nachrichtenübermittlungs-/interaktives
Sprachantwortsystem, bei dem ein Zugriff auf eine Mehrzahl verschiedener
Verarbeitungsanwendungsmodule über
eine Telefonleitung bereitgestellt wird.
-
Ein
sprachbetriebenes Faxverteilungssystem zum Übermitteln speziell angeforderter
Grafik- und/oder Textdaten aus einer Datenbank zu einem Faxgerät eines
Anforderers wird in der
US 5
136 634 beschrieben.
-
Die
bekannten Systeme weisen jedoch oft insbesondere klangliche Defizite
auf.
-
Es
ist daher ein Aufgabe der Erfindung, eine Vorrichtung zu schaffen,
die eine klanglich verbesserte Sprach-Schnittstelle zur Wiedergabe
von Daten und gleichzeitig eine große Funktionalität aufweist.
-
Die
Aufgabe wird erfindungsgemäß gelöst durch
eine Vorrichtung mit den Merkmalen des Patentanspruchs 1.
-
Die
Erfindung schafft ein Telefonzugriffssystem, welches einen Fern-Zugriff
und eine Fern-Kommunikation mit einem Computer über einen Telefonhandapparat
ermöglicht.
Das System stellt Audiobefehle zur Verfügung, die es einem Benutzer
gestatten, zwischen einer Mehrzahl von Audiodialogen auszuwählen. Die Audiodialoge
gestatten einen Zugriff auf Sprach-Post, elektronische Post, einen
Dateimanager (Dokumente, Datenbank usw.), Faksimiles und andere
Daten, die in dem Computer gespeichert sind. Einmal innerhalb eines Audiodialogs
stellt das System eine Reihe von Instruktionen und Kontrollen zur
Verfügung,
welche es dem Benutzer gestatten, die in dem Computer gespeicherten
Informationen zu manipulieren. Beispielsweise kann das System dem
Benutzer gestatten, eine über
elektronische Post empfangene Nachricht zu hören und dann auf die Nachricht
zu antworten. Das System kann außerdem dem Benutzer gestatten,
den Text eines Dokuments zu hören
und das Dokument zu einem fernen Ort zu faxen. Das System gestattet
dem Benutzer, mit einem Computer unter Verwendung eines Telefons
zu kommunizieren, um viele der Aufgaben auszuführen, die gegenwärtig mit
einer Tastatur und einem Bildschirm ausgeführt werden.
-
Das
System ist so konstruiert, daß eine
Vielzahl von statischen Funktionen einem Tastensatz auf dem Tastenfeld
des Telefonapparates zugeordnet sind. Beispielsweise bewirkt ein
Drükken
der Sternchen-Taste stets ein Wiederholen der von dem System zur
Verfügung
gestellten Audioinstruktionen. Die statischen Tasten gestatten es
dem Benutzer, schnell mit dem System vertraut zu werden, so daß der Benutzer
schnell die verschiedenen Audiodialoge und Steuerfunktionen innerhalb
der Dialoge durchsuchen oder überfliegen
kann.
-
Das
System weist einen Audiomechanismus auf, welcher zuvor aufgezeichnete
Tonfrequenznachrichten mit gespeicherten aus Text in Sprache umgewandelten
Audio-Nachrichten so verschmilzt, daß dem Benutzer Instruktionen
ohne Lücken
zwischen den Worten der Tonfrequenznachricht und der Audio-Text-Zu-Sprache-Nachricht
zur Verfügung
gestellt werden. Der Audiomechanismus kann außerdem eine Audio-Hintergrundnachricht
zur Verfügung
stellen, um ein Wort oder einen Satz hörbar hervorzuheben, das bzw.
der in dem gespeicherten elektronischen Text grafisch hervorgehoben
ist. Außerdem
gestattet das System dem Benutzer, ein Dokument durchzusehen, und
liefert dem Benutzer die ausgesprochene Form eines Wortes innerhalb
des Dokumententextes.
-
Das
System schafft eine Programmierschnittstelle, die Bausteine enthält, welche
einem Programmierer gestatten, das Telefonzugriffssystem auf die
Anwendung zuzuschneiden. Um die Fehlerbeseitigung (Debugging) in
jedem Programm durchzuführen,
stellt das System eine Tastatur-/grafische Schnittstelle zur Verfügung, welche
einen Telefonhandapparat simuliert. Ein grafischer Handapparat erscheint
auf einem Computerbildschirm und wird mittels einer Tastatur und/oder
Maus betätigt,
um Eingabekommandos in das System einzugeben, die mit dem Drücken von
Tasten des Telefonapparats korrelieren.
-
Die
Erfindung schafft ein System, welches einem Benutzer einen Fern-Zugriff
auf einen Computer über einen
Telefonhandapparat gestattet. Das erfindungsgemäße System ist von dem Betreiber
des Systems leicht zu benutzen.
-
Die
Erfindung schafft ein Computer-Telefonzugriffssystem, welches einem
Benutzer Audioinstruktionen zur Verfügung stellt, ohne Lücken zwischen
den zuvor aufgezeichneten Tonfrequenznachrichten und Audionachrichten,
die durch Umwandlung von elektronischen Text in Sprache gebildet
wurden, entstehen zu lassen.
-
Das
erfindungsmäße System
gestattet es einem Benutzer, den Text eines in einem Computer gespeicherten
Dokuments über
einen fernen Telefonhandapparat durchzusehen. Darüberhinaus
kann mit Hilfe des erfindungsgemäßen Systems
ein Text, der in dem ge speicherten elektronischen Text grafisch
hervorgehoben ist, hörbar
hervorgehoben werden.
-
Das
erfindungsgemäße System
gestattet es einem Programmierer, die Fehler in einem Anwendungsprogramm
für ein
Computer-Telefonzugriffssystem
zu beseitigen, ohne einen Telefonhandapparat zu benutzen.
-
Mit
Hilfe des erfindungsgemäßen Systems
ist es ferner möglich,
aus der Ferne über
einen Telefonhandapparat die Übertragung
von Informationen per Faksimile zu initiieren.
-
Im
folgenden wird die Erfindung anhand eines in der Zeichnung dargestellten
Ausführungsbeispiels näher beschrieben.
In der Zeichnung zeigt:
-
1 eine schematische Veranschaulichung
eines Computer-Telefonzugriffssystems;
-
2a–c stellen ein Ablaufdiagramm
dar, das die Interaktion mit einem Satz von Audiodialogen in einem
Computer über
einen Telefonhandapparat zeigt;
-
3 ist eine schematische
Darstellung der Computerschnittstelle des Systems;
-
4 ist eine schematische
Darstellung eines Systems für
eine grafisch unterstützte
Fehlerbeseitigung in einer Anwendung des Systems;
-
5 ist eine schematische
Darstellung einer Schnittstelle, die eine Faksimileübertragung
von Informationen von dem Computer über einen Telefonhandapparat
gestattet;
-
6a–c zeigen ein Ablaufdiagramm,
das die Fax-Übertragung
eines Dokuments durch die Fax-Schnittstelle zeigt;
-
7 zeigt eine schematische
Darstellung eines Audiodialogs, welcher eine Mehrzahl von Audiosteuerungen
hat;
-
8 ist eine der Darstellung
gemäß 7 ähnliche Darstellung, die einen
Audiodialog mit einer Anzahl unterschiedlicher Audiosteuerungen
zeigt;
-
9 ist eine schematische
Darstellung eines Tastenfeldes eines Telefonhandapparats mit den
Tasten zugewiesenen Funktionen;
-
10 ist ein Schema, das die
Moden zeigt, welche es einem Benutzer gestatten, den Text eines
Dokuments über
einen Telefonhandapparat durchzusehen;
-
11 ist ein Schema einer
Textdurchsichtshierarchie.
-
1 stellt ein erfindungsgemäßes Telefonzugriffssystem 10 dar.
Das System 10 gestattet es einem Benutzer, über einen
Telefonhandapparat auf einen Computer zuzugreifen und wechselseitig
mit diesem zusammenzuwirken. Das System weist einen Computer 12 auf,
der über
ein öffentliches
Telefonnetz (PTSN – public
telephone System network) 16 mit einem Telefonhandapparat 14 gekoppelt
ist. Der Telefonhandapparat 14 kann irgendein herkömmlicher
allgemein verfügbarer
Handapparat sein. Der Telefonhandapparat 14 kann in dem
erfindungsgemäßen System
ohne irgendwelche Hinzufügungen
oder Modifikationen verwendet werden. Der Handapparat enthält üblicherweise
eine Hörmuschel 15,
eine Sprechmuschel 17 und ein Tastenfeld 18.
-
Herkömmliche
Handapparat-Tastenfelder weisen 12 Tasten auf; zehn den Ziffern
0–9 zugeordnete Tasten,
eine *-Taste und eine #-Taste. Der Handapparat 14 kann
an ein öffentliches
Telefonnetz 16 entweder über Kabel oder drahtlos gekoppelt
sein.
-
Der
Computer 12 kann der Auftisch- oder Laptop-Personalcomputer
sein, der normalerweise von dem Benutzer benutzt wird. Der Computer 12 hat
eine Schnittstelle 19, die es dem Computer gestattet, mit
einem PTSN- oder PBX-System zu kommunizieren. Bei dem bevorzugten
Ausführungsbeispiel
ist die Schnittstelle 19 eine interne Telemodem-Karte,
welche sowohl über
Modem- als auch Faksimile-Protokolle kommunizieren kann.
-
Der
Computer 12 des Benutzers kann mit einem anderen Computer 20 über ein
lokales Netzwerk (LAN) 22 mittels bekannter Hardware und
Software gekoppelt sein. Das LAN-System 22 gestattet es
dem Benutzer, sich elektronische Nachrichten enthaltende Informationen
mit anderen Computern 20 zu teilen. Der Computer 12 kann
außerdem
mit einem Fax-Gerät 24 über das
PTSN 16 gekoppelt sein. Obwohl nur ein Fax-Gerät und ein
einziger zusätzlicher
Computer 20 gezeigt sind, ist es klar, daß der Computer 12 mit
einer Mehrzahl unterschiedlicher Computer und Fax-Geräte gekoppelt
sein kann.
-
Die 2a–c zeigen ein Beispiel eines
Nachrichtenaustauschs zwischem dem Benutzer und dem Computer 12 über den
Handapparat 14. Wie im Verarbeitungsblock 50 gezeigt
ist, hat der Computer 12 eine elektronische Nachricht vom
Computer 20 zusammen mit einem von dem Benutzer durchzusehenden
Dokument empfangen. Im Block 52 wählt der Benutzer eine Telefonnummer,
welche von dem Computer empfangen und bestätigt wird. Der Computer beantwortet
den Ruf und verbindet sich mit dem Benutzer. Der Benutzer drückt dann
die *-Taste und gibt über
das Tastenfeld 20 des Handapparats 14 ein Passwort
ein (Verarbeitungsblock 54). Das System ist typischerweise
so eingerichtet, daß es
dem Benutzer gestattet ist, eine Anzahl n von Versuchen zur Eingabe
des korrekten Passworts vorzunehmen. Beispielsweise können dem
Benutzer drei Chancen eingeräumt
werden, daß korrekte
Passwort einzugeben. Wenn der Benutzer nach n Versuchen nicht das
richtige Passwort eingibt, sperrt das System den Benutzer aus, so
daß er
nicht auf den Computer zugreifen kann.
-
Sobald
das richtige Passwort eingegeben worden ist, stellt der Computer
dem Benutzer ein Audiodialogmenü zusammen
mit Instruktionen darüber
zur Verfügung,
wie jeder Audiodialog aus dem Menü auszuwählen ist (Block 56).
Beispielsweise kann die Audionachricht lauten: "Um eine Datei durchzusehen, drücken Sie 1;
um Ihre elektronische Post durchzusehen, drücken Sie 2; ...". Jeder Dialog kann
eine Zusammenfassung enthalten, die den Inhalt des Dialogs beschreibt.
Beispielsweise kann die Audionachricht lauten: "Ihre elektronische Post enthält fünf Nachrichten;
um die Nachricht Ihrer elektronischen Post durchzusehen, drücken Sie 2".
-
Der
Benutzer wählt
ein Audiodialog (Datei, elektronische Post, Fax, Sprachpost usw.)
aus, indem er im Verarbeitungsblock 58 die geeignete Taste
auf dem Handapparat 14 drückt. Beispielsweise kann der
Benutzer ein Durchsehen der elektronischen Post durch Drücken der "2"-Taste auf dem Handapparat 14 auswählen. Im
Block 60 stellt der Computer 12 dann dem Benutzer
eine Reihe von Audio-Steuerfunktions-Instruktionen zur Verfügung, welche
von dem Benutzer durch Drücken
der geeigneten Tasten beantwortet werden. Im Block 62 "liest" der Computer die
Nachricht der elektronischen Post dem Benutzer vor, indem er den
elektronischen Text in hörbare
Sprache konvertiert.
-
Im
Block 64 kann der Computer 12 Instruktionen darüber zur
Verfügung
stellen, was mit der elektronischen Post zu geschehen hat, nachdem
sie dem Benutzer "vorgelesen" worden ist. Beispielsweise
kann der Computer 12 sagen: "Um die Nachricht zu sichern, drücken Sie
1; um die Nachricht zu faxen, drücken
Sie 2; um auf die Nachricht zu antworten, drücken Sie 3; ...". In Block 66 drückt der
Benutzer eine "3", wobei der Computer
mit der Audionachricht antwortet: "Bitte zeichnen Sie die Nachricht nach
dem Ton auf". Die
Nachricht des Benutzers wird in digitaler Form von dem Computer 12 in
Block 68 aufgezeichnet. Im Block 70 gibt der Benutzer "4" ein, um die Antwortnachricht zum Computer 20 zu
senden, wobei der Computer 12 die aufgezeichnete Nachricht
dem Computer 20 über
das LAN-System 22 sendet.
-
Nachdem
die aufgezeichnete Nachricht zum Computer 20 gesendet worden
ist, liefert der Computer 12 im Verarbeitungsblock 72 erneut
eine Audionachricht, die die ursprüngliche Nachricht der elektronischen Post
betrifft (zum Beispiel: "Um
auf die Nachricht zu antworten, drücken Sie 1; um die Nachricht
zu faxen, drücken
Sie 2"). Im Block 74 gibt
der Benutzer die "2" ein, um die Nachricht
und das Dokument zu faxen. In Verarbeitungsblock 76 stellt
der Computer 12 dem Benutzer eine Instruktion zur Verfügung, die
ihn nach der Telefonnummer des Fax-Geräts fragt. Im Block 78 gibt
der Benutzer die Fax-Nummer ein und hängt auf. Der Computer 12 faxt
die Nachricht und das Dokument zu dem Fax-Gerät (Block 80).
-
Das
erfindungsgemäße System 10 gestattet
es einem Benutzer, über
einen Handapparat auf einen Computer zuzugreifen und mit diesem
in Wechselwirkung zu treten. Wie oben beschrieben, kann der Benutzer über einen
Telefonhandapparat Nachrichten durchsehen, auf Nachrichten antworten
und Dokumente faxen. Die oben beschriebene Kommunikation zwischen
Benutzer und dem Computer ist ein das System veranschaulichendes
Beispiel. Das System ist in der Lage, viele andere Möglichkeiten
zur Verfügung
zu stellen, welche unten beschrieben werden sollen.
-
3 zeigt eine Computerschnittstelle 100 des
Systems. Die Schnittstelle 100 weist eine Telefon-Anwendungsprogrammier-Schnittstelle (TAPI – telephone
application programming Interface) 102 auf, welche es dem
Computer 12 gestattet, mit dem PTSN 16 zu kommunizieren.
Die TAPI 102 schafft eine Einrichtung, mit der der Computer
Telefonanrufe aus dem PTSN empfangen und steuern sowie auf diese
antworten kann. Die TAPI 102 findet sich in dem Microsoft-Windows-Betriebssystem
und wird als Windows-Telephony-API bezeichnet. Die Schnittstelle 100 weist
außerdem
einen Kommunikationsanwendungsspezifikations-Manager CAS MNGR (communication
application specification manager) 104 auf, welcher eine
Low-Level-Fax-Schnittstelle mit dem PTSN 16 zur Verfügung stellt.
Ein solches Programm wird gegenwärtig
von der Intel Corp. unter der Bezeichnung "DCA/Intel Communication Application
Specification" vermarktet
und ist mit einer von Intel unter der Handelsbezeichnung "SatisFaxtion" verkauften Fax-Hardware versehen.
Anstelle des CAS MNGR 104 können auch andere Low-Level-Fax-Schnittstellen
verwendet werden.
-
Die
Schnittstelle des Computersystems weist außerdem eine Tonfrequenz-Anwendungsprogramm-Schnittstelle
(WAPI – wave
application program Interface) 106 auf, welche digitale
in analoge Audiosignale und umgekehrt analoge in digitale Audiosignale
konvertiert. Eine solche Schnittstelle befindet sich gegenwärtig in
dem Windows-Betriebssystem und wird als WAVEFORM API bezeichnet.
-
Das
System weist eine Telefonzugriffs-Bibliothek (TAL – telephone
access library) 108 auf, die mit der TAPI 102,
der WAPI 106 und dem CAS MNGR 104 gekoppelt ist.
Die TAL 108 ist über
einen Telefonzugriffs-Manager (TAM – telephone access manager) 116 mit
den Telefonzugriffsanwendungsprogrammen 110 gekoppelt.
Die Telefonzugriffsanwendungsprogramme (TAA – telephone access application) 110 sind
Programme, die modifiziert werden, um entsprechend den Eingaben
von einem Telefonhandapparat zu laufen. Beispielsweise können die
Telefonzugriffsanwendungsprogramme einen Zugriff auf Anwendungsprogramme für Microsoft-Windows
zur Verfügung
stellen, wie beispielsweise einem Adreß- und Kalender-Programm, das als
PACKRAT verkauft wird, einen Dateimanager wie beispielsweise den
Windows-Dateimanager oder ein Fax-Programm, wie beispielsweise FAXability.
Auf diese Programme wird gegenwärtig über den
Bildschirm und die Tastatur/die Maus des Computers zugegriffen.
Die Telefonzugriffsanwendungen werden über den Telefonzugriffsmanager
installiert und konfiguriert.
-
Das
System der Erfindung gestattet es dem Anwendungsprogrammierer, das
Programm zu modifizieren, um eine Kommunikation über ein Telefonsystem zu gestatten.
Diese modifizierten Anwendungsprogramme werden als "Tapplets" bezeichnet. Indem
er auf ein Tapplet zugreift, kann der Benutzer mit einer der Anwendungen
innerhalb des Computers über
den Telefonhandapparat kommunizieren. Beispielsweise kann der Benutzer
auf ein Tapplet zugreifen, das eine Verbindung zu einem Programm
für elektronische
Post zur Verfügung
stellt. Sobald er mit dem Tapplet für elektronische Post verbunden
ist, kann der Benutzer den Inhalt der elektronischen Post "durchsehen". Ein anderes Tapplet
kann eine Verbindung zu einem Dateimanager zur Verfügung stellen,
wobei der Benutzer auf eine Datei innerhalb des Computers zugreifen
kann. Die Kommunikationen zwischen dem Benutzer und einem Tapplet
werden als Audiodialoge bezeichnet.
-
Die
TAL 108 stellt eine Schnittstelle zur Verfügung, welche
auf Eingaben von der Telefonzugriffsanwendung 110 oder
dem Benutzer antwortet und die die zum Ausführen des Programms erforderliche
Task (Aufgabe) verwaltet. Insbesondere stellt die TAL dem Tapplet
Dienste höherer
Ordnung zur Verfügung,
die Telefo nie, Tonfrequenzerzeugung, Umwandlung von Text in Sprache
und Fax einschließen.
Die TAL stellt ein Vielzahl von einfachen Grundbausteinen zur Verfügung, welche
es dem Programmierer gestatten, ein Tapplet zu erzeugen. Beispielsweise
könnte
ein Tapplet für
eine Antwortmaschine mit den folgenden Abstraktionen geschrieben
werden.
WaitForCall;
AnswerCall;
PlayWave greeting.wav;
Record
message.wav;
-
Bei
diesem Beispiel stellt das Tapplet eine Eingabe zu. der TAL zur
Verfügung,
um auf einen Ruf zu warten und auf diesen zu antworten. Wenn ein
Ruf beantwortet wird, dann stellt die TAL Instruktionen zu der WAPI
zur Verfügung,
um eine für
den Benutzer hörbare
Nachricht zu erzeugen, die in der Datei "greeting.wav" gespeichert ist, was der Instruktion "PlayWave greeting.wav;" von dem Tapplet
entspricht. Die TAL stellt außerdem
einen Mechanismus zum Aufzeichnen der Audionachricht von dem Benutzer
zur Verfügung.
Die Eingaben von dem Telefonhandapparat werden von der TAPI in ein
digitales Format konvertiert und der TAL als Programmeingabe zur
Verfügung
gestellt.
-
Die
TAL kann asynchrone Funktionen handhaben, die für das Tapplet unsichtbar sind.
Beispielsweise kann der Benutzer Ziffern eingeben, bevor die Anwendung
einen Schritt in dem Audiodialog erreicht, der die Ziffern anfordert.
Die TAL speichert die Ziffern in einer Eingabewarteschlange. Wenn
das Tapplet explizit eine Eingabe anfordert, kann die TAL den Inhalt
der Eingabewarteschlange zur Verfügung stellen. Wenn die Eingabewarteschlange
nicht voll ist, kann das Tapplet "schlafen" gehen, bis die Warteschlange mit den
eingegebenen Ziffern voll ist. Die TAL stellt außerdem eine Einrichtung zum
Steuern der Systemausgabe in Abhängigkeit von
der vom Telefonhandapparat empfangenen Eingabe zur Verfügung. Beispielsweise
kann die TAL einer Ausgabe gestatten, übersprungen zu werden, ohne
sequentiell jede In struktion der Ausgabe dem Benutzer zur Verfügung zu
stellen. In dem oben genannten Beispiel kann das Tapplet eine Reihe
von Instruktionen erfordern beginnend mit "zum Zugreifen auf die elektronische
Post, drücke
1" gefolgt von der
Instruktion "zum
Zugreifen auf Fax, drücke
2" usw. Wenn der
Benutzer nach der Instruktion für
die elektronische Post eine 2 eingibt, unterbricht die TAL die Routine,
um auf den Fax-Dialog zu springen, ohne die Instruktion "zum Zugreifen auf
Fax, drücke
2" abzuspielen.
-
Im
folgenden wird auf 3 bezug
genommen. Die TAL 108 ist mit der TAPI 102 über eine
dynamische Verbindungsbibliothek (DLL – dynamic link library) verbunden,
die als Telefonzugriffs-Dienste-Anbieter (telephone access services
provider) 112 bezeichnet wird. Die TAPI 102 ist
außerdem
mit einem Telefonmanager 114 verbunden. Der Telefonmanager 114 empfängt die
hereinkommenden Telefonanrufe und zeigt die Rufe auf dem Bildschirm
des Computers an.
-
Wenn
der Computer einen hereinkommenden Ruf empfängt, bestimmt die TAPI zunächst, ob
der Anruf eine Sprach-, eine Faksimile- oder eine Modem-Daten-Übertragung
ist. Wenn der Ruf eine Sprach-Übertragung
ist, stellt die TAPI 102 dem Telefonmanager 114 eine
Neue-Ruf-Nachricht zur Verfügung.
Der Ruf wird dann auf dem Computerbildschirm 118 angezeigt.
Wenn sich der Benutzer an dem Computer 12 befindet und den
Ruf beantwortet, so nimmt das System einen herkömmlichen Sprachkommunikationsmodus
an, bei dem der Benutzer mit anderen Parteien über das PTSN kommuniziert.
Wenn der Benutzer das Telefon nicht nach einer vorgegebenen Anzahl
von Rufzeichen abhebt, kennzeichnet der Telefonmanager den Ruf als
gespeicherte Sprachnachricht und übergibt den Ruf der TAPI 102,
welche die gespeicherte Sprachnachricht an den TAM 116 über den
Telefonzugriffs-Dienste-Anbieter 112 weitergibt.
-
Die
TAM 116 kann mit einer Antwortmaschine 120 gekoppelt
sein, die eine hörbare
Nachricht, wie beispielsweise "Bitte
sprechen Sie eine Nachricht nach dem Ton", zur Verfügung stellt. Vor dem Abschluß der Routine
der Antwortmaschine kann der Benutzer eine Eingabe zur Verfügung stellen,
wie beispielsweise das Drücken
der *-Taste auf dem Telefonhandapparat 14. Bei Empfang
der Eingabe * fordert die TAM 116 ein Passwort von dem
Benutzer an. Die TAM empfängt
dann und überprüft das nachfolgende
von dem Benutzer eingegebene Passwort. Wenn der Benutzer keine *-Eingabe
eingibt oder kein korrektes Passwort zur Verfügung stellt, beendet die TAM 116 den
Anruf durch Aufhängen.
Wenn der Benutzer nicht versucht, ein Passwort einzugeben, zeichnet
die Antwortmaschine eine beliebige nachfolgende von dem Benutzer
zur Verfügung
gestellte Sprachnachricht auf.
-
Der
hereinkommende Ruf von der TAPI 102 wird an den Telefonzugriffs-Dienste-Anbieter 112 weitergeleitet.
Das System kann eine Anzahl unterschiedlicher hereinkommender Rufe
bedienen. Um die unterschiedlichen Rufe zu verfolgen, kennzeichnet
der Dienste-Anbieter 112 jeden Ruf mit einen speziellen
Ruf ID zur zukünftigen
Verwendung durch die TAL 108. Beispielsweise kann die TAL
eine Anzahl unterschiedlicher Eingabewarteschlangen für jeden
Ruf erstellen. Die Eingaben von jedem Anrufer werden dann in die
jeweilige entsprechende Eingabewarteschlange zur nachfolgenden Verwendung
durch die Tapplets eingegeben.
-
Wie
in 4 gezeigt ist, kann
das System einen Erzeuger 122 für ein grafisches Telefon enthalten,
der mit einem auf dem Bildschirm 118 des Computers angezeigten
Telefon 123 einer grafischen Benutzerschnittstelle (GUI – graphical
user interface) gekoppelt ist. Der Erzeuger 122 des grafischen
Telefons simuliert ein Telefon und gestattet es dem Benutzer, eine
Taste des Tastensatzes des Handapparats über die Tastatur/Maus des Computers
auszuwählen.
-
In
Betrieb erschafft die GUI eine "Neuer-Anruf"-Schaltfläche auf
dem Computerbildschirm 118. Der Programmierer ruft dann
die "Neuer-Anruf"-Funktion über die
Tastatur/Maus-Schnittstelle des Computers auf. Der Grafiktelefonerzeuger 122 erstellt
eine Telefonverbindung mit dem System, indem er die Meldung eines neuen
Anrufs an die TAL 108 in der gleichen Weise sendet, wie
die TAPI 102 die TAL über
einen neuen von dem PTSN gelieferten Anruf informieren würde. Der
Grafiktelefonerzeuger erschafft dann einen simulierten Handapparat
auf dem Bildschirm. Der Benutzer kann dann über die Tastatur/Maus-Schnittstelle
eine Taste auf dem Tastenfeld auswählen. Bei Auswahl einer Taste
liefert der Grafiktelefonerzeuger 122 die geeignete Bestätigung an
das System, die der ausgewählten
Taste entspricht.
-
Die
TAL hat vorzugsweise einen Eingang, welcher zwischen "lokal" und "fern" hin und her geschaltet werden
kann, wobei das System über
das PTSN 16 arbeitet, wenn es sich in dem Fern-Modus befindet, und über den
Telefonerzeuger 122, wenn es sich in dem Lokal-Modus befindet.
Der Telefonerzeuger 122 ist über die WAPI 106 mit
einem Lautsprecher 124 verbunden, welcher es dem Benutzer
gestattet, die von dem Computer erzeugten hörbaren Nachrichten zu hören. In
dem "lokalen" Modus sichert der
Telefonerzeuger 122, daß die lokalen Tonfrequenzgeräte (wave
devices) mit dem Lautsprecher 124 und einem Mikrofon 126 gekoppelt sind.
Der Telefonerzeuger 122 kann außerdem mit dem Mikrofon 126 gekoppelt
sein und eine Eingabeeinrichtung zur Verfügung stellen, die es dem Benutzer
gestattet, Nachrichten in dem System aufzuzeichnen. Der Telefonerzeuger 122,
der Lautsprecher 124 und das Mikrofon 126 simulieren
gemeinsam den Betrieb eines Telefonhandapparats und gestatten es
einem Programmierer, die Fehler in einem Tapplet zu beseitigen (debug), ohne
physikalisch das System mit einem öffentlichen Telefonnetz (PTSN)
zu verbinden.
-
Im
folgenden wird auf 3 bezug
genommen. Die TAL 108 enthält eine Fax-Schnittstelle 128,
welche in Abhängigkeit
von der Eingabe von dem Telefonhandapparat Informationen von dem
Computer über
das PTSN per Fax senden kann. 5 zeigt
die Fax-Schnittstelle 128, welche drei primäre Aufgaben
erfüllt:
Sammeln von Dateien, Wiedergeben von Dateien und Senden von Dateien,
nachdem der Benutzer das Telefon aufgehängt hat. Um diese Aufgaben
auszuführen,
enthält
die TAL eine Fax-Warteschlange 130 und eine Statustafel 132.
Die Fax-Warteschlange 130 speichert Fax-Anforderungen von
den Benutzern, wie sie empfangen werden, und faxt diese Informationen
auf einer zuersthinein-zuerst-hinaus-Grundlage (FIFO). Jedes angeforderte
Doku ment wird mit einer entsprechenden Fax-Telefonnummer, die von
dem Benutzer eingegeben wurde, gekennzeichnet. Die Statustafel 132 listet
sämtliche
angeforderten Dateien auf und bestimmt dann, ob diese Dokumente
in das Fax-Protokoll konvertiert werden können. Wenn das System die Dokumente
nicht in ein Fax-Protokoll konvertieren kann, liefert der Computer
an den Benutzer eine Sprach-Nachricht, die anzeigt, daß das Dokument
nicht konvertiert werden kann.
-
6 zeigt die Übertragung
eines Dokuments per Faksimile über
den Handapparat. Anfänglich
greift der Benutzer auf das System zu und gibt eine Anforderung
nach verschiedenen Fax-Dokumenten ein (Verarbeitungsblock 150).
Das System holt diese Dokumente heran (Block 152). Im Entscheidungsblock 154 bestimmt
die Fax-Schnittstelle 128 dann, ob das Dokument in das
Fax-Protokoll mit Hife der Software des Systems konvertiert werden
kann. Wenn das System das Dokument nicht konvertieren kann, trägt die Fax-Schnittstelle 128 ein "N" in der Statustafel ein (Block 156).
-
Wenn
das Dokument konvertiert werden kann, wird das Dokument in die Fax-Warteschlange
plaziert (Verarbeitungsblock 158). Die Fax-Schnittstelle 128 fährt im Entscheidungsblock 160 damit
fort nachzusehen, ob es ein weiteres zu konvertierendes Dokument
gibt. Nachdem sämtliche
Dokumente durchgesehen worden sind, informiert das System den Benutzer
der Fax-Anforderung über
die Statustafel (Block 161). Im Block 162 hängt der
Benutzer den Telefonhandapparat auf.
-
Wenn
das System das Dokument konvertieren kann, wird das Dokument angefertigt.
Die angeforderten Dokumenten können
angefertigt werden, indem zunächst
der Standarddrucker des Computers auf den DCX-Drucker geändert wird
(Block 164). Im Verarbeitungsblock 166 geht die
TAL zu der Ressourcendatenbasis des Computerbetriebssystems, um
das Kommando zum Drucken zu finden, und "druckt" das Dokument in die Datei "DCX-Drucker-Anschluß". In Block 168 wird
das Dokument von der Fax-Schnittstelle 128 mit Hilfe des
CAS MNGR 104 gefaxt.
-
Anstelle
dessen, daß die
TAL zu der Ressourcendatenbasis geht, um das Druckkommando zu gewinnen,
und dann das Kommando ausgibt, kann das System in einem alternativen
Ausführungsbeispiel
eine universelle Dokument-Ansicht-Anwendung, beispielsweise die
von der Systems Compatibility Corp. unter der Handelsbezeichnung
OUTSIDE IN angebotene Anwendung, enthalten, welche irgendeine Art
eines Dokuments ansehen kann. Bei der alternativen Lösung wird
der Standarddrucker in den DCX-Drucker geändert und danach fordert die
TAL das Programm OUTSIDE IN auf, das Dokument an den DCX-Drucker
zu drucken, wo das Dokument konvertiert und dann an die Telemodem-Platine
angelegt wird.
-
Im
folgenden wird auf 3 bezug
genommen. Die TAL hat eine Klang-Task-Wiedergabe-Schnittstelle 134 (play
wavetask Interface), welche zum Erzeugen von hörbaren Nachrichten verwendet
wird. Die Klang-Task ist mit einer Klangmaschine (wave engine) 136 und
einer Text-in-Sprache-Umwandlungsmaschine (TTS-Maschine; text to speech engine) 138 verbunden.
Die TTS-Maschine 138 kann ein Programm, wie beispielsweise
das von First Byte unter der Handelsbezeichnung PROVOICE verkaufte,
sein, welches elektronischen Text in ein Format konvertiert, welches
in hörbare
Nachrichten konvertiert werden kann. Die TTS-Maschine 138 ist
mit einem Textpuffer 139 verbunden. Die Klangmaschine 136 ist
mit einer beliebigen Anzahl vor-aufgezeichneter Klangdateien 140 gekoppelt,
die digitalisierte vor-aufgezeichnete Hörnachrichten enthalten. Die
Klangdatei ist üblicherweise
auf dem Festplattenlaufwerk des Computers angeordnet.
-
Die
Erfindung schafft sowohl eine Klang-Erzeugung als auch eine Umwandlung
von Text in Sprache, wobei jede der beiden Möglichkeiten Vorteile hat, die
von dem Programmierer genutzt werden können. Beispielsweise hat die
Klangerzeugung exzellente Klangqualitäten und keine zeitliche Verzögerung bei
der Erzeugung des Ausgangssignals, aber sie hat einen begrenzten
Umfang vor-aufgezeichneter Worte und sie erfordert eine große Speichermenge.
Die Umwandlung von Text in Sprache ermöglicht einen großen Wortumfang
und erfordert eine relativ geringe Speicher menge, aber sie liefert
eine schlechte Klangqualität
und möglicherweise eine
große
Zeitverzögerung
bei der Erzeugung der Sprache.
-
Die
Klang-Task-Schnittstelle (wavetask interface) 134 fordert
an und empfängt
Puffer von Daten von den Maschinen entsprechend den Instruktionen
von der TAL 108. Die Klang-Task-Schnittstelle 134 stellt dann die
Datenpuffer der WAPI 106 zur Verfügung, welche die Daten über die
Telemodem-Karte 19 zu dem Handapparat 14 sendet.
Die Klang-Task-Schnittstelle 134 hat vorzugsweise zwei
Puffer (nicht gezeigt), welche typischerweise alternieren zwischen
dem Senden von Datenpuffern zu der WAPI 106, wobei ein
Puffer Datenpuffer von einer Maschine empfängt, während der andere Puffer Datenpuffer
zu der WAPI 106 sendet.
-
Wenn
die TAL 108 ein Spracherzeugungseingangssignal von der
TAA 110 (d.h. von einem Tapplet) empfängt, reiht die TAL den Inhalt
der Spracheingabekommandos in eine Warteschlange ein. Beispielsweise kann
das Tapplet das folgende Programm enthalten:
Playwave X.wave;
PlayTTS "5";
Playwave Y.wave;,
welches
der Hörnachricht "Sie haben 5 Nachrichten" entspricht. Bei
Empfang des Eingangssignals reiht die TAL jeden Schritt in eine
globale Warteschlange ein und instruiert die Klang-Task, Sprache
entsprechend dem Kommando in der ersten Warteschlange "Playwave X.wave" zu initiieren. Die
Klang-Task 134 stellt dann ein Kommando "initiateWave" der Klang-Maschine 136 zur
Verfügung,
um Puffer von der X.wave-Datei innerhalb einer gesetzten Anzahl
von Puffern und mit einem vorgegebenen ID eines Klang-Treibergeräts zu erzeugen. Die
Klang-Maschine 136 holt die X.wave-Datei aus der Klangdatei 140 heran.
Wenn die Klang-Task 134 bereit ist, die Puffer zu empfangen,
erzeugt die Schnittstelle 134 ein Kommando "RequestWaveBuffer" (Fordere Klang-Puffer
an) an die Klang-Maschine 136. Die Klang-Maschine stellt
dann der Klang-Task 134 die Datenpuffer zur Verfügung. Die
Datenpuffer haben jeweils einen Maschinen-Kopfteil, welcher im einzelnen
angibt, welche Maschine die Puffer (Klänge oder aus Text erzeugte
Sprache) erzeugt, sowie einen Puffer-Kopfteil, welcher das Gewicht
des Puffers innerhalb des Pufferstroms (1. Puffer, letzter Puffer
usw.) identifiziert.
-
Zu
Beginn jeder Spracherzeugungsanforderung werden zwei Instruktionen "RequestSpeechBuffer" (für die TTS-Maschine 138)
oder zwei Instruktionen "RequestWaveBuffer" (für die Klang-Maschine 136)
vorgesehen, um beide Puffer innerhalb der Klang-Task-Schnittstelle zu füllen. Nachdem
die Puffer anfänglich
gefüllt
sind und einer der Puffer gesendet und von der WAPI 106 zurückgegeben
wurde, stellt die Schnittstelle 134 ein Kommando "RequestSpeechBuffer" (sofern erforderlich)
und ein Komando "ReturnSpeechBuffer" für die TTS-Maschine 138 zur
Verfügung
bzw. entsprechende Kommandos "RequestWaveBuffer" und "ReturnWaveBuffer" für die Klang-Maschine 136.
Die Datenpuffer, die von der WAPI 106 abgespielt worden
sind, werden von der Klang-Task 134 zu der Klang-Maschine 136 gemeinsam
mit der Instruktion "ReturnSpeechBuffer" zurückgegeben.
Die Klang-Maschine 136 gibt dann die Datenpuffer für eine erneute
Benutzung durch das System zurück.
-
Die
Puffer müssen
mit Hilfe von Windows GlobalAloc zugewiesen und mit GlobalLock verriegelt
werden. Wenn die Puffer zu der Klang-Task von der WAPI zurückgegeben
werden, werden die Puffer entriegelt unter Verwendung von Windows
GlobalUnlock und befreit mit Hilfe von GlobalFree. Die globale Speicherzuweisung
(Global memory allocation) wird außerdem verwendet für die Maschine
und Puffer-Kopfteile.
-
Bei
Empfang des letzten Datenpuffers von der Klang-Maschine für das Kommando "Playwave X.wave;" und bevor der letzte
Datenpuffer an die WAPI 106 angelegt wird, stellt die Klang-Task-Schnittstelle 134 ein
Kommando "InitiateSpeech" (initiiere Sprache)
der TTS-Maschine 138 zur Verfügung, um Datenpuffer für die Hörnachricht "5" zu erzeugen. Die TTS-Maschine 138 konvertiert
dann den Text in ein Tonsignal und stellt die Puffer der Klang-Task 134 in
Antwort auf eine "RequestSpeechBuffer"-Anforderung von
der Schnittstelle 134 zur Verfügung. Wenn der letzte Datenpuffer
von der TTS-Maschine 138 empfangen worden ist, initiiert
die Klang-Task-Schnittstelle 134 die Klang-Maschine 136 für das Kommando "Playwave Y.wave;". Das Initiieren
der nächsten
Maschine (engine) vor dem Anlegen des letzten Datenpuffers an die
WAPI 106 eliminiert irgendwelche Lücken in der Sprachnachricht,
wobei ein realistischerer Klang erzeugt wird.
-
Die
Erzeugung von Sprache von den Maschinen wird durch ein Kommando "TerminateSpeech" (beende Sprache)
von der Klang-Task 134 beendet. Bei Empfang des Kommandos "TerminateSpeech" stoppen die Maschinen
sofort das Senden von Datenpuffern an die Klang-Task. Dieses Merkmal
gestattet es dem Benutzer, Sprachnachrichten zu überspringen, ohne die gesamte
Nachricht zu hören.
Beispielsweise kann der Benutzer eine Eingabe am Handapparat vorsehen,
um die Nachricht zu überspringen,
nachdem die WAPI die Sprachnachricht "Sie ..." erzeugt hat, wobei die Klang-Task eine Instruktion "TerminateSpeech" der TTS-Maschine 138 oder
eine Instruktion "TerminateWave" der Klang-Maschine 136 liefert,
um die Übertragung
von Datenpuffern zu beenden. Die Kommandos "TerminateSpeech" und/oder "TerminateWave" werden in Antwort auf eine Eingabe
von der TAL erzeugt, welche die Handapparateingaben des Benutzers über die
TAPI 102 empfängt.
Die gesamte Sitzung (session) wird geschlossen, wenn die Klang-Task-Schnittstelle 134 ein
Kommando "ShutdownSpeech" bzw. "ShutdownWave" den Maschinen 136 und 138 liefert.
-
Die
Schnittstelle 100 weist außerdem eine Klang-Task-Aufzeichnungs-Schnittstelle
(record wavetask Interface) auf, die mit einer Klang-Maschine verbunden
ist und die ein digitales Aufzeichnen von Sprachnachrichten von
dem Benutzer gestattet.
-
Die
Klang-Maschinen haben bestimmte Sprachparameter, auf welche über die
WAVEHDR-Struktur (WAVEHDR – wave
header) jedes Puffers zugegriffen werden kann. Diese Parameter enthalten
einen Maschinen-Kopfteil für
jeden Puffer. Der Maschinen-Kopfteil kann ein Feld dwKind enthalten,
welches die Art der Maschine spezifiziert. Dieser Parameter kann
ausgedehnt werden, um eine andere Maschine hinzuzufügen. Der Maschinen-Kopfteil
enthält
außerdem
ein Feld dwFlag, welches Flags für
den ersten, mittlere und den letzten Datenpuffer zur Verfügung stellt.
Der Kopfteil kann außerdem
ein Feld dwUser enthalten, was von dem Programmierer definiert wird,
und ein Feld dwReserved. Tabelle I listet zusätzliche steuerbare Sprachparameter auf,
die von dem System zur Verfügung
gestellt werden.
-
-
Die
TTS-Maschine 138 kann außerdem In-Text-Kommandos zur
Verfügung
stellen, welche den Kontext der Hörnachricht variieren. Beispielsweise
kann das In-Text-Kommando den Abstand (pitch) des erzeugten Klanges
variieren oder ein Fenster des Schweigens vor der Erzeugung des
nächsten
Wortes einfügen.
-
Grafischer
Text hat üblicherweise
Hervorhebungen, wie beispielsweise Unterstreichungen oder Fettdruck.
Es ist wünschenswert,
eine hörbare
Anzeige solcher Hervorhebungen für
den Benutzer zur Verfügung zu
stellen. Das erfindungsgemäße System
stellt solche Hervorhebungen zur Verfügung, indem es einen Klanghintergrund
dem gesprochenen Wort beimischt. Beispielsweise könnte ein
musikalisches Glockenspiel gleichzeitig mit dem von der TTS-Maschine
erzeugten gesprochenen Wort erzeugt werden. Um eine hörbare Hervorhebung
zu erzeugen, könnte
das Tapplet-Programm wie folgt geschrieben werden:
Playwave
X.wave;
Play TTS "5", Z.wave;
Playwave
Y.wave;
-
Um
hörbar
die Nummer "5" hervorzuheben, würde die
Klang-Task-Schnittstelle 134 ein
Kommando "InitiateSpeech" der TTS-Maschine 138 und
ein Kommando "InitiateWave" der Klang-Maschine 136 zur
Verfügung
stellen, um dem Text "5" bzw. die Z.wave
zu erzeugen. Die Klang-Task 134 stellt eine Pufferanforderung den
Maschinen zur Verfügung,
um Datenpuffer von den Maschinen zu empfangen. Die Klang-Task 134 mischt abwechselnd
die Puffer, so daß die
WAPI 106 gemischte Datenpuffer von der Klang-Maschine 136 empfängt. Die
Klang-Task 134 mischt die Puffer, indem sie eine erste
Einheit von dem Puffer der Klang-Maschine 136 zu einer
ersten Einheit der TTS-Maschine 138, eine zweite Einheit
der TTS-Maschine 138 zu der zweiten Einheit der Klang-Maschine 136 und
so weiter hinzufügt.
Die Klang-Task mischt die Puffer, so daß der Hintergrundklang gleichzeitig
mit dem gesprochenen Wort erzeugt wird.
-
Im
folgenden wird auf 3 bezug
genommen. Das System weist außerdem
eine RecTask-Schnittstelle 142 auf, welche aufgezeichnete
Puffer von der Klang-API 106 empfängt und in eine Klang-Datei 144 schreibt.
-
Ein
Tapplet kann eine Vielzahl unterschiedlicher Audiodialoge enthalten.
Wie in 7 gezeigt ist,
enthält
jeder Dialog typischerweise eine Anzahl von Audiosteuerungen. Die
Audiosteuerungen stellen dem Benutzer eine Kombination von Eingabe-,
Ausgabe- und/oder Steuerfunktionen zur Verfügung. Beispielsweise kann ein
Audiodialog eine Kommunikation mit einem Dateimanager darstellen.
Nachdem der Benutzer den Dateimanager-Dialog ausgewählt hat, kann eine erste Audio-Steuer-Nachricht
lauten "Um die Directory
A durchzusehen, drücken
Sie 1; um die Directory B durchzusehen, drücken Sie 2; ...". Der Benutzer kann
die 2 auswählen
(Directory B), und die nächste
Audio-Steuer-Nachricht kann lauten: "Zum Durchsehen der Datei X drücken Sie
1, zum Durchsehen der Datei Y drücken
Sie 2, ...".
-
Wie
in 3 zu sehen ist, weist
das System eine Audio-Steuer-Bibliothek
(ACL – audio
control library) 146 auf. Die ACL 146 stellt dem
Programmierer der Telefonzugriffsanwendungen eine Anzahl von Audio-Steuer-Abstraktionen
zur Verfügung.
Tabelle II zeigt eine Anzahl unterschiedlicher Audio-Steuerungen,
die von dem System zur Verfügung
gestellt werden.
-
-
8 zeigt ein Beispiel eines
Dialogs mit unterschiedlichen Audio-Steuerungen. Die erste Steuerung kann
den Audiodialog identifizieren. Die zweite Audio-Steuerung fordert
eine alphanumerische Zeichenkette an. Beispielsweise kann die Audio-Nachricht lauten: "Bitte geben Sie Ihren
Dateinamen nach dem Ton ein". Die
dritte Audio-Steuerung fordert zur Eingabe einer Ziffern-Zeichenkette
auf. Die letzte Audio-Steuernachricht fordert zur Abgabe einer Sprachnachricht
auf.
-
9 zeigt ein bevorzugtes
erfindungsgemäßes Telefon-Tastenfeld.
Den Nummern 1–4
sind dynamische Funktionen zugeordnet, während den Nummern 0, 5–9 und der
*- und der #-Taste statische Funktionen zugewiesen sind. Die Tasten
1–4 können eine
beliebige Art von Funktionen entsprechend den Kommandos der Audio-Steuerungen
zur Verfügung
stellen. Beispielsweise kann bei einem Dateimanager-Audiodialog
die Taste 1 in einer Audio-Steuerung eine Datei faxen und in einer
nachfolgenden Audio-Steuerung eine Datei "sichern". In gleicher Weise kann die Nummer
2 in der ersten Audio-Steuerung eine Datei löschen und in einer nachfolgenden
Audio-Steuerung die Datei faxen.
-
Die
statischen Tasten 0, 5–9,
* und # haben bei sämtlichen
Dialogen und sämtlichen
Audio-Steuerungen die gleichen Funktionen. Im bevorzugten Ausführungsbeispiel
hat die Nummer 5 eine "Rückkehr"-Funktion, welche
den Benutzer in den vorangegangenen Audiodialog führt. Die
Nummer 6 ist einer Sprung-Funktion zugeordnet. Wenn die Nummer 6
ausgewählt
wird, wird dem Benutzer ein Sprachmenü geliefert, das vier unterschiedliche
Optionen hat. Option 1 gestattet dem Benutzer, eine vorgegebene
Anzahl von Punkten innerhalb des Audiodialogs vorwärts zu springen.
Option 2 gestattet dem Benutzer, eine vorgegebene Anzahl von Punkten
zurückzuspringen.
Weder Option 1 noch Option 2 gestatten es dem Benutzer, aus dem
Audiodialog herauszuspringen. Option 3 gestattet einen Sprung des
Benutzer an den Beginn des Tapplets. Option 4 bewirkt einen Sprung
des Benutzers zu dem TAM, so daß der
Benutzer ein anderes Tapplet auswählen kann. Die Sprungfunktion
gestattet es dem Benutzer, sich schnell zu der interessierenden
Audio-Steuerung zu bewegen oder schnell die Audio-Steuerung zu verlassen.
-
Die
Nummer 7 auf dem Handapparat ist einer "Zuvor"-Funktion gewidmet, welche dem Benutzer
stets zu der vorhergehenden Audio-Steuerung bewegt. Die "Zuvor"-Funktion weist eine
Umlauf-Möglichkeit
auf, welche den Benutzer zu der letzten Audio-Steuerung innerhalb eines Audiodialogs
führt,
wenn der Benutzer sich gegenwärtig
in der ersten Audio-Steuerung befindet. Der Nummer 8 ist eine "Auswahl"-Funktion zugeordnet, welche
es dem Benutzer gestattet, sich zu einem anderen Audiodialog zu
bewegen. Die Nummer 9 ist einer "Nächste"-Funktion gewidmet,
welche es dem Benutzer gestattet, sich zu der nächsten Audio-Steuerung zu bewegen.
Wie die "Zuvor"-Funktion hat auch
die "Nächste"-Funktion eine Umlauf-Möglichkeit.
-
Die
*-Taste ist einer "Wiederhole"-Funktion zugeordnet,
welche die jüngste
Audio-Nachricht des Computers wiederholt.
-
Die
#-Taste gestattet es dem Benutzer, zu "pausieren" und den Audiodialog wieder aufzunehmen.
Um den Dialog zu unterbrechen, wählt
der Benutzer die #-Taste aus. Um den Dialog wieder aufzunehmen,
drückt der
Benutzer dann eine beliebige Taste. Die Nummer 0 ist einer Unterstützungsfunktion
zugeordnet. Die Unterstützungsfunktion
liefert drei Optionen. Option 1 stellt eine Hilfefunktion zur Verfügung, um
dem Benutzer bei dem Audiodialog zu helfen. Option 2 gestattet es
dem Benutzer, Parameter innerhalb des Tapplets zu stetzen. Option
3 gestattet es dem Benutzer, allgemeine Systemparameter zu setzen.
Tabelle III listet die Parameter auf, die über die Unterstützungfunktion
gesetzt werden können.
-
-
Die
Schieberegler-Steuerungen gestatten es dem Benutzer, einen Parameter
entweder zu erhöhen oder
zu senken. Beispielsweise kann die Schieberegler-Audio-Steuerung
lauten: "Die aktuelle
Sprechgeschwindigkeit beträgt
180 Worte pro Minute; um die Geschwindigkeit um 10 Worte pro Minute
zu erhöhen,
drücken
Sie 3; um die Geschwindigkeit um 10 Worte pro Minute zu senken,
drücken
Sie 1".
-
Die
Kombination von statischen und dynamischen Funktionen gestattet
es dem Benutzer, sich leicht durch die Audiodialoge des Systems
zu bewegen. Die Zuordnung bestimmter Tasten des Ta stenfelds zu statischen
Funktionen gestattet es dem Benutzer, schnell mit den statischen
Funktionen vertraut zu werden. Die statischen Funktionen gestatten
es einem Benutzer, der bereits den Audiodialog kennt, sich zu der
interessierenden Audio-Steuerung
zu bewegen, ohne sämtliche
Nachrichten zu hören.
-
Alphanumerische
Zeichenketten können
entweder mit einem Einzel-Ton oder einem Zwei-Ton-Eintrag eingegeben
werden. Bei einem Zwei-Ton-Schema sind zwei Tasteneingaben für jeden
eingegebenen Buchstaben oder jede eingegebene Nummer vorgesehen.
Tabelle IV listet die Kombination von Einträgen und die kodierten Nummern,
Buchstaben usw. auf, die diesen Einträgen zugeordnet sind.
-
-
Beispielsweise
kann die Audio-Steuerung lauten: "Bitte geben Sie den Dateinamen ein". Um den Dateinamen
DOE einzugeben, drückt
der Benutzer die Taste 3 und dann entweder die Tasten 1, 4 oder
7, um den Buchstaben D einzugeben, dann die Taste 6 und dann entweder
die Taste 3, 6 oder 9, um den Buchstaben O einzugeben, und so weiter.
-
Bei
einem Einzel-Ton-Schema betätigt
der Benutzer die dem Buchstaben zugeordnete Taste. Wie in 1 gezeigt ist, sind jeder
Taste eines Telefonhandapparates 14 Buchstaben zugeordnet.
Die Nummer 2 ist den Buchstaben A, B und C zugeordnet. Die Nummer
3 ist den Buchstaben D, E und F zugeordnet usw. Wenn der Benutzer
eine alphanumerische Zeichenkette eingegeben hat, präsentiert
der Computer hörbar
dem Benutzer die wahrscheinlichsten Worte. Wenn beispielsweise der
Benutzer die Tasten 3–6–3 drückt, liefert
der Computer dem Benutzer die Optionen DOE oder FOE. Der Benutzer
kann dann durch Überspringen
und Durchsehen durch die Optionen gehen und die gewünschte alphanumerische
Zeichenkette auswählen.
Der Benutzer kann im Rückwärtsschritt
ein alphanumerisches Zeichen durch Eingabe von *1, *4 oder *7 und
den gesamten aktuellen Inhalt durch Drücken von *0 löschen.
-
Das
System weist Audiodialoge zum Aufzeichnen und Wiedergeben von Audio-Nachrichten
auf. Der Schallaufzeichnungsdialog gestattet das Aufzeichnen von
Audio-Nachrichten des Benutzers. Die Aufzeichnung beginnt, wenn
der Benutzer die Auswahl-Taste drückt. Die Nachricht kann durch
Drücken
der Tasten *0 gelöscht
werden. Der Klang-Leser steuert vorhandene Optionen, die es dem
Benutzer gestatten, die Audio-Nachricht durchzusehen und außerdem die
Nachrichten schnell vorwärts
und rückwärts zu spulen.
-
Elektronisch
gespeicherter Text, wie beispielsweise ein Dokument oder eine Nachricht
der elektronischen Post, kann von dem System innerhalb einer Hierarchie
durch die schematisch in 10 gezeigten
Moden strukturiert werden. Das System weist einen Extraktor 200 auf,
welcher Text aus einem Dokument extrahiert. Der Formatierer 202 erschafft
eine Hierarchie des Textes und stellt Kennetiketten für jedes
unterschiedliche Objekt innerhalb der Hierarchie zur Verfügung. 11 stellt ein Beispiel einer
für ein
Buch erstellten Hierarchie dar. Der Formatierer 202 kennzeichnet
jedes Kapitel, jeden Abschnitt, jeden Absatz, jeden Satz und jedes
Wort des Textes.
-
Der
in 10 gezeigte Umriß-Blätterer (outline
browser) 204 gestattet es dem Benutzer, sich in der Hierarchie des
Buches zu bewegen. Für
jedes Objekt stellt der Blätterer
eine Zusammenfassung zur Verfügung.
Jedesmal dann, wenn der Benutzer zu einem neuen Kapitel gelangt,
gibt das System die Kapitelnummer und den Titel aus. Jeder neue
Abschnitt liefert eine Abschnittsnummer und einen Titel. Wenn sich
der Benutzer zu einem bestimmten Absatz bewegt, liefert das System
den ersten Satz des Absatzes, so daß der Benutzer feststellen
kann, ob er den Inhalt des Absatzes durchsehen will. Das System
liefert das erste Worte jedes neuen Satzes als Satzzusammenfassung.
-
Das
System erschafft die Hierarchie, indem es jeden Buchstaben in dem
Text lokalisiert. Wenn es ein Leerzeichen nach dem Buchstaben feststellt,
so wird die Kombination der vorangehenden Buchstaben als Wort aufgelistet.
Wenn es einen Satzpunkt, ein Fragezeichen oder ein Ausrufezeichen
nach dem Wort feststellt, so wird die Kombination der vorangehenden
Worte als Satz aufgelistet. Wenn es ein Absatzsymbol findet, wird
die vorhergehende Kombination von Sätzen als Absatz aufgelistet.
Abschnitte und Kapitel werden in der gleichen Weise aufgelistet.
-
Der
Benutzer kann sich durch den Umriß-Blätterer 204 bewegen,
um einen bestimmten Abschnitt des Textes zu erreichen. Der Benutzer
kann sich zu dem vorgehenden Objekten des gleichen Typs (zum Beispiel von
Kapitel 2 zu Kapitel 1) bewegen, indem er die Zuvor-Taste (7) drückt, oder
zum nächsten
Objekt des gleichen Typs, indem er die Nächste-Taste (9) drückt. Der
Benutzer kann zu einem übergeordneten
Objekt gehen (zum Beispiel vom Absatz zum Kapitel), indem er die
Rückkehr-Taste
(5) drückt,
oder zu einem untergeordneten Objekt (zum Beispiel vom Absatz zum
Satz), indem er die Auswahl-Taste (8) drückt. Das System gestattet dem
Benutzer, sich durch ein Dokument zu bewegen und den Text des Dokuments
zu hören.
-
Der
Text-Leser 206 liest den Text des aktuellen Objekts. Wenn
der Benutzer beispielsweise sich innerhalb des Kapitels 1 befindet,
liest der Text-Leser 206 den gesamten Inhalt des Ka pitels
1. Der Umriß-Leser 208 liefert
einen Gesamtumriß des
Dokuments, indem er die Objekte in einer Tiefe erster Ordnung zusammenfaßt. Der
Buchstabierer 210 buchstabiert jedes Wort Buchstabe für Buchstabe,
zunächst
unter Verwendung des normalen Alphabets (zum Beispiel "A", "Be", "Ce" usw.) und dann mit
Hilfe eine Militäralphabets
(zum Beispiel "Alpha", "Bravo", "Charly" usw.). Der Benutzer
hört dann
eine Definition des Worts von einem On-line-Wörterbuch. Eine typische Audio-Nachricht
innerhalb des Textdialogs kann lauten: "Um den Text zu hören, drücken Sie 1; um den Umriß zu lesen,
drücken
Sie 2; um die Worte buchstabieren zu lassen, drücken Sie 3; um den Text zu blättern, drükken Sie
4". Der Benutzer
kann dann eine dieser Optionen oder eine der statischen Tasten 0,
5–9, *
oder # drücken.
Tabelle V liefert eine Auflistung der Tasten-Kommandos der unterschiedlichen
Funktionsblöcke
des Text-Audiodialogs.
-
-
Das
System weist außerdem
einen Audiodialog auf, der es dem Benutzer gestattet, eine Datenbank, wie
beispielsweise eine Kalkulationstabelle (spreadsheet), zu lesen.
Der Datenbank-Audiodialog gestattet es dem Benutzer, sich in der
Datenbank spaltenweise zu bewegen. Der Benutzer kann sich von Spalte
zu Spalte bewegen, indem er die "Nächste" und "Zuvor"-Taste drückt. Der
Benutzer kann die Werte hören,
indem er eine "Auswahl"-Taste drückt. Der
Benutzer kann sich außerdem
durch eine Kalender-Datenbank bewegen, welche in einer Hierarchie
angeordnet ist, die Objekte, wie beispielsweise das Jahr, den Monat,
den Tag, die Stunde und die Minute, enthält. Der Benutzer kann sich
durch die Kalender-Datenbank mit Hilfe der Auswahl- und statischen Tasten
bewegen, um ein bestimmtes Datum und eine bestimmte Zeit zu erreichen.
Das System kann eine Audio-Nachricht zur Verfügung stellen, welche den Inhalt
des Kalenders zu dem Datum und den Zeitpunkt wiedergibt ("Sie haben eine Verabredung
mit Mr. Doe"). Das
System kann dem Kalenderprogramm gestatten, eine dritte Partei anzurufen,
um diese Partei daran zu erinnern, daß ein Treffen zu einem bestimmten
Datum stattfinden soll, oder die Partei über eine Änderung des Treffens zu informieren.
Das System kann darüberhinaus
dem Benutzer gestatten, das Treffen durch Wechselwirkung mit dem
Kalenderprogramm über
den Telefonhandapparat zu organisieren.
-
Die
Erfindung stellt somit ein System zur Verfügung, welches einem Benutzer
gestattet, über
einen Telefonhandapparat auf einen Computer zuzugreifen und mit
diesem zu kommunizieren. Die Einbindung einer Vielzahl von Audiodialogen,
statischen Tastenfeld-Funktionen und eines lückenlosen Klangerzeugungsmechanismus' schafft ein System,
das einen umfassenden Anwendungsbereich hat, leicht zu benutzen
ist und eine realistische Sprachqualität zur Verfügung stellt. Das System gestattet
darüberhinaus
einem Programmierer, Tapplets einsatzbereit zu konstruieren, welche
in dem System verwendet werden können.
Beispielsweise gestattet das System einem Programmierer, auf einfache
Weise ein Tapplet zu schreiben, das auf einen Personalinformations-Manager
zugreifen kann, wie er beispielsweise von Polaris unter der Handelsbezeichnung PACKRAT
vermarktet wird. Die Anwendung PACKRAT unterstützt einen dynamischen Austauschmechanismus,
der von anderen Anwendungen benutzt werden kann, um in PACKRAT gespeicherte
Daten heranzuholen. Mit Hilfe dieses Mechanismus kann ein Tapplet
Daten über
ein Mehrzahl von Audiodialogen gewinnen und präsentieren. Das System gestattet
es einem Benutzer, über
einen Telefonhandapparat mit einem Programm, wie beispielsweise
PACKRAT, in Verbindung zu treten.