DE69923346T2 - Vorrichtung und verfahren zur ip kommunikation mit sprachgeneriertem text - Google Patents
Vorrichtung und verfahren zur ip kommunikation mit sprachgeneriertem text Download PDFInfo
- Publication number
- DE69923346T2 DE69923346T2 DE69923346T DE69923346T DE69923346T2 DE 69923346 T2 DE69923346 T2 DE 69923346T2 DE 69923346 T DE69923346 T DE 69923346T DE 69923346 T DE69923346 T DE 69923346T DE 69923346 T2 DE69923346 T2 DE 69923346T2
- Authority
- DE
- Germany
- Prior art keywords
- signal
- text
- audio
- voice
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/60—Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client
- H04N21/63—Control signaling related to video distribution between client, server and network components; Network processes for video distribution between server and clients or between remote clients, e.g. transmitting basic layer and enhancement layers over different transmission paths, setting up a peer-to-peer communication via Internet between remote STB's; Communication protocols; Addressing
- H04N21/643—Communication protocols
- H04N21/64322—IP
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0018—Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
- H04L65/70—Media network packetisation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/40—Network security protocols
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M7/00—Arrangements for interconnection between switching centres
- H04M7/006—Networks other than PSTN/ISDN providing telephone service, e.g. Voice over Internet Protocol (VoIP), including next generation networks with a packet-switched transport layer
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs
- H04N21/2343—Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
- H04N21/234336—Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by media transcoding, e.g. video is transformed into a slideshow of still pictures or audio is converted into text
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/431—Generation of visual interfaces for content selection or interaction; Content or additional data rendering
- H04N21/4312—Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
- H04N21/4316—Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations for displaying supplemental content in a region of the screen, e.g. an advertisement in a separate window
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/1066—Session management
- H04L65/1101—Session protocols
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2201/00—Electronic components, circuits, software, systems or apparatus used in telephone systems
- H04M2201/60—Medium conversion
Description
- HINTERGRUND DER ERFINDUNG
- Technisches Gebiet der Erfindung
- Die vorliegende Erfindung bezieht sich allgemein auf verbesserte IP-basierte Kommunikation und insbesondere auf ein System und Verfahren zum Vorsehen von sprachgeneriertem Text für IP-basierte Telefonkommunikation.
- Hintergrund und Ziele der Erfindung
- Es gibt gegenwärtig eine Bewegung hin zur Verbesserung der Fähigkeiten von Computernetzen, wie etwa dem Internet, um traditionelle Telefonieoperationen zu unterstützen. Das Ziel besteht darin, Qualitätssprachkommunikationen über das paketierte Internet vorzusehen. Diese Fähigkeiten wird häufig als Sprache über Internetprotokoll (voice over Internet Protocol, VoIP) bezeichnet. Mit dem gegenwärtigen Internet kann VoIP z. B. akzeptable Sprachkommunikationen bei stark reduzierten Kosten für den Benutzer, wenn mit traditionellen Telefongebühren verglichen, vorsehen.
- Vor kurzem wurden IP-basierte Telefonsysteme dazu fähig, Video gemeinsam mit Sprachkommunikation vorzusehen. Standard-Personalcomputer-(PC)Plug-in-Hardware, wie etwa Picturephone von 3com, und verschiedene Softwareanwendungen, die für Internet-Telefonie vorgesehen werden, wie etwa CU-SeeMe Software von White Pine und Software von Vocaltech und Microsoft, erlauben einen Transport von sowohl Sprach- als auch Bilddaten über das Internet. Insbesondere inkludieren derartige Systeme typischerweise ein Mikrofon, einen Lautsprecher und eine PC-Plug-in-Soundkarte zum Bereitstellen von Audiodaten für einen PC des Benutzers, und eine Videokamera und eine PC-Plug-in-Videoerfassungskarte zum Vorsehen von Videodaten dafür. Bei der Herstellung einer Verbindung zwischen zwei oder mehr PCs über das Internet werden die Audio- und Videodaten, die in einem PC generiert werden, paketiert und über das Internet zur Anzeige auf dem anderen PC, wie etwa innerhalb eines Browser-Rahmens, transportiert. Auf diese Weise können PC-Benutzer einander sehen, während sie gleichzeitig miteinander sprechen.
- Existierende IP-basierte Telefonsysteme mit Videokommunikationsfähigkeit erlauben typischerweise einem PC-Benutzer, Text zu dem anderen PC-Benutzer, der damit in Verbindung ist, zu übermitteln. Text, der über die Tastatur des ersten PC eingegeben wird, kann mit den Audio- und Videodaten über das Internet transportiert und als Text in einem Browser-Fenster auf einem anderen PC, der mit dem ersten PC in Verbindung ist, angezeigt werden.
- Diese IP-basierten Telefonsysteme sind nicht ohne Nachteile. Z. B. sieht VoIP gewöhnlich eine merklich reduzierte Qualität eines Dienstes bezüglich konventionellen Telefondiensten über eine lange Strecke vor. Es werden häufig schlechtere Sprachqualität, intermittierender Schwund und andere Unterbrechungen angetroffen, insbesondere während internationalen Anrufen.
- Als Reaktion auf Perioden reduzierter Qualität des Dienstes greifen Anrufer, die IP-basierte Telefonsysteme nutzen, frustriert auf Kommunikation mit geschriebenem Text an Stelle eines Versuchs, mit Sprache zu kommunizieren, zurück. Um das Problem weiter zu verschlimmern, werden geschriebene Textdaten bei einer langsameren Rate als Sprachdaten transportiert. Als ein Ergebnis ist es häufig ziemlich schwierig, mit einer Kommunikation befasst zu sein, wenn ein Anrufer Sprachdaten vorsieht und der andere Anrufer geschriebene Textdaten vorsieht, weil die Datenübertragung von Sprache und geschriebenem Text nicht synchron ist.
- In dem Kontext von IP-basierten Telefonsystemen mit Videokommunikationsfähigkeiten, die während Perioden reduzierter Qualität der Sprachkommunikation mit geschriebenem Text kommunizieren müssen, kann es dazu kommen, dass ein relativ unerfahrener Schreiber gezwungen ist, von der Videoanzeige wegzusehen, wenn Text eingegeben wird, wobei dadurch der Wert dessen reduziert wird, dass eine Echtzeit-Videoanzeige des anderen Anrufers vorgesehen wird. Als ein Ergebnis gibt es einen Bedarf nach einem IP-basierten Telefonsystem, welches die inhärenten Probleme anspricht, die mit VoIP-Telefonkommunikation in Verbindung stehen.
- Ein existierendes Verfahren zum Koordinieren von Internet-Multimedia wird in der PCT-Veröffentlichung WO 97/42728 beschrieben, wodurch Internet-Inhalt mit Audiokommunikationen koordiniert wird, sodass zwei oder mehr Seiten den gleichen Medieninhalt in dem Internet sehen können, während gleichzeitig auch über ein traditionelles Telefonnetz oder eine Sprache über eine Netzimplementierung kommuniziert wird.
- Ein anderes existierendes Verfahren zum Handhaben von Multimediainformation wird in der EPA-Patentanmeldung
EP 0,808,048 gezeigt, die eine Echtzeitzustellung von Multimediainformation zeigt, auf die durch das Internet zu mehreren Benutzern entweder gleichzeitig oder mit einer Zeitverzögerungssequenz zugegriffen wird. Ein Client kann die gewünschte Multimediainformation identifizieren, den Standort der mehreren Benutzer bereitstellen und das gewünschte zeitliche Schema für Multimediazustellung anzeigen. Die Multimediainformation wird dann in einer Schaltungsverbindung zugestellt, was hohe Qualität des Dienstes, sichere Verbindung und Abrechnungssteuerung garantiert. - Noch ein anderes existierendes Verfahren zum Handhaben von Multimediainformation wird in der EPA-Patentanmeldung
EP 0,847,179 gezeigt, die einen Audio-Browser mit einer Vielzahl von Hypertext-Verknüpfungen zur Verwendung als ein Vokabular für eine Spracherkennungseinrichtung zeigt. Wenn ein Benutzer wünscht, ein Hyperlink-Wort auszuwählen, wiederholt der Benutzer lediglich das Hyperlink-Wort selbst anstatt einen Befehl auszusprechen oder einen DTMF-Ton zu verwenden. Die Spracherkennungseinrichtung erkennt das gesprochene Hyperlink-Wort und veranlasst einen Sprung zu der verknüpften Adresse, die mit dem erkannten Hyperlink-Wort in Verbindung steht. - Es ist ein Ziel der vorliegenden Erfindung, ein IP-basiertes Telefonsystem vorzusehen, das selektiv automatisch Text während Perioden von Sprachkommunikation unter Standard vorsieht.
- Es ist ein anderes Ziel der vorliegenden Erfindung, ein IP-basiertes Telefonsystem vorzusehen, das einem Anrufer erlaubt, empfangene Videodaten anzusehen, während gleichlaufend Video- und sprachgenerierte Daten übertragen werden.
- ZUSAMMENFASSUNG DER ERFINDUNG
- Die vorliegende Erfindung überwindet die Nachteile in den oben identifizierten Systemen und erfüllt einen beträchtlichen Bedarf nach einem IP-basierten Telefonsystem mit verbesserten und leicht zu nutzenden Kommunikationsmerkmalen.
- Gemäß einer ersten Ausführungsform der vorliegenden Erfindung wird ein verbessertes IP-basiertes Telefonsystem vorgesehen. Das Telefonsystem inkludiert eine Kombination von Hardware, Software und/oder Firmware, die in Verbindung mit einem konventionellen PC eingesetzt wird, um VoIP-Kommunikation durchzuführen. Eine Videoerfassungskarte, die kommunikativ mit einem PC verbunden ist, empfängt vorzugsweise Videoeingangsdaten von einer Videoquelle ebenso wie von einer VoIP-Übertragung. Eine Soundkarte, die kommunikativ mit dem PC verbunden ist, empfängt vorzugsweise eine Audioeingabe von einem Mikrofon ebenso wie von einer VoIP-Übertragung. Eine Spracherkennungseinrichtung, die operativ mit dem PC verbunden ist, empfängt vorzugsweise die Mikrofonaudiodaten, erkennt darin Sprachmuster und generiert Textdaten, die die erkannten Sprachmuster darstellen. Die generierten Textdaten werden mit den vom Mikrofon vorgesehenen Audiodaten und den von der Videokamera generierten Videodaten für einen Transport über das Internet zu einem anderen PC inkludiert. Auf diese Weise kann ein PC-Benutzer Video, Sprache und sprachgenerierte Textdaten einem anderen PC-Benutzer übermitteln.
- Das vorliegende System inkludiert vorzugsweise ferner eine Anwendung, die VoIP-Videodaten und sprachgenerierte Textdaten empfängt, die durch einen anderen PC übertragen wurden. In dem Fall, dass der andere PC ein Signal oder eine Menge von Signalen mit Videodaten, Audio-/Sprachdaten und sprachgenerierten Textdaten überträgt, zeigt die Anwendung vorzugsweise die Videodaten an und erzeugt hörbare Signale aus den Audio-/Sprachdaten unter Verwendung eines Lautsprechers. Außerdem präsentiert die IP-Anwendung vorzugsweise den sprachgenerierten Text gleichlaufend mit den angezeigten Videodaten. Auf diese Weise ist der PC-Benutzer in der Lage, den sprachgenerierte Text zu lesen, während er die Videodaten ansieht, während Perioden, wenn die VoIP-Audiosignalübertragung schwankt.
- KURZE BESCHREIBUNG DER ZEICHNUNGEN
- Ein vollständigeres Verständnis des Systems und Verfahrens der vorliegenden Erfindung kann durch Verweis auf die folgende detaillierte Beschreibung erhalten werden, wenn in Verbindung mit den begleitenden Zeichnungen aufgenommen, worin:
-
1 ein Funktionsblockdiagramm der vorliegenden Erfindung ist; -
2 die resultierende Anzeige ist, die durch die vorliegende Erfindung generiert wird; -
3 ein Flussdiagramm ist, das die Übertragung von VoIP-Daten gemäß der vorliegenden Erfindung veranschaulicht; und -
4 ein Flussdiagramm ist, das den Empfang von VoIP-Daten gemäß der vorliegenden Erfindung veranschaulicht. - DETAILLIERTE BESCHREIBUNG DER BEVORZUGTEN BEISPIELHAFTEN AUSFÜHRUNGSFORMEN
- Die vorliegende Erfindung wird nun vollständiger hierin nachstehend mit Verweis auf die begleitenden Zeichnungen beschrieben, in denen eine bevorzugte Ausführungsform der Erfindung gezeigt wird. Diese Erfindung kann jedoch in vielen unterschiedlichen Formen verkörpert werden und sollte nicht als auf die hierin dargelegte Ausführungsform begrenzt ausgelegt werden. Vielmehr wird die Ausführungsform vorgesehen, damit diese Offenlegung gründlich und vollständig sein wird, und wird einem Durchschnittsfachmann den Bereich der Erfindung vollständig übermitteln.
- Bezug nehmend auf
1 und2 wird ein verbessertes IP-basiertes Telefonsystem1 gemäß der vorliegenden Erfindung gezeigt. Die Telefonsystem1 inkludiert vorzugsweise Hardware, Software und/oder Firmware, die operativ mit einem PC verbunden sind, um VoIP-Kommunikation mit verbesserten Merkmalen vorzusehen. Telefonsystem1 inkludiert vorzugsweise eine Schnittstelle2 zur Verbindung mit einem Telefonnetz3 , wie etwa einem öffentlichen vermittelten Telefonnetz (PSTN, public switched telephone network). Schnittstelle2 inkludiert vorzugsweise ein Modem (nicht gezeigt) oder andere Schnittstellenschaltungstechnik zum geeigneten Übertragen von Signalen, die durch Telefonsystem1 generiert werden, und Empfangen von Signalen, die dazu übertragen werden. Schnittstelle2 wird für einen Zugriff auf Internet4 über einen Internet-Dienstanbieter (Internet service provider, ISP)5 genutzt. Folglich kann Schnittstelle2 Schaltungstechnik zum Konvertieren von Daten, wie etwa Sprach- und Videodaten, in paketvermittelte oder paketierte Signale zur Übertragung über Internet4 inkludieren. - Telefonsystem
1 inkludiert vorzugsweise ferner eine oder mehr Einrichtungen zum Generieren von Sprachdatensignalen in Bezug auf die Sprache des PC-Benutzers für einen Transport über Internet4 und zum Empfangen von Sprachdatensignalen von dort zur Präsentation für den PC-Benutzer. System1 kann eine Soundkarte8 mit einem ersten Port8A zum Empfangen von Sprachdaten, die durch Mikrofon9 generiert werden, und Schaltungstechnik zum geeigneten Konditionieren der empfangenen Sprachdaten für eine Internetübertragung inkludieren. Soundkarte8 inkludiert ferner einen zweiten Port8B zum Übertragen der konditionierten Sprachdatensignale für einen Transport über Internet4 und zum Empfangen von VoIP-Signalen von dort. Es ist Schaltungstechnik zum Konditionieren der empfangenen VoIP-Signale in Soundkarte8 zum Anwenden auf Lautsprecher10 über Soundkartenport8C inkludiert. Es wird verstanden, dass Soundkarte8 eine PC-Plug-in-Einrichtung oder eine andere Hardware-/Firmware-Einrichtung, die mit einem PC in Verbindung steht, sein kann. - Wie oben fest gehalten ist es wünschenswert in der Lage zu sein, mit einem anderen Anrufer während Perioden von Sprachsignalverlust zu kommunizieren. Entsprechend inkludiert die vorliegende Erfindung eine Einrichtung zum selektiven Generieren von Textdaten aus einem empfangenen VoIP-Signal. In einer bevorzugten Ausführungsform der Erfindung ist die Textgenerierungseinrichtung eine Spracherkennungsengine
11 . Spracherkennungsengine11 ist vorzugsweise ein Objekt, das von Soundkarte8 das Audiosignal empfängt, das durch Mikrofon9 generiert wird, das Audiosignal unter Verwendung eines Grammatikdatenbankobjektes12 verarbeitet und Textdaten entsprechend dem verarbeiteten Audiosignal generiert. Die generierten Textdaten sind dann für eine Übertragung mit dem Audiosignal für eine Übertragung über Internet4 verfügbar. Wenn das übertragene Audio- und entsprechende Textsignal in dem empfangenden PC empfangen wird, werden das Audiosignal und die Textdaten entsprechend dazu dem Benutzer davon präsentiert. Durch Senden von sowohl Sprache als auch entsprechendem Text zu dem empfangenden Anrufer ist der sendende Anrufer in der Lage, mit ihm vollständig und klar zu kommunizieren. - Wie zuvor erwähnt empfängt und konditioniert Soundkarte
8 ein VoIP-Signal, das über Internet4 übertragen wird, von einem anderen Anrufer und legt das VoIP-Signal an Lautsprecher10 an. Damit ein Anrufer Textdaten wahrnehmen kann, die durch eine Sprachengine11 in einem anderen PC generiert und dadurch über Internet4 übertragen werden, inkludiert Telefonsystem1 vorzugsweise eine Anwendung13 , die die Textdaten dem PC-Benutzer anzeigt. Anwendung13 zeigt vorzugsweise die Textdaten im wesentlichen in Übereinstimmung mit der Anwendung ihres entsprechenden Audiosignals auf Lautsprecher10 an. Als ein Beispiel zeigt Anwendung13 die Textdaten als einen rollenden Text in einem Fenster innerhalb eines Browser-Rahmens an. Als ein Ergebnis ist der PC-Benutzer an dem empfangenden PC in der Lage, die Sprachnachricht, die durch den übertragenden PC generiert wird, sowohl zu hören als auch zu sehen. In dem Fall, dass die Sprachdaten zeitweilig verzerrt werden, ist der PC-Benutzer an dem empfangenden PC bezeichnenderweise noch in der Lage, die Sprachnachricht durch einfaches Lesen des Textes als den Text, der in dem empfangenden PC angezeigt wird, wahrzunehmen. - Zusätzlich zum Übermitteln von Sprache und sprachgeneriertem Text kann Telefonsystem
1 vorzugsweise ferner die Fähigkeit inkludieren, Video zwischen zwei oder mehr Anrufern über Internet4 zu kommunizieren. Zu diesem Zweck kann Telefonsystem1 eine Videoerfassungskarte14 mit einem ersten Port14A und einem entsprechenden Empfänger zum Empfangen von Videodaten von einer Videoquelle7 , wie etwa einer Videokamera, und einen zweiten Port14B , der mit Schnittstelle2 gekoppelt ist, inkludieren. Videodaten, die durch Videoquelle7 erfasst werden, werden zu Videoerfassungskarte14 übertragen und geeignet zum Senden über Internet4 konditioniert. Soundkarte8 , Sprachengine11 und Videoerfassungskarte14 sind vorzugsweise synchronisiert, sodass Sprachsignale, sprachgenerierter Text und Videosignale dem Benutzer an dem empfangenden PC im wesentlichen gleichlaufend präsentiert werden. - Videoerfassungskarte
14 inkludiert vorzugsweise ferner einen Empfänger, der mit Port14B gekoppelt ist, zum Empfangen von Videosignalen, die durch einen anderen PC über Internet2 übertragen werden, Schaltungstechnik zum Konditionieren und/oder Extrahieren von Videodaten aus den empfangenen Videosignalen und einen dritten Port14C zum Senden der konditionierten Videodaten zur Anwendung13 . Bei Empfang durch Anwendung13 zeigt Anwendung13 vorzugsweise dem PC-Benutzer das konditionierte Video entsprechend dem Videosignal und Bilder entsprechend dem sprachgenerierte Text gleichlaufend an. In einer bevorzugten Ausführungsform kann das angezeigte Video in einem Fenster20 präsentiert werden und die sprachgenerierten Textbilder können in einem anderen Fenster21 auf PC-Monitor22 präsentiert werden, wie in2 gezeigt. Diese Anordnung kann sich in Übereinstimmung mit einem Browser-Format befinden, das durch Anwendung13 generiert wird. Alternativ können sowohl das angezeigte Video als auch die sprachgenerierten Textbilder in dem gleichen Fenster auf Monitor22 präsentiert werden. Ferner kann Anwendung13 geschriebenen Text präsentieren, der von einem Benutzer des sendenden PC unter Verwendung der Tastatur des sendenden PC generiert wird. Der geschriebene Text kann in einem dritten Fenster23 auf Monitor22 präsentiert werden. - Die vorliegende Erfindung kann ferner eine Einrichtung inkludieren, die ein Textsignal von einem sendenden PC empfängt und entsprechend dazu hörbare Sprache generiert. Die Einrichtung umfasst vorzugsweise Sprachgenerierungsschaltungstechnik
15 , die als ihre Eingabe Textdaten empfängt, wie etwa geschriebenen Text, und Audiosignale für eine Anwendung auf Lautsprecher10 generiert. Auf diese Weise kann ein sprachbehindertes Individuum mit einem anderen PC-Benutzer durch Schreiben von Text in die PC-Tastatur des Individuums mündlich kommunizieren. - Der Betrieb der vorliegenden Erfindung beim Übertragen von Information zu einem anderen PC wird nun mit Bezug auf
3 beschrieben. Als Reaktion auf den PC-Benutzer, der in Mikrofon9 spricht, wird ein Sprachsignal generiert, das durch Soundkarte8 in Schritt30 empfangen wird. Videokamera7 generiert ein Videosignal, das durch Videoerfassungskarte14 in Schritt31 empfangen wird. Das Videosignal wird im wesentlichen gleichzeitig mit dem generierten Sprachsignal generiert, derart, dass Soundkarte8 das Sprachsignal in im wesentlichen dem gleichen Zeitpunkt empfängt, wie Videoerfassungskarte14 das Videosignal empfängt. Als Nächstes verarbeitet Sprachengine11 die Sprachdaten in Schritt32 , um Sprachmuster darin zu erkennen. Sprachengine11 nutzt Grammatikdatenbankobjekt12 in Schritt33 , um Textdaten entsprechend den erkannten Sprachmustern zu entwickeln. Danach generieren Soundkarte8 , Videoerfassungskarte14 und Schnittstelle2 ein IP-basiertes Signal in Schritt34 unter Verwendung der empfangenen Sprach- und Videosignale ebenso wie der generierten Textdaten. Anschließend zu seiner Erzeugung wird das IP-basierte Signal in Schritt35 für einen Transport über Internet4 zu einem empfangenden PC übertragen. - Der Betrieb der vorliegenden Erfindung beim Empfangen von einem anderen PC wird nun mit Bezug auf
4 beschrieben. Anfangs empfängt Telefonsystem1 ein IP-basiertes Signal von einem anderen PC (dem sendenden PC) in Schritt40 . Als Nächstes extrahieren Schnittstelle2 , Soundkarte8 und Videoerfassungskarte14 das Sprachsignal, Videosignale und sprachgenerierte Textdaten von dem empfangenen IP-basierten Signal (Schritt41 ). Danach wird eine Serie von drei Operationen im wesentlichen gleichzeitig ausgeführt. Das extrahierte Sprachsignal wird in Schritt42 an Lautsprecher10 angelegt, um basierend auf hörbare Signale zu generieren. Die Videodaten und die sprachgenerierten Textdaten werden konditioniert und dem PC-Benutzer (dem Benutzer an dem empfangenden PC) in Schritten43 bzw.44 angezeigt. In einer bevorzugten Ausführungsform werden die Videodaten in einem Browser-Fenster angezeigt und die Textdaten werden in einem zweiten Browser-Fenster angezeigt (2 ). Alternativ werden die Video- und Textdaten in dem gleichen Browser-Fenster angezeigt. Die Textdaten werden vorzugsweise als rollender Text angezeigt; alternativ können die Textdaten aber in anderen Formen angezeigt und aktualisiert werden. - Aus der so beschriebenen Erfindung wird offensichtlich, dass selbige auf vielen Wegen variiert werden kann.
Claims (29)
- Verfahren zum Kommunizieren in einem Telefonsystem (
1 ), die Schritte inkludierend: Empfangen von ersten Sprachdaten von einer Audioquelle (9 ); gekennzeichnet durch selektives Generieren eines ersten Sprachtextes aus den ersten Sprachdaten; und Konvertieren der ersten Sprachdaten und des selektiv generierten ersten Sprachtextes in ein erstes paketiertes Signal; und Übertragen des ersten paketierten Signals über ein paketvermitteltes Netz (4 ). - Verfahren nach Anspruch 1, ferner die Schritte umfassend: Empfangen eines zweiten paketierten Signals; Extrahieren eines zweiten Sprachtextes aus dem zweiten paketierten Signal; und Anzeigen des zweiten Sprachtextes.
- Verfahren nach Anspruch 2, ferner die Schritte umfassend: Generieren eines hörbaren Signals aus dem zweiten paketierten Signal während des Anzeigeschrittes.
- Verfahren nach Anspruch 3, wobei der Schritt zum Generieren eines hörbaren Signals die Schritte umfasst: Extrahieren von zweiten Sprachdaten aus dem zweiten paketierten Signal; und Anlegen der zweiten Sprachdaten an einen Lautsprecher.
- Verfahren nach Anspruch 2, wobei das zweite paketierte Signal ein Sprache-über-IP-(VoIP-)Signal ist.
- Verfahren nach Anspruch 2, wobei der Anzeigeschritt den Schritt zum Anzeigen des zweiten Sprachtextes auf einem Monitor (
22 ) umfasst. - Verfahren nach Anspruch 2, ferner die Schritte umfassend: Extrahieren von zweiten Videodaten aus dem zweiten paketierten Signal; und Anzeigen der zweiten Videodaten mit dem zweiten Sprachtext während des Schrittes zum Anzeigen.
- Verfahren nach Anspruch 2, ferner die Schritte umfassend: Generieren von zweiten Sprachdaten aus dem zweiten Sprachtext; und Anlegen der zweiten Sprachdaten an einen Lautsprecher (
10 ) während des Schrittes zum Anzeigen des zweiten Sprachtextes. - Verfahren nach Anspruch 1, wobei der Schritt zum selektiven Generieren des ersten Sprachtextes ferner die Schritte umfasst: Verarbeiten der ersten Sprachdaten; Anwenden einer Wortliste (
12 ) auf die verarbeiteten ersten Sprachdaten; und Erstellen des ersten Sprachtextes reagierend auf den Schritt zum Anwenden der Wortliste (12 ). - Verfahren nach Anspruch 1, wobei der Schritt zum Generieren des ersten Sprachtextes ferner den Schritt umfasst: Erkennen von einem oder mehr Sprachmustern innerhalb der ersten Sprachdaten.
- Verfahren nach Anspruch 1, ferner den Schritt umfassend: Empfangen von ersten Videodaten von einer Videoquelle (
7 ), wobei der Konvertierungsschritt die ersten Sprachdaten, die ersten Videodaten und den ersten Sprachtext in das erste paketierte Signal konvertiert. - Telefonsystem (
1 ), inkludierend einen ersten Empfänger zum Empfangen eines ersten Sprachsignals von einer Audioquelle (9 ), gekennzeichnet durch: eine Spracherkennungseinrichtung, in Kommunikation mit dem ersten Empfänger, zum selektiven Generieren eines ersten Sprachtextsignals basierend auf dem ersten Sprachsignal; eine Schnittstelle, gekoppelt mit der Spracherkennungseinrichtung, zum Konvertieren des ersten Sprachsignals und des selektiv generierten ersten Sprachtextsignals in ein erstes paketiertes Signal; und einen Sender, in Kommunikation mit der Schnittstelle, zum Übertragen des ersten paketierten Signals über ein paketvermitteltes Netz (4 ). - Telefonsystem (
1 ) nach Anspruch 12, ferner umfassend: einen zweiten Empfänger zum Empfangen eines zweiten paketierten Signals; und Schaltungstechnik zum Extrahieren eines zweiten Sprachtextsignals aus dem zweiten paketierten Signal zur Anzeige auf einem Monitor (22 ). - Telefonsystem (
1 ) nach Anspruch 13, wobei die Schaltungstechnik angepasst ist, ein Audiosignal aus dem zweiten paketierten Signal für eine Anwendung auf einen Lautsprecher (10 ) zu extrahieren. - Telefonsystem (
1 ) nach Anspruch 13, wobei das zweite paketierte Signal ein Sprache-über-IP-(VoIP-)Signal ist. - Telefonsystem (
1 ) nach Anspruch 13, wobei die Schaltungstechnik arbeitet, um ein Videosignal aus dem zweiten paketierten Signal zu extrahieren. - Telefonsystem (
1 ) nach Anspruch 13, ferner umfassend: eine Textanwendung (13 ) zum Präsentieren von Text, der mit dem zweiten Sprachtextsignal in Verbindung steht, auf dem Monitor. - Telefonsystem (
1 ) nach Anspruch 17, wobei: die Schaltungstechnik angepasst ist, ein Videosignal aus dem zweiten paketierten Signal zu extrahieren; und die Textanwendung (13 ) angepasst ist, ein Video, das mit dem extrahierten Videosignale in Verbindung steht, auf dem Monitor (22 ) gleichlaufend mit dem darauf präsentierten zugehörigen Text zu präsentieren. - Telefonsystem (
1 ) nach Anspruch 12, wobei die Spracherkennungseinrichtung eine Sprachengine (11 ) und ein Sprachobjekt (12 ), dadurch zugreifbar, umfasst. - Telefonsystem (
1 ) nach Anspruch 12, ferner umfassend: einen zweiten Empfänger zum Empfangen eines zweiten paketierten Signals; Schaltungstechnik zum Extrahieren eines zweiten Sprachtextsignals aus dem zweiten paketierten Signal; eine Sprachgenerierungseinrichtung zum Generieren eines Sprachsignals aus dem zweiten Sprachtextsignal; und einen Lautsprecher, der mit der Sprachgenerierungseinrichtung operativ gekoppelt ist, zum Erzeugen eines hörbaren Signals aus dem Sprachsignal. - IP-basiertes Telefonsystem (
1 ), inkludierend einen ersten Empfänger zum Empfangen eines Audiosignals von einer Audioquelle (9 ); erste Schaltungstechnik zum Generieren eines ersten paketvermittelten Signals aus dem Audiosignal, das durch den ersten Empfänger empfangen wird; einen Sender zum Übertragen des ersten paketvermittelten Signals; gekennzeichnet durch: einen zweiten Empfänger zum Empfangen eines zweiten paketvermittelten Signals mit einem Audiotextsignal darin; und eine Textanwendung (13 ) zum Anzeigen einer Vielzahl von Textbildern entsprechend dem Audiotextsignal. - IP-basiertes Telefonsystem (
1 ) nach Anspruch 21, worin das zweite paketvermittelte Signal ein zweites Audiosignal inkludiert, wobei das IP-basierte Telefonsystem (1 ) ferner einen Lautsprecher (10 ) und Schaltungstechnik zum Übertragen des zweiten Audiosignals zu dem Lautsprecher (10 ) umfasst. - IP-basiertes Telefonsystem (
1 ) nach Anspruch 21, wobei das zweite paketvermittelte Signal Videodaten inkludiert, die Textanwendung (13 ) angepasst ist, einem Systembenutzer die Videodaten und das Audiotextsignal gleichlaufend anzuzeigen. - IP-basiertes Telefonsystem (
1 ) nach Anspruch 21, ferner umfassend: eine Spracherkennungseinrichtung (11 ), in Kommunikation mit dem ersten Empfänger, zum Generieren von Textdaten aus dem Audiosignal, wobei das erste paketvermittelte Signal das Audiosignal und die Textdaten umfasst. - IP-basiertes Telefonsystem (
1 ) nach Anspruch 21, ferner umfassend: einen dritten Empfänger, in Kommunikation mit der ersten Schaltungstechnik, zum Empfangen von Videodaten von einer Videoeinrichtung, wobei das erste paketvermittelte Signal das Audiosignal und die Videodaten, die durch die Videoeinrichtung generiert werden, umfasst. - Verfahren zum Kommunizieren über das Internet, die Schritte umfassend: Empfangen eines Audiosignals von einer Audioquelle (
9 ); Generieren eines ersten IP-basierten Signals aus dem empfangenen Audiosignal; Übertragen des ersten IP-basierten Signals; gekennzeichnet durch: Empfangen eines zweiten IP-basierten Signals mit einem Audiotextsignal darin; und Anzeigen von Textbildern entsprechend dem Audiotextsignal. - Verfahren nach Anspruch 26, worin das zweite IP-basierte Signal ferner ein zweites Audiosignal umfasst, wobei das Verfahren ferner den Schritt umfasst: Übertragen des zweiten Audiosignals zu einem Lautsprecher (
10 ). - Verfahren nach Anspruch 26, wobei das zweite IP-basierte Signal Videodaten inkludiert, und das Verfahren ferner den Schritt umfasst: Anzeigen der Videodaten und des Audiotextsignals entsprechend dem zweiten IP-basierten Signal.
- Verfahren nach Anspruch 26, ferner den Schritt umfassend: Generieren von Textdaten basierend auf dem Audiosignal, das von der Audioquelle (
9 ) empfangen wird, wobei das erste IP-basierte Signal auf dem empfangenen Audiosignal und den generierten Textdaten basiert.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US200879 | 1998-11-30 | ||
US09/200,879 US6490550B1 (en) | 1998-11-30 | 1998-11-30 | System and method for IP-based communication transmitting speech and speech-generated text |
PCT/US1999/028215 WO2000033552A1 (en) | 1998-11-30 | 1999-11-29 | System and method for ip-based communication having speech generated text |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69923346D1 DE69923346D1 (de) | 2005-02-24 |
DE69923346T2 true DE69923346T2 (de) | 2005-06-09 |
Family
ID=22743589
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69923346T Expired - Lifetime DE69923346T2 (de) | 1998-11-30 | 1999-11-29 | Vorrichtung und verfahren zur ip kommunikation mit sprachgeneriertem text |
Country Status (6)
Country | Link |
---|---|
US (1) | US6490550B1 (de) |
EP (1) | EP1135921B1 (de) |
AU (1) | AU1747200A (de) |
DE (1) | DE69923346T2 (de) |
ES (1) | ES2232188T3 (de) |
WO (1) | WO2000033552A1 (de) |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6600734B1 (en) * | 1998-12-17 | 2003-07-29 | Symbol Technologies, Inc. | Apparatus for interfacing a wireless local network and a wired voice telecommunications system |
US6757732B1 (en) * | 2000-03-16 | 2004-06-29 | Nortel Networks Limited | Text-based communications over a data network |
US7117152B1 (en) | 2000-06-23 | 2006-10-03 | Cisco Technology, Inc. | System and method for speech recognition assisted voice communications |
US6915258B2 (en) * | 2001-04-02 | 2005-07-05 | Thanassis Vasilios Kontonassios | Method and apparatus for displaying and manipulating account information using the human voice |
US7369537B1 (en) | 2001-07-18 | 2008-05-06 | Global Ip Solutions, Inc. | Adaptive Voice-over-Internet-Protocol (VoIP) testing and selecting transport including 3-way proxy, client-to-client, UDP, TCP, SSL, and recipient-connect methods |
WO2004100164A1 (en) * | 2003-04-18 | 2004-11-18 | Unisay Sdn. Bhd. | Voice script system |
US20050266884A1 (en) * | 2003-04-22 | 2005-12-01 | Voice Genesis, Inc. | Methods and systems for conducting remote communications |
US8081621B1 (en) | 2003-07-22 | 2011-12-20 | Google Inc. | Speaker-buffer management for voice-over-internet-protocol (VoIP) triggered by microphone-buffer arrival |
US7519042B2 (en) * | 2003-09-12 | 2009-04-14 | Motorola, Inc. | Apparatus and method for mixed-media call formatting |
US7050553B2 (en) * | 2003-11-20 | 2006-05-23 | Lucent Technologies Inc. | Communication device that provides enhanced services |
US7406414B2 (en) * | 2003-12-15 | 2008-07-29 | International Business Machines Corporation | Providing translations encoded within embedded digital information |
US8977965B1 (en) | 2005-08-19 | 2015-03-10 | At&T Intellectual Property Ii, L.P. | System and method for controlling presentations using a multimodal interface |
US9116989B1 (en) | 2005-08-19 | 2015-08-25 | At&T Intellectual Property Ii, L.P. | System and method for using speech for data searching during presentations |
JP4994623B2 (ja) * | 2005-08-31 | 2012-08-08 | 富士通株式会社 | テキスト編集・再生装置、コンテンツ編集・再生装置及びテキスト編集・再生方法 |
US9026915B1 (en) | 2005-10-31 | 2015-05-05 | At&T Intellectual Property Ii, L.P. | System and method for creating a presentation using natural language |
US20070121606A1 (en) * | 2005-11-03 | 2007-05-31 | Fun Racquets, Inc. | VOIP Hub Using Existing Audio or Video Systems |
DE102005061394A1 (de) * | 2005-12-22 | 2007-06-28 | Robert Bosch Gmbh | Fehlertolerantes Prozessorsystem |
US9973546B1 (en) * | 2006-03-20 | 2018-05-15 | 8X8, Inc. | Dialing approach and implementations therefor |
US9213776B1 (en) | 2009-07-17 | 2015-12-15 | Open Invention Network, Llc | Method and system for searching network resources to locate content |
US9786268B1 (en) | 2010-06-14 | 2017-10-10 | Open Invention Network Llc | Media files in voice-based social media |
US11170757B2 (en) * | 2016-09-30 | 2021-11-09 | T-Mobile Usa, Inc. | Systems and methods for improved call handling |
US10147415B2 (en) | 2017-02-02 | 2018-12-04 | Microsoft Technology Licensing, Llc | Artificially generated speech for a communication session |
US10496363B2 (en) * | 2017-06-16 | 2019-12-03 | T-Mobile Usa, Inc. | Voice user interface for data access control |
US10334415B2 (en) * | 2017-06-16 | 2019-06-25 | T-Mobile Usa, Inc. | Voice user interface for device and component control |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS58101365A (ja) * | 1981-12-14 | 1983-06-16 | Hitachi Ltd | 機械翻訳システム |
US5677739A (en) * | 1995-03-02 | 1997-10-14 | National Captioning Institute | System and method for providing described television services |
US5724410A (en) * | 1995-12-18 | 1998-03-03 | Sony Corporation | Two-way voice messaging terminal having a speech to text converter |
US5777997A (en) * | 1996-03-07 | 1998-07-07 | Hughes Electronics Corporation | Method and system for transmitting audio-associated text information in a multiplexed transmission stream |
AU2935297A (en) | 1996-05-07 | 1997-11-26 | Webline Communications Corporation | Method and apparatus for coordinating internet multi-media content with telephone and audio communications |
US5956482A (en) | 1996-05-15 | 1999-09-21 | At&T Corp | Multimedia information service access |
JPH1074204A (ja) * | 1996-06-28 | 1998-03-17 | Toshiba Corp | 機械翻訳方法及び原文・訳文表示方法 |
US5732216A (en) * | 1996-10-02 | 1998-03-24 | Internet Angles, Inc. | Audio message exchange system |
JP3121548B2 (ja) * | 1996-10-15 | 2001-01-09 | インターナショナル・ビジネス・マシーンズ・コーポレ−ション | 機械翻訳方法及び装置 |
US6282511B1 (en) | 1996-12-04 | 2001-08-28 | At&T | Voiced interface with hyperlinked information |
JP3402100B2 (ja) * | 1996-12-27 | 2003-04-28 | カシオ計算機株式会社 | 音声制御ホスト装置 |
JP3198969B2 (ja) * | 1997-03-28 | 2001-08-13 | 日本電気株式会社 | デジタル音声無線伝送システム、デジタル音声無線送信装置およびデジタル音声無線受信再生装置 |
US5987405A (en) * | 1997-06-24 | 1999-11-16 | International Business Machines Corporation | Speech compression by speech recognition |
US6144991A (en) * | 1998-02-19 | 2000-11-07 | Telcordia Technologies, Inc. | System and method for managing interactions between users in a browser-based telecommunications network |
US6151576A (en) * | 1998-08-11 | 2000-11-21 | Adobe Systems Incorporated | Mixing digitized speech and text using reliability indices |
US6141341A (en) * | 1998-09-09 | 2000-10-31 | Motorola, Inc. | Voice over internet protocol telephone system and method |
-
1998
- 1998-11-30 US US09/200,879 patent/US6490550B1/en not_active Expired - Lifetime
-
1999
- 1999-11-29 WO PCT/US1999/028215 patent/WO2000033552A1/en active IP Right Grant
- 1999-11-29 ES ES99960612T patent/ES2232188T3/es not_active Expired - Lifetime
- 1999-11-29 DE DE69923346T patent/DE69923346T2/de not_active Expired - Lifetime
- 1999-11-29 AU AU17472/00A patent/AU1747200A/en not_active Abandoned
- 1999-11-29 EP EP99960612A patent/EP1135921B1/de not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
DE69923346D1 (de) | 2005-02-24 |
US6490550B1 (en) | 2002-12-03 |
ES2232188T3 (es) | 2005-05-16 |
EP1135921A1 (de) | 2001-09-26 |
EP1135921B1 (de) | 2005-01-19 |
AU1747200A (en) | 2000-06-19 |
WO2000033552A1 (en) | 2000-06-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69923346T2 (de) | Vorrichtung und verfahren zur ip kommunikation mit sprachgeneriertem text | |
US6100882A (en) | Textual recording of contributions to audio conference using speech recognition | |
DE60223131T2 (de) | Verfahren und vorrichtung zum codieren und decodieren von pauseninformationen | |
DE69839068T2 (de) | System und Verfahren zur automatischen Verarbeitung von Anruf und Datenübertragung | |
DE69823817T2 (de) | Prüfung von telekommunikationseinrichtungen | |
DE10065572A1 (de) | System und Methode zum Registrieren und Suchen in mehreren Beziehungs-Such-Websites | |
EP2106121A1 (de) | Untertitelerzeugungsverfahren zur Live-Programmierung | |
DE102018001572A1 (de) | Automatische verzögerung der wiedergabe einer nachricht bei einer vorrichtung | |
DE102009035796B4 (de) | Benachrichtigung über Audio-Ausfall bei einer Telekonferenzverbindung | |
EP1248251A2 (de) | Verfahren und System zur automatischen Umsetzung von Textnachrichten in Sprachnachrichten | |
DE102008062300B3 (de) | Verfahren und Vorrichtung zum intelligenten Zusammenstellen einer Multimedianachricht für ein Mobilfunksystem | |
DE60018349T2 (de) | Erzeugung von einem Namenwörterbuch aus aufgezeichneten telephonischen Grüssen für die Spracherkennung | |
EP1062487B1 (de) | Mikrophonanordnung für die spracherkennung unter variablen räumlichen bedingungen | |
EP1371264A1 (de) | Verfahren und vorrichtung zum betrieb eines beschallungssystems | |
DE19842803A1 (de) | Vorrichtung und Verfahren zur Generierung und Verbreitung von individuellen Multimediabotschaften | |
DE69816078T2 (de) | Verbesserungen im bezug auf visuelle sprachsynthese | |
DE10017503A1 (de) | Sprachbasiertes Verfahren zur Behandlung von Internet-Seiten in Mobilfunksystemen | |
DE10348149B4 (de) | Verfahren zur Durchführung einer Telefonkonferenz | |
DE102005015083B4 (de) | Verfahren und Vorrichtung zum Verhindern von Störungen aus Sprechgeräuschen beim Telefonieren | |
DE19845560A1 (de) | Virtueller Gesprächspartner | |
DE19956572B4 (de) | Verfahren zur Telekommunikation und Kommunikationsterminal | |
DE10056762B4 (de) | Verfahren zum Erstellen elektronischer Nachrichten | |
DE19803081A1 (de) | Verfahren zur Sprachübermittlung o. ä. und Geräte zur Durchführung des Verfahrens | |
WO2000004695A1 (de) | Verfahren und einrichtung zum betreiben eines telekommunikations-endgerätes mit akustischer ausgabe von kenndaten | |
KR100347386B1 (ko) | 데이터가 수반되는 온라인 상 회의 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition |