DE69923346T2 - Vorrichtung und verfahren zur ip kommunikation mit sprachgeneriertem text - Google Patents

Vorrichtung und verfahren zur ip kommunikation mit sprachgeneriertem text Download PDF

Info

Publication number
DE69923346T2
DE69923346T2 DE69923346T DE69923346T DE69923346T2 DE 69923346 T2 DE69923346 T2 DE 69923346T2 DE 69923346 T DE69923346 T DE 69923346T DE 69923346 T DE69923346 T DE 69923346T DE 69923346 T2 DE69923346 T2 DE 69923346T2
Authority
DE
Germany
Prior art keywords
signal
text
audio
voice
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69923346T
Other languages
English (en)
Other versions
DE69923346D1 (de
Inventor
Farzad Plano HIRI
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ericsson Inc
Original Assignee
Ericsson Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ericsson Inc filed Critical Ericsson Inc
Publication of DE69923346D1 publication Critical patent/DE69923346D1/de
Application granted granted Critical
Publication of DE69923346T2 publication Critical patent/DE69923346T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/63Control signaling related to video distribution between client, server and network components; Network processes for video distribution between server and clients or between remote clients, e.g. transmitting basic layer and enhancement layers over different transmission paths, setting up a peer-to-peer communication via Internet between remote STB's; Communication protocols; Addressing
    • H04N21/643Communication protocols
    • H04N21/64322IP
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0018Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/70Media network packetisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/40Network security protocols
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M7/00Arrangements for interconnection between switching centres
    • H04M7/006Networks other than PSTN/ISDN providing telephone service, e.g. Voice over Internet Protocol (VoIP), including next generation networks with a packet-switched transport layer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234336Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by media transcoding, e.g. video is transformed into a slideshow of still pictures or audio is converted into text
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4312Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
    • H04N21/4316Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations for displaying supplemental content in a region of the screen, e.g. an advertisement in a separate window
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/1066Session management
    • H04L65/1101Session protocols
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/60Medium conversion

Description

  • HINTERGRUND DER ERFINDUNG
  • Technisches Gebiet der Erfindung
  • Die vorliegende Erfindung bezieht sich allgemein auf verbesserte IP-basierte Kommunikation und insbesondere auf ein System und Verfahren zum Vorsehen von sprachgeneriertem Text für IP-basierte Telefonkommunikation.
  • Hintergrund und Ziele der Erfindung
  • Es gibt gegenwärtig eine Bewegung hin zur Verbesserung der Fähigkeiten von Computernetzen, wie etwa dem Internet, um traditionelle Telefonieoperationen zu unterstützen. Das Ziel besteht darin, Qualitätssprachkommunikationen über das paketierte Internet vorzusehen. Diese Fähigkeiten wird häufig als Sprache über Internetprotokoll (voice over Internet Protocol, VoIP) bezeichnet. Mit dem gegenwärtigen Internet kann VoIP z. B. akzeptable Sprachkommunikationen bei stark reduzierten Kosten für den Benutzer, wenn mit traditionellen Telefongebühren verglichen, vorsehen.
  • Vor kurzem wurden IP-basierte Telefonsysteme dazu fähig, Video gemeinsam mit Sprachkommunikation vorzusehen. Standard-Personalcomputer-(PC)Plug-in-Hardware, wie etwa Picturephone von 3com, und verschiedene Softwareanwendungen, die für Internet-Telefonie vorgesehen werden, wie etwa CU-SeeMe Software von White Pine und Software von Vocaltech und Microsoft, erlauben einen Transport von sowohl Sprach- als auch Bilddaten über das Internet. Insbesondere inkludieren derartige Systeme typischerweise ein Mikrofon, einen Lautsprecher und eine PC-Plug-in-Soundkarte zum Bereitstellen von Audiodaten für einen PC des Benutzers, und eine Videokamera und eine PC-Plug-in-Videoerfassungskarte zum Vorsehen von Videodaten dafür. Bei der Herstellung einer Verbindung zwischen zwei oder mehr PCs über das Internet werden die Audio- und Videodaten, die in einem PC generiert werden, paketiert und über das Internet zur Anzeige auf dem anderen PC, wie etwa innerhalb eines Browser-Rahmens, transportiert. Auf diese Weise können PC-Benutzer einander sehen, während sie gleichzeitig miteinander sprechen.
  • Existierende IP-basierte Telefonsysteme mit Videokommunikationsfähigkeit erlauben typischerweise einem PC-Benutzer, Text zu dem anderen PC-Benutzer, der damit in Verbindung ist, zu übermitteln. Text, der über die Tastatur des ersten PC eingegeben wird, kann mit den Audio- und Videodaten über das Internet transportiert und als Text in einem Browser-Fenster auf einem anderen PC, der mit dem ersten PC in Verbindung ist, angezeigt werden.
  • Diese IP-basierten Telefonsysteme sind nicht ohne Nachteile. Z. B. sieht VoIP gewöhnlich eine merklich reduzierte Qualität eines Dienstes bezüglich konventionellen Telefondiensten über eine lange Strecke vor. Es werden häufig schlechtere Sprachqualität, intermittierender Schwund und andere Unterbrechungen angetroffen, insbesondere während internationalen Anrufen.
  • Als Reaktion auf Perioden reduzierter Qualität des Dienstes greifen Anrufer, die IP-basierte Telefonsysteme nutzen, frustriert auf Kommunikation mit geschriebenem Text an Stelle eines Versuchs, mit Sprache zu kommunizieren, zurück. Um das Problem weiter zu verschlimmern, werden geschriebene Textdaten bei einer langsameren Rate als Sprachdaten transportiert. Als ein Ergebnis ist es häufig ziemlich schwierig, mit einer Kommunikation befasst zu sein, wenn ein Anrufer Sprachdaten vorsieht und der andere Anrufer geschriebene Textdaten vorsieht, weil die Datenübertragung von Sprache und geschriebenem Text nicht synchron ist.
  • In dem Kontext von IP-basierten Telefonsystemen mit Videokommunikationsfähigkeiten, die während Perioden reduzierter Qualität der Sprachkommunikation mit geschriebenem Text kommunizieren müssen, kann es dazu kommen, dass ein relativ unerfahrener Schreiber gezwungen ist, von der Videoanzeige wegzusehen, wenn Text eingegeben wird, wobei dadurch der Wert dessen reduziert wird, dass eine Echtzeit-Videoanzeige des anderen Anrufers vorgesehen wird. Als ein Ergebnis gibt es einen Bedarf nach einem IP-basierten Telefonsystem, welches die inhärenten Probleme anspricht, die mit VoIP-Telefonkommunikation in Verbindung stehen.
  • Ein existierendes Verfahren zum Koordinieren von Internet-Multimedia wird in der PCT-Veröffentlichung WO 97/42728 beschrieben, wodurch Internet-Inhalt mit Audiokommunikationen koordiniert wird, sodass zwei oder mehr Seiten den gleichen Medieninhalt in dem Internet sehen können, während gleichzeitig auch über ein traditionelles Telefonnetz oder eine Sprache über eine Netzimplementierung kommuniziert wird.
  • Ein anderes existierendes Verfahren zum Handhaben von Multimediainformation wird in der EPA-Patentanmeldung EP 0,808,048 gezeigt, die eine Echtzeitzustellung von Multimediainformation zeigt, auf die durch das Internet zu mehreren Benutzern entweder gleichzeitig oder mit einer Zeitverzögerungssequenz zugegriffen wird. Ein Client kann die gewünschte Multimediainformation identifizieren, den Standort der mehreren Benutzer bereitstellen und das gewünschte zeitliche Schema für Multimediazustellung anzeigen. Die Multimediainformation wird dann in einer Schaltungsverbindung zugestellt, was hohe Qualität des Dienstes, sichere Verbindung und Abrechnungssteuerung garantiert.
  • Noch ein anderes existierendes Verfahren zum Handhaben von Multimediainformation wird in der EPA-Patentanmeldung EP 0,847,179 gezeigt, die einen Audio-Browser mit einer Vielzahl von Hypertext-Verknüpfungen zur Verwendung als ein Vokabular für eine Spracherkennungseinrichtung zeigt. Wenn ein Benutzer wünscht, ein Hyperlink-Wort auszuwählen, wiederholt der Benutzer lediglich das Hyperlink-Wort selbst anstatt einen Befehl auszusprechen oder einen DTMF-Ton zu verwenden. Die Spracherkennungseinrichtung erkennt das gesprochene Hyperlink-Wort und veranlasst einen Sprung zu der verknüpften Adresse, die mit dem erkannten Hyperlink-Wort in Verbindung steht.
  • Es ist ein Ziel der vorliegenden Erfindung, ein IP-basiertes Telefonsystem vorzusehen, das selektiv automatisch Text während Perioden von Sprachkommunikation unter Standard vorsieht.
  • Es ist ein anderes Ziel der vorliegenden Erfindung, ein IP-basiertes Telefonsystem vorzusehen, das einem Anrufer erlaubt, empfangene Videodaten anzusehen, während gleichlaufend Video- und sprachgenerierte Daten übertragen werden.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Die vorliegende Erfindung überwindet die Nachteile in den oben identifizierten Systemen und erfüllt einen beträchtlichen Bedarf nach einem IP-basierten Telefonsystem mit verbesserten und leicht zu nutzenden Kommunikationsmerkmalen.
  • Gemäß einer ersten Ausführungsform der vorliegenden Erfindung wird ein verbessertes IP-basiertes Telefonsystem vorgesehen. Das Telefonsystem inkludiert eine Kombination von Hardware, Software und/oder Firmware, die in Verbindung mit einem konventionellen PC eingesetzt wird, um VoIP-Kommunikation durchzuführen. Eine Videoerfassungskarte, die kommunikativ mit einem PC verbunden ist, empfängt vorzugsweise Videoeingangsdaten von einer Videoquelle ebenso wie von einer VoIP-Übertragung. Eine Soundkarte, die kommunikativ mit dem PC verbunden ist, empfängt vorzugsweise eine Audioeingabe von einem Mikrofon ebenso wie von einer VoIP-Übertragung. Eine Spracherkennungseinrichtung, die operativ mit dem PC verbunden ist, empfängt vorzugsweise die Mikrofonaudiodaten, erkennt darin Sprachmuster und generiert Textdaten, die die erkannten Sprachmuster darstellen. Die generierten Textdaten werden mit den vom Mikrofon vorgesehenen Audiodaten und den von der Videokamera generierten Videodaten für einen Transport über das Internet zu einem anderen PC inkludiert. Auf diese Weise kann ein PC-Benutzer Video, Sprache und sprachgenerierte Textdaten einem anderen PC-Benutzer übermitteln.
  • Das vorliegende System inkludiert vorzugsweise ferner eine Anwendung, die VoIP-Videodaten und sprachgenerierte Textdaten empfängt, die durch einen anderen PC übertragen wurden. In dem Fall, dass der andere PC ein Signal oder eine Menge von Signalen mit Videodaten, Audio-/Sprachdaten und sprachgenerierten Textdaten überträgt, zeigt die Anwendung vorzugsweise die Videodaten an und erzeugt hörbare Signale aus den Audio-/Sprachdaten unter Verwendung eines Lautsprechers. Außerdem präsentiert die IP-Anwendung vorzugsweise den sprachgenerierten Text gleichlaufend mit den angezeigten Videodaten. Auf diese Weise ist der PC-Benutzer in der Lage, den sprachgenerierte Text zu lesen, während er die Videodaten ansieht, während Perioden, wenn die VoIP-Audiosignalübertragung schwankt.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • Ein vollständigeres Verständnis des Systems und Verfahrens der vorliegenden Erfindung kann durch Verweis auf die folgende detaillierte Beschreibung erhalten werden, wenn in Verbindung mit den begleitenden Zeichnungen aufgenommen, worin:
  • 1 ein Funktionsblockdiagramm der vorliegenden Erfindung ist;
  • 2 die resultierende Anzeige ist, die durch die vorliegende Erfindung generiert wird;
  • 3 ein Flussdiagramm ist, das die Übertragung von VoIP-Daten gemäß der vorliegenden Erfindung veranschaulicht; und
  • 4 ein Flussdiagramm ist, das den Empfang von VoIP-Daten gemäß der vorliegenden Erfindung veranschaulicht.
  • DETAILLIERTE BESCHREIBUNG DER BEVORZUGTEN BEISPIELHAFTEN AUSFÜHRUNGSFORMEN
  • Die vorliegende Erfindung wird nun vollständiger hierin nachstehend mit Verweis auf die begleitenden Zeichnungen beschrieben, in denen eine bevorzugte Ausführungsform der Erfindung gezeigt wird. Diese Erfindung kann jedoch in vielen unterschiedlichen Formen verkörpert werden und sollte nicht als auf die hierin dargelegte Ausführungsform begrenzt ausgelegt werden. Vielmehr wird die Ausführungsform vorgesehen, damit diese Offenlegung gründlich und vollständig sein wird, und wird einem Durchschnittsfachmann den Bereich der Erfindung vollständig übermitteln.
  • Bezug nehmend auf 1 und 2 wird ein verbessertes IP-basiertes Telefonsystem 1 gemäß der vorliegenden Erfindung gezeigt. Die Telefonsystem 1 inkludiert vorzugsweise Hardware, Software und/oder Firmware, die operativ mit einem PC verbunden sind, um VoIP-Kommunikation mit verbesserten Merkmalen vorzusehen. Telefonsystem 1 inkludiert vorzugsweise eine Schnittstelle 2 zur Verbindung mit einem Telefonnetz 3, wie etwa einem öffentlichen vermittelten Telefonnetz (PSTN, public switched telephone network). Schnittstelle 2 inkludiert vorzugsweise ein Modem (nicht gezeigt) oder andere Schnittstellenschaltungstechnik zum geeigneten Übertragen von Signalen, die durch Telefonsystem 1 generiert werden, und Empfangen von Signalen, die dazu übertragen werden. Schnittstelle 2 wird für einen Zugriff auf Internet 4 über einen Internet-Dienstanbieter (Internet service provider, ISP) 5 genutzt. Folglich kann Schnittstelle 2 Schaltungstechnik zum Konvertieren von Daten, wie etwa Sprach- und Videodaten, in paketvermittelte oder paketierte Signale zur Übertragung über Internet 4 inkludieren.
  • Telefonsystem 1 inkludiert vorzugsweise ferner eine oder mehr Einrichtungen zum Generieren von Sprachdatensignalen in Bezug auf die Sprache des PC-Benutzers für einen Transport über Internet 4 und zum Empfangen von Sprachdatensignalen von dort zur Präsentation für den PC-Benutzer. System 1 kann eine Soundkarte 8 mit einem ersten Port 8A zum Empfangen von Sprachdaten, die durch Mikrofon 9 generiert werden, und Schaltungstechnik zum geeigneten Konditionieren der empfangenen Sprachdaten für eine Internetübertragung inkludieren. Soundkarte 8 inkludiert ferner einen zweiten Port 8B zum Übertragen der konditionierten Sprachdatensignale für einen Transport über Internet 4 und zum Empfangen von VoIP-Signalen von dort. Es ist Schaltungstechnik zum Konditionieren der empfangenen VoIP-Signale in Soundkarte 8 zum Anwenden auf Lautsprecher 10 über Soundkartenport 8C inkludiert. Es wird verstanden, dass Soundkarte 8 eine PC-Plug-in-Einrichtung oder eine andere Hardware-/Firmware-Einrichtung, die mit einem PC in Verbindung steht, sein kann.
  • Wie oben fest gehalten ist es wünschenswert in der Lage zu sein, mit einem anderen Anrufer während Perioden von Sprachsignalverlust zu kommunizieren. Entsprechend inkludiert die vorliegende Erfindung eine Einrichtung zum selektiven Generieren von Textdaten aus einem empfangenen VoIP-Signal. In einer bevorzugten Ausführungsform der Erfindung ist die Textgenerierungseinrichtung eine Spracherkennungsengine 11. Spracherkennungsengine 11 ist vorzugsweise ein Objekt, das von Soundkarte 8 das Audiosignal empfängt, das durch Mikrofon 9 generiert wird, das Audiosignal unter Verwendung eines Grammatikdatenbankobjektes 12 verarbeitet und Textdaten entsprechend dem verarbeiteten Audiosignal generiert. Die generierten Textdaten sind dann für eine Übertragung mit dem Audiosignal für eine Übertragung über Internet 4 verfügbar. Wenn das übertragene Audio- und entsprechende Textsignal in dem empfangenden PC empfangen wird, werden das Audiosignal und die Textdaten entsprechend dazu dem Benutzer davon präsentiert. Durch Senden von sowohl Sprache als auch entsprechendem Text zu dem empfangenden Anrufer ist der sendende Anrufer in der Lage, mit ihm vollständig und klar zu kommunizieren.
  • Wie zuvor erwähnt empfängt und konditioniert Soundkarte 8 ein VoIP-Signal, das über Internet 4 übertragen wird, von einem anderen Anrufer und legt das VoIP-Signal an Lautsprecher 10 an. Damit ein Anrufer Textdaten wahrnehmen kann, die durch eine Sprachengine 11 in einem anderen PC generiert und dadurch über Internet 4 übertragen werden, inkludiert Telefonsystem 1 vorzugsweise eine Anwendung 13, die die Textdaten dem PC-Benutzer anzeigt. Anwendung 13 zeigt vorzugsweise die Textdaten im wesentlichen in Übereinstimmung mit der Anwendung ihres entsprechenden Audiosignals auf Lautsprecher 10 an. Als ein Beispiel zeigt Anwendung 13 die Textdaten als einen rollenden Text in einem Fenster innerhalb eines Browser-Rahmens an. Als ein Ergebnis ist der PC-Benutzer an dem empfangenden PC in der Lage, die Sprachnachricht, die durch den übertragenden PC generiert wird, sowohl zu hören als auch zu sehen. In dem Fall, dass die Sprachdaten zeitweilig verzerrt werden, ist der PC-Benutzer an dem empfangenden PC bezeichnenderweise noch in der Lage, die Sprachnachricht durch einfaches Lesen des Textes als den Text, der in dem empfangenden PC angezeigt wird, wahrzunehmen.
  • Zusätzlich zum Übermitteln von Sprache und sprachgeneriertem Text kann Telefonsystem 1 vorzugsweise ferner die Fähigkeit inkludieren, Video zwischen zwei oder mehr Anrufern über Internet 4 zu kommunizieren. Zu diesem Zweck kann Telefonsystem 1 eine Videoerfassungskarte 14 mit einem ersten Port 14A und einem entsprechenden Empfänger zum Empfangen von Videodaten von einer Videoquelle 7, wie etwa einer Videokamera, und einen zweiten Port 14B, der mit Schnittstelle 2 gekoppelt ist, inkludieren. Videodaten, die durch Videoquelle 7 erfasst werden, werden zu Videoerfassungskarte 14 übertragen und geeignet zum Senden über Internet 4 konditioniert. Soundkarte 8, Sprachengine 11 und Videoerfassungskarte 14 sind vorzugsweise synchronisiert, sodass Sprachsignale, sprachgenerierter Text und Videosignale dem Benutzer an dem empfangenden PC im wesentlichen gleichlaufend präsentiert werden.
  • Videoerfassungskarte 14 inkludiert vorzugsweise ferner einen Empfänger, der mit Port 14B gekoppelt ist, zum Empfangen von Videosignalen, die durch einen anderen PC über Internet 2 übertragen werden, Schaltungstechnik zum Konditionieren und/oder Extrahieren von Videodaten aus den empfangenen Videosignalen und einen dritten Port 14C zum Senden der konditionierten Videodaten zur Anwendung 13. Bei Empfang durch Anwendung 13 zeigt Anwendung 13 vorzugsweise dem PC-Benutzer das konditionierte Video entsprechend dem Videosignal und Bilder entsprechend dem sprachgenerierte Text gleichlaufend an. In einer bevorzugten Ausführungsform kann das angezeigte Video in einem Fenster 20 präsentiert werden und die sprachgenerierten Textbilder können in einem anderen Fenster 21 auf PC-Monitor 22 präsentiert werden, wie in 2 gezeigt. Diese Anordnung kann sich in Übereinstimmung mit einem Browser-Format befinden, das durch Anwendung 13 generiert wird. Alternativ können sowohl das angezeigte Video als auch die sprachgenerierten Textbilder in dem gleichen Fenster auf Monitor 22 präsentiert werden. Ferner kann Anwendung 13 geschriebenen Text präsentieren, der von einem Benutzer des sendenden PC unter Verwendung der Tastatur des sendenden PC generiert wird. Der geschriebene Text kann in einem dritten Fenster 23 auf Monitor 22 präsentiert werden.
  • Die vorliegende Erfindung kann ferner eine Einrichtung inkludieren, die ein Textsignal von einem sendenden PC empfängt und entsprechend dazu hörbare Sprache generiert. Die Einrichtung umfasst vorzugsweise Sprachgenerierungsschaltungstechnik 15, die als ihre Eingabe Textdaten empfängt, wie etwa geschriebenen Text, und Audiosignale für eine Anwendung auf Lautsprecher 10 generiert. Auf diese Weise kann ein sprachbehindertes Individuum mit einem anderen PC-Benutzer durch Schreiben von Text in die PC-Tastatur des Individuums mündlich kommunizieren.
  • Der Betrieb der vorliegenden Erfindung beim Übertragen von Information zu einem anderen PC wird nun mit Bezug auf 3 beschrieben. Als Reaktion auf den PC-Benutzer, der in Mikrofon 9 spricht, wird ein Sprachsignal generiert, das durch Soundkarte 8 in Schritt 30 empfangen wird. Videokamera 7 generiert ein Videosignal, das durch Videoerfassungskarte 14 in Schritt 31 empfangen wird. Das Videosignal wird im wesentlichen gleichzeitig mit dem generierten Sprachsignal generiert, derart, dass Soundkarte 8 das Sprachsignal in im wesentlichen dem gleichen Zeitpunkt empfängt, wie Videoerfassungskarte 14 das Videosignal empfängt. Als Nächstes verarbeitet Sprachengine 11 die Sprachdaten in Schritt 32, um Sprachmuster darin zu erkennen. Sprachengine 11 nutzt Grammatikdatenbankobjekt 12 in Schritt 33, um Textdaten entsprechend den erkannten Sprachmustern zu entwickeln. Danach generieren Soundkarte 8, Videoerfassungskarte 14 und Schnittstelle 2 ein IP-basiertes Signal in Schritt 34 unter Verwendung der empfangenen Sprach- und Videosignale ebenso wie der generierten Textdaten. Anschließend zu seiner Erzeugung wird das IP-basierte Signal in Schritt 35 für einen Transport über Internet 4 zu einem empfangenden PC übertragen.
  • Der Betrieb der vorliegenden Erfindung beim Empfangen von einem anderen PC wird nun mit Bezug auf 4 beschrieben. Anfangs empfängt Telefonsystem 1 ein IP-basiertes Signal von einem anderen PC (dem sendenden PC) in Schritt 40. Als Nächstes extrahieren Schnittstelle 2, Soundkarte 8 und Videoerfassungskarte 14 das Sprachsignal, Videosignale und sprachgenerierte Textdaten von dem empfangenen IP-basierten Signal (Schritt 41). Danach wird eine Serie von drei Operationen im wesentlichen gleichzeitig ausgeführt. Das extrahierte Sprachsignal wird in Schritt 42 an Lautsprecher 10 angelegt, um basierend auf hörbare Signale zu generieren. Die Videodaten und die sprachgenerierten Textdaten werden konditioniert und dem PC-Benutzer (dem Benutzer an dem empfangenden PC) in Schritten 43 bzw. 44 angezeigt. In einer bevorzugten Ausführungsform werden die Videodaten in einem Browser-Fenster angezeigt und die Textdaten werden in einem zweiten Browser-Fenster angezeigt (2). Alternativ werden die Video- und Textdaten in dem gleichen Browser-Fenster angezeigt. Die Textdaten werden vorzugsweise als rollender Text angezeigt; alternativ können die Textdaten aber in anderen Formen angezeigt und aktualisiert werden.
  • Aus der so beschriebenen Erfindung wird offensichtlich, dass selbige auf vielen Wegen variiert werden kann.

Claims (29)

  1. Verfahren zum Kommunizieren in einem Telefonsystem (1), die Schritte inkludierend: Empfangen von ersten Sprachdaten von einer Audioquelle (9); gekennzeichnet durch selektives Generieren eines ersten Sprachtextes aus den ersten Sprachdaten; und Konvertieren der ersten Sprachdaten und des selektiv generierten ersten Sprachtextes in ein erstes paketiertes Signal; und Übertragen des ersten paketierten Signals über ein paketvermitteltes Netz (4).
  2. Verfahren nach Anspruch 1, ferner die Schritte umfassend: Empfangen eines zweiten paketierten Signals; Extrahieren eines zweiten Sprachtextes aus dem zweiten paketierten Signal; und Anzeigen des zweiten Sprachtextes.
  3. Verfahren nach Anspruch 2, ferner die Schritte umfassend: Generieren eines hörbaren Signals aus dem zweiten paketierten Signal während des Anzeigeschrittes.
  4. Verfahren nach Anspruch 3, wobei der Schritt zum Generieren eines hörbaren Signals die Schritte umfasst: Extrahieren von zweiten Sprachdaten aus dem zweiten paketierten Signal; und Anlegen der zweiten Sprachdaten an einen Lautsprecher.
  5. Verfahren nach Anspruch 2, wobei das zweite paketierte Signal ein Sprache-über-IP-(VoIP-)Signal ist.
  6. Verfahren nach Anspruch 2, wobei der Anzeigeschritt den Schritt zum Anzeigen des zweiten Sprachtextes auf einem Monitor (22) umfasst.
  7. Verfahren nach Anspruch 2, ferner die Schritte umfassend: Extrahieren von zweiten Videodaten aus dem zweiten paketierten Signal; und Anzeigen der zweiten Videodaten mit dem zweiten Sprachtext während des Schrittes zum Anzeigen.
  8. Verfahren nach Anspruch 2, ferner die Schritte umfassend: Generieren von zweiten Sprachdaten aus dem zweiten Sprachtext; und Anlegen der zweiten Sprachdaten an einen Lautsprecher (10) während des Schrittes zum Anzeigen des zweiten Sprachtextes.
  9. Verfahren nach Anspruch 1, wobei der Schritt zum selektiven Generieren des ersten Sprachtextes ferner die Schritte umfasst: Verarbeiten der ersten Sprachdaten; Anwenden einer Wortliste (12) auf die verarbeiteten ersten Sprachdaten; und Erstellen des ersten Sprachtextes reagierend auf den Schritt zum Anwenden der Wortliste (12).
  10. Verfahren nach Anspruch 1, wobei der Schritt zum Generieren des ersten Sprachtextes ferner den Schritt umfasst: Erkennen von einem oder mehr Sprachmustern innerhalb der ersten Sprachdaten.
  11. Verfahren nach Anspruch 1, ferner den Schritt umfassend: Empfangen von ersten Videodaten von einer Videoquelle (7), wobei der Konvertierungsschritt die ersten Sprachdaten, die ersten Videodaten und den ersten Sprachtext in das erste paketierte Signal konvertiert.
  12. Telefonsystem (1), inkludierend einen ersten Empfänger zum Empfangen eines ersten Sprachsignals von einer Audioquelle (9), gekennzeichnet durch: eine Spracherkennungseinrichtung, in Kommunikation mit dem ersten Empfänger, zum selektiven Generieren eines ersten Sprachtextsignals basierend auf dem ersten Sprachsignal; eine Schnittstelle, gekoppelt mit der Spracherkennungseinrichtung, zum Konvertieren des ersten Sprachsignals und des selektiv generierten ersten Sprachtextsignals in ein erstes paketiertes Signal; und einen Sender, in Kommunikation mit der Schnittstelle, zum Übertragen des ersten paketierten Signals über ein paketvermitteltes Netz (4).
  13. Telefonsystem (1) nach Anspruch 12, ferner umfassend: einen zweiten Empfänger zum Empfangen eines zweiten paketierten Signals; und Schaltungstechnik zum Extrahieren eines zweiten Sprachtextsignals aus dem zweiten paketierten Signal zur Anzeige auf einem Monitor (22).
  14. Telefonsystem (1) nach Anspruch 13, wobei die Schaltungstechnik angepasst ist, ein Audiosignal aus dem zweiten paketierten Signal für eine Anwendung auf einen Lautsprecher (10) zu extrahieren.
  15. Telefonsystem (1) nach Anspruch 13, wobei das zweite paketierte Signal ein Sprache-über-IP-(VoIP-)Signal ist.
  16. Telefonsystem (1) nach Anspruch 13, wobei die Schaltungstechnik arbeitet, um ein Videosignal aus dem zweiten paketierten Signal zu extrahieren.
  17. Telefonsystem (1) nach Anspruch 13, ferner umfassend: eine Textanwendung (13) zum Präsentieren von Text, der mit dem zweiten Sprachtextsignal in Verbindung steht, auf dem Monitor.
  18. Telefonsystem (1) nach Anspruch 17, wobei: die Schaltungstechnik angepasst ist, ein Videosignal aus dem zweiten paketierten Signal zu extrahieren; und die Textanwendung (13) angepasst ist, ein Video, das mit dem extrahierten Videosignale in Verbindung steht, auf dem Monitor (22) gleichlaufend mit dem darauf präsentierten zugehörigen Text zu präsentieren.
  19. Telefonsystem (1) nach Anspruch 12, wobei die Spracherkennungseinrichtung eine Sprachengine (11) und ein Sprachobjekt (12), dadurch zugreifbar, umfasst.
  20. Telefonsystem (1) nach Anspruch 12, ferner umfassend: einen zweiten Empfänger zum Empfangen eines zweiten paketierten Signals; Schaltungstechnik zum Extrahieren eines zweiten Sprachtextsignals aus dem zweiten paketierten Signal; eine Sprachgenerierungseinrichtung zum Generieren eines Sprachsignals aus dem zweiten Sprachtextsignal; und einen Lautsprecher, der mit der Sprachgenerierungseinrichtung operativ gekoppelt ist, zum Erzeugen eines hörbaren Signals aus dem Sprachsignal.
  21. IP-basiertes Telefonsystem (1), inkludierend einen ersten Empfänger zum Empfangen eines Audiosignals von einer Audioquelle (9); erste Schaltungstechnik zum Generieren eines ersten paketvermittelten Signals aus dem Audiosignal, das durch den ersten Empfänger empfangen wird; einen Sender zum Übertragen des ersten paketvermittelten Signals; gekennzeichnet durch: einen zweiten Empfänger zum Empfangen eines zweiten paketvermittelten Signals mit einem Audiotextsignal darin; und eine Textanwendung (13) zum Anzeigen einer Vielzahl von Textbildern entsprechend dem Audiotextsignal.
  22. IP-basiertes Telefonsystem (1) nach Anspruch 21, worin das zweite paketvermittelte Signal ein zweites Audiosignal inkludiert, wobei das IP-basierte Telefonsystem (1) ferner einen Lautsprecher (10) und Schaltungstechnik zum Übertragen des zweiten Audiosignals zu dem Lautsprecher (10) umfasst.
  23. IP-basiertes Telefonsystem (1) nach Anspruch 21, wobei das zweite paketvermittelte Signal Videodaten inkludiert, die Textanwendung (13) angepasst ist, einem Systembenutzer die Videodaten und das Audiotextsignal gleichlaufend anzuzeigen.
  24. IP-basiertes Telefonsystem (1) nach Anspruch 21, ferner umfassend: eine Spracherkennungseinrichtung (11), in Kommunikation mit dem ersten Empfänger, zum Generieren von Textdaten aus dem Audiosignal, wobei das erste paketvermittelte Signal das Audiosignal und die Textdaten umfasst.
  25. IP-basiertes Telefonsystem (1) nach Anspruch 21, ferner umfassend: einen dritten Empfänger, in Kommunikation mit der ersten Schaltungstechnik, zum Empfangen von Videodaten von einer Videoeinrichtung, wobei das erste paketvermittelte Signal das Audiosignal und die Videodaten, die durch die Videoeinrichtung generiert werden, umfasst.
  26. Verfahren zum Kommunizieren über das Internet, die Schritte umfassend: Empfangen eines Audiosignals von einer Audioquelle (9); Generieren eines ersten IP-basierten Signals aus dem empfangenen Audiosignal; Übertragen des ersten IP-basierten Signals; gekennzeichnet durch: Empfangen eines zweiten IP-basierten Signals mit einem Audiotextsignal darin; und Anzeigen von Textbildern entsprechend dem Audiotextsignal.
  27. Verfahren nach Anspruch 26, worin das zweite IP-basierte Signal ferner ein zweites Audiosignal umfasst, wobei das Verfahren ferner den Schritt umfasst: Übertragen des zweiten Audiosignals zu einem Lautsprecher (10).
  28. Verfahren nach Anspruch 26, wobei das zweite IP-basierte Signal Videodaten inkludiert, und das Verfahren ferner den Schritt umfasst: Anzeigen der Videodaten und des Audiotextsignals entsprechend dem zweiten IP-basierten Signal.
  29. Verfahren nach Anspruch 26, ferner den Schritt umfassend: Generieren von Textdaten basierend auf dem Audiosignal, das von der Audioquelle (9) empfangen wird, wobei das erste IP-basierte Signal auf dem empfangenen Audiosignal und den generierten Textdaten basiert.
DE69923346T 1998-11-30 1999-11-29 Vorrichtung und verfahren zur ip kommunikation mit sprachgeneriertem text Expired - Lifetime DE69923346T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US200879 1998-11-30
US09/200,879 US6490550B1 (en) 1998-11-30 1998-11-30 System and method for IP-based communication transmitting speech and speech-generated text
PCT/US1999/028215 WO2000033552A1 (en) 1998-11-30 1999-11-29 System and method for ip-based communication having speech generated text

Publications (2)

Publication Number Publication Date
DE69923346D1 DE69923346D1 (de) 2005-02-24
DE69923346T2 true DE69923346T2 (de) 2005-06-09

Family

ID=22743589

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69923346T Expired - Lifetime DE69923346T2 (de) 1998-11-30 1999-11-29 Vorrichtung und verfahren zur ip kommunikation mit sprachgeneriertem text

Country Status (6)

Country Link
US (1) US6490550B1 (de)
EP (1) EP1135921B1 (de)
AU (1) AU1747200A (de)
DE (1) DE69923346T2 (de)
ES (1) ES2232188T3 (de)
WO (1) WO2000033552A1 (de)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6600734B1 (en) * 1998-12-17 2003-07-29 Symbol Technologies, Inc. Apparatus for interfacing a wireless local network and a wired voice telecommunications system
US6757732B1 (en) * 2000-03-16 2004-06-29 Nortel Networks Limited Text-based communications over a data network
US7117152B1 (en) 2000-06-23 2006-10-03 Cisco Technology, Inc. System and method for speech recognition assisted voice communications
US6915258B2 (en) * 2001-04-02 2005-07-05 Thanassis Vasilios Kontonassios Method and apparatus for displaying and manipulating account information using the human voice
US7369537B1 (en) 2001-07-18 2008-05-06 Global Ip Solutions, Inc. Adaptive Voice-over-Internet-Protocol (VoIP) testing and selecting transport including 3-way proxy, client-to-client, UDP, TCP, SSL, and recipient-connect methods
WO2004100164A1 (en) * 2003-04-18 2004-11-18 Unisay Sdn. Bhd. Voice script system
US20050266884A1 (en) * 2003-04-22 2005-12-01 Voice Genesis, Inc. Methods and systems for conducting remote communications
US8081621B1 (en) 2003-07-22 2011-12-20 Google Inc. Speaker-buffer management for voice-over-internet-protocol (VoIP) triggered by microphone-buffer arrival
US7519042B2 (en) * 2003-09-12 2009-04-14 Motorola, Inc. Apparatus and method for mixed-media call formatting
US7050553B2 (en) * 2003-11-20 2006-05-23 Lucent Technologies Inc. Communication device that provides enhanced services
US7406414B2 (en) * 2003-12-15 2008-07-29 International Business Machines Corporation Providing translations encoded within embedded digital information
US8977965B1 (en) 2005-08-19 2015-03-10 At&T Intellectual Property Ii, L.P. System and method for controlling presentations using a multimodal interface
US9116989B1 (en) 2005-08-19 2015-08-25 At&T Intellectual Property Ii, L.P. System and method for using speech for data searching during presentations
JP4994623B2 (ja) * 2005-08-31 2012-08-08 富士通株式会社 テキスト編集・再生装置、コンテンツ編集・再生装置及びテキスト編集・再生方法
US9026915B1 (en) 2005-10-31 2015-05-05 At&T Intellectual Property Ii, L.P. System and method for creating a presentation using natural language
US20070121606A1 (en) * 2005-11-03 2007-05-31 Fun Racquets, Inc. VOIP Hub Using Existing Audio or Video Systems
DE102005061394A1 (de) * 2005-12-22 2007-06-28 Robert Bosch Gmbh Fehlertolerantes Prozessorsystem
US9973546B1 (en) * 2006-03-20 2018-05-15 8X8, Inc. Dialing approach and implementations therefor
US9213776B1 (en) 2009-07-17 2015-12-15 Open Invention Network, Llc Method and system for searching network resources to locate content
US9786268B1 (en) 2010-06-14 2017-10-10 Open Invention Network Llc Media files in voice-based social media
US11170757B2 (en) * 2016-09-30 2021-11-09 T-Mobile Usa, Inc. Systems and methods for improved call handling
US10147415B2 (en) 2017-02-02 2018-12-04 Microsoft Technology Licensing, Llc Artificially generated speech for a communication session
US10496363B2 (en) * 2017-06-16 2019-12-03 T-Mobile Usa, Inc. Voice user interface for data access control
US10334415B2 (en) * 2017-06-16 2019-06-25 T-Mobile Usa, Inc. Voice user interface for device and component control

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58101365A (ja) * 1981-12-14 1983-06-16 Hitachi Ltd 機械翻訳システム
US5677739A (en) * 1995-03-02 1997-10-14 National Captioning Institute System and method for providing described television services
US5724410A (en) * 1995-12-18 1998-03-03 Sony Corporation Two-way voice messaging terminal having a speech to text converter
US5777997A (en) * 1996-03-07 1998-07-07 Hughes Electronics Corporation Method and system for transmitting audio-associated text information in a multiplexed transmission stream
AU2935297A (en) 1996-05-07 1997-11-26 Webline Communications Corporation Method and apparatus for coordinating internet multi-media content with telephone and audio communications
US5956482A (en) 1996-05-15 1999-09-21 At&T Corp Multimedia information service access
JPH1074204A (ja) * 1996-06-28 1998-03-17 Toshiba Corp 機械翻訳方法及び原文・訳文表示方法
US5732216A (en) * 1996-10-02 1998-03-24 Internet Angles, Inc. Audio message exchange system
JP3121548B2 (ja) * 1996-10-15 2001-01-09 インターナショナル・ビジネス・マシーンズ・コーポレ−ション 機械翻訳方法及び装置
US6282511B1 (en) 1996-12-04 2001-08-28 At&T Voiced interface with hyperlinked information
JP3402100B2 (ja) * 1996-12-27 2003-04-28 カシオ計算機株式会社 音声制御ホスト装置
JP3198969B2 (ja) * 1997-03-28 2001-08-13 日本電気株式会社 デジタル音声無線伝送システム、デジタル音声無線送信装置およびデジタル音声無線受信再生装置
US5987405A (en) * 1997-06-24 1999-11-16 International Business Machines Corporation Speech compression by speech recognition
US6144991A (en) * 1998-02-19 2000-11-07 Telcordia Technologies, Inc. System and method for managing interactions between users in a browser-based telecommunications network
US6151576A (en) * 1998-08-11 2000-11-21 Adobe Systems Incorporated Mixing digitized speech and text using reliability indices
US6141341A (en) * 1998-09-09 2000-10-31 Motorola, Inc. Voice over internet protocol telephone system and method

Also Published As

Publication number Publication date
DE69923346D1 (de) 2005-02-24
US6490550B1 (en) 2002-12-03
ES2232188T3 (es) 2005-05-16
EP1135921A1 (de) 2001-09-26
EP1135921B1 (de) 2005-01-19
AU1747200A (en) 2000-06-19
WO2000033552A1 (en) 2000-06-08

Similar Documents

Publication Publication Date Title
DE69923346T2 (de) Vorrichtung und verfahren zur ip kommunikation mit sprachgeneriertem text
US6100882A (en) Textual recording of contributions to audio conference using speech recognition
DE60223131T2 (de) Verfahren und vorrichtung zum codieren und decodieren von pauseninformationen
DE69839068T2 (de) System und Verfahren zur automatischen Verarbeitung von Anruf und Datenübertragung
DE69823817T2 (de) Prüfung von telekommunikationseinrichtungen
DE10065572A1 (de) System und Methode zum Registrieren und Suchen in mehreren Beziehungs-Such-Websites
EP2106121A1 (de) Untertitelerzeugungsverfahren zur Live-Programmierung
DE102018001572A1 (de) Automatische verzögerung der wiedergabe einer nachricht bei einer vorrichtung
DE102009035796B4 (de) Benachrichtigung über Audio-Ausfall bei einer Telekonferenzverbindung
EP1248251A2 (de) Verfahren und System zur automatischen Umsetzung von Textnachrichten in Sprachnachrichten
DE102008062300B3 (de) Verfahren und Vorrichtung zum intelligenten Zusammenstellen einer Multimedianachricht für ein Mobilfunksystem
DE60018349T2 (de) Erzeugung von einem Namenwörterbuch aus aufgezeichneten telephonischen Grüssen für die Spracherkennung
EP1062487B1 (de) Mikrophonanordnung für die spracherkennung unter variablen räumlichen bedingungen
EP1371264A1 (de) Verfahren und vorrichtung zum betrieb eines beschallungssystems
DE19842803A1 (de) Vorrichtung und Verfahren zur Generierung und Verbreitung von individuellen Multimediabotschaften
DE69816078T2 (de) Verbesserungen im bezug auf visuelle sprachsynthese
DE10017503A1 (de) Sprachbasiertes Verfahren zur Behandlung von Internet-Seiten in Mobilfunksystemen
DE10348149B4 (de) Verfahren zur Durchführung einer Telefonkonferenz
DE102005015083B4 (de) Verfahren und Vorrichtung zum Verhindern von Störungen aus Sprechgeräuschen beim Telefonieren
DE19845560A1 (de) Virtueller Gesprächspartner
DE19956572B4 (de) Verfahren zur Telekommunikation und Kommunikationsterminal
DE10056762B4 (de) Verfahren zum Erstellen elektronischer Nachrichten
DE19803081A1 (de) Verfahren zur Sprachübermittlung o. ä. und Geräte zur Durchführung des Verfahrens
WO2000004695A1 (de) Verfahren und einrichtung zum betreiben eines telekommunikations-endgerätes mit akustischer ausgabe von kenndaten
KR100347386B1 (ko) 데이터가 수반되는 온라인 상 회의 방법

Legal Events

Date Code Title Description
8364 No opposition during term of opposition