DE60224776T2

DE60224776T2 - Virtuelles Bildtelefon

Info

Publication number: DE60224776T2
Application number: DE60224776T
Authority: DE
Inventors: Yoshiyuki Suita-shi Osaka Mochizuki; Katsunori Neyagawa-shi Orimoto; Toshiki Hirakata-shi Osaka Hijiri; Naoki Osaka-shi Ohtani; Toshiya Nishinomiya-shi Hyogo Naka; Takeshi Yokohama-shi Kanagawa Yamamoto; Shigeo Ikeda-shi Osaka Asahara
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp
Priority date: 2001-12-20
Filing date: 2002-12-19
Publication date: 2009-01-22
Anticipated expiration: 2022-12-20
Also published as: EP1326445B1; US6909453B2; US20030117485A1; CN1326400C; EP1326445A3; EP1326445A2; CN1427626A; DE60224776D1

Description

HINTERGRUND DER ERFINDUNG
1. Gebiet der Erfindung
Die vorliegende Erfindung betrifft die virtuelle Fernsehtelefon-Kommunikation unter Verwendung einer Kommunikationsendgerätvorrichtung mit einem Anzeigegerät, damit ein Teilnehmer ein Gespräch in einer visuellen Umgebung über virtuelle dreidimensionale computergrafische Figuren (CG-Figuren) führen kann.
2. Beschreibung des Standes der Technik
Herkömmlich ist das, was als Fernsehtelefonvorrichtung bezeichnet wird, eine Vorrichtung zum Führen eines Gesprächs mit einem Partner über ein Telefongerät mit einer Kamera und einem Anzeigegerät, bei dem man das von der Kamera aufgenommene Bild des Gesichts des Partners sieht. Um die Übertragungsdatenmenge zu verringern, werden die Gesichtsbilddaten in der Regel komprimiert, mit den Sprachdaten gemultiplext und an einen Empfänger gesendet. Auf der Empfangsseite werden die gemultiplexten Daten in die Sprachdaten und die komprimierten Bilddaten geteilt, die Bilddaten werden dekomprimiert, und dann wird die Sprache ausgegeben und das Bild wird synchron mit der Sprache angezeigt. Vor kurzem ist ein Mobiltelefon mit der Bezeichnung „Videophone" für die Mobilkommunikation der nächsten Generation (IMT-2000) nach dem Bildkompressionsstandard MEPG-4 (Fachgruppe Bewegtbild, Phase 4) entwickelt worden (siehe Nikkei Electronics, 01.11.1999, Nr. 756, S. 99–117).
Um das vorgenannte gemultiplexte Bild zu senden, sind ein Kommunikationsstandard für Breitband über den Rahmen der herkömmlichen Sprachkommunikation hinaus und eine Infrastruktur zum Realisieren dieser Breitbandkommunikation erforderlich. Daher gibt es eine Erfindung, die eine Funktion ähnlich einem Fernsehtelefon nur über Sprachdatenkommunikation (siehe Japanische Offenlegungsschrift Nr. S62-274962 ) und nicht mit den vorgenannten Bildkompressionsverfahren künstlich realisieren will. Nach dieser Erfindung hält das Telefon vorher ein statisches Bild des Gesichts eines Partners, das zu einem Gesicht ohne Mund verarbeitet wird, sowie statische Bilder von Mündern, die zu Formen des Aussprechens von Vokallauten, wie etwa a, i und u im Japanischen, verarbeitet werden. Die Vokale, die in den von dem Partner gesendeten Sprachdaten enthalten sind, werden unter Verwendung einer Spracherkennungstechnologie analysiert, und die auf dem Analysenergebnis beruhenden Mundformdaten werden zu dem Gesichtsbild gemischt und immer dann angezeigt, wenn es erforderlich ist, um das Erscheinungsbild des Partners, der gerade spricht, anzuzeigen. Der Vorteil dieser Erfindung besteht darin, dass sie eine künstliche Fernsehtelefon- Kommunikation im Rahmen der normalen Sprachkommunikation realisieren kann. Es bestehen jedoch Zweifel daran, ob nicht der Teilnehmer ein Bild, das keine Bewegung, sondern einen Mund zeigt, für unnatürlich hält oder ob der Teilnehmer Lust haben kann, mit dem Partner zu sprechen.
Über den Rahmen der Sprachkommunikation hinaus gibt es eine weitere Erfindung, die eine Bild-Erkennungstechnologie verwendet, um die Datenmenge zu verringern, anstatt das Bild selbst zu senden (siehe Japanische Offenlegungsschrift Nr. H05-153581 ). Bei dieser Erfindung werden Gesichtsausdrücke und Mundformen unter Verwendung der Bild-Erkennungstechnologie erkannt, in Parameter umgewandelt und zusammen mit den Sprachdaten gesendet. Der Empfänger, der vorher das dreidimensionale Modell des Partners hält, wandelt das dreidimensionale Modell aufgrund der empfangenen Parameter um und zeigt es bei der Ausgabe der Sprache an.
Die drei vorgenannten Erfindungen dienen alle dazu, ein Gespräch mit einem Partner zu führen und dabei sein Gesicht zu sehen, und nicht dazu, mehr Vergnügen an dem Gespräch zu haben.
Diese Erfindungen betreffen die sogenannte Telefontechnologie. Die Verbreitung des Internets ermöglicht es uns, ein Gespräch über einen Personal Computer zu führen, auch wenn es hauptsächlich ein textgestütztes Gespräch ist. Es gibt eine Erfindung, bei der unter diesen Umständen ein Teilnehmer eine CG-Figur hat, die ihn als Teilnehmer in einem gemeinsamen virtuellen Raum darstellt, um ein Gespräch mit einer Figur zu führen, die einen anderen Teilnehmer in diesem Raum darstellt (siehe US-Patent Nr. 5.880.731 ). Das Ziel dieser Erfindung ist es, ein Gespräch mit einem Partner anonym zu führen und den Teilnehmer unabhängig von seiner eigenen Realität an dem Gespräch teilnehmen zu lassen, sodass er oft ein imaginäres Gespräch mit Fiktionen führt. Die CG-Figur, die den Teilnehmer darstellt, wird als Avatar bezeichnet, da sie für den Teilnehmer agiert, der die Figur wählt. Der Teilnehmer selbst wählt diesen Avatar, und sein Gesprächspartner kann die Figur des Avatars nicht ändern. Und da dieser Avatar nur dazu dient, dass die anderen Teilnehmer den Partner identifizieren können, muss er auch nicht geändert werden. Für die Realisierung dieser Erfindung wird außer den Endgerätrechnern der Teilnehmer (Client-Rechner) auch ein Server-Rechner zum Verwalten des gemeinsamen virtuellen Raums für die Teilnehmer und zum Steuern ihrer Zustände benötigt.
Eine Technologie zum Führen eines Gesprächs mit einer virtuellen CG-Figur wird beispielsweise von der Extempo Systems Inc. auf ihrer Internet-Webseite beschrieben. Sie betrifft ein textgestütztes Gespräch mit Fach-Figuren im Internet, keine Sprachkommunikation.
In technischer Hinsicht will diese Erfindung ein Gespräch zwischen einer CG-Figur und einer Person dadurch herstellen, dass ein Konversationswörterbuch, das vorher in Schlüsselwörter unterteilt wird, erstellt wird, die Übereinstimmung zwischen dem Gesprächsinhalt des Partners und den unterteilten Schlüsselwörtern analysiert wird und der am besten passende Gesprächssatz angezeigt wird. Das Gespräch an sich wird wegen des guten Vermögens des Menschen, ein Gespräch zu verstehen, auch mit einem mehrdeutigen Satz hergestellt, aber die wiederholte Anzeige des gleichen Satzes wird während des Gesprächs schrittweise erhöht, da die Anzahl der registrierten Gesprächssätze begrenzt ist. Diese Erfindung ermöglicht eine neuartige Unterhaltung durch Führen eines Gesprächs mit einer virtuellen CG-Figur, aber ein solches Gespräch unterscheidet sich hinsichtlich Flexibilität, Vielfalt, Angemessenheit und Individualität stark von dem Gespräch mit einem echten Menschen. Das Ziel dieser Technologie ist die Art und Weise, sich dem Gesprächsvermögen eines echten Menschen zu nähern.
Der vorstehende Stand der Technik hat folgende Merkmale. Die ersten drei Erfindungen wurden auf die Forderung hin entwickelt, ein Gespräch zu führen und dabei das Gesicht des Partners zu sehen, und ihr Ziel war es, ein Gespräch zu führen und dabei den Ausdruck und das Erscheinungsbild des Partners zu ermitteln. Sie sind nicht dazu bestimmt, durch Bearbeiten des angezeigten Bilds und der Sprache durch eine Art eigene Aktion des Empfängers das Gespräch angenehmer machen, und die Technologie für diesen Zweck wird nicht beschrieben.
Der vierte Stand der Technik wurde entwickelt, um eine CG-Figur zu haben, die von einem Teilnehmer in einem gemeinsamen virtuellen Raum anonym gewählt wird, und um ein direktes und offenes Gespräch oder ein imaginäres und fiktives Gespräch aufgrund dieser Anonymität zu führen. Daher soll die CG-Figur des Gesprächspartners nur den Partner identifizieren und nicht dazu dienen, die Unterhaltung dadurch angenehmer zu machen, dass die CG-Figur und ihre Sprache irgendetwas tun. Der fünfte Stand der Technik hat einen Aspekt des Vergnügens an einem Gespräch mit einer virtuellen CG-Figur, die eine künstlich intelligente Gesprächsfunktion hat, aber ein solches Gespräch unterscheidet sich hinsichtlich Flexibilität, Angemessenheit und Individualität ziemlich stark von einem Gespräch mit einem echten Menschen.
Die Patentanmeldung JP 2001 087559 A beschreibt eine virtuelle Fernsehtelefonvorrichtung mit: einer Kommunikationseinheit, die so betreibbar ist, dass sie eine Sprachkommunikation durchführt; einer Figurenauswähleinheit, die so betreibbar ist, dass sie CG-Figurengestaltdaten für einen Teilnehmer und/oder einen Kommunikationspartner auswählt; einer Spracheingabeeinheit, die so betreibbar ist, dass sie die Sprache des Teilnehmers erfasst; einer Sprachausgabeeinheit, die so betreibbar ist, dass sie die Sprache des Kommunikationspartners ausgibt; einem Organismussensor, der so betreibbar ist, dass er Organismusdaten, wie etwa Pulsfrequenz oder Perspiration des Teilnehmers, misst; einer Emotionsmutmaßungseinheit, die so betreibbar ist, dass sie unter Verwendung eines Ergebnisses aus Organismusdaten von dem Organismussensor einen Emotionszustand des Teilnehmers mutmaßt; einer Bewegungssteuereinheit, die so betreibbar ist, dass sie eine Bewegung der CG-Figur des Teilnehmers aufgrund der Mutmaßung durch die Emotionsmutmaßungseinheit steuert; einer Bild-Erzeugungseinheit, die so betreibbar ist, dass sie ein Bild unter Verwendung der CG-Figurengestaltdaten und von Bewegungsdaten des Teilnehmers erzeugt, die aufgrund von von der Bewegungssteuereinheit erzeugten Steuerinformationen erzeugt werden; und einer Anzeigeeinheit, die so betreibbar ist, dass sie das Bild anzeigt, das von der Bild-Erzeugungseinheit erzeugt wird.
KURZE DARSTELLUNG DER ERFINDUNG
Um die vorgenannten Probleme zu lösen, ist es Ziel der vorliegenden Erfindung, ein Kommunikationsendgerät mit einer Anzeigefunktion zur Verfügung zu stellen, das einen Kommunikationspartner als virtuelle dreidimensionale CG-Figur anzeigt, die von einem Kommunikationsempfänger ausgewählt wird und es dem Empfänger ermöglicht, ein Gespräch mit der virtuellen dreidimensionalen CG-Figur unter Verwendung des Gesprächs mit dem Partner zu führen. Erfindungsgemäß kann ein neuartiges Kommunikationsendgerät mit einem amüsanteren Gespräch mit einem anderen Ansatz als den Funktionen „Sehen des Gesichts eines Kommunikationspartners oder Sehen eines visuellen Bilds, das dem Gesicht des Partners ähnlich ist" und „Agieren als virtuelle Figur" realisiert werden.
Ein weiteres Ziel der vorliegenden Erfindung ist es, eine Telefonvorrichtung mit einem Anzeigegerät zur Verfügung zu stellen, das ein Gespräch in einem virtuellen Raum ohne ein Gerät wie ein Server realisiert, der für den vorgenannten Stand der Technik verwendet wird.
Ein weiteres Ziel der vorliegenden Erfindung ist es, eine neuartige Telefonvorrichtung zur Verfügung zu stellen, bei der eine 3-D-CG-Figur Emotionen entsprechend dem Telefongespräch ausdrückt.
Um die vorgenannten Ziele zu erreichen, weist die erfindungsgemäße virtuelle Fernsehtelefonvorrichtung Folgendes auf: eine Kommunikationseinheit, die so betreibbar ist, dass sie eine Sprachkommunikation durchführt; eine Figurenauswähleinheit, die so betreibbar ist, dass sie CG-Figurengestaltdaten für einen Teilnehmer und/oder einen Kommunikationspartner auswählt; eine Spracheingabeeinheit, die so betreibbar ist, dass sie die Sprache des Teilnehmers erfasst; eine Sprachausgabeeinheit, die so betreibbar ist, dass sie die Sprache des Kommunikationspartners ausgibt; eine Sprachanalysiereinheit, die so betreibbar ist, dass sie Sprachdaten des Kommunikationspartners, die mit der Kommunikationseinheit empfangen werden, oder sowohl Sprachdaten des Kommunikationspartners als auch Sprachdaten des Teilnehmers analysiert; eine Emotionsmutmaßungseinheit, die so betreibbar ist, dass sie unter Verwendung eines Ergebnisses der Sprachanalyse mit der Sprachanalysiereinheit einen Emotionszustand des Kommunikationspartners oder Emotionszustände des Kommunikationspartners und des Teilnehmers mutmaßt; eine Bewegungssteuereinheit, die so betreibbar ist, dass sie eine Bewegung der CG-Figur aufgrund der Mutmaßung mit der Emotionsmutmaßungseinheit steuert; eine Bild-Erzeugungseinheit, die so betreibbar ist, dass sie ein Bild unter Verwendung der CG-Figurengestaltdaten und von Bewegungsdaten erzeugt, die aufgrund von von der Bewegungssteuereinheit erzeugten Steuerinformationen erzeugt werden; und eine Anzeigeeinheit, die so betreibbar ist, dass sie das Bild anzeigt, das von der Bild-Erzeugungseinheit erzeugt wird.
Bei der erfindungsgemäßen virtuellen Fernsehtelefonvorrichtung teilt die Emotionsmutmaßungseinheit der Bewegungssteuereinheit ein Ergebnis der Mutmaßung mit der Emotionsvermutungseinheit mit, und die Bewegungssteuereinheit erzeugt die Bewegungsdaten aufgrund der Mitteilung.
Die vorliegende Erfindung kann nicht nur als die vorstehende virtuelle Fernsehtelefonvorrichtung, sondern auch als virtuelles Fernsehtelefon-Kommunikationsverfahren mit Schritten, die von den in dieser virtuellen Fernsehtelefonvorrichtung enthaltenen Einheiten ausgeführt werden, oder als virtuelles Fernsehtelefonsystem, das diese Schritte verwendet, realisiert werden.
Außerdem kann die vorliegende Erfindung auch als Programm realisiert werden, das einen Computer das vorgenannte virtuelle Fernsehtelefon-Kommunikationsverfahren realisieren lässt, und das Programm kann über ein Aufzeichnungsmedium, wie etwa eine CD-ROM, und ein Übertragungsmedium, wie etwa ein Kommunikationsnetzwerk, verteilt werden.
Der Inhalt der Japanischen Offenlegungsschrift Nr. 2001-387424 , die am 20.12.2001 eingereicht wurde, gilt hiermit im Rahmen dieser Anmeldung vollumfänglich als geoffenbart.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
Diese und weitere Ziele, Vorzüge und Merkmale der Erfindung dürften aus der nachstehenden Beschreibung in Verbindung mit den beigefügten Zeichnungen hervorgehen, die spezielle Ausführungsformen der Erfindung zeigen. In den Zeichnungen sind:
1 ein Blockdiagramm, das den Aufbau einer virtuellen Fernsehtelefonvorrichtung nach einer ersten Ausführungsform der vorliegenden Erfindung zeigt;
2 ein Blockdiagramm, das den Aufbau einer virtuellen Fernsehtelefonvorrichtung nach einer zweiten Ausführungsform der vorliegenden Erfindung zeigt;
3 eine erläuternde Darstellung einer CG-Figurendaten-Verwaltungstabelle und eines CG-Figuren-Auswahlbildschirms nach der vorliegenden Erfindung;
4A eine erläuternde Darstellung einer Kommunikationspartner-Verwaltungstabelle, einer CG-Daten-Verwaltungstabelle und einer Sprach-/Musik-Verwaltungstabelle nach der vorliegenden Erfindung;
4B ein Ablaufdiagramm, das die erfindungsgemäße Einstelloperation zeigt;
5A eine erläuternde Darstellung einer Sprachintensitätsanalyse und einer Lippenbewegungsoperation nach der vorliegenden Erfindung;
5B eine erläuternde Darstellung einer Phonem-Analyse und einer Lippenbewegungsoperation nach der vorliegenden Erfindung;
6A eine erläuternde Darstellung des Übergangs von Ausdrücken nach der vorliegenden Erfindung;
6B eine erläuternde Darstellung des Übergangs von Körperbewegungen nach der vorliegenden Erfindung;
7 eine erläuternde Darstellung einer Pipeline-Verarbeitung und einer Anzeige nach der vorliegenden Erfindung;
die 8A und 8B schematische Darstellungen der vorliegenden Erfindung;
9 ein Ablaufdiagramm, das die Verarbeitungsschritte eines Emotionsmutmaßungsverfahrens zeigt, das ein Frequenzsignal verwendet;
10A eine Referenzdarstellung, die eine weitere Nutzungsweise für die erste und zweite Ausführungsform der vorliegenden Erfindung zeigt;
10B eine Referenzdarstellung, die eine weitere Nutzungsweise für die erste und zweite Ausführungsform der vorliegenden Erfindung zeigt;
11 ein Blockdiagramm, das eine Sensoreinheit zeigt, die in der erfindungsgemäßen virtuellen Fernsehtelefonvorrichtung zusätzlich verwendet wird;
12A eine Darstellung, die ein Beispiel dafür zeigt, wie ein Mobiltelefon mit verschiedenen Sensoreinheiten zur Emotionsmutmaßung verwendet wird; und
12B eine Referenzdarstellung, die ein Mobiltelefon mit verschiedenen Sensoreinheiten zur Emotionsmutmaßung zeigt.
BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
Erste Ausführungsform
Nachstehend wird eine virtuelle Fernsehtelefonvorrichtung nach der ersten Ausführungsform der vorliegenden Erfindung unter Bezugnahme auf die Zeichnungen erläutert.
1 zeigt den Aufbau der virtuellen Fernsehtelefonvorrichtung nach der ersten Ausführungsform der vorliegenden Erfindung. Die virtuelle Fernsehtelefonvorrichtung weist Folgendes auf: eine Kommunikationseinheit 1, eine Figurenhintergrundauswahl-Eingabeeinheit 2, eine Datenverwaltungseinheit 3, eine Sprach-/Musikauswahl-Eingabeeinheit 4, eine Sprach-/Musik-Verarbeitungseinheit 5, eine Sprach-/Musik-Umwandlungseinheit 6, eine Sprach-/Musik-Ausgabeeinheit 7, eine Spracheingabeeinheit 8, eine Sprachanalysiereinheit 9, eine Emotionsmutmaßungseinheit 10, eine Lippenbewegungs-Steuereinheit 11, eine Körperbewegungs-Steuereinheit 12, eine Gesichtsausdrucks-Steuereinheit 13, eine 3-D-Bild-Zeicheneinheit 14, eine Anzeige-Einheit 15; eine Bewegungs-/Ausdrucks-Eingabeeinheit 16, eine Aufnahmeortänderungs-Eingabeeinheit 17, eine Figurengestaltdaten-Speichereinheit 18, eine Figurenbewegungsdaten-Speichereinheit 19, eine Hintergrunddaten-Speichereinheit 20, eine Texturdaten-Speichereinheit 21 und eine Musikdaten-Speichereinheit 22.
Nachstehend wird die wie vorstehend gestaltete virtuelle Fernsehtelefonvorrichtung nach der ersten Ausführungsform der vorliegenden Erfindung näher erläutert. Die erste Ausführungsform der vorliegenden Erfindung wird in zwei Operationen unterteilt: Einstelloperation und Ankommender/abgehender-Ruf-Operation. Bevor diese Operationen nacheinander erläutert werden, werden die in den Geräten gespeicherten Daten und deren Verwaltung als gemeinsamer Gegenstand dieser Operationen erläutert.
Gespeicherte Daten und deren Verwaltung
In der Figurengestaltdaten-Speichereinheit 18 werden Formdaten einer CG-Figur und die entsprechenden Daumennageldaten (Bilddaten, die das Erscheinungsbild der CG-Figur zeigen) gespeichert und mit ihren Adressen verwaltet. Die Figurengestaltdaten umfassen Körperteile, wie etwa Kopf, obere Gliedmaßen, Rumpf, untere Gliedmaßen, und jeder Teil umfasst außerdem Unterteile, wie etwa Augen, Nase, Mund und Haare am Kopf und Hände, Unterarme und Oberarme an den oberen Gliedmaßen. Für eine noch detailliertere Figurengestalt umfassen die Unterteile weitere Unterteile, wie etwa Finger und Handteller an den Händen. Diese hierarchische Struktur zeigt die Struktur der Figurengestalt und wird allgemein als Ansichtszeichnung bezeichnet. Jeder Teil und Unterteil wird normalerweise durch einen Satz von Flächen dargestellt, der durch Polygonnäherung einer Objektfläche erhalten wird, was als Flächenmodell bezeichnet wird. Sie bestehen aus Daten in einem dreidimensionalen Raum, wie etwa Scheitelkoordinaten, normalen Vektor-Elementen an den Scheiteln (die für die Berechnung der Lichtquellenhelligkeit wichtig sind), Stroke-Daten, die durch Indexieren von Textur-Koordinaten erhalten werden (die für die Textur-Abbildung wichtig sind) und topologischen Daten, die die Verbindung zwischen diesen Daten darstellen (sie stellen beispielsweise ein Dreieck dar, dessen Spitzen Punkte 1, 2 und 3 sind, wenn die Spitzen-Indices in der Reihenfolge 1, 2 und 3 angegeben sind), und sie umfassen außerdem Attributdaten, wie etwa die Reflexionsraten jeder Oberfläche (Streureflexionsrate und Spiegelreflexionsrate), Umgebungslichtintensität und Objektfarbe. Wenn die Bekleidung der CG-Figur durch Texturabbildung dargestellt wird, wird die Adresse in der Texturdaten-Speichereinheit 21 für die zu verwendende Textur oder der entsprechende Identifikator in dem entsprechenden Teil in den Formdaten der CG-Figur angegeben.
In der Figurenbewegungsdaten-Speichereinheit 19 werden Bewegungsdaten des Körpers der CG-Figur und Körperbewegungsmusterdaten, das heißt, Übergangsgraph-Daten der Körperbewegung, Ausdrucksdaten und Ausdrucksmusterdaten sowie Lippenbewegungsdaten und Lippenbewegungsmusterdaten gespeichert und mit ihren Adressen verwaltet.
Wie es bei der CG-Figurenanimation üblich ist, sind die Körperbewegungsdaten Zeitreihendaten einer Parallelbewegungsstrecke, die die gesamte Körperbewegung entlang einer Route darstellt, die aus folgenden Elementen besteht: typische Punkte des Körpers im dreidimensionalen Raum; Drehwinkel entlang der drei Koordinatenachsen im dreidimensionalen Raum, der die Lage des gesamten Körpers darstellt, oder Drehwinkel entlang dem Vektor des Vektor-Elements, das die Mittelachse der Drehung darstellt; und Drehwinkel entlang den Koordinatenachsen des lokalen Koordinatensystems, der von jeder Verbindung definiert wird. Die CG-Figurengestaltdaten werden von dem Transformationssystem des lokalen Koordinatensystems an diesen Routenpositionen und Verbindungen transformiert, der Standort und die Richtung der CG-Figur und die Haltung des CG-Figurenkörpers zu jedem Zeitpunkt werden erzeugt, und aufgrunddessen wird eine Verarbeitung zu einer dreidimensionalen Zeichnung durchgeführt. Diese Operationen werden kontinuierlich ausgeführt, um die CG-Animation zu realisieren. Wenn die Technologie der Schlüsselrahmen-Animation verwendet wird, werden zur Durchführung der Interpolationsberechnung der Bewegungen während eines Zeitraums nicht die Körperbewegungsdaten aller Frames verwendet, sondern es werden die diskreten Zeitreihendaten verwendet. Daher sind die Körperbewegungsdaten in diesem Fall die diskreten Zeitreihendaten der vorgenannten Parallelbewegungsstrecke und des Winkels.
Die Körperbewegungsmusterdaten sind Endzustandsgraph-Daten, wie in 6B gezeigt, die aus der Beziehung zwischen einer Bewegung und einer anderen Bewegung, in die die Bewegung von dieser Bewegung übergehen kann, und Entitätsbewegungsinformationen (Bewegungs-ID, Datentyp, Adresse und Frame-Nummer der Körperbewegung jeder Entität und Wahrscheinlichkeit für jeden Übergang) bestehen. Beispielsweise zeigt 6B, dass ein Übergang von den Körperbewegungsdaten, die den Normalzustand darstellen, zu der Bewegung A, Bewegung C, Bewegung D oder Bewegung E möglich ist. Wenn im Normalzustand ein festgelegtes Ereignis auftritt, wird eine der Bewegungen A, C, D und E entsprechend der Wählverarbeitung aufgrund der in den Entitätsbewegungsinformationen angegebenen Übergangswahrscheinlichkeit ausgewählt, und die Entität der Bewegung wird mit der Adresse erfasst. Bei der vorliegenden Ausführungsform werden die Körperbewegungsmusterdaten nach Beginn des Gesprächs unter der Voraussetzung erläutert, dass der Übergang von einem Ereignis ausgelöst wird, das heißt, dem Ergebnis, das von der Emotionsmutmaßungseinheit 10 gemutmaßt wird, wie etwa ein normaler Zustand, lachender Zustand, weinender Zustand, wütender Zustand, besorgter Zustand und überzeugter Zustand, und dem Ergebnis, das von der Bewegungs-/Ausdrucks-Eingabeeinheit 16 eingegeben wird, aber die vorliegende Erfindung kann auch dann ausgeführt werden, wenn der Übergang von einem Ereignis, das durch ein komplizierteres Mutmaßungsergebnis aufgetreten ist, oder einer anderen Eingabe ausgelöst wird. Da die Körperbewegungen von der Struktur der Gestaltdaten (Knochenbau und hierarchische Struktur) abhängen (beispielsweise kann eine Bewegung eines sechsbeinigen Insekts nicht auf eine Bewegung eines zweibeinigen Menschen angewendet werden) und nicht immer alle Körperbewegungen für die Gestaltdaten verwendet werden können, werden die Körperbewegungen aufgrund der Entitätsbewegungsinformationen in nutzbare und nichtnutzbare Daten klassifiziert. Und wenn neue Körperbewegungsmusterdaten, die auf der oberen Hierarchie der vorgenannten Körperbewegungsmusterdaten bereitgestellt werden, die Adressen von Entitäten von einer Vielzahl von Körperbewegungsmusterdaten verwalten, können die vorgenannten Körperbewegungsmusterdaten in die neuen Körperbewegungsmusterdaten der höheren Ebene integriert werden. Beispielsweise ist es sehr effektiv, wenn das Körperbewegungsmuster wie ein Szenenwechsel geändert wird.
Die Ausdrucksdaten sind Daten zum Erzeugen von Gesichtsausdrücken der CG-Figur, wie in 6A gezeigt. Die Ausdrücke werden unter Verwendung eines üblichen Gesichtsanimationsverfahrens, wie etwa eines Verfahrens zum Ändern der Gestalt des Gesichts oder der Textur des Gesichts, erzeugt. Wenn die Gestalt des Gesichts geändert wird, sind die Zeitreihendaten der Bewegungsstrecken der Scheitelkoordinaten, die den Endpunkten, wie etwa Augenbraue, Auge und Mund, zum Erzeugen von Ausdrücken entsprechen, unter den Gesichtsgestaltdaten die Ausdrucksdaten. Diese Bewegungsstrecken können aufgrund eines Gesichtsmuskelmodells durch Simulation berechnet werden. Wenn sich die Scheitel für die Transformation über mehrere Transformationssysteme hinweg erstrecken, wird auch ein Hüllkurvenverfahren verwendet, um die Scheitel für jede Transformation zu gewichten, dann die gewichteten Scheitel in jedem Transformationssystem zu transformieren, um mehrere Scheitel zu berechnen, und um sie zu Koordinaten zu transformieren, deren Mittelwert unter Berücksichtigung der Gewichtung ermittelt wird. In 6A ist jede Emotion durch Ändern der Augenform, Nasengröße, Ohrenform, Gesichtsform usw. dargestellt. Und wenn die Textur geändert wird, umfassen die Ausdrucksdaten die Textur des Ausdrucks, wie etwa Lachen und Weinen, oder die Textur in dem Prozess des Umwandelns in diese Ausdrücke. Die Ausdrucksmusterdaten sind Übergangsgraphdaten dieser Ausdrucksdaten, wie bei den Übergangsgraphdaten der Körperbewegungsdaten, und enthalten einen Endzustandsgraphen, in dem bestimmte Ausdrucksdaten in andere Ausdrucksdaten und Entitätsausdrucksinformationen (Ausdrucks-ID, Datentyp, Adresse und Frame-Nummer aller Entitätsausdrucksinformationen und Wahrscheinlichkeit jedes Übergangs) übergehen können. 6A zeigt beispielsweise, dass das normale Gesicht für den Übergang in ein anderes Gesicht nicht umgangen werden kann, und der Ausdruck nach dem Übergang wird aufgrund der Übergangswahrscheinlichkeit der Entitätsausdrucksinformationen ausgewählt. Aufgrund des Datentyps der Entitätsausdrucksinformationen wird wie bei der Körperbewegung ermittelt, ob es sich um einen Ausdruck oder eine Textur handelt, und die verwendbare Gestalt wird ermittelt. Beispielsweise wird als Gestaltidentifikationszahl eine zwei- oder mehrstellige Zahl zugewiesen, wobei die erste Stelle des Datentyps zur Unterscheidung zwischen dem Ausdruck und der Textur verwendet wird. Eine Vielzahl von Ausdrucksmusterdaten kann zu einem einzigen Element zusammengefasst werden, indem die Ausdrucksmusterdaten wie bei dem Körperbewegungsmusterdaten an die obere Hierarchie der vorgenannten Ausdrucksmusterdaten gestellt werden.
Bei der vorliegenden Ausführungsform werden die Ausdrucksmusterdaten nach Beginn des Gesprächs unter der Voraussetzung erläutert, dass der Übergang von einem Ereignis ausgelöst wird, das heißt, dem Ergebnis, das von der Emotionsmutmaßungseinheit 10 gemutmaßt wird, wie etwa ein normaler Zustand, lachender Zustand, weinender Zustand, wütender Zustand, besorgter Zustand und überzeugter Zustand, und dem Ergebnis, das von der Bewegungs-/Ausdrucks-Eingabeeinheit 16 eingegeben wird, aber die vorliegende Erfindung kann auch dann ausgeführt werden, wenn der Übergang von einem Ereignis, das durch ein komplizierteres Mutmaßungsergebnis aufgetreten ist, oder eine andere Eingabe ausgelöst wird.
Für die Lippenbewegungsdaten wird wie bei den Ausdrucksdaten und den Ausdrucksmusterdaten ein Verfahren zum Ändern der Mundform oder der Textur verwendet. Die Lippenbewegungsdaten hängen von dem Inhalt der Sprachanalysenverarbeitung ab, und wenn die Lippenbewegung aufgrund des Ergebnisses der Sprachintensitätsanalyse, die später beschrieben wird, erzeugt wird, werden die Bewegungsdaten, die nur vom Umfang der Mundöffnung abhängen, gespeichert (siehe 5A). Wenn Phoneme analysiert werden können, wenn beispielsweise Vokale und der Laut „n" (die Aussprache von „n") analysiert werden können, werden die Gestaltänderungsdaten zum Erzeugen der Lippengestalt, die diesem Laut entspricht, und die Texturdaten der Lippen als Bewegungsdaten gespeichert (siehe 5B). Die Lippenmusterdaten stellen eine Gruppe von mehreren Typen der vorgenannten Lippenbewegungsdaten dar, unter anderem die Entitätslippen-Informationen (ID jeder Lippe, Datentyp, Adresse und Frame-Nummer der Lippenbewegung jedes Objekts). Der Lippen-ID jeder Entität ist ein Identifikator, der dem Grad der Sprachintensität entspricht, der beispielsweise aufgrund der Sprachintensität gesteuert wird, wie in 5A gezeigt. Diese Identifikatoren sind 0, 1 ... 3 für den Grad 0, 1 ... 3 oder 0 und 1 ... 5 für die Laute „n", „a" ... „o", die aufgrund des Phonems gesteuert werden, wie in 5B gezeigt. Ferner können Sprachintensitätsanalyse und Phonem-Analyse miteinander kombiniert werden. Es können Varianten des Lauts „a", beispielsweise „a" mit hoher Intensität und „a" mit niedriger Intensität, festgelegt werden. In diesem Fall wird der Lippen-ID als zweidimensionaler Identifikator definiert, und verschiedene in 5A gezeigte Grade für jeden in 5B gezeigten Laut folgen in vertikaler Richtung.
Die Hintergrunddaten-Speichereinheit 20 speichert und verwaltet die Adressen der Gestaltdaten oder die Bilder des Hintergrunds und die entsprechenden Daumennagelbilder als Hintergrunddaten zum Anzeigen der CG-Figur. Die Gestaltdaten des Hintergrunds sind wie bei den Gestaltdaten der CG-Figur ein Gegenstand, der der Hintergrund als Gestalt sein soll. Die Bilddaten des Hintergrunds sind beispielsweise Bilddaten des Himmels oder einer entfernten Landschaft und können in Kombination mit einem Hintergrund-Objekt verwendet werden. Wenn die Gestaltdaten des Hintergrund-Objekts durch Textur-Abbildung strukturiert werden, wird die Adresse der Textur in der Texturdaten-Speichereinheit 21 oder der ID des entsprechenden Identifikators angegeben.
Die Texturdaten-Speichereinheit 21 speichert und verwaltet – mit den Adressen – die Bilddaten der Textur der Bekleidung und dergleichen für die CG-Figur und die Bilddaten für die Textur-Abbildung des Hintergrund-Objekts, die verwendet werden, wenn die 3-D-Bild-Zeicheneinheit 14 die Textur-Abbildung durchführt.
Die Musikdaten-Speichereinheit 22 speichert und verwaltet Musikdaten mit Adressen. Die Musikdaten werden als Einsatzzeichen verwendet, indem Musik ertönen gelassen wird, wenn ein Anruf von einem Partner empfangen wird.
Die Datenverwaltungseinheit 3 verwaltet die gespeicherten Daten, speichert und verwaltet die Einstelldaten und teilt die Einstelldaten mit. Zunächst wird die Verwaltung von Daten erläutert, die in der Figurengestaltdaten-Speichereinheit 18, der Figurenbewegungsdaten-Speichereinheit 19, der Hintergrunddaten-Speichereinheit 20, der Texturdaten-Speichereinheit 21 und der Musikdaten-Speichereinheit 22 gespeichert werden. 3 ist eine der in der Datenverwaltungseinheit 3 gespeicherten Tabellen, und zwar die CG-Figurendaten-Verwaltungstabelle 3a. Die CG-Figurendaten bestehen aus: dem Namen der CG-Figur; der Adresse der Entität der CG-Figurengestaltdaten in der Figurengestaltdaten-Speichereinheit 18; der Adresse der Bekleidungstexturdaten vor dem Ändern der Bekleidungstextur in der Texturdaten-Speichereinheit 21; der oder den Adressen der Bekleidungstexturdaten nach dem Ändern, wenn die Textur der Bekleidung oder dergleichen, die in den CG-Figurengestaltdaten angegeben ist, aufgrund der Angaben des Teilnehmers geändert wird; den beiden Adressen der Ausdrucksmusterdaten, die vor und nach dem Beginn des Gesprächs in der Figurenbewegungsdaten-Speichereinheit 19 gespeichert werden; der Adresse des Lippenbewegungsmusters; und der Adresse des in der Figurengestaltdaten-Speichereinheit 18 gespeicherten Daumennagelbilds. Die CG-Figurendaten-Verwaltungstabelle 3a wird durch Einordnen dieser Namen und Adressen in eine Tabelle mit den Identifikatoren der CG-Figuren-IDs erhalten.
Es gibt noch drei weitere Typen von Tabellen, und zwar eine Hintergrunddaten-Verwaltungstabelle, eine Bewegungsmuster-Verwaltungstabelle und eine Sprach-/Musik-Verwaltungstabelle, das heißt, mit der CG-Figurendaten-Verwaltungstabelle 3a gibt es insgesamt vier Typen von Tabellen. Die Hintergrunddaten-Verwaltungstabelle wird durch Einordnen der Namen der Hintergrund-Objekte und der Bilddaten der entfernten Landschaft und ihrer Adressen in der Hintergrunddaten-Speichereinheit 20 in eine Tabelle mit den Identifikatoren der Hintergrund-IDs erhalten, die Bewegungsmuster-Verwaltungstabelle wird durch Einordnen der Namen der Körperbewegungsmusterdaten und ihrer Adressen in der Figurenbewegungsdaten-Speichereinheit 19 in eine Tabelle mit den Identifikatoren der Bewegungsmuster-IDs erhalten, und die Sprach-/Musik-Verwaltungstabelle wird durch Einordnen der Namen der Musikdaten und ihrer Adressen in der Musikdaten-Speichereinheit 22 in eine Tabelle mit den Identifikatoren der Musik-IDs erhalten.
Einstelloperation
Die Kommunikationseinheit 1 speichert eine Kommunikationspartner-Verwaltungstabelle 1a, die in 4A gezeigt ist. Die Kommunikationspartner-Verwaltungstabelle 1a ist eine Tabelle zum Verwalten der Kommunikationspartner mit den IDs, Telefonnummern, Namen und Anzeigemodi der Partner. Es gibt drei Arten von Anzeigemodi, und zwar einen Nichtanzeigemodus für eine normale Sprachkommunikation ohne Anzeige einer CG-Figur, einen Partneranzeigemodus für ein virtuelles Fernsehtelefon und einen Teilnehmer-/Partneranzeigemodus für ein virtuelles Fernsehtelefon mit Anzeige nicht nur des Partners, sondern auch des Teilnehmers selbst. Diese Modi werden mit den Identifikatoren verwaltet. Bei der vorliegenden Ausführungsform sind die Identifikatoren 0, 1 und 2 dem Nichtanzeigemodus, dem Partneranzeigemodus bzw. dem Teilnehmer-/Partneranzeigemodus zugeordnet. Man beachte, dass die Zahl „0" des Partner-ID in einer CG-Daten-Verwaltungstabelle als Angabe des Teilnehmers festgelegt wird. Da die vorliegende Ausführungsform auf der Telefonkommunikation beruht, erfolgt die folgende Erläuterung unter der Voraussetzung, dass die Kommunikation mit den Telefonnummern verwaltet wird. Sie kann jedoch auch mit den IP-Adressen aufgrund des TCP/IP oder mit den E-Mail-Adressen der Partner erfolgen, wenn die Kommunikation über das Internet durchgeführt wird. Da diese die Identifikatoren zum Festlegen der Kommunikationspartner sind, die in Abhängigkeit von der Kommunikationsinfrastruktur bestimmt werden, können alle Identifikatoren verwendet werden, die diese Bedingungen erfüllen.
Die CG-Daten-Verwaltungstabelle 3b in 4A ist eine Tabelle, die in der Datenverwaltungseinheit 3 zum Speichern und Verwalten der CG-Daten für den Kommunikationspartner gespeichert ist. Sie verwaltet Elemente, die den CG-Figuren-ID in der CG-Figurendaten-Verwaltungstabelle 3a, den Hintergrund-ID in der Hintergrunddaten-Verwaltungstabelle und den Körperbewegungsmuster-ID vor und nach dem Beginn des Gesprächs in der Bewegungsmuster-Verwaltungstabelle umfassen, die jeweils für den Kommunikationspartner festgelegt sind, mit dem Partner-ID.
Die in 4A gezeigte Sprach-/Musik-Verwaltungstabelle 3c ist ebenfalls eine in der Datenverwaltungseinheit 3 gespeicherte Tabelle zum Verwalten von Elementen, unter anderem des Sprachumwandlungswertparameters und des Musikdaten-ID für die Klingelmelodie, mit dem Partner-ID. Der Sprachumwandlungswertparameter wird in der Sprach-/Musik-Umwandlungseinheit 6 verwendet und ist ein Identifikator, der jedem Bandfilter zugewiesen wird, wenn Sprache von dem Bandfilter umgewandelt wird. Beispielsweise werden die Identifikatoren den Bandfiltern so zugewiesen, dass „0" keinem Filter zugewiesen wird, „1" einem Filter von 1 kHz oder weniger zugewiesen wird, „2" einem Filter von 1–5 kHz zugewiesen wird und „3" einem Filter von 5 kHz oder mehr zugewiesen wird. Da die Identifikatoren den Parametern zugewiesen werden, die für das Gespräch benötigt werden, hängen die Parameter nicht von dem Umwandlungsverfahren ab (auch wenn Sprache beispielsweise durch Tonhöhenumwandlung umgewandelt wird, brauchen nur Identifikatoren einer Gruppe von Parametern, die für die Umwandlung benötigt werden, zugewiesen zu werden). Man beachte, dass der Sprachumwandlungswertparameter ein Identifikator zum Bestimmen der Sprachtonhöhe ist und durch die Änderung der Einstellung des Teilnehmers die Wirkung eines Sprachwechslers hat. Die Musikdaten-ID ist ein Identifikator zum Bestimmen einer Klingelmelodie.
Die Einstelloperation wird nachstehend unter Bezugnahme auf 4B erläutert. Wenn ein Teilnehmer eine Einstellzustandsänderungs-Eingabeeinheit in der Figurenhintergrundauswahl-Eingabeeinheit 2 betätigt, wird der Datenverwaltungseinheit 3 mitgeteilt, dass der Zustand in einen einstellbaren Zustand wechselt. Die Datenverwaltungseinheit 3 liest den Inhalt der in der Kommunikationseinheit 1 gespeicherten Kommunikationspartner-Verwaltungstabelle 1a aus und sendet ihn an die 3-D-Bild-Zeicheneinheit 14 (S401). Aufgrund von vorgespeicherten Einstellbildschirmdaten erzeugt die 3-D-Bild-Zeicheneinheit 14 einen Einstellbildschirm, auf dem der Inhalt der Kommunikationspartner-Verwaltungstabelle 1a dargestellt wird, und sie zeigt den Einstellbildschirm an der Anzeige-Einheit 15 an. Die Figurenhintergrundauswahl-Eingabeeinheit 2 wählt einen Kommunikationspartner aus (S402) und gibt den Anzeigemodus entsprechend dem vorgenannten Identifikator für den Partner ein. Wenn eine „0" gewählt wird, die den Nichtanzeigemodus angibt (S403), wird die Einstellung beendet.
Wenn der Anzeigemodus „1" ist, um nur den Partner als CG-Figur anzuzeigen, oder "2" ist, um den Partner und den Teilnehmer als CG-Figuren anzuzeigen, wird der Kommunikationseinheit 1 und der 3-D-Bild-Zeicheneinheit 14 der gewählte Anzeigemodus über die Datenverwaltungseinheit 3 mitgeteilt. Die Kommunikationseinheit 1 gibt den gewählten Anzeigemodus in der Kommunikationspartner-Verwaltungstabelle 1a an und speichert ihn dort. Die 3-D-Bild-Zeicheneinheit 14 erzeugt nacheinander einen CG-Figuren-Auswahl-Einstellbildschirm, einen Bekleidungstextur-Einstellbildschirm und einen Körperbewegungsmuster-Einstellbildschirm, die vorgegeben sind, wie in 3 gezeigt, und zeigt sie an der Anzeige-Einheit 15 an. Auf dem Figurenauswahl-Bildschirm erscheinen die Bilder und Namen der in 3 gezeigten CG-Figuren aufgrund der Daumennagel-Adressen und der CG-Figuren-Namen, die in der CG-Daten-Verwaltungstabelle 3a angegeben sind. Der CG-Figuren-Auswahl-Einstellbildschirm, der Bekleidungstextur-Einstellbildschirm und der Körperbewegungsmuster-Einstellbildschirm werden nacheinander angezeigt. Die Voreinstellungen, die über die Figurenhintergrundauswahl-Eingabeeinheit 2 gewählt und eingegeben werden, und das Ergebnis der CG-Figuren für spezielle Kommunikationspartner und das Ergebnis der Körperbewegungsmuster, die auf dem CG-Figuren-Auswahl-Einstellbildschirm und dem Körperbewegungsmuster-Einstellbildschirm gewählt werden, werden in den entsprechenden Feldern der in der Datenverwaltungseinheit 3 gespeicherten CG-Daten-Verwaltungstabelle 3b als entsprechende IDs registriert. Die Auswahl auf dem Bekleidungstextur-Einstellbildschirm wird in den entsprechenden Feldern der in der Datenverwaltungseinheit 3 gespeicherten CG-Figurendaten-Verwaltungstabelle 3a registriert. Bei den Körperbewegungsmustern können zwei Arten von Mustern vor und nach dem Beginn des Gesprächs gewählt werden, und ihre Bezeichnungen, die in der Bewegungsmuster-Verwaltungstabelle angegeben sind, können auf dem Einstellbildschirm angezeigt werden. Diese Anzeige erleichtert es einem Teilnehmer, die Körperbewegung auszuwählen, da er das Bild in seinem Kopf abbilden kann. Zu diesen Bewegungsmustern gehören beispielsweise Mambo, Walzer, die Bewegung eines Moderators und die Bewegung einer beliebten TV-Persönlichkeit (S404).
Die Sprach-/Musikauswahl-Eingabeeinheit 4 legt in der gleichen Weise Sprachumwandlungsparameter und Musikdaten fest und gibt sie ein. Wenn ein Teilnehmer die von der Sprachauswahleinheit 4 festgelegte Einstellzustandsänderungs-Eingabeeinheit betätigt, wird der 3-D-Bild-Zeicheneinheit 14 die Änderung des Eingabemodus über die Kommunikationseinheit 1 und die Datenverwaltungseinheit 3 mitgeteilt. Die 3-D-Bild-Zeicheneinheit 14 erzeugt einen festgelegten Einstellbildschirm und zeigt ihn an der Anzeige-Einheit 15 an. Auf dem angezeigten Einstellbildschirm wählt der Teilnehmer die Sprachumwandlungsparameter und die Musikdaten und gibt sie über die Sprach-/Musikauswahl-Eingabeeinheit 4 ein. Das eingegebene Auswahl-Ergebnis wird in der in der Datenverwaltungseinheit 3 gespeicherten Sprach-/Musik-Verwaltungstabelle 3c registriert (S404).
Wenn der Partneranzeigemodus gewählt wird, geht der Prozess zur Hintergrund-Auswahleinstellung (S405). Wenn der Teilnehmer-/Partneranzeigemodus gewählt wird, wählt der Teilnehmer die CG-Figur, die Bekleidungstextur und das Bewegungsmuster für den Teilnehmer und gibt sie über die Figurenhintergrundauswahl-Eingabeeinheit 2 in der vorstehend beschriebenen Weise ein (S406), und der Prozess geht dann zu der Hintergrund-Auswahl.
Bei der Hintergrund-Auswahl wird ein vorgegebener Hintergrund-Einstellbildschirm angezeigt, und der Teilnehmer wählt den Hintergrund über die Figurenhintergrundauswahl-Eingabeeinheit 2 (S407). Das Auswahl-Ergebnis wird in der in der Datenverwaltungseinheit 3 gespeicherten CG-Daten-Verwaltungstabelle 3b gespeichert.
Wenn schließlich die vorgenannte CG-Figur und das Körperbewegungsmuster festgelegt werden, werden der Bewegungs-/Ausdrucks-Eingabeeinheit 16 die Adresse der festgelegten Ausdrucksdaten von den Ausdrucksmusterdaten und die Adresse der festgelegten Körperbewegungsdaten von den Körperbewegungsmusterdaten mitgeteilt. Die Bewegungs-/Ausdrucks-Eingabeeinheit 16 hält die mitgeteilten Adressen der Körperbewegungsdaten und der Ausdrucksdaten und verknüpft sie mit den in der Bewegungs-/Ausdrucks-Eingabeeinheit 16 vorgegebenen Eingabe-Schaltflächen. Wenn der Teilnehmer die Eingabe-Schaltfläche betätigt, wird der Datenverwaltungseinheit 3 die verknüpfte Adresse der Körperbewegungsdaten oder der Ausdrucksdaten mitgeteilt. Dann wird der Körperbewegungs-Steuereinheit 12 die Adresse der Körperbewegungsdaten mitgeteilt, und der Gesichtsausdrucks-Steuereinheit 13 wird die Adresse der Ausdrucksdaten mitgeteilt. Mehrere Eingabe-Schaltflächen bieten mehrere Adressen der Körperbewegungsdaten und Ausdrucksdaten an, die gespeichert werden sollen. Außerdem sind die Adressen vor und nach dem Beginn des Gesprächs und die Adressen der Ausdrucksdaten klar angegeben. Bei der vorliegenden Ausführungsform ist zwar die Schaltflächen-Eingabe beschrieben, aber es kann jede Eingabeeinheit verwendet werden, die die Adressen festlegen kann (wie etwa eine Tastatur und eine Maus). Somit kann der Teilnehmer nicht nur seine eigene Figur, sondern auch die Figur seines Kommunikationspartners auswählen. Das Teilnehmer-Endgerät hat alle Daten, die für eine virtuelle Fernsehtelefon-Kommunikation benötigt werden, und dadurch kann der Teilnehmer eine virtuelle Fernsehtelefon-Kommunikation auch dann durchführen, wenn der Partner die virtuelle Fernsehtelefonvorrichtung nicht verwendet.
Man beachte, dass die vorgenannte grafische Einstellung in der Regel in PCs verwendet wird und mit der vorhandenen Software-Technologie realisiert werden kann.
Ankommender/abgehender-Ruf-Operation
Wenn ein Teilnehmer eine Telefonnummer unter Verwendung der Kommunikationseinheit 1 eingibt, um einen Anruf zu tätigen, wird die Telefonnummer mit dem Inhalt des in der gespeicherten Kommunikationspartner-Verwaltungstabelle 1a registrierten Telefonnummernfelds verglichen, um den Partner-ID und den Anzeigemodus festzulegen. Da die Telefonnummer des Anrufers vor dem Beginn des Gesprächs angezeigt wird, wenn ein Anruf empfangen wird, wird die Telefonnummer mit dem Inhalt des in der Kommunikationspartner-Verwaltungstabelle 1a registrierten Telefonnummernfelds verglichen, um den ID des Anrufers (Partners) und den Anzeigemodus festzulegen. Es wird unterstellt, dass die Kommunikationseinheit 1 eine normale Funktion für Sprachkommunikation (eine sogenannte Breitband-Verarbeitung für ein Mobiltelefon und dergleichen) hat.
Wenn der Nichtanzeigemodus festgelegt wird, wird die normale Gesprächsverarbeitung durchgeführt. Insbesondere wenn die Sprachdaten von dem Anrufer gesendet werden, nachdem das Gespräch mit dem Anrufer angenommen worden ist, führt die Sprach-/Musik-Verarbeitungseinheit 5 die normale Sprachverarbeitung, wie etwa Decodieren, durch und sendet die Sprache über die Sprach-/Musik-Umwandlungseinheit 6 an die Sprach-/Musik-Ausgabeeinheit 6, um die Sprache auszugeben. Wenn der Teilnehmer seine eigene Sprache in die Spracheingabe-Einheit 8 eingibt, führt die Sprach-/Musik-Verarbeitungseinheit 5 die normale Sprachverarbeitung, wie etwa Komprimierung der Sprachdaten, durch und sendet die Sprache über die Kommunikationseinheit 1 an den Kommunikationspartner.
Nachstehend werden die Operationen des Partneranzeigemodus erläutert, bei dem nur der Partner als CG-Figur angezeigt wird. Es gibt zwei Arten von Operationen, und zwar vor und nach dem Beginn des Gesprächs, und die Kommunikationseinheit 1 teilt der Datenverwaltungseinheit 3 den Kommunikationsbeginn mit.
Da die Telefonnummer des Partners vor dem Gespräch beim Senden und Empfangen eines Anrufs angegeben werden kann, gibt die Kommunikationseinheit 1 den Partner-ID aus der Kommunikationspartner-Verwaltungstabelle 1a an und sendet den angegebenen ID an die Datenverwaltungseinheit 3. Die Datenverwaltungseinheit 3 gibt den CG-Figuren-ID, den Hintergrund-ID und die beiden Bewegungsmuster-IDs (IDs der Körperbewegungsmuster vor und nach dem Beginn des Gesprächs) an, die dem Partner-ID aus der gespeicherten CG-Daten-Verwaltungstabelle 3b entsprechen. Wenn es in der CG-Daten-Verwaltungstabelle 3b keinen ID gibt, der dem Partner-ID entspricht, gibt die Datenverwaltungseinheit 3 den voreingestellten CG-Figuren-ID und Hintergrund-ID und die beiden voreingestellten Bewegungsmuster-IDs (IDs der Körperbewegungsmuster vor und nach dem Beginn des Gesprächs) an. Die Datenverwaltungseinheit 3 gibt aufgrund des angegebenen CG-Figuren-ID die Adresse der CG-Figurengestaltdaten, die Adresse der Bekleidungstextur vor dem Ändern, die Adresse der Bekleidungstextur nach dem Ändern, die beiden Adressen der Ausdrucksmusterdaten vor und nach dem Beginn des Gesprächs und die Adresse des Lippenbewegungsmusters aus der CG-Figurendaten-Verwaltungstabelle 3a an. Die Datenverwaltungseinheit 3 gibt aufgrund des angegebenen Hintergrund-ID die Adresse der Hintergrunddaten aus der gespeicherten Hintergrunddaten-Verwaltungstabelle an. Die Datenverwaltungseinheit 3 gibt außerdem aufgrund der Bewegungsmuster-IDs (IDs der Körperbewegungsmuster vor und nach dem Beginn des Gesprächs) die beiden Adressen der Körperbewegungsmuster vor und nach dem Beginn des Gesprächs aus der gespeicherten Bewegungsmuster-Verwaltungstabelle an.
Die Datenverwaltungseinheit 3 teilt der 3-D-Bild-Zeicheneinheit 14 die angegebene Adresse der CG-Figurengestaltdaten, die Adressen der Bekleidungstextur vor und nach dem Ändern und die Adresse der Hintergrunddaten mit. Aufgrund der angegebenen Adressen der beiden Körperbewegungsmusterdaten vor und nach dem Beginn des Gesprächs, der Adressen der beiden Ausdrucksmusterdaten vor und nach dem Beginn des Gesprächs und der Adresse der Lippenbewegungsmusterdaten liest die Datenverwaltungseinheit 3 aus der Figurenbewegungsdaten-Speichereinheit 19 auch die beiden Körperbewegungsmusterdaten vor und nach dem Beginn des Gesprächs, die beiden Ausdrucksmusterdaten vor und nach dem Beginn des Gesprächs und die Lippenbewegungsmusterdaten aus und sendet sie an die Körperbewegungs-Steuereinheit 12, die Gesichtsausdrucks-Steuereinheit 13 bzw. die Lippenbewegungs-Steuereinheit 11.
Die Lippenbewegungs-Steuereinheit 11 wählt die Adresse der entsprechenden Lippenbewegungsdaten aus den Lippenbewegungsmusterdaten und teilt der 3-D-Bild-Zeicheneinheit 14 die Adresse und alle Frames der Reihe nach ab dem Frame Nr. 0 mit. Die Adresse der entsprechenden Lippenbewegungsdaten kann aus den Lippenbewegungsmusterdaten unter Verwendung von Zufallszahlen, der gleichen Wahrscheinlichkeit oder durch Gewichten der Lippenbewegungen ausgewählt werden. Diese Verarbeitung wird wiederholt, bis das Gespräch beginnt. Ein fester Übergang kann ohne Verwendung von Zufallszahlen vordefiniert werden, um der 3-D-Bild-Zeicheneinheit 14 die Adresse der Lippenbewegungsdaten und die Frame-Nummer entsprechend der Reihenfolge des Übergangs mitzuteilen. In diesem Fall sieht ein Teilnehmer die normalen Lippenbewegungen mehrfach. Beispielsweise kann die Lippenbewegung synchron mit dem Wort „Telefon" mehrfach angezeigt werden.
Die Körperbewegungs-Steuereinheit 12 teilt zunächst der 3-D-Bild-Zeicheneinheit 14 die Adresse der Körperbewegungsdaten, die dem normalen Zustand entsprechen, und alle Frames der Reihe nach ab dem Frame Nr. 0 aus den Körperbewegungsmusterdaten vor Beginn des Gesprächs mit, wie in 6B gezeigt. Nach dem Mitteilen aller Frames erzeugt sie eine Zufallszahl aufgrund jeder Übergangswahrscheinlichkeit, um die nächsten Körperbewegungsdaten auszuwählen, und sie teilt der 3-D-Bild-Zeicheneinheit 14 die Adresse der Körperbewegungsdaten nach dem Übergang und alle Frames ab Nr. 0 mit. Nach Beendigung der Mitteilung erzeugt sie eine Zufallszahl aufgrund jeder Übergangswahrscheinlichkeit, um den Übergang durchzuführen. Die Körperbewegungs-Steuereinheit 12 wiederholt diese Verarbeitung, bis das Gespräch beginnt. Ein fester Übergang kann ohne Verwendung einer Zufallszahl vordefiniert werden, um der 3-D-Bild-Zeicheneinheit 14 die Adresse der Körperbewegungsdaten und die Frame-Nummer entsprechend der Reihenfolge des Übergangs mitzuteilen. In diesem Fall sieht ein Teilnehmer die normalen Körperbewegungen mehrfach. Beispielsweise kann eine Körperbewegung, wie etwa „Abnehmen des Telefonhörers eines Telefons", mehrfach angezeigt werden.
Die Gesichtsausdrucks-Steuereinheit 13 teilt zunächst der 3-D-Bild-Zeicheneinheit 14 die Adresse der Ausdrucksdaten, die dem normalen Gesicht entsprechen, und alle Frames der Reihe nach ab dem Frame Nr. 0 aus den Ausdrucksmusterdaten vor Beginn des Gesprächs mit, wie in 6A gezeigt. Nach dem Mitteilen aller Frames erzeugt sie eine Zufallszahl aufgrund jeder Übergangswahrscheinlichkeit, um die nächsten Ausdrucksdaten auszuwählen, und sie teilt der 3-D-Bild-Zeicheneinheit 14 die Adresse der Ausdrucksdaten nach dem Übergang und alle Frames ab Nr. 0 mit. Nach Beendigung der Mitteilung erzeugt sie erneut eine Zufallszahl aufgrund jeder Übergangswahrscheinlichkeit, um den Übergang durchzuführen. Die Gesichtsausdrucks-Steuereinheit 13 wiederholt diese Verarbeitung, bis das Gespräch beginnt. Ein fester Übergang kann ohne Verwendung einer Zufallszahl für das Ausdrucksmuster vordefiniert werden, um der 3-D-Bild-Zeicheneinheit 14 die Adresse der Ausdrucksdaten und die Frame-Nummer entsprechend der Reihenfolge des Übergangs mitzuteilen. In diesem Fall sieht ein Teilnehmer den normalen Ausdruck mehrfach. Beispielsweise kann ein Ausdruck, wie etwa „ein normales Gesicht und ein besorgtes Gesicht", mehrfach angezeigt werden.
Nachstehend wird die grundlegende 3-D-Bild-Zeichenoperation in der 3-D-Bild-Zeicheneinheit 14 erläutert. Aufgrund der Adresse der CG-Figurengestaltdaten, der Adressen der Bekleidungstextur vor und nach dem Ändern und der Adresse der Hintergrunddaten, die von der Datenverwaltungseinheit 3 mitgeteilt werden, lädt die 3-D-Bild-Zeicheneinheit 14 die Gestaltdaten der zu zeichnenden CG-Figur aus der Figurengestaltdaten-Speichereinheit 18, die Bekleidungstexturdaten aus der Texturdaten-Speichereinheit 21 und die Hintergrunddaten aus der Hintergrunddaten-Speichereinheit 20. Dann empfängt die 3-D-Bild-Zeicheneinheit 14 die Adresse und die Frame-Nummer der Lippenbewegungsdaten, die von der Lippenbewegungs-Steuereinheit 11 mitgeteilt werden, die Adresse und die Frame-Nummer der Körperbewegungsdaten, die von der Körperbewegungs-Steuereinheit 12 mitgeteilt werden, und die Adresse und Frame-Nummer der Ausdrucksdaten, die von der Gesichtsausdrucks-Steuereinheit 13 mitgeteilt werden. Aufgrund der empfangenen Adressen der Lippenbewegungsdaten, der Körperbewegungsdaten und der Ausdrucksdaten lädt sie die Lippenbewegungsdaten, die Körperbewegungsdaten und die Ausdrucksdaten aus der Figurenbewegungsdaten-Speichereinheit 19. Die 3-D-Bild-Zeicheneinheit 14 lädt diese Daten nur am Beginn der Mitteilung, wenn die Adresse jeder Bewegung, die von der Lippenbewegungs-Steuereinheit 11, der Körperbewegungs-Steuereinheit 12 und der Gesichtsausdrucks-Steuereinheit 13 mitgeteilt wird, nicht aktualisiert wird. Da die Figur, die dem speziellen Kommunikationspartner entspricht, angezeigt wird, wenn ein Anruf empfangen wird, kann ein Teilnehmer nur dann problemlos ermitteln, wer anruft, wenn er die Figur sieht, die auf dem Bildschirm angezeigt wird.
Die Bewegungsdaten der Frame-Nummer, die von der Lippenbewegungs-Steuereinheit 11 mitgeteilt wird, werden aus den geladenen Lippenbewegungsdaten erzeugt. Wenn die Lippengestalt geändert wird, werden die Lippenbewegungsdaten durch Interpolation der Schlüsselbewegungsdaten in der gleichen Weise wie bei der üblichen Schlüssel-Frame-Animationstechnologie erzeugt, und bei der Textur wird die Lippenbewegung ebenfalls durch Interpolation der Schlüsseltextur erzeugt. Bei einer Gestalt-Änderung wird die Mundgestalt der CG-Figurengestaltdaten unter Verwendung der erzeugten Bewegungsdaten der Frame-Nummer geändert. Bei der Textur erfolgt das Abbilden auf den Mund unter Verwendung der üblichen Textur-Abbildungstechnologie. Dieses Abbilden wird bei der 3-D-Bild-Zeichenverarbeitung durchgeführt.
Für die Ausdrucksdaten werden die Bewegungsdaten der mitgeteilten Frame-Nummer erzeugt, und die Gesichtsgestalt wird bei einer Gestalt-Änderung in der gleichen Weise aufgrund dieser Bewegungsdaten geändert. Bei der Textur wird das Gesicht durch Textur-Abbildung gezeichnet. Diese Textur-Abbildung wird für die 3-D-Bild-Zeichenverarbeitung durchgeführt. Auch die Bewegungsdaten für die Körperbewegungsdaten der mitgeteilten Frame-Nummer werden durch Interpolation der Schlüssel-Körperbewegungsdaten erzeugt, und die vorgenannte Umwandlung wird an der CG-Figur aufgrund dieser Körperbewegungsdaten durchgeführt, um die Haltung und den Körperzustand der CG-Figur zu ermitteln.
Wenn dann die Hintergrunddaten, die Bekleidungstexturdaten und die Lippenbewegungsdaten Texturen sind und wenn die Ausdrucksdaten eine Textur darstellen, wird mit der üblichen 3-D-Bild-Zeichenverarbeitung unter Verwendung ihrer Texturen ein Bild erzeugt (die 3-D-Bild-Zeichenverarbeitung wird in der Reihenfolge Modellierungstransformation, Sichtbarkeitstransformation, Perspektiventransformation, Bildschirmtransformation und Pixelverarbeitung auf dem Bildschirm durchgeführt, während die Textur-Abbildung durchgeführt wird, wenn die Pixelverarbeitung auf dem Bildschirm durchgeführt wird). Für diese Verarbeitung werden zunächst die voreingestellten Kamera-Daten (Standort, Richtung und Bildwinkel der Kamera, die für die Sichtbarkeitstransformation und die Bildschirmtransformation benötigt werden) verwendet. Beispielsweise wird das Bild so eingestellt, dass die CG-Figur nach vorn zeigt, und der Körper wird in die Mitte des Bilds gesetzt. Um das Bild wie vorstehend einzustellen, wird der minimale rechteckige Festkörper, der die CG-Figur enthält, ermittelt, und der Bildwinkel wird so eingestellt, dass der Schwerpunkt des Festkörpers auf der optischen Achse entgegengesetzt zu der Richtung liegt, die der Vorderseite des Routenrichtungsvektors der CG-Figur entspricht, und jeder Scheitel auf dem Bildschirm angegeben ist.
Wenn die Aufnahmeortänderungs-Eingabeeinheit 17 die Kameradaten eingibt, diese Daten der 3-D-Bild-Zeicheneinheit 14 mitteilt und die 3-D-Bild-Zeichenverarbeitung aufgrund dieser Kameradaten durchführt, kann ein von einem anderen Aufnahmeort aus gesehenes Bild erzeugt werden. Außerdem werden die Kameradaten, die in der Aufnahmeortänderungs-Eingabeeinheit 17 voreingestellt sind, der 3-D-Bild-Zeicheneinheit 14 mitgeteilt, um den Aufnahmeort zu ändern.
Wenn ein Teilnehmer die vorgenannte Voreinstellungseingabe-Schaltfläche betätigt, teilt die Bewegungs-/Ausdrucks-Eingabeeinheit 16 der Körperbewegungs-Steuereinheit 12 und der Gesichtsausdrucks-Steuereinheit 13 die Adresse der Körperbewegungsdaten bzw. die Adresse der Ausdrucksdaten über die Datenverwaltungseinheit 3 mit. Wenn die Körperbewegungs-Steuereinheit 12 die Adresse der Körperbewegungsdaten empfängt, wählt sie normalerweise die nächsten Körperbewegungsdaten, wie vorstehend dargelegt, nachdem sie der 3-D-Bild-Zeicheneinheit 14 die letzte Frame-Nummer der aktuellen Körperbewegungsdaten mitgeteilt hat, und teilt der 3-D-Bild-Zeicheneinheit 14 die Adresse und die Frame-Nummer der Körperbewegungsdaten mit, die zwangsläufig von der Datenverwaltungseinheit 3 mitgeteilt wurden. Ebenso teilt die Gesichtsausdrucks-Steuereinheit 13, nachdem sie die aktuellen Ausdrucksdaten mitgeteilt hat, der 3-D-Bild-Zeicheneinheit 14 die Adresse und die Frame-Nummer der Ausdrucksdaten mit, die zwangsläufig von der Datenverwaltungseinheit 3 mitgeteilt wurden. Dadurch werden die Körperbewegungsdaten und die Ausdrucksdaten normalerweise automatisch für eine Animation ausgewählt, aber der Teilnehmer kann auch seine eigene gewählte Bewegung zwangsläufig anzeigen.
Das Bild, das in der vorstehend beschriebenen Weise erzeugt und durch 3-D-Bild-Zeichenverarbeitung verarbeitet wird, wird an die Anzeige-Einheit 15 gesendet und dort angezeigt.
Die 3-D-Bild-Zeicheneinheit 14 führt die 3-D-Bild-Zeichenverarbeitung normalerweise mit der Bildwiederholfrequenz der Anzeige-Einheit 15 durch. Die Adressen und die Frame-Nummern der Bewegungen werden während der 3-D-Bild-Zeichenverarbeitung von der Lippenbewegungs-Steuereinheit 11, der Körperbewegungs-Steuereinheit 12 und der Gesichtsausdrucks-Steuereinheit 13 mitgeteilt und als Daten festgelegt, die als nächste verwendet werden. Wenn die 3-D-Bild-Zeichenverarbeitung für das nächste Frame durchgeführt wird, werden diese Adresse und diese Frame-Nummer der einzelnen Bewegungsdaten verwendet. Die Mitteilungen von der Lippenbewegungs-Steuereinheit 11, der Körperbewegungs-Steuereinheit 12 und der Gesichtsausdrucks-Steuereinheit 13 werden synchron gesteuert.
Nachstehend werden die Musikdaten erläutert. Die Datenverwaltungseinheit 3 gibt den Wert der Sprachumwandlungswertparameter und den Musikdaten-ID, die dem Partner-ID entsprechen, laut der Sprach-/Musik-Verwaltungstabelle 3c an. Wenn es keinen Wert oder ID gibt, der dem Partner-ID in der Sprach-/Musik-Verwaltungstabelle 3c entspricht, gibt die Datenverwaltungseinheit 3 den voreingestellten Sprachumwandlungswertparameter und den voreingestellten Musikdaten-ID an. Sie ermittelt die Adresse der Musikdaten aus der Sprach-/Musik-Verwaltungstabelle aufgrund des Musikdaten-ID. Sie lädt die Musikdaten aufgrund der ermittelten Adresse der Musikdaten aus der Musikdaten-Speichereinheit 22 und sendet sie an die Sprach-/Musik-Verarbeitungseinheit 5. Die Sprach-/Musik-Verarbeitungseinheit 5 dekomprimiert die Musikdaten, wenn sie komprimiert sind, und führt eine Ton-Erzeugungsverarbeitung aus den gespeicherten Tonquellendaten, wie etwa MIDI-Daten, durch, wenn die Musikdaten codiert sind, und gibt dann die Musik von der Sprach-/Musik-Ausgabeeinheit 7 über die Sprach-/Musik-Umwandlungseinheit 6 aus. Wenn ein Anruf empfangen wird, wird eine Klingelmelodie, die mit der Figur des Kommunikationspartners verknüpft ist, von der Sprach-/Musik-Ausgabeeinheit 7 ausgegeben, um problemlos zu identifizieren, wer anruft.
Mit der vorstehenden Operation ist es möglich, die CG-Figur während des Einschaltens der Musik anzuzeigen, aber die Musik und die Bewegung der CG-Figur sind grundsätzlich nicht miteinander synchron (da sie miteinander synchronisiert werden können, wenn die Bewegungsdaten erzeugt werden, um vorher mit den Musikdaten synchronisiert zu werden, kann zumindest ihre Anfangsausgabe synchronisiert werden).
Nachstehend wird die Synchronisation einer Musik und einer CG-Figur erläutert. Daten, die Zeitverwaltungsdaten enthalten, die einem Zeitstempel entsprechen, der für Bilddaten verwendet wird, werden hier für die Musikdaten verwendet. Ein Audio nach MEPG-4 (Fachgruppe Bewegtbild, Phase 4) enthält Zeitstempel, und bei den MIDI-Daten kann der Zeitstempel durch die Deltazeit ersetzt werden, die durch Integrieren von Zeitinkrementdaten erhalten wird. Wenn die Musikdaten an die Sprach-/Musik-Ausgabeeinheit 7 gesendet werden, verwaltet die Sprach-/Musik-Verarbeitungseinheit 5 die Zeitstempel und sendet die Musikdaten unter Verwendung des Zeitstempels für die Ausgabe der nächsten Musik als zeitsynchrones Signal an die Lippenbewegungs-Steuereinheit 11, die Körperbewegungs-Steuereinheit 12 und die Gesichtsausdrucks-Steuereinheit 13. Es werden die Lippenbewegungsdaten, die Ausdrucksdaten und die Körperbewegungsdaten verwendet, die die Zeitstempel enthalten, die bei 0 beginnen. Die Zeitstempel werden vorher entsprechend der Musik zugewiesen. Die Lippenbewegungs-Steuereinheit 11, die Körperbewegungs-Steuereinheit 12 und die Gesichtsausdrucks-Steuereinheit 13 vergleichen diese gesendeten Zeitstempel mit den Zeitstempelnummern der Bewegungsdaten, die von ihr gesteuert werden, unter Verwendung des Umstands, dass die Summe aus der kumulativen Anzahl der Zeitstempel der Bewegungsdaten, die für das 3-D-Bild-Zeichnen verwendet worden sind, und der Anzahl der Zeitstempel, die in jeder Bewegung enthalten sind, den Zeitstempeln der Musik entspricht. Die Frame-Nummer und die Adresse der Bewegungsdaten, die als Ergebnis des Vergleichs mit den Musikdaten übereinstimmen, werden gleichzeitig an die 3-D-Bild-Zeicheneinheit 14 gesendet. Dadurch kann die Bewegung synchron mit den Musikdaten gesteuert werden.
Nachstehend werden die Operationen nach dem Beginn des Gesprächs erläutert. Die Kommunikationseinheit 1 ermittelt, dass die Kommunikation mit dem Partner begonnen hat. Bei einem normalen Telefongespräch wird quittiert, dass die Verbindung hergestellt worden ist, wenn der Partner durch Abheben des Telefonhörers ein Quittungszeichen sendet, wenn ein Teilnehmer anruft, und wenn der Teilnehmer durch Abheben des Telefonhörers ein Quittungszeichen sendet, wenn der Partner anruft. Es kann im Wesentlichen nach dem gleichen Mechanismus auch bei einer drahtlosen Kommunikation, wie etwa mit einem Mobiltelefon, oder bei einer Kommunikation, wie etwa über das Internet, quittiert werden, dass die Kommunikation begonnen hat. Die Kommunikationseinheit 1 teilt der Datenverwaltungseinheit 3 mit, dass die Verbindung hergestellt worden ist.
Wenn die Datenverwaltungseinheit 3 die Mitteilung empfängt, dass die Verbindung hergestellt worden ist, unterbricht sie die Übertragung der Musikdaten an die Sprach-/Musik-Verarbeitungseinheit 5 und teilt ihr den Gesprächsbeginn mit. Die Datenverwaltungseinheit 3 liest außerdem den Sprachumwandlungswertparameter aus der Sprach-/Musik-Verwaltungstabelle 3c und teilt ihn der Sprach-/Musik-Umwandlungseinheit 6 über die Sprach-/Musik-Verarbeitungseinheit 5 mit. Gleichzeitig teilt sie der Lippenbewegungs-Steuereinheit 11, der Körperbewegungs-Steuereinheit 12 und der Gesichtsausdrucks-Steuereinheit 13 mit, dass das Gespräch beginnen wird.
Wenn die Lippenbewegungs-Steuereinheit 11, die Körperbewegungs-Steuereinheit 12 und die Gesichtsausdrucks-Steuereinheit 13 die Mitteilung empfangen, unterbrechen sie die Übertragung an die 3-D-Bild-Zeicheneinheit 14. Die Lippenbewegungs-Steuereinheit 11 sendet an die 3-D-Bild-Zeicheneinheit 14 die Adresse und die Frame-Nummer der Lippenbewegungsdaten in dem Grad-0-Zustand, der in 5A gezeigt ist, an die 3-D-Bild-Zeicheneinheit 14, wenn die Sprachanalysiereinheit 9 nur die Sprachintensität analysiert, und die Adresse und die Frame-Nummer der Lippenbewegungsdaten in dem in 5B gezeigten Zustand des Aussprechens von „n", wenn die Sprachanalysiereinheit 9 nur das Phonem analysiert oder die Sprachintensität und das Phonem analysiert. Die Körperbewegungs-Steuereinheit 12 sendet die Adresse und die Frame-Nummer der Körperbewegungsdaten für den normalen Zustand der Körperbewegungsmusterdaten nach dem Beginn des Gesprächs an die 3-D-Bild-Zeicheneinheit 14. Die Gesichtsausdrucks-Steuereinheit 13 sendet die Adresse und die Frame-Nummer der Ausdrucksdaten für das normale Gesicht mit den Ausdrucksmusterdaten nach dem Beginn des Gesprächs an die 3-D-Bild-Zeicheneinheit 14. Wenn die 3-D-Bild-Zeicheneinheit 14 die Adressen und die Frame-Nummern der Bewegungsdaten empfängt, die von der Lippenbewegungs-Steuereinheit 11, der Körperbewegungs-Steuereinheit 12 und der Gesichtsausdrucks-Steuereinheit 13 gesendet werden, führt sie die 3-D-Bild-Zeichenverarbeitung in der vorstehenden beschriebenen Weise durch und sendet das erzeugte Bild an die Anzeige-Einheit 15, um es anzuzeigen.
Wenn die Sprach-/Musik-Verarbeitungseinheit 5 die Mitteilung des Gesprächsbeginns empfängt, führt sie die Sprachverarbeitung (wie etwa Decodieren der Sprachdaten und Rauschunterdrückung) entsprechend einem von der Kommunikationseinheit 1 gesendeten Kommunikationsmedium durch und sendet die verarbeiteten Daten an die Sprach-/Musik-Umwandlungseinheit 6 und die Sprachanalysiereinheit 9.
Die Sprach-/Musik-Umwandlungseinheit 5 wandelt die Sprache aufgrund der gesendeten Sprache oder des Wertparameters um (beispielsweise führt sie einer Filterung bei der vorgenannten Filterverarbeitung durch) und sendet sie an die Sprach-/Musik-Ausgabeeinheit 7. Daher wird die Sprache der Person, die über das Telefon spricht, in eine andere Sprache umgewandelt und ausgegeben.
Die Sprachanalysiereinheit 9 analysiert die Intensität oder das Phonem der gesendeten Sprachdaten oder beides. Die Sprachintensität wird so analysiert, dass der Absolutwert der Sprachdaten-Amplitude eine vorgegebene Zeit lang (wie etwa eine Anzeigeratenzeit) integriert wird (die Abtastwerte werden addiert), wie in 5A gezeigt, und die Größe des integrierten Werts aufgrund eines vorgegebenen Werts für diesen Zeitraum ermittelt wird. Das Phonem wird so analysiert, dass die Verarbeitung für die normale Spracherkennung durchgeführt wird und die Phoneme in „n", „a", „i", „u", „e" oder „o" klassifiziert werden oder der Anteil jedes Phonems ausgegeben wird. Im Grunde wird eine Dokumentvorlage, die durch Normalisieren der Sprachdaten der statistisch erfassten Phoneme „n", „a", „i", „u", „e" oder „o" erhalten wird, mit den eingegebenen Sprachdaten abgeglichen, die in Phoneme aufgelöst werden und normalisiert werden, die am besten passenden Daten werden ausgewählt, oder das Verhältnis der Übereinstimmungsgrade wird ausgegeben. Für den Übereinstimmungsgrad werden die Daten mit dem kleinsten Abstand gewählt, der mit einer entsprechenden vorgegebenen Abstandsfunktion (wie etwa Euklid-Abstand, Hilbert-Abstand und Maharanobis-Abstand) gemessen wird, oder der Wert wird als Verhältnis dadurch berechnet, dass jeder Abstand durch die Summe der gemessenen Abstände aller Phoneme „n", „a", „i", „u", „e" und „o" dividiert wird. Dieses Ergebnis der Sprachanalyse wird an die Emotionsmutmaßungseinheit 10 gesendet. Außerdem wird der Lippen-ID wie vorstehend aufgrund des Ergebnisses der Sprachanalyse ermittelt, und der ermittelte Lippen-ID wird an die Lippenbewegungs-Steuereinheit 11 gesendet.
Die Lippenbewegungs-Steuereinheit 11 ermittelt die Adresse der Lippenbewegungsdaten, die den Lippenbewegungsmusterdaten entsprechen, aufgrund des von der Sprachanalysiereinheit 9 gesendeten Lippen-ID und sendet die Adresse und die Frame-Nummer der Lippenbewegungsdaten an die 3-D-Bild-Zeicheneinheit 14.
Die Emotionsmutmaßungseinheit 10 speichert vorher das von der Sprachanalyse 9 gesendete Sprachanalyse-Ergebnis eine vorgegebene Zeit lang und mutmaßt den Emotionszustand der Person, die über das Telefon spricht, aufgrund des gespeicherten Ergebnisses. Die Emotionstypen werden beispielsweise in „normal", „lachend", „wütend", „weinend" und „besorgt" eingeteilt. Für den Sprachintensitätsgrad hält die Emotionsmutmaßungseinheit 10 die Gradmuster eine bestimmte Zeit lang als Dokumentvortagen für jede Emotion. Angenommen, der bestimmte Zeitraum entspricht einer dreimaligen Sprachanalyse, so zeigen die Dokumentvorlagen, dass „Grad 2, Grad 2, Grad 2" „normal" ist, „Grad 3, Grad 2, Grad 3" „lachend" ist, „Grad 3, Grad 3, Grad 3" „wütend" ist, „Grad 1, Grad 2, Grad 1" „weinend" ist und „Grad 0, Grad 1, Grad 0" „besorgt" ist. Für das gespeicherte Ergebnis der dreimaligen Analyse für diese Dokumentvorlagen wird die Summe der Absolutwerte der Graddifferenzen (Hilbert-Abstand) oder die Summe der Quadrate der Graddifferenzen (Euklid-Abstand) berechnet, sodass der am besten genäherte Emotionszustand als Emotionszustand zu diesem Zeitpunkt festgelegt wird. Oder der Emotionszustand wird mit einem Verhältnis berechnet, das durch Dividieren des Abstands für jede Emotion durch die Summe der Abstände für alle Emotionen erhalten wird. Wenn das Ergebnis der Phonem-Analyse gesendet wird, wird der Emotionszustand durch Abgleichen der Dokumentvorlage mit einem Schlüsselwort als Wörterbuch-Dokumentvorlage erhalten. Da jedoch bei der vorliegenden Ausführungsform nur die Vokale analysiert werden, wird das folgende Verfahren verwendet. Für die Emotion „wütend" werden Wörter, die Wut angeben, wie etwa „ikatteiru" (wütend sein), „ikidori" (Entrüstung) und „naguru" (schlagen), in Vokalen dargestellt, wie etwa „iaeiu", „iioi" und „auu", und unter Verwendung ihrer ersten drei Zeichen wird ein Wörterbuch erstellt, wenn der bestimmte Zeitraum der Zeitraum für das Ergebnis der dreimaligen Sprachanalyse ist. In der gleichen Weise werden Wörterbücher für andere Emotionszustände erstellt. Natürlich gibt es auch andere Wörter mit der gleichen Vokal-Darstellung in diesen Wörterbüchern. Ein häufiger verwendetes Wort wird aufgrund der Analyse der Umgangssprache in das Wörterbuch aufgenommen, um vorher eine Wörterbuch-Dokumentvorlage zu erzeugen. Da es 216 Kombinationen von Vokalen gibt, wenn der bestimmte Zeitraum der für eine dreimalige Analyse ist, werden in dieser Wörterbuch-Dokumentvorlage 216 Wörter in einzelne Emotionszustände eingeteilt. Ein Dokumentvorlagen-Abgleich wird zwischen dem gespeicherten Ergebnis der dreimaligen Phonem-Analyse und der Wörterbuch-Dokumentvorlage durchgeführt, um den Emotionszustand zu ermitteln. Wenn bei der Kombination aus Sprachintensitätsanalyse und Phonem-Analyse bei beiden Analysen der gleiche Emotionszustand ermittelt wird, wird dieser Emotionszustand als aktueller Emotionszustand festgelegt. Wenn unterschiedliche Emotionszustände ermittelt werden, wird einer der Emotionszustände statistisch zufällig als aktueller Emotionszustand gewählt. Der in der vorstehenden Weise berechnete Emotionszustand wird an die Körperbewegungs-Steuereinheit 12 und die Gesichtsausdrucks-Steuereinheit 13 gesendet.
Das Gespräch des Teilnehmers wird als Sprachdaten in die Spracheingabeeinheit 8 eingegeben und dann an die Sprach-/Musik-Verarbeitungseinheit 5 gesendet. Als Spracheingabeeinheit 8 wird ein Mikrofon verwendet. Die Sprach-/Musik-Verarbeitungseinheit 5 führt die Verarbeitung der Rauschunterdrückung und der Echoentzerrung durch, die normalerweise für die eingegebenen Sprachdaten durchgeführt werden, und sendet die verarbeiteten Sprachdaten an die Sprachanalysiereinheit 9. Die Verarbeitung wird in Abhängigkeit von dem Kommunikationsverfahren, wie etwa Codierung und Umwandeln in Ströme oder Pakete, durchgeführt, und die verarbeiteten Sprachdaten werden dann über die Kommunikationseinheit 1 an den Kommunikationspartner gesendet. Die Sprachanalyse-Einheit 9 analysiert auch die Intensität und die Phoneme der eingegebenen Sprachdaten in der vorstehend beschriebenen Weise und sendet sie zusammen mit dem Ergebnis der Analyse der eingegebenen Sprache und dem Identifikator, der die eingegebene Sprache angibt, an die Emotionsmutmaßungseinheit 10. Die Emotionsmutmaßungseinheit 10 speichert das Sprachanalyse-Ergebnis eine bestimmte Zeit in einem Speicherbereich ausschließlich für die eingegebene Sprache, wie vorstehend dargelegt, und führt die Emotionsmutmaßungsverarbeitung des gespeicherten Ergebnisses in der vorstehend beschriebenen Weise durch. Der dem Hörer eigene Zustand, wie etwa der „überzeugte Zustand", wird zu dieser Emotionsmutmaßung hinzugefügt. Mit anderen Worten, das Emotionsmutmaßungsverfahren kann für die Sprachdaten des Partners und die Sprachdaten des Teilnehmers unterschiedlich sein. Das Emotionsmutmaßungsergebnis wird an die Körperbewegungs-Steuereinheit 12 und die Gesichtsausdrucks-Steuereinheit 13 gesendet.
Es gibt noch ein weiteres Emotionsmutmaßungsverfahren, das ein Frequenzsignal der Sprachdaten, wie etwa ein prosodisches Phonem, eine Amplitude und eine Betonung, verwendet. 9 ist ein Ablaufdiagramm, das den Verarbeitungsablauf für das Emotionsmutmaßungsverfahren unter Verwendung eines Frequenzsignals zeigt. Die nachstehende Erläuterung dieses Emotionsmutmaßungsverfahrens beruht auf der Annahme, dass vier Arten der wichtigsten Emotionen gemutmaßt werden, und zwar „Wut", „Sorge", „Freude" und „normal".
Zunächst wird die Sprache des Teilnehmers als Sprachdaten in die Spracheingabeeinheit 8 eingegeben und an die Sprach-/Musik-Verarbeitungseinheit 5 gesendet, und die Sprache des Partners wird über die Kommunikationseinheit 1 in die Spracheingabeeinheit 5 eingegeben (S901). Die Sprach-/Musik-Verarbeitungseinheit 5 führt die normale Verarbeitung der gesendeten Sprachdaten, wie etwa Rauschunterdrückung und Echoentzerrung, durch und sendet die verarbeiteten Sprachdaten an die Sprachanalysiereinheit 9.
Die Sprachanalysiereinheit 9 ermittelt die typischen Kenngrößen durch Verarbeitung unter Verwendung des Frequenzsignals der Sprachdaten, wie etwa prosodisches Phonem, Amplitude und Betonung. Diese typischen Kenngrößen beruhen auf der Grundfrequenz, bei der die Differenz zwischen den einzelnen Emotionen gut widergespiegelt wird, und es werden folgende Parameter verwendet: F_0max [Höchstwert (Hz) der Grundfrequenz F₀ beim Sprechen], A_max [Höchstwert (Hz) der Amplitude beim Sprechen], T [Zeitlänge [s] vom Beginn bis zum Ende des Sprechens], F_0init [Grundfrequenz (Hz) unmittelbar nach dem Beginn des Sprechens], F_0range [höchste Grundfrequenz minus niedrigste Grundfrequenz (Hz) beim Sprechen] und so weiter. Weitere Parameter, wie etwa Kompensation des Geschlechtsunterschieds, können zu den typischen Kenngrößen hinzugefügt werden.
Die Sprachanalysiereinheit 9 tastet die Grundfrequenz unter Verwendung des DP-Abgleichverfahrens unter Berücksichtigung des Kontexts der gesamten Rede ab. Dieses Abtastverfahren wird nun kurz erläutert. Die in die Spracheingabeeinheit 8 eingegebenen Sprachdaten werden mit der Sprachanalysiereinheit 9 einmal in Daten im Frequenzbereich umgewandelt und werden dann noch einmal durch eine vorgegebene Verarbeitung in Daten im Zeitbereich umgewandelt. Eine vorgegebene Anzahl von Daten wird in der Reihenfolge der größeren Spitzenwerte aus den Daten im Zeitbereich ausgewählt, und die Spitzenwerte der ausgewählten Daten werden so verbunden, dass die Grundfrequenz abgetastet wird (S902).
Dann berechnet die Emotionsmutmaßungseinheit 10 die Statistik aufgrund der von der Sprachanalysiereinheit 9 ermittelten typischen Kenngrößen (S903), um zu mutmaßen, zu welcher Emotionsgruppe die einzelnen Sprachdaten gehören (S904). Mit diesem Emotionsmutmaßungsverfahren kann die Emotion des Sprechers mit einer hohen Wahrscheinlichkeit gemutmaßt werden. Dann sendet die Emotionsmutmaßungseinheit 10 das Emotionsmutmaßungsergebnis an die Lippenbewegungs-Steuereinheit 11, die Körperbewegungs-Steuereinheit 12 und die Gesichtsausdrucks-Steuereinheit 13.
Somit bewegt sich die auf dem Bildschirm der virtuellen Fernsehtelefonvorrichtung angezeigte Figur aufgrund der Mutmaßung der Emotionen des Teilnehmers und des Partners, sodass eine unterhaltsamere virtuelle Fernsehtelefonvorrichtung realisiert werden kann.
Die Körperbewegungs-Steuereinheit 12 legt die Körperbewegungsdaten, die dem gesendeten Emotionsmutmaßungsergebnis entsprechen, als nächsten Bewegungsübergang (vorher) fest und sendet die Adresse und die Frame-Nummer der ermittelten Körperbewegungsdaten an die 3-D-Bild-Zeicheneinheit 14, nachdem sie das Senden der Adresse und der Frame-Nummer der aktuellen Körperbewegungsdaten für alle Frames beendet hat. Wenn sie die Festlegung des Übergangs der Körperbewegungsdaten statistisch zufällig steuert, vorbestimmt sie die Wahrscheinlichkeit, dass der Übergang verursacht oder nicht verursacht wird, die dem Emotionsmutmaßungsergebnis entspricht (wenn die eine Wahrscheinlichkeit bestimmt wird, wird wegen der Binärverteilung zwangsläufig auch eine andere Wahrscheinlichkeit bestimmt), und bestimmt den Übergang unter Verwendung von Zufallszahlen entsprechend dieser Verteilung. Die Gesichtsausdrucks-Steuereinheit 13 bestimmt den Übergang in der gleichen Weise und sendet die Adresse und die Frame-Nummer der Ausdrucksdaten an die 3-D-Bild-Zeicheneinheit 14.
Die 3-D-Bild-Zeicheneinheit 14 erzeugt unter Verwendung der Adresse und der Frame-Nummer der Lippenbewegungsdaten, die von der Lippenbewegungs-Steuereinheit 11 gesendet werden, der Adresse und der Frame-Nummer der Körperbewegungsdaten, die von der Körperbewegungs-Steuereinheit 12 gesendet werden, und der Adresse und der Frame-Nummer der Ausdruckssteuerdaten, die von der Gesichtsausdrucks-Steuereinheit 13 gesendet werden, ein Bild mit der gleichen Verarbeitung, die vor dem Beginn der Kommunikation durchgeführt wurde, und sendet das Bild an die Anzeige-Einheit 15. Die Anzeige-Einheit 15 zeigt dieses Bild an.
Wenn die Bewegungs-/Ausdrucks-Eingabeeinheit 16 oder die Aufnahmeortänderungs-Eingabeeinheit 17 Daten eingibt, wirkt sich die Bewegung oder der Ausdruck, die/der dieser Eingabe entspricht, auf die CG-Figur aus oder der Aufnahmeort wird geändert, wie in dem Fall vor Beginn der Kommunikation.
Die Grundoperation des Teilnehmer-/Partneranzeigemodus ist die Gleiche wie die vorstehend beschriebene Operation, unterscheidet sich aber darin, dass die Daten für den Teilnehmer addiert werden müssen. Die Daten für den Teilnehmer werden zu den Daten addiert, die von der Datenverwaltungseinheit 3 vor und nach dem Beginn der Kommunikation mitgeteilt werden. Die Lippenbewegungs-Steuereinheit 11, die Körperbewegungs-Steuereinheit 12 und die Gesichtsausdrucks-Steuereinheit 13 senden die Adresse und die Frame-Nummer der Bewegungsdaten der CG-Figur des Teilnehmers sowie die Identifikatoren, die den Teilnehmer und den Partner angeben, an die 3-D-Bild-Zeicheneinheit 14. Die 3-D-Bild-Zeicheneinheit 14 ermittelt aufgrund der Identifikatoren den Körperzustand, den Ausdruck und den Lippenzustand der CG-Figur des Partners und den Körperzustand, den Ausdruck und den Lippenzustand der CG-Figur des Teilnehmers, erzeugt Bilder durch die vorstehend beschriebene Verarbeitung und sendet die erzeugten Bilder an die Anzeige-Einheit 15, um sie anzuzeigen. Die Sprach-/Musik-Verarbeitungseinheit 5 sendet die Sprachdaten zusammen mit dem Identifikator des Teilnehmers oder des Partners an die Sprachanalysiereinheit 9. Die Sprachanalysiereinheit 9 führt die vorstehend beschriebene Verarbeitung durch und sendet das Sprachanalyse-Ergebnis zusammen mit dem Identifikator des Teilnehmers oder des Partners an die Lippenbewegungs-Steuereinheit 11 und die Emotionsmutmaßungseinheit 10. Die Lippenbewegungs-Steuereinheit 11 ermittelt die Adresse und die Frame-Nummer der Lippenbewegungsdaten aufgrund des Übergangs der Lippenbewegung und des Lippenbewegungsmusters des Teilnehmers oder des Partners entsprechend dem Identifikator des Teilnehmers oder des Partners. Die Emotionsmutmaßungseinheit 10 mutmaßt die Emotionen des Teilnehmers bzw. des Partners in der vorstehend beschriebenen Weise und sendet das Ergebnis zusammen mit dem Identifikator des Teilnehmers oder des Partners an die Körperbewegungs-Steuereinheit 12 und die Gesichtsausdrucks-Steuereinheit 13. Die Körperbewegungs-Steuereinheit 12 ermittelt das Übergangsziel der Körperbewegung des Teilnehmers oder des Partners entsprechend dem Identifikator des Teilnehmers oder des Partners und sendet die Adresse und die Frame-Nummer der Körperbewegungsdaten des Teilnehmers oder des Partners zusammen mit seinem Identifikator an die 3-D-Bild-Zeicheneinheit 14. Die Gesichtsausdrucks-Steuereinheit 13 ermittelt das Übergangsziel des Ausdrucks des Teilnehmers oder des Partners in der gleichen Weise und sendet die Adresse und die Frame-Nummer der Ausdrucksdaten des Teilnehmers oder des Partners zusammen mit seinem Identifikator an die 3-D-Bild-Zeicheneinheit 14.
Das Gespräch wird im Wesentlichen nacheinander ausgetauscht. Daher werden die Emotionen des Teilnehmers und des Partners von der Emotionsmutmaßungseinheit 10 aufgrund dessen gemutmaßt, was der Partner gesagt hat, und das Mutmaßungsergebnis wird auf die Körperbewegungen und die Ausdrücke der CG-Figuren des Teilnehmers und des Partners widergespiegelt. Dann wird das Emotionsmutmaßungsergebnis, das darauf beruht, was der Teilnehmer in Reaktion auf die Äußerung des Partners gesagt hat, auf die Körperbewegungen und die Ausdrücke der CG-Figuren des Teilnehmers und des Partners widergespiegelt, und diese Verarbeitung wird nacheinander wiederholt.
Wenn die Aufnahmeortänderungs-Eingabeeinheit 17 die Eingabe annimmt, wird in der vorstehend beschriebenen Weise ein Bild mit geändertem Aufnahmeort erzeugt und an der Anzeige-Einheit 15 angezeigt. Bei der vorliegenden Ausführungsform sind die Operationen der Bewegungs-/Ausdrucks-Eingabeeinheit 16 für das Ändern der Bewegung und des Ausdrucks des Partners beschrieben worden. Wenn jedoch ein Identifikator, der den Teilnehmer oder den Partner angibt, angehängt wird, wenn die Eingabe-Schaltfläche für den Teilnehmer oder den Partner betätigt wird, können außer dieser von der Datenverwaltungseinheit 3 durchgeführten Verarbeitung auch die CG-Figuren des Teilnehmers und des Partners entsprechend der Eingabe in die Bewegungs-/Ausdrucks-Eingabeeinheit 16 geändert werden.
7 zeigt eine Reihe von Pipeline-Operationen von der Spracheingabe bis zu der Bild-Anzeige, die vorstehend beschrieben wurden. Das Ergebnis der von der Sprach-/Musik-Verarbeitungseinheit 5 durchgeführten Verarbeitung wird als Sprachumwandlungsausgabe dargestellt, und die Bilder werden unter Verwendung von Doppelpuffern gezeichnet. Wie in 7 gezeigt, wird die Lippenbewegung der CG-Figur als Sprachumwandlungsausgabe nach einer 2-Frame-Verzögerung mit der Anzeigerate angezeigt, aber die Verzögerung ist unsichtbar, da sie beispielsweise bei einer Anzeigerate von 30 Frames/Sekunde nur etwa 66 ms beträgt. Auch das Emotionsmutmaßungsergebnis wird nach einer Verzögerung von 1 Frame zusätzlich zu der festgelegten Speicherzeit für das Sprachanalyse-Ergebnis erzeugt. Wenn das Sprachanalyse-Ergebnis für die Dauer von 3 Frames gespeichert wird, wie in 7 gezeigt, verursacht das eine Verzögerung von 4 Frames (etwa 134 ms bei einer Anzeigerate von 30 Frames/Sekunde).
Ein echter Mensch braucht jedoch ziemlich lange, um seine Emotion in Reaktion darauf zu erzeugen, was der andere gesagt hat (vermutlich mehrere hundert ms, nachdem er verstanden hat, was der andere gesagt hat, obwohl das darauf ankommt, was er erkennt), und daher ist diese Verzögerung nicht signifikant, wenn die Speicherzeit nicht sehr lang ist.
Zweite Ausführungsform
Nachstehend wird eine virtuelle Fernsehtelefonvorrichtung nach einer zweiten Ausführungsform der vorliegenden Erfindung unter Bezugnahme auf die Zeichnungen erläutert.
2 zeigt den Aufbau der virtuellen Fernsehtelefonvorrichtung nach der zweiten Ausführungsform der vorliegenden Erfindung. Sie weist Folgendes auf: eine Kommunikationseinheit 101, eine Daten-Download-Einheit 102, eine Übertragungsdaten-Ermittlungseinheit 103, die Figurenhintergrundauswahl-Eingabeeinheit 2, eine Datenverwaltungseinheit 104, die Sprach-/Musikauswahl-Eingabeeinheit 4, die Sprach-/Musik-Verarbeitungseinheit 5, die Sprach-/Musik-Umwandlungseinheit 6, die Sprach-/Musik-Ausgabeeinheit 7, die Spracheingabeeinheit 8, die Sprachanalysiereinheit 9, die Emotionsmutmaßungseinheit 10, die Lippenbewegungs-Steuereinheit 11, die Körperbewegungs-Steuereinheit 12, die Gesichtsausdrucks-Steuereinheit 13, die 3-D-Bild-Zeicheneinheit 14, die Anzeige-Einheit 15; die Bewegungs-/Ausdrucks-Eingabeeinheit 16, die Aufnahmeortänderungs-Eingabeeinheit 17, die Figurengestaltdaten-Speichereinheit 18, die Figurenbewegungsdaten-Speichereinheit 19, die Hintergrunddaten-Speichereinheit 20, die Texturdaten-Speichereinheit 21 und die Musikdaten-Speichereinheit 22.
Nachstehend wird die wie vorstehend gestaltete virtuelle Fernsehtelefonvorrichtung nach der zweiten Ausführungsform der vorliegenden Erfindung näher erläutert. Da sie sich nur in ihrer Fähigkeit, CG-Daten zu downloaden, von der ersten Ausführungsform unterscheidet, wird nur die Operation des Downloadens von CG-Daten erläutert.
Bei der vorliegenden Ausführungsform werden die CG-Figurendaten (Gestaltdaten, Bekleidungstexturdaten, Ausdrucksmusterdaten und Ausdrucksdaten, Lippenbewegungsmusterdaten und Lippenbewegungsdaten und Daumennagelbilddaten), die Körperbewegungsmusterdaten und die Körperbewegungsdaten, die Hintergrunddaten und die Musikdaten gedownloadet, aber diese Daten können in der gleichen Weise auch einzeln gedownloadet werden.
Die Daten-Download-Einheit 102 greift über die Kommunikationseinheit 101 auf einen Server zum Speichern von Daten zu. Sie greift auf den Server in der gleichen Weise wie beim normalen Downloaden von Daten auf ein Mobiltelefon oder einen Personal Computer zu. Beispielsweise wird der Server von der IP-Adresse angegeben, der Zugriff wird der Server-Maschine mitgeteilt, und das Verfahren läuft nach TCP/IP ab. Dann wird die Liste mit den vorgenannten Daten, die in dem Server gespeichert ist, nach HTTP oder FTP gesendet, und die Daten-Download-Einheit 102 empfängt sie. Ein Teilnehmer wählt die Daten, die er downloaden will, aus der Liste aus. Die Liste wird beispielsweise über die Kommunikationseinheit 101 an die Übertragungsdaten-Ermittlungseinheit 103 gesendet, und die Übertragungsdaten-Ermittlungseinheit 103 ermittelt, dass die Daten in der Liste enthalten sind, und sendet sie über die Datenverwaltungseinheit 104 an die 3-D-Bild-Zeicheneinheit 14. Die 3-D-Bild-Zeicheneinheit 14 bildet die Liste ab und sendet sie an die Anzeige-Einheit 15, um sie anzuzeigen, und der Teilnehmer kann den Inhalt der Liste prüfen.
Der Teilnehmer wählt die Daten über die Daten-Download-Einheit 102 aus. Die Kommunikationseinheit 101 sendet den Namen oder den Identifikator der ausgewählten Daten nach dem vorgenannten Protokoll an den Server. Der Server sendet die Datei mit den ausgewählten Daten nach dem vorgenannten Protokoll an die Kommunikationseinheit 101, und die Übertragungsdaten-Ermittlungseinheit 103 ermittelt, dass die Datendatei übertragen wird, und sendet sie an die Datenverwaltungseinheit 104. Die Datenverwaltungseinheit 104 ermittelt, dass die Daten CG-Figurendaten, Körperbewegungsmusterdaten und Körperbewegungsdaten, Hintergrunddaten oder Musikdaten sind, und gibt die Datengröße an. Wenn die Auswahl in der Daten-Download-Einheit 102 der Datenverwaltungseinheit 104 über die Kommunikationseinheit 101 und die Übertragungsdaten-Ermittlungseinheit 103 mitgeteilt wird, braucht die Datenverwaltungseinheit 104 nicht den Daten-Inhalt zu ermitteln, da er bereits bekannt ist. Dann sucht die Datenverwaltungseinheit 104 einen freien Platz zum Speichern der Daten der Figurengestaltdaten-Speichereinheit 18, der Figurenbewegungsdaten-Speichereinheit 19, der Hintergrunddaten-Speichereinheit 20, der Texturdaten-Speichereinheit 21 oder der Musikdaten-Speichereinheit 22 in Abhängigkeit von dem Daten-Inhalt, und wenn es einen freien Platz in einer der Speichereinheiten gibt, sendet sie die Datendatei an diese Speichereinheit. Diese Speichereinheit speichert die Datendatei und sendet die Adresse der Datendatei an die Datenverwaltungseinheit 104. Die Datenverwaltungseinheit 104 fügt die in der Verwaltungstabelle zu speichernde Datendatei in Abhängigkeit von dem Daten-Inhalt zu der Verwaltungstabelle hinzu. Beispielsweise wird bei den in 3 gezeigten CG-Figurendaten „4" als CG-Figuren-ID hinzugefügt, und die von der Speichereinheit zurückgesendete Adresse wird in dem entsprechenden Feld angegeben. Andere Daten werden in der gleichen Weise hinzugefügt und angegeben. Nach Beendigung des Hinzufügens der Daten zu der Verwaltungstabelle wird eine Beendigungsmitteilung über die Übertragungsdaten-Ermittlungseinheit 103 und die Kommunikationseinheit 101 an die Daten-Download-Einheit 102 gesendet, und eine Mitteilung der Beendigung des Downloadens wird über die Kommunikationseinheit 101 an den Server gesendet, und dadurch endet die Daten-Download-Verarbeitung.
Wenn es keinen freien Platz zum Speichern von Daten gibt, wird die Daten-Download-Einheit 102 über die Übertragungsdaten-Ermittlungseinheit 103 und die Kommunikationseinheit 101 benachrichtigt. Die Daten-Download-Einheit 102 benachrichtigt den Teilnehmer, dass es keinen Speicherplatz gibt (beispielsweise zeigt sie das an der Anzeige-Einheit 15 an). Die Mitteilung der Beendigung des Downloadens der Daten wird über die Übertragungsdaten-Ermittlungseinheit 103 und die Kommunikationseinheit 101 in der vorstehend beschriebenen Weise an die Daten-Download-Einheit 102 gesendet, und die Mitteilung der Beendigung des Downloadens der Daten wird über die Kommunikationseinheit 101 an den Server gesendet, und dadurch endet das Downloaden der Daten.
Wenn Sprachdaten übertragen werden, ermittelt die Übertragungsdaten-Ermittlungseinheit 103, dass es sich um Sprachdaten handelt, und sendet sie an die Sprach-/Musik-Verarbeitungseinheit 5.
Die erste und die zweite Ausführungsform der vorliegenden Erfindung können auch als Programm für eine Vorrichtung mit einer Sprachkommunikationseinheit, einer Anzeige-Einheit, einer Spracheingabe-/-ausgabe-Einheit, einer Zentraleinheit und einem Speicher realisiert werden. Die Vorrichtung ist beispielsweise ein Mobiltelefon, ein Taschencomputer, ein Auftisch-Telefon mit einer Anzeige-Einheit, ein Fahrzeug-Endgerät mit einer Kommunikationsfunktion oder ein Personal Computer. Die Vorrichtung mit einem speziellen 3-D-Bild-Verarbeitungsgerät, einem Spracheingabe-/-ausgabegerät und einem Sprachverarbeitungsgerät kann die Verarbeitung mit einer höheren Geschwindigkeit durchführen. Es ist effektiv, einen Personal Computer mit einer 3-D-Grafikkarte und einer Soundblasterkarte zu verwenden. Als Anzeige-Einheit 15 kann ungeachtet ihres Typs eine Katodenstrahlröhre, eine Flüssigkristallanzeige, ein organisches EL oder dergleichen verwendet werden.
Die 8A und 8B zeigen schematische Darstellungen der erfindungsgemäßen virtuellen Fernsehtelefonvorrichtung. Mit der wie vorstehend gestalteten Vorrichtung kann ein Teilnehmer seine ausgewählte CG-Figur, die dem Kommunikationspartner entspricht, anzeigen, um an dem Gespräch mit der CG-Figur Spaß zu haben. Mit einer anderen Vorrichtung kann der Teilnehmer auch seine eigene CG-Figur anzeigen, um an dem Gespräch im virtuellen Raum Spaß zu haben. Die CG-Figur, die die voreingestellte Bewegung macht, kann vor und nach dem Beginn des Gesprächs angezeigt werden.
10A ist eine Darstellung, die einen Personal Computer (PC) 1001 mit der erfindungsgemäßen virtuellen Fernsehtelefonfunktion zeigt. Der PC 1001 weist einen Lautsprecher 1002 und ein Mikrofon 1003 auf.
Wenn ein Teilnehmer mindestens eine Figur des Teilnehmers und des Partners auswählt und ein Gespräch beginnt, mutmaßt die Emotionsmutmaßungseinheit 10 die Emotion aufgrund der bei dem Gespräch gemachten Äußerungen. Die auf einem Bildschirm 1004 angezeigte CG-Figur ändert ihre Bewegung und ihren Ausdruck entsprechend dieser Emotionsmutmaßung, sodass eine noch unterhaltsamere virtuelle Fernsehtelefonvorrichtung realisiert werden kann. Und da der Nutzer des PC 1001 die Figur und den Sprachton des Partners frei wählen kann, kann der PC 1001 mit der virtuellen Fernsehtelefonfunktion mit einem noch höheren Unterhaltungswert realisiert werden.
10B ist eine Darstellung, die ein Mobiltelefon 1005 mit der erfindungsgemäßen virtuellen Fernsehtelefonfunktion zeigt. Das Mobiltelefon 1005 hat eine Freisprechfunktion und zeigt die ausgewählte Figur, die eine Bewegung aufgrund der Emotionsmutmaßung macht, auf einem Bildschirm 1006 an. Daher kann das Mobiltelefon 1005 mit der virtuellen Fernsehtelefonfunktion mit einem noch höheren Unterhaltungswert realisiert werden.
Um die erfindungsgemäße Emotionsmutmaßungsfunktion zu verbessern, kann in der virtuellen Fernsehtelefonvorrichtung zusätzlich eine neue Sensoreinheit verwendet werden. 11 ist ein Blockdiagramm, das eine Sensoreinheit 1101 zeigt, die in der in 1 oder 2 gezeigten virtuellen Fernsehtelefonvorrichtung zusätzlich verwendet wird. Die Sensoreinheit 1101 ist eine Verarbeitungseinheit zum Erkennen von Änderungen der Körpertemperatur und des Herzschlags des Teilnehmers, der Kraft, mit der er das Mobiltelefon hält, und dergleichen und sendet die Änderungen an die Emotionsmutmaßungseinheit 10. Es ist anzunehmen, dass wenn beispielsweise die Sensoreinheit 1101 über einen Thermistor eine Änderung der Temperatur des Teilnehmers erkennt und sie an die Emotionsmutmaßungseinheit 10 sendet, die Emotionsmutmaßungseinheit 10 die Emotion zuverlässiger mutmaßt, wenn sie die Temperaturänderung als neuen Parameter für die Emotionsmutmaßung verwendet.
12A ist eine Darstellung, die ein Beispiel dafür zeigt, wie ein Mobiltelefon mit verschiedenen Sensoreinheiten für die Emotionsmutmaßung verwendet werden kann. Das Mobiltelefon weist eine Greifmesseinheit 1201 zum Erkennen einer Greif-Änderung des Teilnehmers auf. 12B ist eine Referenzdarstellung, die ein Mobiltelefon mit verschiedenen Sensoreinheiten für die Emotionsmutmaßung zeigt. Das Mobiltelefon weist die Greifmesseinheit 1201 und einen Thermistor 1202 zum Messen einer Temperaturänderung des Teilnehmers auf. Es wird angenommen, dass bei diesem Mobiltelefon die Emotion dadurch zuverlässiger gemutmaßt wird, dass zusätzlich zu den vorstehenden Sprachdaten ein neuer Parameter verwendet wird.
Die vorliegende Erfindung ist nicht auf die einzelnen vorstehenden Ausführungsformen beschränkt, sondern kann in ihrem Anwendungsbereich ausgeführt werden. Bei den vorliegenden Ausführungsformen ist die virtuelle Fernsehtelefonvorrichtung unter der Voraussetzung erläutert worden, dass die Figur des Teilnehmers und/oder des Kommunikationspartners auf dem Bildschirm angezeigt wird. Sie kann jedoch auch als virtuelle Fernsehtelefonvorrichtung realisiert werden, die Emotionen über eine Kommunikation unter mehreren Personen, wie etwa eine PC-Kommunikation, mutmaßt und mehrere Figuren in Verbindung mit der Emotionsmutmaßung anzeigt.
Es ist auch vorstellbar, das Ergebnis der Emotionsmutmaßung in Musikdaten widerzuspiegeln und die Ausdrücke und Körperbewegungen der CG-Figur durch Ausgeben der entsprechenden Musik, wie etwa einer düsteren, heiteren, angenehmen und rhythmischen Musik, zu steuern.
Mit der vorstehenden Gestaltung zeigt die vorliegende Erfindung einen Kommunikationspartner als virtuelle 3-D-CG-Figur an, die von einem Teilnehmer-Empfänger ausgewählt wird, und verwendet die Äußerungen des Partners so, dass ein Gespräch mit der virtuellen 3-D-CG-Figur realisiert werden kann. Dadurch kann ein neues Kommunikationsendgerät mit einem amüsanteren Gespräch mit einem anderen Ansatz als den Funktionen „Sehen des Gesichts eines Kommunikationspartners oder Sehen eines visuellen Bilds, das dem Gesicht des Partners ähnlich ist" und „Agieren als virtuelle Figur" realisiert werden. Außerdem kann die vorliegende Erfindung eine Telefongesprächsvorrichtung mit einem Anzeigegerät realisieren, die ein Gespräch in einem virtuellen Raum ohne Verwendung eines Servers oder dergleichen realisiert, der für den vorgenannten Stand der Technik verwendet wird. Und da Daten in die erfindungsgemäße Vorrichtung gedownloadet werden können, können die CG-Daten aktualisiert werden. Der Teilnehmer kann Spaß an einem Gespräch mit verschiedenen CG-Figuren haben, indem er die CG-Figur und die Sprache ein und desselben Partners ändert.
Da der Teilnehmer-Empfänger seine eigene Figur sowie die Figur des Partners wählen kann und die Figuren ihre Emotionen bei dem Telefongespräch aufgrund der Emotionsmutmaßungsfunktion ausdrücken lassen kann, kann eine neue virtuelle Fernsehtelefonvorrichtung mit einem höheren Unterhaltungswert realisiert werden.
Wie vorstehend dargelegt, ist anzunehmen, dass die vorliegende Erfindung eine enorme Wirkung zeitigt, das heißt, neues Vergnügen und Freude an einem Gespräch über die Sprachunterhaltungsvorrichtung.

Claims

Virtuelle Bildtelefonvorrichtung, die aufweist: eine Kommunikationseinheit (1), die so betreibbar ist, dass sie Stimmkommunikation ausführt; eine Stimmeingabeeinheit (8), die so betreibbar ist, dass sie Stimme eines Benutzers erfasst; und eine Stimmausgabeeinheit (7), die so betreibbar ist, dass sie Stimme eines Kommunikationspartners ausgibt, dadurch gekennzeichnet, dass sie darüber hinaus aufweist: eine Wesensauswahleinheit (2), die so betreibbar ist, dass sie CG-Wesensgestaltdaten für mindestens einen von dem Benutzer und dem Kommunikationspartner auswählt; eine Stimmanalysiereinheit (9), die so betreibbar ist, dass sie Stimmdaten des Kommunikationspartners, die durch die Kommunikationseinheit (1) empfangen werden, oder sowohl die Stimmdaten des Kommunikationspartners als auch die Stimmdaten des Benutzers analysiert; eine Emotionsvermutungseinheit (10), die so betreibbar ist, dass sie einen Emotionszustand des Kommunikationspartners oder Emotionszustände sowohl des Kommunikationspartners als auch des Benutzers unter Verwendung eines Ergebnisses der Stimmanalyse durch die Stimmanalysiereinheit (9) vermutet; eine Bewegungssteuereinheit (11–13), die so betreibbar ist, dass sie eine Bewegung des CG-Wesens basierend auf der Vermutung durch die Emotionsvermutungseinheit (10) steuert; eine Bilderzeugungseinheit (14), die so betreibbar ist, dass sie ein Bild unter Verwendung der CG-Wesensgestaltdaten und der Bewegungsdaten erzeugt, die basierend auf Steuerinformationen erzeugt werden, die durch die Bewegungssteuereinheit (11–13) erzeugt werden; und eine Anzeigeeinheit (15), die so betreibbar ist, dass sie das Bild anzeigt, das durch die Bilderzeugungseinheit (14) erzeugt wird.
Virtuelle Bildtelefonvorrichtung nach Anspruch 1, dadurch gekennzeichnet, dass die Emotionsvermutungseinheit der Bewegungssteuereinheit ein Ergebnis der Vermutung durch die Emotionsvermutungseinheit mitteilt, und die Bewegungssteuereinheit die Bewegungsdaten basierend auf der Mitteilung erzeugt.
Virtuelle Bildtelefonvorrichtung nach Anspruch 1, dadurch gekennzeichnet, dass die Bewegungssteuereinheit eine Lippenbewegungssteuereinheit umfasst, die so betreibbar ist, dass sie Lippenbewegungssteuerinformationen der CG-Wesensdaten basierend auf einem Ergebnis der Stimmanalyse durch die Stimmanalysiereinheit erzeugt, und die Bilderzeugungseinheit das Bild unter Verwendung der CG-Wesensgestaltdaten und der Lippenbewegungsdaten erzeugt, die basierend auf Steuerinformationen erzeugt werden, die durch die Lippenbewegungssteuereinheit erzeugt werden.
Virtuelle Bildtelefonvorrichtung nach Anspruch 3, dadurch gekennzeichnet, dass die Emotionsvermutungseinheit der Lippenbewegungssteuereinheit ein Ergebnis der Vermutung durch diese Emotionsvermutungseinheit mitteilt, und die Lippenbewegungssteuereinheit die Lippenbewegungsdaten basierend auf der Mitteilung erzeugt.
Virtuelle Bildtelefonvorrichtung nach Anspruch 4, die darüber hinaus aufweist: eine Speichereinheit, die so betreibbar ist, dass sie die Lippenbewegungsdaten speichert; und eine Einheit, die so betreibbar ist, dass sie die Lippenbewegungsdaten aus einer externen Vorrichtung herunter lädt und diese Lippenbewegungsdaten in der Speichereinheit speichert.
Virtuelle Bildtelefonvorrichtung nach Anspruch 4, die darüber hinaus aufweist: eine Speichereinheit, die so betreibbar ist, dass sie Lippenbewegungsmusterdaten speichert; und eine Einheit, die so betreibbar ist, dass sie die Lippenbewegungsmusterdaten aus einer externen Vorrichtung herunter lädt und diese Lippenbewegungsmusterdaten in der Speichereinheit speichert.
Virtuelle Bildtelefonvorrichtung nach Anspruch 1, dadurch gekennzeichnet, dass die Bewegungssteuereinheit eine Körperbewegungssteuereinheit umfasst, die so betreibbar ist, dass sie eine Körperbewegung des CG-Wesens steuert, und die Bilderzeugungseinheit das Bild unter Verwendung von Körperbewegungsdaten erzeugt, die durch die Körperbewegungssteuereinheit basierend auf Körperbewegungssteuerinformationen erzeugt werden.
Virtuelle Bildtelefonvorrichtung nach Anspruch 7, dadurch gekennzeichnet, dass die Emotionsvermutungseinheit der Körperbewegungssteuereinheit ein Ergebnis der Vermutung durch diese Emotionsvermutungseinheit mitteilt, und die Körperbewegungssteuereinheit die Körperbewegungsdaten basierend auf der Mitteilung erzeugt.
Virtuelle Bildtelefonvorrichtung nach Anspruch 8, die darüber hinaus aufweist: eine Speichereinheit, die so betreibbar ist, dass sie die Körperbewegungsdaten speichert; und eine Einheit, die so betreibbar ist, dass sie die Körperbewegungsdaten aus einer externen Vorrichtung herunter lädt und diese Körperbewegungsdaten in der Speichereinheit speichert.
Virtuelle Bildtelefonvorrichtung nach Anspruch 8, die darüber hinaus eine Auswahleinheit aufweist, die so betreibbar ist, dass sie Körperbewegungsmusterdaten auswählt, die eine bestimmte Körperbewegung definieren, dadurch gekennzeichnet, dass die Körperbewegungssteuereinheit die Körperbewegung basierend auf den Körperbewegungsmusterdaten steuert, die durch die Auswahleinheit ausgewählt werden.
Virtuelle Bildtelefonvorrichtung nach Anspruch 9, die darüber hinaus aufweist: eine Speichereinheit, die so betreibbar ist, dass sie Körperbewegungsmusterdaten speichert; und eine Einheit, die so betreibbar ist, dass sie die Körperbewegungsmusterdaten aus einer externen Vorrichtung herunter lädt und diese Körperbewegungsmusterdaten in der Speichereinheit speichert.
Virtuelle Bildtelefonvorrichtung nach Anspruch 8, die darüber hinaus eine Einheit aufweist, die so betreibbar ist, dass sie die Körperbewegung des CG-Wesens entscheidet und den Beginn dieser Körperbewegung steuert.
Virtuelle Bildtelefonvorrichtung nach Anspruch 1, dadurch gekennzeichnet, dass die Bewegungssteuereinheit eine Ausdruckssteuereinheit umfasst, die so betreibbar ist, dass sie einen Ausdruck des CG-Wesens steuert, und die Bilderzeugungseinheit ein Bild unter Verwendung von Ausdrucksdaten erzeugt, die durch die Ausdruckssteuereinheit basierend auf Ausdruckssteuerinformationen erzeugt werden.
Virtuelle Bildtelefonvorrichtung nach Anspruch 13, dadurch gekennzeichnet, dass die Emotionsvermutungseinheit der Ausdruckssteuereinheit ein Ergebnis der Vermutung durch diese Emotionsvermutungseinheit mitteilt, und die Ausdruckssteuereinheit die Ausdrucksdaten basierend auf der Mitteilung erzeugt.
Virtuelle Bildtelefonvorrichtung nach Anspruch 14, die darüber hinaus aufweist: eine Speichereinheit, die so betreibbar ist, dass sie die Ausdrucksdaten speichert; und eine Einheit, die so betreibbar ist, dass sie die Ausdrucksdaten aus einer externen Vorrichtung herunter lädt und diese Ausdrucksdaten in der Speichereinheit speichert.
Virtuelle Bildtelefonvorrichtung nach Anspruch 14, die darüber hinaus aufweist: eine Speichereinheit, die so betreibbar ist, dass sie Ausdrucksmusterdaten speichert; und eine Einheit, die so betreibbar ist, dass sie die Ausdrucksmusterdaten aus einer externen Vorrichtung herunter lädt und diese Ausdrucksmusterdaten in der Speichereinheit speichert.
Virtuelle Bildtelefonvorrichtung nach Anspruch 14, die darüber hinaus eine Einheit aufweist, die so betreibbar ist, dass sie den Ausdruck des CG-Wesens entscheidet und den Beginn dieses Ausdrucks steuert.
Virtuelle Bildtelefonvorrichtung nach Anspruch 1, die darüber hinaus eine Stimmkonvertierungseinheit aufweist, die so betreibbar ist, dass sie die empfangene Stimme des Kommunikationspartners in eine andere Stimme konvertiert.
Virtuelle Bildtelefonvorrichtung nach Anspruch 18, die darüber hinaus eine Stimmauswahleingabeeinheit aufweist, die so betreibbar ist, dass sie Qualität der Stimme des Kommunikationspartners auswählt, wenn die Stimmkonvertierungseinheit diese Stimme in eine andere Stimme konvertiert.
Virtuelle Bildtelefonvorrichtung nach Anspruch 1, dadurch gekennzeichnet, dass die Bilderzeugungseinheit ein Bild des CG-Wesens des Kommunikationspartners bei Empfang eines Anrufs von diesem Partner erzeugt, und die Anzeigeeinheit das Bild des CG-Wesens während des Zeitraums vom Empfang des Anrufs bis zum Beginn der Stimmkommunikation anzeigt, um den Benutzer über einen Stimmkommunikationswartezustand zu informieren.
Virtuelle Bildtelefonvorrichtung nach Anspruch 1, dadurch gekennzeichnet, dass die Stimmausgabeeinheit dem Kommunikationspartner entsprechende Musikdaten bei Empfang des Anrufs von diesem Partner ausgibt, um den Benutzer über einen Stimmkommunikationswartezustand zu informieren.
Virtuelle Bildtelefonvorrichtung nach Anspruch 21, die darüber hinaus aufweist: eine Speichereinheit, die so betreibbar ist, dass sie die Musikdaten speichert; und eine Einheit, die so betreibbar ist, dass sie die Musikdaten aus einer externen Vorrichtung herunter lädt und diese Musikdaten in der Speichereinheit speichert.
Virtuelle Bildtelefonvorrichtung nach Anspruch 1, dadurch gekennzeichnet, dass die Bilderzeugungseinheit ein Bild unter Verwendung von Hintergrunddaten erzeugt.
Virtuelle Bildtelefonvorrichtung nach Anspruch 23, die darüber hinaus eine Hintergrundauswahleinheit aufweist, die so betreibbar ist, dass sie die Hintergrunddaten auswählt.
Virtuelle Bildtelefonvorrichtung nach Anspruch 24, die darüber hinaus aufweist: eine Speichereinheit, die so betreibbar ist, dass sie die Hintergrunddaten speichert; und eine Einheit, die so betreibbar ist, dass sie die Hintergrunddaten aus einer externen Vorrichtung herunter lädt und diese Hintergrunddaten in der Speichereinheit speichert.
Virtuelle Bildtelefonvorrichtung nach Anspruch 1, dadurch gekennzeichnet, dass die Bilderzeugungseinheit ein dreidimensionales Bild erzeugt.
Virtuelle Bildtelefonvorrichtung nach Anspruch 1, die darüber hinaus aufweist: eine Speichereinheit, die so betreibbar ist, dass sie Kleidungstexturdaten des CG-Wesens speichert; und eine Einheit, die so betreibbar ist, dass sie die Kleidungstexturdaten des CG-Wesens aus einer externen Vorrichtung herunter lädt und diese Kleidungstexturdaten in der Speichereinheit speichert.
Virtuelle Bildtelefonvorrichtung nach Anspruch 1, die darüber hinaus aufweist: eine Speichereinheit, die so betreibbar ist, dass sie die CG-Wesensgestaltdaten speichert; und eine Einheit, die so betreibbar ist, dass sie die CG-Wesensgestaltdaten aus einer externen Vorrichtung herunter lädt und diese CG-Wesensgestaltdaten in der Speichereinheit speichert.
Virtuelle Bildtelefonvorrichtung nach Anspruch 1, die darüber hinaus eine Auswahleinheit aufweist, die so betreibbar ist, dass sie einen Anzeigemodus auswählt, der angibt, ob das CG-Wesen angezeigt wird oder nicht.
Virtuelle Bildtelefonvorrichtung nach Anspruch 29, dadurch gekennzeichnet, dass der Anzeigemodus einer von einem Kommunikationspartneranzeigemodus nur zum Anzeigen des CG-Wesens des Kommunikationspartners, einem gleichzeitigen Anzeigemodus zum Anzeigen beider CG-Wesen des Kommunikationspartners und des Benutzers und einem Nichtanzeigemodus zum Nichtanzeigen des CG-Wesens ist.
Virtuelle Bildtelefonvorrichtung nach Anspruch 1, die darüber hinaus eine Betrachtungspunktwechseleinheit aufweist, die so betreibbar ist, dass sie das CG-Wesen von einem Betrachtungspunkt gemäß der Anweisung des Benutzers anzeigt.
Virtuelles Bildtelefonsystem zum Kommunizieren zwischen mindestens einer Kommunikationsvorrichtung eines Benutzers und einer Kommunikationsvorrichtung eines Kommunikationspartners, wobei das System mindestens die Kommunikationsvorrichtung des Benutzers und die Kommunikationsvorrichtung des Kommunikationspartners aufweist, dadurch gekennzeichnet, dass die Kommunikationsvorrichtung eine virtuelle Bildtelefonvorrichtung nach Anspruch 1 ist.
Virtuelles Bildtelefonsystem nach Anspruch 32, dadurch gekennzeichnet, dass die Emotionsvermutungseinheit der Bewegungssteuereinheit ein Ergebnis der Vermutung durch diese Emotionsvermutungseinheit mitteilt, und die Bewegungssteuereinheit die Bewegungsdaten basierend auf der Mitteilung erzeugt.
Virtuelles Bildtelefonkommunikationsverfahren zur Kommunikation zwischen mindestens einer Kommunikationsvorrichtung eines Benutzers und einer Kommunikationsvorrichtung eines Kommunikationspartners durch Kommunikation zwischen dem Benutzer und dem Kommunikationspartner, das aufweist: einen Kommunikationsschritt zum Ausführen von Stimmenkommunikation; einen Stimmeingabeschritt zum Erfassen von Stimme des Benutzers; und einen Stimmausgabeschritt zum Ausgeben von Stimme des Kommunikationspartners, dadurch gekennzeichnet, dass es darüber hinaus aufweist: einen Wesensauswahlschritt zum Auswählen von CG-Wesensgestaltdaten für mindestens einen von dem Benutzer und dem Kommunikationspartner; einen Stimmanalysierschritt zum Analysieren von Stimmdaten des Kommunikationspartners, die in dem Kommunikationsschritt empfangen werden, oder sowohl der Stimmdaten des Kommunikationspartners als auch der Stimmdaten des Benutzers; einen Emotionsvermutungsschritt zum Vermuten eines Emotionszustands des Kommunikationspartners oder von Emotionszuständen sowohl des Kommunikationspartners als auch des Benutzers unter Verwendung eines Ergebnisses der Stimmanalyse in dem Stimmanalysierschritt; einen Bewegungssteuerschritt zum Steuern einer Bewegung des CG-Wesens basierend auf der Vermutung in dem Emotionsvermutungsschritt; einen Bilderzeugungsschritt zum Erzeugen eines Bildes unter Verwendung der CG-Wesensgestaltdaten und der Bewegungsdaten, die basierend auf Steuerinformationen erzeugt werden, die in dem Bewegungssteuerschritt erzeugt werden; und einen Anzeigeschritt zum Anzeigen des Bildes, das in dem Bilderzeugungsschritt erzeugt wird.
Programm, dass, wenn es in einen Computer geladen wird, diesem Computer gestattet, das Verfahren nach Anspruch 34 zur virtuellen Bildtelefonkommunikation zwischen mindestens einer Kommunikationsvorrichtung eines Benutzers und einer Kommunikationsvorrichtung eines Kommunikationspartners durch Kommunikation zwischen dem Benutzer und dem Kommunikationspartner auszuführen.
Programm nach Anspruch 35, dadurch gekennzeichnet, dass in dem Bewegungssteuerschritt die Bewegungsdaten basierend auf einem Ergebnis der Vermutung in dem Emotionsvermutungsschritt erzeugt werden.