-
Hintergrund der Erfindung
-
1. Gebiet der Erfindung
-
Die
vorliegende Erfindung bezieht sich auf eine Sprachsynthesevorrichtung
und ein Verfahren, auf ein Aufzeichnungsmedium und ein Computerprogrammprodukt.
Ausführungsformen
der Erfindung beziehen sich auf eine Sprachsynthesevorrichtung, ein
Sprachsyntheseverfahren und ein Aufzeichnungsmedium, welche beispielsweise
an einem Roboter angebracht sind, um ein Sprachsignal, welches zu
synthetisieren ist, gemäß der Emotion
und dem Verhalten des Roboters zu ändern.
-
2. Beschreibung des Standes der Technik
-
Es
gibt Roboter, welche Wörter
verbreiten. Wenn solche Roboter ihre Emotionen ändern und die Art des Sprechens
gemäß den Emotionen ändern, oder
wenn sie die Weise zum Sprechen gemäß ihrer Persönlichkeit,
welche für
sie spezifiziert ist, ändern, beispielsweise
das Geschlecht, das Alter, den Geburtsort, Zeichen und physikalische
Eigenschaften, emittieren diese lebende Dinge wirklichkeitstreuer.
-
Der
Benutzer wird diese Roboter mit Freundschaft kontaktieren und lieben,
als ob sie Lieblingstiere währen.
Das Problem besteht darin, dass diese Roboter bisher nicht realisiert
wurden.
-
Die
EP 1 107 227 (welche ein
früheres
Prioritätsdatum
hat als die vorliegende Anmeldung, jedoch nach dem Prioritätsdatum
der letzteren veröffentlicht
wurde) beschreibt eine Sprachsyntheseeinheit, welche Sprachsyntheseverarbeitung
auf Basis des Emotionszustandes eines Roboters in einer Emotion-/Instinktmodelleinheit
durchführt.
In dem Fall beispielsweise, dass der Emotionszustand des Roboters "nicht ärgerlich" zeigt, wird ein
Syntheseton von beispielsweise "was
ist das ?" erzeugt,
jedoch, wenn der Emotionszustand "ärgerlich" zeigt, wird ein Syntheseton "Yeah, was ?" erzeugt, um den Ärger zum
Ausdruck zu bringen. Somit wird ein Roboter mit hohem Unterhaltungswert
bereitgestellt.
-
Überblick über die
Erfindung
-
Ausführungsformen
der vorliegenden Erfindung versuchen, einen Roboter bereitzustellen,
der die Art und Weise zum Sprechen gemäß der Emotion und dem Verhalten ändert, um
lebende Dinge realer zu emittieren.
-
Ein
Merkmal der vorliegenden Erfindung stellt eine Sprachsynthesevorrichtung
zum Synthetisieren eines Sprachsignals bereit, welches einem Text
entspricht, welche aufweist: eine Verhaltenszustands-Änderungseinrichtung
zum Ändern
eines Verhaltenszustands gemäß einem
Verhaltensmodell; eine Emotionszustands-Änderungseinrichtung zum Ändern eines
Emotionszustands gemäß einem
Emotionsmodell, eine Auswahleinrichtung zum Auswählen von Steuerinformation
gemäß zumindest
einem von dem Verhaltenszustand und dem Emotionszustand; und eine
Syntheseeinrichtung zum Synthetisieren eines Sprachsignals entsprechend
dem Text gemäß der Sprachsyntheseinformation,
welche in der Steuerinformation enthalten ist, welche durch die Auswahleinrichtung
ausgewählt,
und eine Akkumulationseinrichtung aufweist, um zumindest eines von der
Häufigkeit,
mit der die Verhaltenszustands-Änderungseinrichtung
Verhaltenszustände ändert, und
der Häufigkeit,
mit der die Emotionszustands-Änderungseinrichtung
Emotionszustände ändert, zu
akkumulieren, und wobei die Auswahleinrichtung die Steuerinformation
auch gemäß der Häufigkeit
auswählt,
welche durch die Akkumulationseinrichtung akkumuliert wurde.
-
Eine
Sprachsynthesevorrichtung einer Ausführungsform der Erfindung kann
so aufgebaut sein, dass diese außerdem eine Ermittlungseinrichtung
(1) zum Ermitteln eines externen Zustands aufweist, wobei
die Auswahleinrichtung die Steuerinformation außerdem gemäß dem Ermittlungsergebnis auswählt, welches
durch die Ermittlungseinrichtung erlangt wird.
-
Eine
Sprachsynthesevorrichtung einer Ausführungsform der vorliegenden
Erfindung kann so aufgebaut sein, dass diese außerdem eine Halteeinrichtung
aufweist, um zu halten, und wobei die Auswahleinrichtung außerdem die
Steuerinformation gemäß der individuellen
Information auswählt,
welche durch die Halteeinrichtung gehalten wird.
-
Eine
Sprachsynthesevorrichtung einer Ausführungsform der vorliegenden
Erfindung kann so aufgebaut sein, dass diese außerdem eine Zähleinrichtung
eine Zähleinrichtung
aufweist, um die abgelaufene Zeit von der Aktivierung zu zählen, und
wobei die Auswahleinrichtung die Steuerinformation außerdem gemäß der abgelaufenen
Zeit auswählt,
welche durch die Zähleinrichtung
gezählt
wird.
-
Eine
Sprachsynthesevorrichtung einer Ausführungsform der vorliegenden
Erfindung kann außerdem
eine Substituierungseinrichtung aufweisen, um Wörter, welche im Text enthalten
sind, unter Verwendung eines Wortsubstituierungs-Wörterbuchs entsprechend
der Auswahlinformation, welche in der Steuerinformation enthalten
ist, welche durch die Auswahleinrichtung ausgewählt wurde, zu substituieren.
-
Eine
Sprachsynthesevorrichtung einer Ausführungsform der vorliegenden
Erfindung kann außerdem eine Umsetzungseinrichtung (55)
aufweisen, um den Stil des Textes gemäß einer Stilumsetzungsregel
(56) entsprechend der Auswahlinformation umzusetzen, welche
in der Steuerinformation enthalten ist, welche durch die Auswahleinrichtung
ausgewählt wurde.
-
Ein
weiteres Merkmal der vorliegenden Erfindung stellt ein Sprachsyntheseverfahren
zum Synthetisieren eines Sprachsignals gemäß einem Text bereit, welches
aufweist: einen Verhaltenszustands-Änderungsschritt zum Ändern eines
Verhaltenszustands gemäß eines
Verhaltensmodells; einen Emotionszustands-Änderungsschritt zum Ändern eines
Emotionszustands gemäß einem
Emotionsmodell; einen Auswahlschritt zum Auswählen von Steuerinformation
gemäß zumindest
einem von dem Verhaltenszustand und dem Emotionszustand; und einen
Synthetisierungsschritt zum Synthetisieren eines Sprachsignals entsprechend
dem Text gemäß der Sprachsyntheseinformation,
welche in der Steuerinformation enthalten ist, welche durch den
Prozess des Auswahlschritts ausgewählt wurde; und einen Akkumulationsschritt
zum Akkumulieren von zumindest einer von der Häufigkeit, mit der der Verhaltenszustands-Änderungsschritt
Verhaltenszustände ändert, und
der Häufigkeit,
mit der der Emotionszustands-Änderungsschritt
Emotionszustände ändert, und
wobei
der Auswahlschritt die Steuerinformation auch gemäß der Häufigkeit
auswählt,
die im Akkumulationsschritt akkumuliert wurde.
-
Ein
noch weiteres Merkmal der vorliegenden Erfindung liefert einen Aufzeichnungsträger, auf
welchem ein computer-lesbares Sprachsyntheseprogramm gespeichert
ist, um ein Sprachsignal gemäß einem
Text zu synthetisieren, wobei das Programm eine Computerprogramm-Codeeinrichtung
aufweist, welches, wenn ausgeführt,
die folgenden Schritte aufweist: einen Verhaltenszustands-Änderungsschritt
zum Ändern
eines Verhaltenszustands gemäß einem
Verhaltensmodell; einen Emotionszustands-Änderungsschritt zum Ändern eines
Emotionszustands gemäß einem
Emotionsmodell;
einen Auswahlschritt zum Auswählen von
Steuerinformation gemäß zumindest
von einem von dem Verhaltenszustand und dem Emotionszustand; und
einen
Synthetisierungsschritt zum Synthetisieren eines Sprachsignals entsprechend
dem Text gemäß der Sprachsyntheseinformation,
welche in der Steuerinformation enthalten ist, welche durch den
Prozess des Auswahlschritts ausgewählt wurde; und einen Akkumulationsschritt
zum Akkumulieren von zumindest einem von der Häufigkeit, mit der der Verhal tenszustands-Änderungsschritt
Verhaltenszustände ändert, und
der Häufigkeit,
mit der der Emotionszustands-Änderungsschritt
Emotionszustände ändert, und
wobei der Auswahlschritt die Steuerinformation außerdem gemäß der Häufigkeit
auswählt,
welche im Akkumulationsschritt akkumuliert wurde.
-
Kurzbeschreibung der Zeichnungen
-
Um
die vorliegende Erfindung besser verstehen zu können, wird nun auf die beiliegenden
Zeichnungen als Beispiel bezuggenommen, in denen:
-
1 ein
Blockdiagramm ist, welches ein Aufbaubeispiel eines Bereichs zeigt,
der auf die Sprachsynthese eines Roboters bezogen ist, bei dem eine
Ausführungsform
der vorliegenden Erfindung angewandt wird;
-
2 ein
Blockdiagramm ist, welches ein Aufbaubeispiel eines Steuerabschnitts 10 für ein Roboterbewegungssystem
und einen Steuerabschnitt 11 für ein Roboterdenksystem zeigt,
welches in 1 gezeigt ist;
-
3 eine
Ansicht ist, welche ein Verhaltensmodell 32 zeigt, welches
in 2 gezeigt ist;
-
4 eine
Ansicht ist, welche ein Emotionsmodell 42 zeigt, welches
in 2 gezeigt ist;
-
5 eine
Ansicht ist, welche eine Sprachsynthese-Steuerinformation zeigt;
-
6 ein
Blockdiagramm ist, welches ein ausführliches Aufbaubeispiel eines
Sprachverarbeitungsabschnitts 14 zeigt;
-
7 ein
Flussdiagramm ist, welches die Arbeitsweise des Roboters zeigt,
für den
die vorliegende Erfindung angewandt wird;
-
8 ein
Blockdiagramm ist, welches ein weiteres Aufbaubeispiel des Bereichs
zeigt, der sich auf die Sprachsynthese des Roboters bezieht, für den eine
Ausführungsform
der vorliegenden Erfindung angewandt wird;
-
9 ein
Blockdiagramm ist, welches ein weiteres Aufbaubeispiel des Bereichs
zeigt, der sich auf die Sprachsynthese des Roboters bezieht, für den eine
Ausführungsform
der vorliegenden Erfindung angewandt wird; und
-
10 ein
Blockdiagramm ist, welches ein noch weiteres Aufbaubeispiel des
Bereichs zeigt, der sich auf die Sprachsynthese des Roboters bezieht, für den eine
Ausführungsform
der vorliegenden Erfindung angewandt wird.
-
Beschreibung der bevorzugten Ausführungsformen
-
1 zeigt
ein Aufbaubeispiel eines Bereichs, der sich auf die Sprachsynthese
in einem Roboter bezieht, für
den eine Ausführungsform
der vorliegenden Erfindung angewandt wird. Dieser Roboter hat eine
Wortverbreitungsfunktion, ändert
die Emotion und das Verhalten und ändert die Art und Weise zum
Sprechen gemäß Änderungen
bezüglich
der Emotion und des Verhaltens.
-
Die
verschiedenen Sensoren 1 ermitteln Zustände außerhalb des Roboters und die
Arbeitsweise, die für
den Roboter angewandt wird, und geben die Ergebnisse der Ermittlung
an einen Roboterbewegungssystem-Steuerabschnitt 10 aus.
Beispielsweise ermittelt ein Außentemperatursensor 2 die
Außentemperatur
des Roboters. Ein Temperatursensor 3 und ein Kontaktsensor 4 sind
in der Nähe
als Paar vorgesehen. Der Kontaktsensor 4 ermittelt den
Kontakt des Roboters mit einem Objekt, und der Temperatursensor 3 ermittelt
die Temperatur des kontaktierten Objekts. Ein druck-sensitiver Sensor 5 ermittelt die
Stärke
einer externen Kraft (beispielsweise der Kraft, welche durch Stoß angelegt
wird, oder welche durch Tätscheln
angelegt wird), welche an den Roboter angelegt wird. Ein Windgeschwindigkeitssensor 6 ermittelt
die Geschwindigkeit des Winds, der an der Außenseite des Roboters bläst. Ein
Beleuchtungssensor 7 ermittelt die Beleuchtung außerhalb
des Roboters. Ein Bildsensor 8 ist beispielsweise aus einer CCD
gebildet und ermittelt eine Szene außerhalb des Roboters als Bildsignal.
Ein Tonsensor 9 besteht beispielsweise aus einem Mikrophon
und ermittelt den Ton.
-
Ein
Roboterbewegungssystem-Steuerabschnitt 10 besteht aus einem
Bewegungssystem-Verarbeitungsabschnitt 31 und einem Verhaltensmodell 32,
wie in 2 gezeigt ist, und verwaltet die Arbeitsweise
des Roboters. Der Bewegungssystem-Verarbeitungsabschnitt 31 vergleicht
die Ergebnisse der Ermittlung, die von verschiedenen Sensoren 1 zugeführt werden,
ein internes Ereignis, welches in dessen Innenseite erzeugt wird,
und eine Instruktion, welche von dem Roboterdenksystem-Steuerabschnitt 11 zugeführt wird,
mit dem Verhaltensmodell 32, um das Verhalten des Roboters
zu ändern,
und gibt den aktuellen Verhaltenszustand an einen Sprachsynthese-Steuerinformations-Auswahlabschnitt 12 als
Verhaltenszustand aus. Der Bewegungssystem-Verarbeitungsabschnitt 31 bestimmt außerdem ein
Verhaltensereignis gemäß den Ergebnissen
der Ermittlung, welche von den verschiedenen Sensoren 1 zugeführt werden,
und gibt diese an den Roboterdenksystem-Steuerabschnitt 11 aus. Wenn
das Ergebnis der Ermittlung, welches durch den druck-sensitiven
Sensor 5 erlangt wird, eine Kraft zeigt, die gleich oder
mehr als ein vorher festgelegter Schwellenwert ist, bestimmt beispielsweise
der Bewegungssystem-Verarbeitungsabschnitt 31, dass das
Verhaltensereignis ein Stoß auf
den Kopf ist. Außerdem
leitet der Bewegungssystem-Verarbeitungsabschnitt 31 die Ergebnisse
der Ermittlung, welche von den verschiedenen Sensoren 1 gesendet
werden, an den Roboterdenksystem-Steuerabschnitt 11 weiter.
Die verschiedenen Sensoren 1 können unmittelbar die Ergebnisse
der Ermittlung an einen Denksystem-Verarbeitungsabschnitt 41 liefern.
-
Das
Verhaltensmodell 32 beschreibt einen Zustand, der verwendet
wird, wenn der Roboter sich von einem Standardzustand zu jeder unterschiedlicher
Verhaltensweisen sich ändert,
wie in 3 gezeigt ist. Wenn die Instruktion "gehen" im Standardzustand
ausgegeben wird, tritt beispielsweise ein Übergang zum Verhalten "gehen" auf. Wenn die Instruktion "steh auf" ausgegeben wird,
tritt ein Übergang
auf den Verhaltenszustand "aufstehen" auf. Wenn das interne
Ereignis "Betrieb
beendet" erzeugt wird,
wenn das spezielle Verhalten beendet ist, tritt ein Übergang
in den Standardzustand auf.
-
Kehrt
man zu 1 zurück,
so besteht der Roboterdenksystem-Steuerabschnitt 11 aus
einem Denksystem-Verarbeitungsabschnitt 41 und einem Bewegungsmodell 42,
wie in 2 gezeigt ist, und verwaltet die Emotion des Roboters.
Der Denksystem-Verarbeitungsabschnitt 41 vergleicht ein
Verhaltensereignis, welches vom Bewegungssystem-Verarbeitungsabschnitt 31 zugeführt wird,
die Ergebnisse der Ermittlung, welche durch die verschiedenen Sensoren 1 erlangt
werden, und ein internes Ereignis (beispielsweise Ereignisse, welche
periodisch in einem Intervall einer festen Zeitperiode erzeugt werden),
welche in dessen Innenseite erzeugt werden, mit dem Emotionsmodell 42,
um die Emotion des Roboters zu ändern,
und gibt die aktuelle Emotion an den Sprachsynthese-Steuerinformations-Auswahlabschnitt 12 als
Emotionszustand aus. Der Denksystem-Verarbeitungsabschnitt 41 gibt
außerdem
eine Instruktion, welche sich auf ein Verhalten bezieht, an den
Bewegungssystem-Verarbeitungsabschnitt 31 als Antwort auf
die Ergebnisse der Ermittlung, welche durch die verschiedenen Sensoren 1 erlangt
werden, aus. Außerdem
erzeugt der Denksystem-Verarbeitungsabschnitt 41 einen
Text zur Sprachsynthese, welche durch den Roboter verbreitet wird,
als Antwort auf ein Verhaltenereignis, und die Ergebnisse der Ermittlung,
welche durch die verschiedenen Sensoren erlangt werden, und gibt
diese an einen Sprachverarbeitungsabschnitt 14 aus. Wenn
das Verhaltensereignis "auf
den Kopf gestoßen" auftritt, erzeugt beispielsweise
der Denksystem-Verarbeitungsabschnitt 41 den Text "ouch" für die Sprachsynthese.
-
Das
Emotionsmodell 42 beschreibt einen Zustand, der verwendet
wird, wenn sich der Roboter von einem Standardzustand zu jedem unterschiedlicher
Emotionen ändert,
wie in 4 gezeigt ist. Wenn das Verhaltensergebnis "auf den Kopf gestoßen" im Standardzustand
auftritt, tritt beispielsweise ein Übergang auf die Emotion "ärgerlich" auf. Wenn das Verhaltensereignis "auf dem Kopf gestreichelt" auftritt, tritt
ein Übergang
auf die Emotion "glück lich" auf. Wenn ein internes
Ereignis erzeugt wird, wenn ein Verhaltensereignis nicht eine vorher
festgelegte Zeitperiode oder mehr auftritt, tritt ein Übergang
in den Standardzustand auf.
-
Kehrt
man zu 1 zurück,
so wählt
der Sprachsynthese-Steuerinformations-Auswahlabschnitt 12 ein Feld
aus, welches die geeignetste Sprachsynthese-Steuerinformation hat,
unter vielen Feldern, welche in einer Sprachsynthese-Steuerinformationstabelle 13 vorbereitet
sind, gemäß einem Verhaltenszustand,
der vom Roboterbewegungssystem-Steuerabschnitt 10 zugeführt wird,
und einem Emotionszustand, der vom Roboterdenksystem-Steuerabschnitt 11 zugeführt wird.
Bei dieser Auswahl kann ein Feld gemäß einem Parameter ausgewählt werden,
welches zusätzlich
zum Betriebszustand hinzugefügt
ist, und dem Emotionszustand (Details werden später mit Hilfe von 8 bis 10 beschrieben).
-
Die
Sprachsynthese-Steuerinformationstabelle 13 hat eine Anzahl
von Feldern als Antwort auf alle Kombinationen von Verhaltenszuständen, Emotionszuständen und
weiteren Parametern (wird später beschrieben).
Die Sprachsynthese-Steuerinformationstabelle 13 gibt die
Auswahlinformation, welche im Feld gespeichert ist, welches durch
den Sprachsynthese-Steuerinformations-Auswahlabschnitt 12 ausgewählt wird,
an den Sprachverarbeitungsabschnitt 14 aus, und gibt die
Sprachsynthese-Steuerinformation an einen Sprachsyntheseabschnitt 15 auf
Basis einer Regel aus.
-
Jedes
Feld umfasst die Auswahlinformation und die Sprachsynthese-Steuerinformation,
wie in 5 gezeigt ist. Die Auswahlinformation besteht aus
einem Wortabbildungs-Wörterbuch-ID
und einer Stilumsetzungs-Regel-ID. Die Sprachsynthese-Steuerinformation
ist aus einer Segment-Daten-ID, einer Silben-Satz-ID, einem Teilungsparameter,
einem Parameter der Intensität
des Akzents, einem Parameter der Intensität der Phase und einem Verbreitungsgeschwindigkeits-Parameter
gebildet.
-
Die
Wortabbildungs-Wörterbuch-IDs
sind vorher in einer Wortabbildungs-Wörterdatenbank 54 vorbereitet
(6). Jede von diesen ist Information, um ein Wörterbuch
zu spezifizieren, welches in einem Wortumsetzungsabschnitt 53 zu
verwenden ist (6) unter mehreren Wörterbüchern, beispielsweise
einem Wortabbildungs-Wörterbuch
für die
Babysprache, einem Wortabbildungs-Wörterbuch für den Osaka-Dialekt, einem
Wörterabbildungs-Wörterbuch für Wörter, welche durch Mädchen in
Gymnasien verwendet werden, und einem Wörterabbildungs-Wörterbuch
für Wörter, welche
zum Imittieren von Katzen verwendet werden. Die Wortabbildungs-Wörterbücher werden
gemäß der Persönlichkeitsinformation,
was später
beschrieben wird, des Roboters umgeschaltet, und werden verwendet,
um Wörter
zu ersetzen, welche in einem Text enthalten sind, zur Sprachsynthese,
welche in der Standard sprache ausgedrückt wird, mit anderen Wörtern. Beispielsweise
ersetzt das Wortabbildungs-Wörterbuch zur
Babysprache das "buubu" für das Wort "kuruma", welches in einem
Text zur Sprachsynthese enthalten ist.
-
Die
Stilumsetzungs-Regel-IDs sind vorher in einer Stilumsetzungs-Regel-Datenbank 56 vorbereitet
(6). Jede von diesen ist Information, um eine Regel
zu spezifizieren, welche in einem Stilumsetzungsabschnitt 55 (6)
zu verwenden ist, unter mehreren Regeln, beispielsweise einer Regel
zum Umsetzen von weiblichen Wörtern,
einer Regel zum Umsetzen von männlichen
Wörtern,
eine Regel zum Umsetzen der Babysprache, eine Regel zum Umsetzen
des Osaka-Dialekts, einer Regel zum Umsetzen in Wörter, welche
durch Mädchen
in höheren
Schulen verwendet werden, und einer Regel zum Umsetzen in Wörter, welche
zum Imittieren von Katzen verwendet werden. Stilumsetzungsregeln
werden gemäß der Persönlichkeitsinformation,
was später
beschrieben wird, des Roboters umgeschaltet und werden verwendet,
um letztere Folgen, welche in einem Text enthalten sind, zur Sprachsynthese
mit anderen späteren
Folgen zu ersetzen. Beispielsweise ersetzt die Stielregel zum Umsetzen
in Wörter
unter Verwendung zum Imittieren von Katzen das Wort "nya" durch das Wort "desu", welches am Ende
eines Satzes in einem Text zur Sprachsynthese verwendet wird.
-
Die
Segment-Daten-ID, welche in der Sprachsynthese-Steuerinformation
enthalten ist, ist Information, welche zum Spezifizieren eines Sprachsegments
verwendet wird, welches bei dem Regelbasis-Sprachsyntheseabschnitt 15 zu
verwenden ist. Sprachsegmente sind vorher im Regelbasis-Sprachsyntheseabschnitt 15 für die weibliche
Stimme, die männliche
Stimme, die Kinderstimme, die Pferdestimme, die mechanische Stimme
und weitere Stimmen vorbereitet.
-
Die
Silbensatz-ID ist Information, um einen Silbensatz zu spezifizieren,
der durch den Regelbasis-Sprachsyntheseabschnitt 15 zu
verwenden ist. Beispielsweise werden 266 Basissilbensätze und 180
vereinfachte Silbensätze
vorbereitet. Die 180 vereinfachten Silbensätze haben eine eingeschränktere Anzahl
von Phonemen, welche als die 266 Basissilbensätze verbreitet werden können. Mit
den 180 vereinfachten Silbensätzen
wird beispielsweise "ringo", der in einem Text
zur Sprachsynthese enthalten ist, welches dem Sprachverarbeitungsabschnitt 14 zugeführt wird,
als "ningo" ausgesprochen. Wenn Phoneme,
die verbreitet werden können,
auf diese Weise beschränkt
werden, kann die Sprachverbreitung zum Lispeln von Kinder zum Ausdruck
gebracht werden.
-
Der
Tonhöhenparameter
ist Information, der verwendet wird, die Tonhöhenfrequenz einer Sprache zu
spezifizieren, welche durch den Regelbasis-Sprachsyntheseabschnitt 15 zu
synthetisieren ist. Der Parameter der Intensität des Akzents ist Information,
der verwendet wird, die Intensität
eines Akzents eine Sprache zu spezifizieren, welche durch den Regelbasis-Sprachsyntheseabschnitt 15 zu
synthetisieren ist. Wenn dieser Parameter groß ist, wird die Verbreitung
mit starken Akzenten erreicht. Wenn der Parameter klein ist, wird
die Verbreitung mit schwachen Akzenten erreicht.
-
Der
Parameter der Intensität
des Satzbaus ist Information, der zum Spezifizieren der Intensität des Satzbaus
einer Sprache verwendet wird, welche durch den Regelbasis-Sprachsyntheseabschnitt 15 zu
synthetisieren ist. Wenn dieser Parameter groß ist, treten häufige Satzbauten
auf. Wenn der Parameter klein ist, treten weniger Satzbauten auf.
Die Verbreitungsgeschwindigkeitsparameter ist Information, die verwendet
wird, die Verbreitungsgeschwindigkeit einer Sprache zu spezifizieren,
welche durch den Regelbasis-Sprachsyntheseabschnitt 15 zu
synthetisieren ist.
-
Kehrt
man zu 1 zurück,
so analysiert der Sprachverarbeitungsabschnitt 14 einen
Text zur Sprachsynthetisierung, der von dem Roboterdenksystem-Steuerabschnitt 11 zugeführt wird,
hinsichtlich von Grammatik, setzt vorher festgelegte Bereiche der
Sprachsynthese-Steuerinformation um und gibt diese an den Regelbasis-Sprachsyntheseabschnitt 15 aus.
-
6 zeigt
ein Aufbaubeispiel des Sprachverarbeitungsabschnitts 14.
Der Text zur Sprachsynthetisierung, der von dem Roboterdenksystem-Steuerabschnitt 11 gesendet
wird, wird an einen Stilanalysierungsabschnitt 51 ausgegeben.
Die Auswahlinformation, welche von der Sprachsynthese-Steuerinformationstabelle 13 gesendet
wird, wird an den Wortumsetzungsabschnitt 53 und an den
Stilumsetzungsabschnitt 55 ausgegeben. Der Stilanalyseabschnitt 51 verwendet
ein Analysewörterbuch 52,
um eine Formanalyse an den Text zur Sprachsynthetisierung anzuwenden
und gibt diesen an den Wortumsetzungsabschnitt 53 aus.
Das Analysewörterbuch 52 beschreibt
Information, welche für
die Regelbasis-Sprachsynthese erforderlich ist, beispielsweise das
Lesen von Wörtern
(Formelemente), Akzentarten und Teile der Sprache, und eine einmalige Wort-ID
jedes Worts.
-
Der
Wortumsetzungsabschnitt 53 liest das Wörterbuch entsprechend der Wortabbildungs-Wörterbuch-ID,
welche in der Auswahlinformation enthalten ist, von der Wortabbildungs-Wörterbuchdatenbank 54;
ersetzt Wörter,
welche in dem Lesewort-Abbildungswörterbuch spezifiziert sind,
unter den Wörtern,
welche im Text für
die Sprachsynthese enthalten sind, für welche die Formanalyse angewandt
wurde, welche vom Stilanalysierungsabschnitt 51 gesendet wird;
und gibt diese an den Stilumsetzungsabschnitt 55 aus.
-
Der
Stilumsetzungsabschnitt 55 liest die Regel entsprechend
der Stilumsetzungs-Regel-ID,
welche in der Auswahlinformation enthalten ist, aus der Stilumsetzungs-Regelda tenbank 56;
setzt den Text zur Sprachsynthese, für welche die Wortumsetzung angewandt
wurde, welche von dem Wortumsetzungsabschnitt 53 gesendet
wurde, gemäß der Lesestil-Umsetzungsregel um,
und gibt diese an den Regelbasis-Sprachsyntheseabschnitt 15 aus.
-
Kehrt
man zurück
zu 1 so synthetisiert der Regelbasis-Sprachsyntheseabschnitt 15 ein Sprachsignal
entsprechend dem Text zur Sprachsynthese, der von dem Sprachverarbeitungsabschnitt 14 zugeführt wird,
gemäß der Sprachsynthese-Steuerinformation,
welche von der Sprachsynthese-Steuerinformationstabelle 13 zugeführt wird.
Das Sprachsynthesesignal wird auf einen Ton durch einen Lautsprecher 16 geändert.
-
Ein
Steuerabschnitt 17 steuert eine Ansteuerung 18,
um ein Steuerprogramm zu lesen, welches auf einer Magnetplatte 19,
einer optischen Platte 20, einer magneto-optischen Platte 21 oder
einem Halbleiterspeicher 22 gespeichert ist, und steuert
jeden Abschnitt gemäß dem gelesenen
Steuerprogramm.
-
Die
Verarbeitung des Roboters, für
welche eine Ausführungsform
der vorliegenden Erfindung angewandt wird, wird anschließend mit
Hilfe eines Flussdiagramms, welches in 7 gezeigt
ist, beschrieben. Die Verarbeitung beginnt beispielsweise, wenn
der drucksensitive Sensor 5, d.h., einer der unterschiedlichen
Sensoren 1, einen Zustand ermittelt, bei dem der Benutzer
den Kopf des Roboters angestoßen
hat, und das Ergebnis der Ermittlung dem Bewegungssystem-Verarbeitungsabschnitt 31 des
Roboterbewegungssystems-Verarbeitungsabschnitts 10 zugeführt wird.
-
Im
Schritt S1 bestimmt der Bewegungssystem-Verarbeitungsabschnitt 31,
dass ein Verhaltensereignis "auf
den Kopf gestoßen" auftritt, wenn das Ergebnis
der Ermittlung, welches durch den druck-sensitiven Sensor 5 erlangt
wird, zeigt, dass eine Kraft gleich oder mehr als ein vorher festgelegter Schwellenwert
angelegt wurde, und berichtet die Bestimmung dem Denksystem-Verarbeitungsabschnitt 41 des
Roboterdenksystem-Steuerabschnitts 11. Der Bewegungssystem-Verarbeitungsabschnitt 31 vergleicht
außerdem
das Verhaltensereignis "auf
den Kopf gestoßen" mit dem Verhaltensmodell 32,
um zu bestimmen ein Roboterverhalten "aufstehen", und gibt dies als einen Verhaltenszustand
an den Sprachsynthese-Steuerinformations-Auswahlabschnitt 12 aus.
-
Im
Schritt S2 vergleicht der Denksystem-Verarbeitungsabschnitt 41 des
Roboterdenksystem-Steuerabschnitts 11 das Verhaltensereignis "auf den Kopf gestoßen", welches von dem
Bewegungssystem-Verarbeitungsabschnitt 31 zugeführt wird,
mit dem Bewegungsmodell 42, um die Emotion auf "ärgerlich" zu ändern,
und gibt die aktuelle Emotion als einen Emotionszustand an den Sprachsynthese-Steuerinformation-Auswahlabschnitt 12 aus.
Der Denksystem-Verarbeitungsabschnitt 41 erzeugt außerdem den
Text "ouch" für die Sprach synthese
als Antwort auf das Verhaltensereignis "auf den Kopf gefallen", und gibt dies an
den Stilanalyseabschnitt 51 des Sprachverarbeitungsabschnitts 14 aus.
-
Im
Schritt S3 wählt
der Sprachsynthese-Steuerinformation-Auswahlabschnitt 12 ein
Feld aus, welches die geeignetste Sprachsynthese-Steuerinformation
hat, unter einer Anzahl von Feldern, welche in der Sprachsynthese-Steuerinformationstabelle 13 vorbereitet
sind, gemäß dem Verhaltenszustand,
der vom Bewegungssystem-Verarbeitungsabschnitt 31 zugeführt wird,
und dem Emotionszustand, der vom Denksystem-Verarbeitungsabschnitt 41 zugeführt wird.
Die Sprachsynthese-Steuerinformationstabelle 13 gibt die
Auswahlinformation, welche im ausgewählten Feld gespeichert ist,
an den Sprachverarbeitungsabschnitt 14 aus, und gibt die
Sprachsynthese-Steuerinformation an den Regelbasis-Sprachsyntheseabschnitt 15 aus.
-
Im
Schritt S4 verwendet der Stilanalyseabschnitt 51 des Sprachverarbeitungsabschnitts 14 das Analysewörterbuch 52,
um Formanalyse für
den Text zur Sprachsynthese anzuwenden, und gibt dies an den Wortumsetzungsabschnitt 53 aus.
Im Schritt S5 liest der Wortumsetzungsabschnitt 53 das
Wörterbuch
entsprechend der Wortabbildungs-Wörterbuch-ID, welche in der Auswahlinformation
enthalten ist, von der Wortabbildungs-Wörterbuchdatenbank 54;
ersetzt Wörter,
welche im Lesewort-Abbildungswörterbuch
spezifiziert sind, unter den Wörtern,
welche im Text zur Sprachsynthese enthalten sind, für welche
die Formanalyse angewandet wurde, welche vom Stilanalyseabschnitt 51 gesendet
wurde; und gibt diese an den Stilumsetzungsabschnitt 55 aus.
Im Schritt S6 liest der Stilumsetzungsabschnitt 55 die Regel
entsprechend der Stilumsetzungs-Regel-ID, welche in der Auswahlinformation
enthalten ist, von der Stilumsetzungs-Regeldatenbank 56,
setzt den Text zur Sprachsynthese um, zu welche die Wortumsetzung
angelegt wurde, welche vom Wortumsetzungsabschnitt 53 gesendet
wurde; und gibt diese an den Regelbasis-Sprachsyntheseabschnitt 15 aus.
-
Im
Schritt S7 synthetisiert der Regelbasis-Sprachsyntheseabschnitt 15 ein
Sprachsignal entsprechend dem Text zur Sprachsynthese, der von dem
Sprachverarbeitungsabschnitt 14 zugeführt wird, gemäß der Sprachsynthese-Steuerinformation, welche
von der Sprachsynthese-Steuerinformationstabelle 13 zugeführt wird,
und ändert
dieses in einen Ton im Lautsprecher 16.
-
Mit
der oben beschriebenen Verarbeitung verhält sich der Roboter, als ob
er Emotion hätte.
Der Roboter ändert
die Art und Weise des Sprechens gemäß von dessen Verhalten und
der Änderung
von dessen Emotion.
-
Ein
Verfahren zum Hinzufügen
eines Parameters anders als des Verhaltenszustands und des Emotionszustands
im Auswahlprozess des Sprachsynthese-Steuerinformations-Auswahlabschnitts 12 wird
anschließend
mit Hilfe von 8 bis 10 beschrieben.
-
8 zeigt
ein Aufbaubeispiel, bei dem ein Kommunikationsport 61,
ein Kommunikationssteuerabschnitt 62, und ein Persönlichkeits-Informationsspeicher 63 dem
Aufbaubeispiel, welches in 1 gezeigt
ist, hinzugefügt
sind, um dem Roboter Persönlichkeit
zu verleihen. Der Kommunikationsport 61 ist eine Schnittstelle,
um Persönlichkeitsinformation zu
und von einer externen Einrichtung zu übertragen und davon zu empfangen
(beispielsweise einem Personalcomputer), und kann beispielsweise
einer von diesen sein, welche mit den Kommunikationsstandards konform
sind, beispielsweise RS-232C, USB und IEEE 1394. Der Kommunikationssteuerabschnitt 62 steuert
Informationskommunikation mit einer externen Einheit über den
Kommunikationsport 61 gemäß einem vorher festgelegten
Protokoll, und gibt die empfangene Persönlichkeitsinformation an den
Roboterdenksystem-Steuerabschnitt 11 aus. Der Persönlichkeitsinformationsspeicher 63 ist
ein umschreibbarer nichtflüchtiger
Speicher, beispielsweise ein Flashspeicher, und gibt die gespeicherte
Persönlichkeitsinformation
an Sprachsynthese-Steuerinformation-Auswahlabschnitt 12 aus.
-
Die
folgenden beispielhaften Posten können als Persönlichkeitsinformation
angesehen werden, welche von außerhalb
gesendet werden.
- Art: Hund/Katze
- Geschlecht: männlich/weiblich
- Alter: Kind/Erwachsener
- Temperament: heftig/sanft
- Physikalischer Zustand: mager/übergewichtig
-
Jeder
dieser Begriffe ist im Persönlichkeitsinformationsspeicher 63 als
Binärdaten
0 oder 1 gespeichert. Jeder Begriff kann nicht durch Binärdaten, jedoch
durch Mehrfachwertdaten spezifiziert werden.
-
Um
zu verhindern, dass die Persönlichkeitsinformation
sehr häufig
umgeschrieben wird, kann die Häufigkeit,
mit der umgeschrieben wird, beschränkt werden. Ein Passwort kann
zum Umschreiben spezifiziert werden. Ein Persönlichkeitsinformationsspeicher 63,
der aus einem ROM gebildet ist, in welchem Persönlichkeitsinformation vorher
geschrieben wurde, kann vorher eingebaut werden bei der Herstellung,
ohne den Kommunikationsport 61 und den Kommunikationssteuerabschnitt 62 vorzusehen.
-
Mit
solchem Aufbau wird ein Roboter, der eine Sprache verschieden von
der eines anderen Roboters ausgibt, gemäß der spezifizierten Persönlichkeit
realisiert werden.
-
9 zeigt
ein Aufbaubeispiel, bei dem ein Timer 71 dem Aufbaubeispiel
hinzugefügt
ist, welches in 1 gezeigt ist. Der Timer 71 zählt die
Ablaufzeit, von welcher der Roboter zunächst aktiviert wurde, und gibt
die Zeit an den Sprachsynthese-Steuerinformations-Auswahlabschnitt 12 aus.
Der Timer 71 kann die Zeit zählen, in welcher der Roboter betrieben
wird, von der, wo der Roboter zunächst angesteuert wurde.
-
Mit
einem solchen Aufbau wird ein Roboter, der eine abgegebene Stimme
gemäß der Ablaufzeit ausgibt,
realisiert werden.
-
10 zeigt
ein Aufbaubeispiel, bei dem ein Berechnungsabschnitt 81 für einen
empirischen Wert und ein Speicher 82 für einen empirischen Wert dem Aufbaubeispiel
hinzugefügt
sind, welches in 1 gezeigt ist, der Berechnungsabschnitt 81 für den empirischen
Wert zählt
die Häufigkeit
von emotionellen Übergängen, die
bei jedem geänderten
Emotionszustand auftreten, wenn sich der Denksystem-Verarbeitungsabschnitt 41 die
Emotion vom Standardzustand auf einen anderen Zustand ändert, und
speichert diese in dem Speicher 82 für den empirischen Wert. Wenn
vier Emotionszustände
als Emotionsmodell 42, wie in 4 gezeigt
ist, verwendet werden, wird beispielsweise die Häufigkeit der Übergänge für jeden der
vier Zustände
im Speicher 82 für
den empirischen Wert gespeichert. Die Häufigkeit der Übergänge auf jeden
Emotionszustand treten auf oder ein Emotionszustand, der die häufigsten Übergänge hat,
die auftreten, kann dem Sprachsynthese-Steuerinformations-Auswahlabschnitt 12 mitgeteilt
werden.
-
Mit
einem solchen Aufbau kann beispielsweise ein Roboter, der häufig gestoßen wird,
oder der eine große
Anzahl an Häufigkeiten
von Übergängen in
den Bewegungszustand hat, "ärgerlich", ausgeführt werden,
um einen Weg eines Sprechens zu einem leichtzugänglichen Ärgerlichkeitszustand zu erreichen.
Ein Roboter, der häufig
getätschelt
wird und der eine große
Häufigkeit
an Übergängen in
den Emotionszustand hat, "glücklich", die auftreten,
kann ausgeführt
werden, eine angenehme Art und Weise des Sprechens zu erlangen.
-
Die
Aufbaubeispiele, welche in 8 bis 10 gezeigt
sind, können
wenn erforderlich kombiniert werden.
-
Die
Ergebnisse der Ermittlung, welche durch die verschiedenen Sensoren 1 erreicht
werden, können
zum Sprachsynthese-Steuerinformations-Auswahlabschnitt 12 als
Parameter gesendet werden, um die Art und Weise des Sprechens gemäß einem externen
Zustand zu ändern.
Wenn die Außentemperatur,
welche durch den Außentemperatursensor 2 ermittelt
wird, gleich oder weniger als eine vorher festgelegte Temperatur
ist, kann beispielsweise eine zitternde Stimme verbreitet werden.
-
Die
Ergebnisse der Ermittlung, welche durch die verschiedenen Sensoren 1 erzielt
werden, können
als Parameter verwendet werden, als Historie aufgezeichnet werden
und zum Sprachsynthese-Steuerinformations-Auswahlabschnitt 12 gesendet
werden. In diesem Fall kann beispielsweise ein Roboter, der viel
Historie hat, bei dem die Außentemperatur
gleich oder weniger als eine vorher festgelegte Temperatur ist,
in einem Tohoku-Dialekt sprechen.
-
Die
oben beschriebenen Reihen an Verarbeitung können nicht durch Hardware,
sondern auch durch Software ausgeführt werden. Wenn die Reihe an
Verarbeitungen durch Software ausgeführt wird, wird ein Programm,
welches die Software enthält, von
einem Aufzeichnungsmedium in einem Computer, der spezielle Hardware
hat, installiert werden, oder in einen Allzweck-Personalcomputer,
der verschiedene Funktionen erreichen kann, wenn verschiedene Programme
installiert sind.
-
Das
Aufzeichnungsmedium wird durch ein Paketmedium gebildet, welches
dem Benutzer vertrieben wird, um das Programm bereitzustellen, separat
vom Computer, und bei dem das Programm aufgezeichnet ist, beispielsweise
als Magnetplatte 19 (einschließlich einer Diskette), einer
optischen Platte 20 (einschließlich einer CD-ROM (kompakter
Nur-Lese-Speicher)
und einer DVD (universell verwendbare Platte)), einer magneto-optischen
Platte 21 (einschließlich
einer MD (Mini-Disc) oder einem Halbleiterspeicher 22,
wie in 1 gezeigt ist. Alternativ wird das Aufzeichnungsmedium
aus einem ROM oder einer Festplatte gebildet, welche dem Benutzer in
einem Zustand bereitgestellt wird, bei dem diese im Computer vorher
eingebaut sind und das Programm darauf aufgezeichnet ist.
-
Bei
der vorliegenden Spezifikation umfassen Schritte, welche das Programm
beschreiben, welche auf dem Aufzeichnungsmedium aufgezeichnet ist, nicht
nur Prozesse, welche in zeitsequentieller Weise ausgeführt werden,
gemäß der vorgeschriebenen Reihenfolge,
sondern auch Prozesse, welche nicht notwendigerweise in einer zeitsequenziellen
Weise erzielt werden müssen,
sondern parallel oder unabhängig
ausgeführt
werden.
-
Wie
oben beschrieben wird gemäß einer Sprachsynthesevorrichtung,
einem Sprachsyntheseverfahren und einem Programm, welches auf einem Aufzeichnungsmedium
von Ausführungsformen
der vorliegenden Erfindung gespeichert ist, die Steuerinformation
gemäß einem
der Verhaltenszustände
und einem Bewegungszustand ausgewählt, und ein Sprachsignal wird
gemäß einem
Text gemäß der Sprachsyntheseinformation
synthetisiert, welche in der ausgewählten Steuerinformation enthalten
ist. Daher wird ein Roboter, der die Art und Weise des Sprechens
gemäß der Emotion
und dem Verhalten ändern
kann, um eine lebende Sache realer zu imittieren, realisiert.
-
Insoweit
die Ausführungsformen
der Erfindung, die oben beschrieben wurden, realisiert werden, wird
zumindest teilweise unter Verwendung der software-gesteuerten Datenverarbeitungsvorrichtung
es als vorteilhaft eingeschätzt,
dass ein Computerprogramm, welches derartige Software-Steuerung bereitstellt,
und ein Speichermedium, durch welches ein Computerprogramm gespeichert
wird, in Betracht gezogen werden.
-
Die
Erfindung ist den Patentansprüchen
definiert.