DE60035848T2

DE60035848T2 - Sprachsynthesevorrichtung und Verfahren, sowie Aufzeichnungsmedium

Info

Publication number: DE60035848T2
Application number: DE60035848T
Authority: DE
Inventors: Masato Shimakawa; Nobuhide Yamazaki; Erika Kobayashi; Makoto Akabane; Kenichiro Kobayashi; Keiichi Yamada; Tomoaki Nitta
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1999-12-28
Filing date: 2000-12-27
Publication date: 2008-05-21
Anticipated expiration: 2020-12-28
Also published as: EP1113417A3; EP1113417A2; JP2001188553A; JP4465768B2; DE60035848D1; US7379871B2; EP1113417B1; US20010021907A1

Description

Hintergrund der Erfindung
1. Gebiet der Erfindung
Die vorliegende Erfindung bezieht sich auf eine Sprachsynthesevorrichtung und ein Verfahren, auf ein Aufzeichnungsmedium und ein Computerprogrammprodukt. Ausführungsformen der Erfindung beziehen sich auf eine Sprachsynthesevorrichtung, ein Sprachsyntheseverfahren und ein Aufzeichnungsmedium, welche beispielsweise an einem Roboter angebracht sind, um ein Sprachsignal, welches zu synthetisieren ist, gemäß der Emotion und dem Verhalten des Roboters zu ändern.
2. Beschreibung des Standes der Technik
Es gibt Roboter, welche Wörter verbreiten. Wenn solche Roboter ihre Emotionen ändern und die Art des Sprechens gemäß den Emotionen ändern, oder wenn sie die Weise zum Sprechen gemäß ihrer Persönlichkeit, welche für sie spezifiziert ist, ändern, beispielsweise das Geschlecht, das Alter, den Geburtsort, Zeichen und physikalische Eigenschaften, emittieren diese lebende Dinge wirklichkeitstreuer.
Der Benutzer wird diese Roboter mit Freundschaft kontaktieren und lieben, als ob sie Lieblingstiere währen. Das Problem besteht darin, dass diese Roboter bisher nicht realisiert wurden.
Die EP 1 107 227 (welche ein früheres Prioritätsdatum hat als die vorliegende Anmeldung, jedoch nach dem Prioritätsdatum der letzteren veröffentlicht wurde) beschreibt eine Sprachsyntheseeinheit, welche Sprachsyntheseverarbeitung auf Basis des Emotionszustandes eines Roboters in einer Emotion-/Instinktmodelleinheit durchführt. In dem Fall beispielsweise, dass der Emotionszustand des Roboters "nicht ärgerlich" zeigt, wird ein Syntheseton von beispielsweise "was ist das ?" erzeugt, jedoch, wenn der Emotionszustand "ärgerlich" zeigt, wird ein Syntheseton "Yeah, was ?" erzeugt, um den Ärger zum Ausdruck zu bringen. Somit wird ein Roboter mit hohem Unterhaltungswert bereitgestellt.
Überblick über die Erfindung
Ausführungsformen der vorliegenden Erfindung versuchen, einen Roboter bereitzustellen, der die Art und Weise zum Sprechen gemäß der Emotion und dem Verhalten ändert, um lebende Dinge realer zu emittieren.
Ein Merkmal der vorliegenden Erfindung stellt eine Sprachsynthesevorrichtung zum Synthetisieren eines Sprachsignals bereit, welches einem Text entspricht, welche aufweist: eine Verhaltenszustands-Änderungseinrichtung zum Ändern eines Verhaltenszustands gemäß einem Verhaltensmodell; eine Emotionszustands-Änderungseinrichtung zum Ändern eines Emotionszustands gemäß einem Emotionsmodell, eine Auswahleinrichtung zum Auswählen von Steuerinformation gemäß zumindest einem von dem Verhaltenszustand und dem Emotionszustand; und eine Syntheseeinrichtung zum Synthetisieren eines Sprachsignals entsprechend dem Text gemäß der Sprachsyntheseinformation, welche in der Steuerinformation enthalten ist, welche durch die Auswahleinrichtung ausgewählt, und eine Akkumulationseinrichtung aufweist, um zumindest eines von der Häufigkeit, mit der die Verhaltenszustands-Änderungseinrichtung Verhaltenszustände ändert, und der Häufigkeit, mit der die Emotionszustands-Änderungseinrichtung Emotionszustände ändert, zu akkumulieren, und wobei die Auswahleinrichtung die Steuerinformation auch gemäß der Häufigkeit auswählt, welche durch die Akkumulationseinrichtung akkumuliert wurde.
Eine Sprachsynthesevorrichtung einer Ausführungsform der Erfindung kann so aufgebaut sein, dass diese außerdem eine Ermittlungseinrichtung (1) zum Ermitteln eines externen Zustands aufweist, wobei die Auswahleinrichtung die Steuerinformation außerdem gemäß dem Ermittlungsergebnis auswählt, welches durch die Ermittlungseinrichtung erlangt wird.
Eine Sprachsynthesevorrichtung einer Ausführungsform der vorliegenden Erfindung kann so aufgebaut sein, dass diese außerdem eine Halteeinrichtung aufweist, um zu halten, und wobei die Auswahleinrichtung außerdem die Steuerinformation gemäß der individuellen Information auswählt, welche durch die Halteeinrichtung gehalten wird.
Eine Sprachsynthesevorrichtung einer Ausführungsform der vorliegenden Erfindung kann so aufgebaut sein, dass diese außerdem eine Zähleinrichtung eine Zähleinrichtung aufweist, um die abgelaufene Zeit von der Aktivierung zu zählen, und wobei die Auswahleinrichtung die Steuerinformation außerdem gemäß der abgelaufenen Zeit auswählt, welche durch die Zähleinrichtung gezählt wird.
Eine Sprachsynthesevorrichtung einer Ausführungsform der vorliegenden Erfindung kann außerdem eine Substituierungseinrichtung aufweisen, um Wörter, welche im Text enthalten sind, unter Verwendung eines Wortsubstituierungs-Wörterbuchs entsprechend der Auswahlinformation, welche in der Steuerinformation enthalten ist, welche durch die Auswahleinrichtung ausgewählt wurde, zu substituieren.
Eine Sprachsynthesevorrichtung einer Ausführungsform der vorliegenden Erfindung kann außerdem eine Umsetzungseinrichtung (55) aufweisen, um den Stil des Textes gemäß einer Stilumsetzungsregel (56) entsprechend der Auswahlinformation umzusetzen, welche in der Steuerinformation enthalten ist, welche durch die Auswahleinrichtung ausgewählt wurde.
Ein weiteres Merkmal der vorliegenden Erfindung stellt ein Sprachsyntheseverfahren zum Synthetisieren eines Sprachsignals gemäß einem Text bereit, welches aufweist: einen Verhaltenszustands-Änderungsschritt zum Ändern eines Verhaltenszustands gemäß eines Verhaltensmodells; einen Emotionszustands-Änderungsschritt zum Ändern eines Emotionszustands gemäß einem Emotionsmodell; einen Auswahlschritt zum Auswählen von Steuerinformation gemäß zumindest einem von dem Verhaltenszustand und dem Emotionszustand; und einen Synthetisierungsschritt zum Synthetisieren eines Sprachsignals entsprechend dem Text gemäß der Sprachsyntheseinformation, welche in der Steuerinformation enthalten ist, welche durch den Prozess des Auswahlschritts ausgewählt wurde; und einen Akkumulationsschritt zum Akkumulieren von zumindest einer von der Häufigkeit, mit der der Verhaltenszustands-Änderungsschritt Verhaltenszustände ändert, und der Häufigkeit, mit der der Emotionszustands-Änderungsschritt Emotionszustände ändert, und
wobei der Auswahlschritt die Steuerinformation auch gemäß der Häufigkeit auswählt, die im Akkumulationsschritt akkumuliert wurde.
Ein noch weiteres Merkmal der vorliegenden Erfindung liefert einen Aufzeichnungsträger, auf welchem ein computer-lesbares Sprachsyntheseprogramm gespeichert ist, um ein Sprachsignal gemäß einem Text zu synthetisieren, wobei das Programm eine Computerprogramm-Codeeinrichtung aufweist, welches, wenn ausgeführt, die folgenden Schritte aufweist: einen Verhaltenszustands-Änderungsschritt zum Ändern eines Verhaltenszustands gemäß einem Verhaltensmodell; einen Emotionszustands-Änderungsschritt zum Ändern eines Emotionszustands gemäß einem Emotionsmodell;
einen Auswahlschritt zum Auswählen von Steuerinformation gemäß zumindest von einem von dem Verhaltenszustand und dem Emotionszustand; und
einen Synthetisierungsschritt zum Synthetisieren eines Sprachsignals entsprechend dem Text gemäß der Sprachsyntheseinformation, welche in der Steuerinformation enthalten ist, welche durch den Prozess des Auswahlschritts ausgewählt wurde; und einen Akkumulationsschritt zum Akkumulieren von zumindest einem von der Häufigkeit, mit der der Verhal tenszustands-Änderungsschritt Verhaltenszustände ändert, und der Häufigkeit, mit der der Emotionszustands-Änderungsschritt Emotionszustände ändert, und wobei der Auswahlschritt die Steuerinformation außerdem gemäß der Häufigkeit auswählt, welche im Akkumulationsschritt akkumuliert wurde.
Kurzbeschreibung der Zeichnungen
Um die vorliegende Erfindung besser verstehen zu können, wird nun auf die beiliegenden Zeichnungen als Beispiel bezuggenommen, in denen:
1 ein Blockdiagramm ist, welches ein Aufbaubeispiel eines Bereichs zeigt, der auf die Sprachsynthese eines Roboters bezogen ist, bei dem eine Ausführungsform der vorliegenden Erfindung angewandt wird;
2 ein Blockdiagramm ist, welches ein Aufbaubeispiel eines Steuerabschnitts 10 für ein Roboterbewegungssystem und einen Steuerabschnitt 11 für ein Roboterdenksystem zeigt, welches in 1 gezeigt ist;
3 eine Ansicht ist, welche ein Verhaltensmodell 32 zeigt, welches in 2 gezeigt ist;
4 eine Ansicht ist, welche ein Emotionsmodell 42 zeigt, welches in 2 gezeigt ist;
5 eine Ansicht ist, welche eine Sprachsynthese-Steuerinformation zeigt;
6 ein Blockdiagramm ist, welches ein ausführliches Aufbaubeispiel eines Sprachverarbeitungsabschnitts 14 zeigt;
7 ein Flussdiagramm ist, welches die Arbeitsweise des Roboters zeigt, für den die vorliegende Erfindung angewandt wird;
8 ein Blockdiagramm ist, welches ein weiteres Aufbaubeispiel des Bereichs zeigt, der sich auf die Sprachsynthese des Roboters bezieht, für den eine Ausführungsform der vorliegenden Erfindung angewandt wird;
9 ein Blockdiagramm ist, welches ein weiteres Aufbaubeispiel des Bereichs zeigt, der sich auf die Sprachsynthese des Roboters bezieht, für den eine Ausführungsform der vorliegenden Erfindung angewandt wird; und
10 ein Blockdiagramm ist, welches ein noch weiteres Aufbaubeispiel des Bereichs zeigt, der sich auf die Sprachsynthese des Roboters bezieht, für den eine Ausführungsform der vorliegenden Erfindung angewandt wird.
Beschreibung der bevorzugten Ausführungsformen
1 zeigt ein Aufbaubeispiel eines Bereichs, der sich auf die Sprachsynthese in einem Roboter bezieht, für den eine Ausführungsform der vorliegenden Erfindung angewandt wird. Dieser Roboter hat eine Wortverbreitungsfunktion, ändert die Emotion und das Verhalten und ändert die Art und Weise zum Sprechen gemäß Änderungen bezüglich der Emotion und des Verhaltens.
Die verschiedenen Sensoren 1 ermitteln Zustände außerhalb des Roboters und die Arbeitsweise, die für den Roboter angewandt wird, und geben die Ergebnisse der Ermittlung an einen Roboterbewegungssystem-Steuerabschnitt 10 aus. Beispielsweise ermittelt ein Außentemperatursensor 2 die Außentemperatur des Roboters. Ein Temperatursensor 3 und ein Kontaktsensor 4 sind in der Nähe als Paar vorgesehen. Der Kontaktsensor 4 ermittelt den Kontakt des Roboters mit einem Objekt, und der Temperatursensor 3 ermittelt die Temperatur des kontaktierten Objekts. Ein druck-sensitiver Sensor 5 ermittelt die Stärke einer externen Kraft (beispielsweise der Kraft, welche durch Stoß angelegt wird, oder welche durch Tätscheln angelegt wird), welche an den Roboter angelegt wird. Ein Windgeschwindigkeitssensor 6 ermittelt die Geschwindigkeit des Winds, der an der Außenseite des Roboters bläst. Ein Beleuchtungssensor 7 ermittelt die Beleuchtung außerhalb des Roboters. Ein Bildsensor 8 ist beispielsweise aus einer CCD gebildet und ermittelt eine Szene außerhalb des Roboters als Bildsignal. Ein Tonsensor 9 besteht beispielsweise aus einem Mikrophon und ermittelt den Ton.
Ein Roboterbewegungssystem-Steuerabschnitt 10 besteht aus einem Bewegungssystem-Verarbeitungsabschnitt 31 und einem Verhaltensmodell 32, wie in 2 gezeigt ist, und verwaltet die Arbeitsweise des Roboters. Der Bewegungssystem-Verarbeitungsabschnitt 31 vergleicht die Ergebnisse der Ermittlung, die von verschiedenen Sensoren 1 zugeführt werden, ein internes Ereignis, welches in dessen Innenseite erzeugt wird, und eine Instruktion, welche von dem Roboterdenksystem-Steuerabschnitt 11 zugeführt wird, mit dem Verhaltensmodell 32, um das Verhalten des Roboters zu ändern, und gibt den aktuellen Verhaltenszustand an einen Sprachsynthese-Steuerinformations-Auswahlabschnitt 12 als Verhaltenszustand aus. Der Bewegungssystem-Verarbeitungsabschnitt 31 bestimmt außerdem ein Verhaltensereignis gemäß den Ergebnissen der Ermittlung, welche von den verschiedenen Sensoren 1 zugeführt werden, und gibt diese an den Roboterdenksystem-Steuerabschnitt 11 aus. Wenn das Ergebnis der Ermittlung, welches durch den druck-sensitiven Sensor 5 erlangt wird, eine Kraft zeigt, die gleich oder mehr als ein vorher festgelegter Schwellenwert ist, bestimmt beispielsweise der Bewegungssystem-Verarbeitungsabschnitt 31, dass das Verhaltensereignis ein Stoß auf den Kopf ist. Außerdem leitet der Bewegungssystem-Verarbeitungsabschnitt 31 die Ergebnisse der Ermittlung, welche von den verschiedenen Sensoren 1 gesendet werden, an den Roboterdenksystem-Steuerabschnitt 11 weiter. Die verschiedenen Sensoren 1 können unmittelbar die Ergebnisse der Ermittlung an einen Denksystem-Verarbeitungsabschnitt 41 liefern.
Das Verhaltensmodell 32 beschreibt einen Zustand, der verwendet wird, wenn der Roboter sich von einem Standardzustand zu jeder unterschiedlicher Verhaltensweisen sich ändert, wie in 3 gezeigt ist. Wenn die Instruktion "gehen" im Standardzustand ausgegeben wird, tritt beispielsweise ein Übergang zum Verhalten "gehen" auf. Wenn die Instruktion "steh auf" ausgegeben wird, tritt ein Übergang auf den Verhaltenszustand "aufstehen" auf. Wenn das interne Ereignis "Betrieb beendet" erzeugt wird, wenn das spezielle Verhalten beendet ist, tritt ein Übergang in den Standardzustand auf.
Kehrt man zu 1 zurück, so besteht der Roboterdenksystem-Steuerabschnitt 11 aus einem Denksystem-Verarbeitungsabschnitt 41 und einem Bewegungsmodell 42, wie in 2 gezeigt ist, und verwaltet die Emotion des Roboters. Der Denksystem-Verarbeitungsabschnitt 41 vergleicht ein Verhaltensereignis, welches vom Bewegungssystem-Verarbeitungsabschnitt 31 zugeführt wird, die Ergebnisse der Ermittlung, welche durch die verschiedenen Sensoren 1 erlangt werden, und ein internes Ereignis (beispielsweise Ereignisse, welche periodisch in einem Intervall einer festen Zeitperiode erzeugt werden), welche in dessen Innenseite erzeugt werden, mit dem Emotionsmodell 42, um die Emotion des Roboters zu ändern, und gibt die aktuelle Emotion an den Sprachsynthese-Steuerinformations-Auswahlabschnitt 12 als Emotionszustand aus. Der Denksystem-Verarbeitungsabschnitt 41 gibt außerdem eine Instruktion, welche sich auf ein Verhalten bezieht, an den Bewegungssystem-Verarbeitungsabschnitt 31 als Antwort auf die Ergebnisse der Ermittlung, welche durch die verschiedenen Sensoren 1 erlangt werden, aus. Außerdem erzeugt der Denksystem-Verarbeitungsabschnitt 41 einen Text zur Sprachsynthese, welche durch den Roboter verbreitet wird, als Antwort auf ein Verhaltenereignis, und die Ergebnisse der Ermittlung, welche durch die verschiedenen Sensoren erlangt werden, und gibt diese an einen Sprachverarbeitungsabschnitt 14 aus. Wenn das Verhaltensereignis "auf den Kopf gestoßen" auftritt, erzeugt beispielsweise der Denksystem-Verarbeitungsabschnitt 41 den Text "ouch" für die Sprachsynthese.
Das Emotionsmodell 42 beschreibt einen Zustand, der verwendet wird, wenn sich der Roboter von einem Standardzustand zu jedem unterschiedlicher Emotionen ändert, wie in 4 gezeigt ist. Wenn das Verhaltensergebnis "auf den Kopf gestoßen" im Standardzustand auftritt, tritt beispielsweise ein Übergang auf die Emotion "ärgerlich" auf. Wenn das Verhaltensereignis "auf dem Kopf gestreichelt" auftritt, tritt ein Übergang auf die Emotion "glück lich" auf. Wenn ein internes Ereignis erzeugt wird, wenn ein Verhaltensereignis nicht eine vorher festgelegte Zeitperiode oder mehr auftritt, tritt ein Übergang in den Standardzustand auf.
Kehrt man zu 1 zurück, so wählt der Sprachsynthese-Steuerinformations-Auswahlabschnitt 12 ein Feld aus, welches die geeignetste Sprachsynthese-Steuerinformation hat, unter vielen Feldern, welche in einer Sprachsynthese-Steuerinformationstabelle 13 vorbereitet sind, gemäß einem Verhaltenszustand, der vom Roboterbewegungssystem-Steuerabschnitt 10 zugeführt wird, und einem Emotionszustand, der vom Roboterdenksystem-Steuerabschnitt 11 zugeführt wird. Bei dieser Auswahl kann ein Feld gemäß einem Parameter ausgewählt werden, welches zusätzlich zum Betriebszustand hinzugefügt ist, und dem Emotionszustand (Details werden später mit Hilfe von 8 bis 10 beschrieben).
Die Sprachsynthese-Steuerinformationstabelle 13 hat eine Anzahl von Feldern als Antwort auf alle Kombinationen von Verhaltenszuständen, Emotionszuständen und weiteren Parametern (wird später beschrieben). Die Sprachsynthese-Steuerinformationstabelle 13 gibt die Auswahlinformation, welche im Feld gespeichert ist, welches durch den Sprachsynthese-Steuerinformations-Auswahlabschnitt 12 ausgewählt wird, an den Sprachverarbeitungsabschnitt 14 aus, und gibt die Sprachsynthese-Steuerinformation an einen Sprachsyntheseabschnitt 15 auf Basis einer Regel aus.
Jedes Feld umfasst die Auswahlinformation und die Sprachsynthese-Steuerinformation, wie in 5 gezeigt ist. Die Auswahlinformation besteht aus einem Wortabbildungs-Wörterbuch-ID und einer Stilumsetzungs-Regel-ID. Die Sprachsynthese-Steuerinformation ist aus einer Segment-Daten-ID, einer Silben-Satz-ID, einem Teilungsparameter, einem Parameter der Intensität des Akzents, einem Parameter der Intensität der Phase und einem Verbreitungsgeschwindigkeits-Parameter gebildet.
Die Wortabbildungs-Wörterbuch-IDs sind vorher in einer Wortabbildungs-Wörterdatenbank 54 vorbereitet (6). Jede von diesen ist Information, um ein Wörterbuch zu spezifizieren, welches in einem Wortumsetzungsabschnitt 53 zu verwenden ist (6) unter mehreren Wörterbüchern, beispielsweise einem Wortabbildungs-Wörterbuch für die Babysprache, einem Wortabbildungs-Wörterbuch für den Osaka-Dialekt, einem Wörterabbildungs-Wörterbuch für Wörter, welche durch Mädchen in Gymnasien verwendet werden, und einem Wörterabbildungs-Wörterbuch für Wörter, welche zum Imittieren von Katzen verwendet werden. Die Wortabbildungs-Wörterbücher werden gemäß der Persönlichkeitsinformation, was später beschrieben wird, des Roboters umgeschaltet, und werden verwendet, um Wörter zu ersetzen, welche in einem Text enthalten sind, zur Sprachsynthese, welche in der Standard sprache ausgedrückt wird, mit anderen Wörtern. Beispielsweise ersetzt das Wortabbildungs-Wörterbuch zur Babysprache das "buubu" für das Wort "kuruma", welches in einem Text zur Sprachsynthese enthalten ist.
Die Stilumsetzungs-Regel-IDs sind vorher in einer Stilumsetzungs-Regel-Datenbank 56 vorbereitet (6). Jede von diesen ist Information, um eine Regel zu spezifizieren, welche in einem Stilumsetzungsabschnitt 55 (6) zu verwenden ist, unter mehreren Regeln, beispielsweise einer Regel zum Umsetzen von weiblichen Wörtern, einer Regel zum Umsetzen von männlichen Wörtern, eine Regel zum Umsetzen der Babysprache, eine Regel zum Umsetzen des Osaka-Dialekts, einer Regel zum Umsetzen in Wörter, welche durch Mädchen in höheren Schulen verwendet werden, und einer Regel zum Umsetzen in Wörter, welche zum Imittieren von Katzen verwendet werden. Stilumsetzungsregeln werden gemäß der Persönlichkeitsinformation, was später beschrieben wird, des Roboters umgeschaltet und werden verwendet, um letztere Folgen, welche in einem Text enthalten sind, zur Sprachsynthese mit anderen späteren Folgen zu ersetzen. Beispielsweise ersetzt die Stielregel zum Umsetzen in Wörter unter Verwendung zum Imittieren von Katzen das Wort "nya" durch das Wort "desu", welches am Ende eines Satzes in einem Text zur Sprachsynthese verwendet wird.
Die Segment-Daten-ID, welche in der Sprachsynthese-Steuerinformation enthalten ist, ist Information, welche zum Spezifizieren eines Sprachsegments verwendet wird, welches bei dem Regelbasis-Sprachsyntheseabschnitt 15 zu verwenden ist. Sprachsegmente sind vorher im Regelbasis-Sprachsyntheseabschnitt 15 für die weibliche Stimme, die männliche Stimme, die Kinderstimme, die Pferdestimme, die mechanische Stimme und weitere Stimmen vorbereitet.
Die Silbensatz-ID ist Information, um einen Silbensatz zu spezifizieren, der durch den Regelbasis-Sprachsyntheseabschnitt 15 zu verwenden ist. Beispielsweise werden 266 Basissilbensätze und 180 vereinfachte Silbensätze vorbereitet. Die 180 vereinfachten Silbensätze haben eine eingeschränktere Anzahl von Phonemen, welche als die 266 Basissilbensätze verbreitet werden können. Mit den 180 vereinfachten Silbensätzen wird beispielsweise "ringo", der in einem Text zur Sprachsynthese enthalten ist, welches dem Sprachverarbeitungsabschnitt 14 zugeführt wird, als "ningo" ausgesprochen. Wenn Phoneme, die verbreitet werden können, auf diese Weise beschränkt werden, kann die Sprachverbreitung zum Lispeln von Kinder zum Ausdruck gebracht werden.
Der Tonhöhenparameter ist Information, der verwendet wird, die Tonhöhenfrequenz einer Sprache zu spezifizieren, welche durch den Regelbasis-Sprachsyntheseabschnitt 15 zu synthetisieren ist. Der Parameter der Intensität des Akzents ist Information, der verwendet wird, die Intensität eines Akzents eine Sprache zu spezifizieren, welche durch den Regelbasis-Sprachsyntheseabschnitt 15 zu synthetisieren ist. Wenn dieser Parameter groß ist, wird die Verbreitung mit starken Akzenten erreicht. Wenn der Parameter klein ist, wird die Verbreitung mit schwachen Akzenten erreicht.
Der Parameter der Intensität des Satzbaus ist Information, der zum Spezifizieren der Intensität des Satzbaus einer Sprache verwendet wird, welche durch den Regelbasis-Sprachsyntheseabschnitt 15 zu synthetisieren ist. Wenn dieser Parameter groß ist, treten häufige Satzbauten auf. Wenn der Parameter klein ist, treten weniger Satzbauten auf. Die Verbreitungsgeschwindigkeitsparameter ist Information, die verwendet wird, die Verbreitungsgeschwindigkeit einer Sprache zu spezifizieren, welche durch den Regelbasis-Sprachsyntheseabschnitt 15 zu synthetisieren ist.
Kehrt man zu 1 zurück, so analysiert der Sprachverarbeitungsabschnitt 14 einen Text zur Sprachsynthetisierung, der von dem Roboterdenksystem-Steuerabschnitt 11 zugeführt wird, hinsichtlich von Grammatik, setzt vorher festgelegte Bereiche der Sprachsynthese-Steuerinformation um und gibt diese an den Regelbasis-Sprachsyntheseabschnitt 15 aus.
6 zeigt ein Aufbaubeispiel des Sprachverarbeitungsabschnitts 14. Der Text zur Sprachsynthetisierung, der von dem Roboterdenksystem-Steuerabschnitt 11 gesendet wird, wird an einen Stilanalysierungsabschnitt 51 ausgegeben. Die Auswahlinformation, welche von der Sprachsynthese-Steuerinformationstabelle 13 gesendet wird, wird an den Wortumsetzungsabschnitt 53 und an den Stilumsetzungsabschnitt 55 ausgegeben. Der Stilanalyseabschnitt 51 verwendet ein Analysewörterbuch 52, um eine Formanalyse an den Text zur Sprachsynthetisierung anzuwenden und gibt diesen an den Wortumsetzungsabschnitt 53 aus. Das Analysewörterbuch 52 beschreibt Information, welche für die Regelbasis-Sprachsynthese erforderlich ist, beispielsweise das Lesen von Wörtern (Formelemente), Akzentarten und Teile der Sprache, und eine einmalige Wort-ID jedes Worts.
Der Wortumsetzungsabschnitt 53 liest das Wörterbuch entsprechend der Wortabbildungs-Wörterbuch-ID, welche in der Auswahlinformation enthalten ist, von der Wortabbildungs-Wörterbuchdatenbank 54; ersetzt Wörter, welche in dem Lesewort-Abbildungswörterbuch spezifiziert sind, unter den Wörtern, welche im Text für die Sprachsynthese enthalten sind, für welche die Formanalyse angewandt wurde, welche vom Stilanalysierungsabschnitt 51 gesendet wird; und gibt diese an den Stilumsetzungsabschnitt 55 aus.
Der Stilumsetzungsabschnitt 55 liest die Regel entsprechend der Stilumsetzungs-Regel-ID, welche in der Auswahlinformation enthalten ist, aus der Stilumsetzungs-Regelda tenbank 56; setzt den Text zur Sprachsynthese, für welche die Wortumsetzung angewandt wurde, welche von dem Wortumsetzungsabschnitt 53 gesendet wurde, gemäß der Lesestil-Umsetzungsregel um, und gibt diese an den Regelbasis-Sprachsyntheseabschnitt 15 aus.
Kehrt man zurück zu 1 so synthetisiert der Regelbasis-Sprachsyntheseabschnitt 15 ein Sprachsignal entsprechend dem Text zur Sprachsynthese, der von dem Sprachverarbeitungsabschnitt 14 zugeführt wird, gemäß der Sprachsynthese-Steuerinformation, welche von der Sprachsynthese-Steuerinformationstabelle 13 zugeführt wird. Das Sprachsynthesesignal wird auf einen Ton durch einen Lautsprecher 16 geändert.
Ein Steuerabschnitt 17 steuert eine Ansteuerung 18, um ein Steuerprogramm zu lesen, welches auf einer Magnetplatte 19, einer optischen Platte 20, einer magneto-optischen Platte 21 oder einem Halbleiterspeicher 22 gespeichert ist, und steuert jeden Abschnitt gemäß dem gelesenen Steuerprogramm.
Die Verarbeitung des Roboters, für welche eine Ausführungsform der vorliegenden Erfindung angewandt wird, wird anschließend mit Hilfe eines Flussdiagramms, welches in 7 gezeigt ist, beschrieben. Die Verarbeitung beginnt beispielsweise, wenn der drucksensitive Sensor 5, d.h., einer der unterschiedlichen Sensoren 1, einen Zustand ermittelt, bei dem der Benutzer den Kopf des Roboters angestoßen hat, und das Ergebnis der Ermittlung dem Bewegungssystem-Verarbeitungsabschnitt 31 des Roboterbewegungssystems-Verarbeitungsabschnitts 10 zugeführt wird.
Im Schritt S1 bestimmt der Bewegungssystem-Verarbeitungsabschnitt 31, dass ein Verhaltensereignis "auf den Kopf gestoßen" auftritt, wenn das Ergebnis der Ermittlung, welches durch den druck-sensitiven Sensor 5 erlangt wird, zeigt, dass eine Kraft gleich oder mehr als ein vorher festgelegter Schwellenwert angelegt wurde, und berichtet die Bestimmung dem Denksystem-Verarbeitungsabschnitt 41 des Roboterdenksystem-Steuerabschnitts 11. Der Bewegungssystem-Verarbeitungsabschnitt 31 vergleicht außerdem das Verhaltensereignis "auf den Kopf gestoßen" mit dem Verhaltensmodell 32, um zu bestimmen ein Roboterverhalten "aufstehen", und gibt dies als einen Verhaltenszustand an den Sprachsynthese-Steuerinformations-Auswahlabschnitt 12 aus.
Im Schritt S2 vergleicht der Denksystem-Verarbeitungsabschnitt 41 des Roboterdenksystem-Steuerabschnitts 11 das Verhaltensereignis "auf den Kopf gestoßen", welches von dem Bewegungssystem-Verarbeitungsabschnitt 31 zugeführt wird, mit dem Bewegungsmodell 42, um die Emotion auf "ärgerlich" zu ändern, und gibt die aktuelle Emotion als einen Emotionszustand an den Sprachsynthese-Steuerinformation-Auswahlabschnitt 12 aus. Der Denksystem-Verarbeitungsabschnitt 41 erzeugt außerdem den Text "ouch" für die Sprach synthese als Antwort auf das Verhaltensereignis "auf den Kopf gefallen", und gibt dies an den Stilanalyseabschnitt 51 des Sprachverarbeitungsabschnitts 14 aus.
Im Schritt S3 wählt der Sprachsynthese-Steuerinformation-Auswahlabschnitt 12 ein Feld aus, welches die geeignetste Sprachsynthese-Steuerinformation hat, unter einer Anzahl von Feldern, welche in der Sprachsynthese-Steuerinformationstabelle 13 vorbereitet sind, gemäß dem Verhaltenszustand, der vom Bewegungssystem-Verarbeitungsabschnitt 31 zugeführt wird, und dem Emotionszustand, der vom Denksystem-Verarbeitungsabschnitt 41 zugeführt wird. Die Sprachsynthese-Steuerinformationstabelle 13 gibt die Auswahlinformation, welche im ausgewählten Feld gespeichert ist, an den Sprachverarbeitungsabschnitt 14 aus, und gibt die Sprachsynthese-Steuerinformation an den Regelbasis-Sprachsyntheseabschnitt 15 aus.
Im Schritt S4 verwendet der Stilanalyseabschnitt 51 des Sprachverarbeitungsabschnitts 14 das Analysewörterbuch 52, um Formanalyse für den Text zur Sprachsynthese anzuwenden, und gibt dies an den Wortumsetzungsabschnitt 53 aus. Im Schritt S5 liest der Wortumsetzungsabschnitt 53 das Wörterbuch entsprechend der Wortabbildungs-Wörterbuch-ID, welche in der Auswahlinformation enthalten ist, von der Wortabbildungs-Wörterbuchdatenbank 54; ersetzt Wörter, welche im Lesewort-Abbildungswörterbuch spezifiziert sind, unter den Wörtern, welche im Text zur Sprachsynthese enthalten sind, für welche die Formanalyse angewandet wurde, welche vom Stilanalyseabschnitt 51 gesendet wurde; und gibt diese an den Stilumsetzungsabschnitt 55 aus. Im Schritt S6 liest der Stilumsetzungsabschnitt 55 die Regel entsprechend der Stilumsetzungs-Regel-ID, welche in der Auswahlinformation enthalten ist, von der Stilumsetzungs-Regeldatenbank 56, setzt den Text zur Sprachsynthese um, zu welche die Wortumsetzung angelegt wurde, welche vom Wortumsetzungsabschnitt 53 gesendet wurde; und gibt diese an den Regelbasis-Sprachsyntheseabschnitt 15 aus.
Im Schritt S7 synthetisiert der Regelbasis-Sprachsyntheseabschnitt 15 ein Sprachsignal entsprechend dem Text zur Sprachsynthese, der von dem Sprachverarbeitungsabschnitt 14 zugeführt wird, gemäß der Sprachsynthese-Steuerinformation, welche von der Sprachsynthese-Steuerinformationstabelle 13 zugeführt wird, und ändert dieses in einen Ton im Lautsprecher 16.
Mit der oben beschriebenen Verarbeitung verhält sich der Roboter, als ob er Emotion hätte. Der Roboter ändert die Art und Weise des Sprechens gemäß von dessen Verhalten und der Änderung von dessen Emotion.
Ein Verfahren zum Hinzufügen eines Parameters anders als des Verhaltenszustands und des Emotionszustands im Auswahlprozess des Sprachsynthese-Steuerinformations-Auswahlabschnitts 12 wird anschließend mit Hilfe von 8 bis 10 beschrieben.
8 zeigt ein Aufbaubeispiel, bei dem ein Kommunikationsport 61, ein Kommunikationssteuerabschnitt 62, und ein Persönlichkeits-Informationsspeicher 63 dem Aufbaubeispiel, welches in 1 gezeigt ist, hinzugefügt sind, um dem Roboter Persönlichkeit zu verleihen. Der Kommunikationsport 61 ist eine Schnittstelle, um Persönlichkeitsinformation zu und von einer externen Einrichtung zu übertragen und davon zu empfangen (beispielsweise einem Personalcomputer), und kann beispielsweise einer von diesen sein, welche mit den Kommunikationsstandards konform sind, beispielsweise RS-232C, USB und IEEE 1394. Der Kommunikationssteuerabschnitt 62 steuert Informationskommunikation mit einer externen Einheit über den Kommunikationsport 61 gemäß einem vorher festgelegten Protokoll, und gibt die empfangene Persönlichkeitsinformation an den Roboterdenksystem-Steuerabschnitt 11 aus. Der Persönlichkeitsinformationsspeicher 63 ist ein umschreibbarer nichtflüchtiger Speicher, beispielsweise ein Flashspeicher, und gibt die gespeicherte Persönlichkeitsinformation an Sprachsynthese-Steuerinformation-Auswahlabschnitt 12 aus.
Die folgenden beispielhaften Posten können als Persönlichkeitsinformation angesehen werden, welche von außerhalb gesendet werden.

Art: Hund/Katze
Geschlecht: männlich/weiblich
Alter: Kind/Erwachsener
Temperament: heftig/sanft
Physikalischer Zustand: mager/übergewichtig

Jeder dieser Begriffe ist im Persönlichkeitsinformationsspeicher 63 als Binärdaten 0 oder 1 gespeichert. Jeder Begriff kann nicht durch Binärdaten, jedoch durch Mehrfachwertdaten spezifiziert werden.
Um zu verhindern, dass die Persönlichkeitsinformation sehr häufig umgeschrieben wird, kann die Häufigkeit, mit der umgeschrieben wird, beschränkt werden. Ein Passwort kann zum Umschreiben spezifiziert werden. Ein Persönlichkeitsinformationsspeicher 63, der aus einem ROM gebildet ist, in welchem Persönlichkeitsinformation vorher geschrieben wurde, kann vorher eingebaut werden bei der Herstellung, ohne den Kommunikationsport 61 und den Kommunikationssteuerabschnitt 62 vorzusehen.
Mit solchem Aufbau wird ein Roboter, der eine Sprache verschieden von der eines anderen Roboters ausgibt, gemäß der spezifizierten Persönlichkeit realisiert werden.
9 zeigt ein Aufbaubeispiel, bei dem ein Timer 71 dem Aufbaubeispiel hinzugefügt ist, welches in 1 gezeigt ist. Der Timer 71 zählt die Ablaufzeit, von welcher der Roboter zunächst aktiviert wurde, und gibt die Zeit an den Sprachsynthese-Steuerinformations-Auswahlabschnitt 12 aus. Der Timer 71 kann die Zeit zählen, in welcher der Roboter betrieben wird, von der, wo der Roboter zunächst angesteuert wurde.
Mit einem solchen Aufbau wird ein Roboter, der eine abgegebene Stimme gemäß der Ablaufzeit ausgibt, realisiert werden.
10 zeigt ein Aufbaubeispiel, bei dem ein Berechnungsabschnitt 81 für einen empirischen Wert und ein Speicher 82 für einen empirischen Wert dem Aufbaubeispiel hinzugefügt sind, welches in 1 gezeigt ist, der Berechnungsabschnitt 81 für den empirischen Wert zählt die Häufigkeit von emotionellen Übergängen, die bei jedem geänderten Emotionszustand auftreten, wenn sich der Denksystem-Verarbeitungsabschnitt 41 die Emotion vom Standardzustand auf einen anderen Zustand ändert, und speichert diese in dem Speicher 82 für den empirischen Wert. Wenn vier Emotionszustände als Emotionsmodell 42, wie in 4 gezeigt ist, verwendet werden, wird beispielsweise die Häufigkeit der Übergänge für jeden der vier Zustände im Speicher 82 für den empirischen Wert gespeichert. Die Häufigkeit der Übergänge auf jeden Emotionszustand treten auf oder ein Emotionszustand, der die häufigsten Übergänge hat, die auftreten, kann dem Sprachsynthese-Steuerinformations-Auswahlabschnitt 12 mitgeteilt werden.
Mit einem solchen Aufbau kann beispielsweise ein Roboter, der häufig gestoßen wird, oder der eine große Anzahl an Häufigkeiten von Übergängen in den Bewegungszustand hat, "ärgerlich", ausgeführt werden, um einen Weg eines Sprechens zu einem leichtzugänglichen Ärgerlichkeitszustand zu erreichen. Ein Roboter, der häufig getätschelt wird und der eine große Häufigkeit an Übergängen in den Emotionszustand hat, "glücklich", die auftreten, kann ausgeführt werden, eine angenehme Art und Weise des Sprechens zu erlangen.
Die Aufbaubeispiele, welche in 8 bis 10 gezeigt sind, können wenn erforderlich kombiniert werden.
Die Ergebnisse der Ermittlung, welche durch die verschiedenen Sensoren 1 erreicht werden, können zum Sprachsynthese-Steuerinformations-Auswahlabschnitt 12 als Parameter gesendet werden, um die Art und Weise des Sprechens gemäß einem externen Zustand zu ändern. Wenn die Außentemperatur, welche durch den Außentemperatursensor 2 ermittelt wird, gleich oder weniger als eine vorher festgelegte Temperatur ist, kann beispielsweise eine zitternde Stimme verbreitet werden.
Die Ergebnisse der Ermittlung, welche durch die verschiedenen Sensoren 1 erzielt werden, können als Parameter verwendet werden, als Historie aufgezeichnet werden und zum Sprachsynthese-Steuerinformations-Auswahlabschnitt 12 gesendet werden. In diesem Fall kann beispielsweise ein Roboter, der viel Historie hat, bei dem die Außentemperatur gleich oder weniger als eine vorher festgelegte Temperatur ist, in einem Tohoku-Dialekt sprechen.
Die oben beschriebenen Reihen an Verarbeitung können nicht durch Hardware, sondern auch durch Software ausgeführt werden. Wenn die Reihe an Verarbeitungen durch Software ausgeführt wird, wird ein Programm, welches die Software enthält, von einem Aufzeichnungsmedium in einem Computer, der spezielle Hardware hat, installiert werden, oder in einen Allzweck-Personalcomputer, der verschiedene Funktionen erreichen kann, wenn verschiedene Programme installiert sind.
Das Aufzeichnungsmedium wird durch ein Paketmedium gebildet, welches dem Benutzer vertrieben wird, um das Programm bereitzustellen, separat vom Computer, und bei dem das Programm aufgezeichnet ist, beispielsweise als Magnetplatte 19 (einschließlich einer Diskette), einer optischen Platte 20 (einschließlich einer CD-ROM (kompakter Nur-Lese-Speicher) und einer DVD (universell verwendbare Platte)), einer magneto-optischen Platte 21 (einschließlich einer MD (Mini-Disc) oder einem Halbleiterspeicher 22, wie in 1 gezeigt ist. Alternativ wird das Aufzeichnungsmedium aus einem ROM oder einer Festplatte gebildet, welche dem Benutzer in einem Zustand bereitgestellt wird, bei dem diese im Computer vorher eingebaut sind und das Programm darauf aufgezeichnet ist.
Bei der vorliegenden Spezifikation umfassen Schritte, welche das Programm beschreiben, welche auf dem Aufzeichnungsmedium aufgezeichnet ist, nicht nur Prozesse, welche in zeitsequentieller Weise ausgeführt werden, gemäß der vorgeschriebenen Reihenfolge, sondern auch Prozesse, welche nicht notwendigerweise in einer zeitsequenziellen Weise erzielt werden müssen, sondern parallel oder unabhängig ausgeführt werden.
Wie oben beschrieben wird gemäß einer Sprachsynthesevorrichtung, einem Sprachsyntheseverfahren und einem Programm, welches auf einem Aufzeichnungsmedium von Ausführungsformen der vorliegenden Erfindung gespeichert ist, die Steuerinformation gemäß einem der Verhaltenszustände und einem Bewegungszustand ausgewählt, und ein Sprachsignal wird gemäß einem Text gemäß der Sprachsyntheseinformation synthetisiert, welche in der ausgewählten Steuerinformation enthalten ist. Daher wird ein Roboter, der die Art und Weise des Sprechens gemäß der Emotion und dem Verhalten ändern kann, um eine lebende Sache realer zu imittieren, realisiert.
Insoweit die Ausführungsformen der Erfindung, die oben beschrieben wurden, realisiert werden, wird zumindest teilweise unter Verwendung der software-gesteuerten Datenverarbeitungsvorrichtung es als vorteilhaft eingeschätzt, dass ein Computerprogramm, welches derartige Software-Steuerung bereitstellt, und ein Speichermedium, durch welches ein Computerprogramm gespeichert wird, in Betracht gezogen werden.
Die Erfindung ist den Patentansprüchen definiert.

Claims

Sprachsynthesevorrichtung zum Synthetisieren eines Sprachsignals, welches einem Text entspricht, welche aufweist: eine Verhaltenszustands-Änderungseinrichtung (31) zum Ändern eines Verhaltenszustands gemäß einem Verhaltensmodell (32); eine Emotionszustands-Änderungseinrichtung (41) zum Ändern eines Emotionszustands gemäß einem Emotionsmodell (42); eine Auswahleinrichtung (12) zum Auswählen von Steuerinformation gemäß zumindest einem von dem Verhaltenszustand und dem Emotionszustand; und eine Syntheseeinrichtung (15) zum Synthetisieren eines Sprachsignals entsprechend dem Text gemäß der Sprachsyntheseinformation, welche in der Steuerinformation enthalten ist, welche durch die Auswahleinrichtung ausgewählt wird; dadurch gekennzeichnet, dass die Vorrichtung außerdem eine Akkumulationseinrichtung (81, 82) aufweist, um zumindest eines von der Häufigkeit, mit der die Verhaltenszustands-Änderungseinrichtung Verhaltenszustände ändert, und der Häufigkeit, mit der die Emotionszustands-Änderungseinrichtung Emotionszustände ändert, zu akkumulieren, und wobei die Auswahleinrichtung die Steuerinformation auch gemäß der Häufigkeit auswählt, welche durch die Akkumulationseinrichtung akkumuliert wurde.
Sprachsynthesevorrichtung nach Anspruch 1, wobei die Sprachsyntheseinformation zumindest eines von einer Segment-Daten-ID, einer Silbensatz-ID, einem Tonhöhenparameter, einem Parameter der Akzentintensität, einem Parameter der Satzintensität und einem Ausdruckgeschwindigkeitsparameter aufweist.
Sprachsynthesevorrichtung nach Anspruch 1, die außerdem eine Ermittlungseinrichtung (1) zum Ermitteln eines externen Zustands aufweist, wobei die Auswahleinrichtung die Steuerinformation außerdem gemäß dem Ermittlungsergebnis auswählt, welches durch die Ermittlungseinrichtung erlangt wird.
Sprachsynthesevorrichtung nach Anspruch 1, welche außerdem eine Halteeinrichtung (63) aufweist, um individuelle Information zu halten, und wobei die Auswahleinrichtung außerdem die Steuerinformation gemäß der individuellen Information auswählt, welche durch die Halteeinrichtung gehalten wird.
Sprachsynthesevorrichtung nach Anspruch 1, welche außerdem eine Zähleinrichtung (71) aufweist, um die abgelaufene Zeit von der Aktivierung zu zählen, und wobei die Auswahleinrichtung die Steuerinformation außerdem gemäß der abgelaufenen Zeit auswählt, welche durch die Zähleinrichtung gezählt wird.
Sprachsynthesevorrichtung nach Anspruch 1, welche außerdem eine Substituierungseinrichtung (53) aufweist, um Wörter, welche im Text enthalten sind, unter Verwendung eines Wortsubstituierungs-Wörterbuchs (54) entsprechend der Auswahlinformation, welche in der Steuerinformation enthalten ist, welche durch die Auswahleinrichtung ausgewählt wurde, zu substituieren.
Sprachsynthesevorrichtung nach Anspruch 1, welche außerdem eine Umsetzungseinrichtung (55) aufweist, um den Stil des Textes gemäß einer Stilumsetzungsregel (56) entsprechend der Auswahlinformation umzusetzen, welche in der Steuerinformation enthalten ist, welche durch die Auswahleinrichtung ausgewählt wurde.
Sprachsynthesevorrichtung nach Anspruch 1, wobei die Sprachsynthesevorrichtung ein Roboter ist.
Sprachsyntheseverfahren für eine Sprachsynthesevorrichtung zum Synthetisieren eines Sprachsignals gemäß einem Text, welches aufweist: einen Verhaltenszustands-Änderungsschritt zum Ändern eines Verhaltenszustands gemäß eines Verhaltensmodells (32); einen Emotionszustands-Änderungsschritt zum Ändern eines Emotionszustands gemäß einem Emotionsmodell (42); einen Auswahlschritt zum Auswählen von Steuerinformation gemäß zumindest einem von dem Verhaltenszustand und dem Emotionszustand; und einen Synthetisierungsschritt zum Synthetisieren eines Sprachsignals entsprechend dem Text gemäß der Sprachsyntheseinformation, welche in der Steuerinformation enthalten ist, welche durch den Prozess des Auswahlschritts ausgewählt wurde; dadurch gekennzeichnet, dass das Verfahren außerdem einen Akkumulationsschritt zum Akkumulieren von zumindest einer von der Häufigkeit, mit der der Verhaltenszustands-Änderungsschritt Verhaltenszustände ändert, und der Häufigkeit, mit der der Emotionszustands-Änderungsschritt Emotionszustände ändert, und wobei der Auswahlschritt die Steuerinformation auch gemäß der Häufigkeit auswählt, die im Akkumulationsschritt akkumuliert wurde.
Aufzeichnungsmedium, welches ein computer-lesbares Sprachsyntheseprogramm zum Synthetisieren eines Sprachsignals entsprechend einem Text speichert, wobei das Programm eine Computerprogramm-Codeeinrichtung aufweist, welches, wenn ausgeführt, die folgenden Schritte aufweist: einen Verhaltenszustands-Änderungsschritt zum Ändern eines Verhaltenszustands gemäß einem Verhaltensmodell (32); einen Emotionszustands-Änderungsschritt zum Ändern eines Emotionszustands gemäß einem Emotionsmodell (42); einen Auswahlschritt zum Auswählen von Steuerinformation gemäß zumindest von einem von dem Verhaltenszustand und dem Emotionszustand; und einen Synthetisierungsschritt zum Synthetisieren eines Sprachsignals entsprechend dem Text gemäß der Sprachsyntheseinformation, welche in der Steuerinformation enthalten ist, welche durch den Prozess des Auswahlschritts ausgewählt wurde; gekennzeichnet durch einen Akkumulationsschritt zum Akkumulieren von zumindest einem von der Häufigkeit, mit der der Verhaltenszustands-Änderungsschritt Verhaltenszustände ändert, und der Häufigkeit, mit der der Emotionszustands-Änderungsschritt Emotionszustände ändert, und wobei der Auswahlschritt die Steuerinformation außerdem gemäß der Häufigkeit auswählt, welche im Akkumulationsschritt akkumuliert wurde.