DE60035848T2 - Sprachsynthesevorrichtung und Verfahren, sowie Aufzeichnungsmedium - Google Patents

Sprachsynthesevorrichtung und Verfahren, sowie Aufzeichnungsmedium Download PDF

Info

Publication number
DE60035848T2
DE60035848T2 DE60035848T DE60035848T DE60035848T2 DE 60035848 T2 DE60035848 T2 DE 60035848T2 DE 60035848 T DE60035848 T DE 60035848T DE 60035848 T DE60035848 T DE 60035848T DE 60035848 T2 DE60035848 T2 DE 60035848T2
Authority
DE
Germany
Prior art keywords
speech synthesis
control information
state
emotion
behavioral
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60035848T
Other languages
English (en)
Other versions
DE60035848D1 (de
Inventor
Masato Shimakawa
Nobuhide Yamazaki
Erika Kobayashi
Makoto Akabane
Kenichiro Kobayashi
Keiichi Yamada
Tomoaki Nitta
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of DE60035848D1 publication Critical patent/DE60035848D1/de
Application granted granted Critical
Publication of DE60035848T2 publication Critical patent/DE60035848T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63HTOYS, e.g. TOPS, DOLLS, HOOPS OR BUILDING BLOCKS
    • A63H2200/00Computerized interactive toys, e.g. dolls

Description

  • Hintergrund der Erfindung
  • 1. Gebiet der Erfindung
  • Die vorliegende Erfindung bezieht sich auf eine Sprachsynthesevorrichtung und ein Verfahren, auf ein Aufzeichnungsmedium und ein Computerprogrammprodukt. Ausführungsformen der Erfindung beziehen sich auf eine Sprachsynthesevorrichtung, ein Sprachsyntheseverfahren und ein Aufzeichnungsmedium, welche beispielsweise an einem Roboter angebracht sind, um ein Sprachsignal, welches zu synthetisieren ist, gemäß der Emotion und dem Verhalten des Roboters zu ändern.
  • 2. Beschreibung des Standes der Technik
  • Es gibt Roboter, welche Wörter verbreiten. Wenn solche Roboter ihre Emotionen ändern und die Art des Sprechens gemäß den Emotionen ändern, oder wenn sie die Weise zum Sprechen gemäß ihrer Persönlichkeit, welche für sie spezifiziert ist, ändern, beispielsweise das Geschlecht, das Alter, den Geburtsort, Zeichen und physikalische Eigenschaften, emittieren diese lebende Dinge wirklichkeitstreuer.
  • Der Benutzer wird diese Roboter mit Freundschaft kontaktieren und lieben, als ob sie Lieblingstiere währen. Das Problem besteht darin, dass diese Roboter bisher nicht realisiert wurden.
  • Die EP 1 107 227 (welche ein früheres Prioritätsdatum hat als die vorliegende Anmeldung, jedoch nach dem Prioritätsdatum der letzteren veröffentlicht wurde) beschreibt eine Sprachsyntheseeinheit, welche Sprachsyntheseverarbeitung auf Basis des Emotionszustandes eines Roboters in einer Emotion-/Instinktmodelleinheit durchführt. In dem Fall beispielsweise, dass der Emotionszustand des Roboters "nicht ärgerlich" zeigt, wird ein Syntheseton von beispielsweise "was ist das ?" erzeugt, jedoch, wenn der Emotionszustand "ärgerlich" zeigt, wird ein Syntheseton "Yeah, was ?" erzeugt, um den Ärger zum Ausdruck zu bringen. Somit wird ein Roboter mit hohem Unterhaltungswert bereitgestellt.
  • Überblick über die Erfindung
  • Ausführungsformen der vorliegenden Erfindung versuchen, einen Roboter bereitzustellen, der die Art und Weise zum Sprechen gemäß der Emotion und dem Verhalten ändert, um lebende Dinge realer zu emittieren.
  • Ein Merkmal der vorliegenden Erfindung stellt eine Sprachsynthesevorrichtung zum Synthetisieren eines Sprachsignals bereit, welches einem Text entspricht, welche aufweist: eine Verhaltenszustands-Änderungseinrichtung zum Ändern eines Verhaltenszustands gemäß einem Verhaltensmodell; eine Emotionszustands-Änderungseinrichtung zum Ändern eines Emotionszustands gemäß einem Emotionsmodell, eine Auswahleinrichtung zum Auswählen von Steuerinformation gemäß zumindest einem von dem Verhaltenszustand und dem Emotionszustand; und eine Syntheseeinrichtung zum Synthetisieren eines Sprachsignals entsprechend dem Text gemäß der Sprachsyntheseinformation, welche in der Steuerinformation enthalten ist, welche durch die Auswahleinrichtung ausgewählt, und eine Akkumulationseinrichtung aufweist, um zumindest eines von der Häufigkeit, mit der die Verhaltenszustands-Änderungseinrichtung Verhaltenszustände ändert, und der Häufigkeit, mit der die Emotionszustands-Änderungseinrichtung Emotionszustände ändert, zu akkumulieren, und wobei die Auswahleinrichtung die Steuerinformation auch gemäß der Häufigkeit auswählt, welche durch die Akkumulationseinrichtung akkumuliert wurde.
  • Eine Sprachsynthesevorrichtung einer Ausführungsform der Erfindung kann so aufgebaut sein, dass diese außerdem eine Ermittlungseinrichtung (1) zum Ermitteln eines externen Zustands aufweist, wobei die Auswahleinrichtung die Steuerinformation außerdem gemäß dem Ermittlungsergebnis auswählt, welches durch die Ermittlungseinrichtung erlangt wird.
  • Eine Sprachsynthesevorrichtung einer Ausführungsform der vorliegenden Erfindung kann so aufgebaut sein, dass diese außerdem eine Halteeinrichtung aufweist, um zu halten, und wobei die Auswahleinrichtung außerdem die Steuerinformation gemäß der individuellen Information auswählt, welche durch die Halteeinrichtung gehalten wird.
  • Eine Sprachsynthesevorrichtung einer Ausführungsform der vorliegenden Erfindung kann so aufgebaut sein, dass diese außerdem eine Zähleinrichtung eine Zähleinrichtung aufweist, um die abgelaufene Zeit von der Aktivierung zu zählen, und wobei die Auswahleinrichtung die Steuerinformation außerdem gemäß der abgelaufenen Zeit auswählt, welche durch die Zähleinrichtung gezählt wird.
  • Eine Sprachsynthesevorrichtung einer Ausführungsform der vorliegenden Erfindung kann außerdem eine Substituierungseinrichtung aufweisen, um Wörter, welche im Text enthalten sind, unter Verwendung eines Wortsubstituierungs-Wörterbuchs entsprechend der Auswahlinformation, welche in der Steuerinformation enthalten ist, welche durch die Auswahleinrichtung ausgewählt wurde, zu substituieren.
  • Eine Sprachsynthesevorrichtung einer Ausführungsform der vorliegenden Erfindung kann außerdem eine Umsetzungseinrichtung (55) aufweisen, um den Stil des Textes gemäß einer Stilumsetzungsregel (56) entsprechend der Auswahlinformation umzusetzen, welche in der Steuerinformation enthalten ist, welche durch die Auswahleinrichtung ausgewählt wurde.
  • Ein weiteres Merkmal der vorliegenden Erfindung stellt ein Sprachsyntheseverfahren zum Synthetisieren eines Sprachsignals gemäß einem Text bereit, welches aufweist: einen Verhaltenszustands-Änderungsschritt zum Ändern eines Verhaltenszustands gemäß eines Verhaltensmodells; einen Emotionszustands-Änderungsschritt zum Ändern eines Emotionszustands gemäß einem Emotionsmodell; einen Auswahlschritt zum Auswählen von Steuerinformation gemäß zumindest einem von dem Verhaltenszustand und dem Emotionszustand; und einen Synthetisierungsschritt zum Synthetisieren eines Sprachsignals entsprechend dem Text gemäß der Sprachsyntheseinformation, welche in der Steuerinformation enthalten ist, welche durch den Prozess des Auswahlschritts ausgewählt wurde; und einen Akkumulationsschritt zum Akkumulieren von zumindest einer von der Häufigkeit, mit der der Verhaltenszustands-Änderungsschritt Verhaltenszustände ändert, und der Häufigkeit, mit der der Emotionszustands-Änderungsschritt Emotionszustände ändert, und
    wobei der Auswahlschritt die Steuerinformation auch gemäß der Häufigkeit auswählt, die im Akkumulationsschritt akkumuliert wurde.
  • Ein noch weiteres Merkmal der vorliegenden Erfindung liefert einen Aufzeichnungsträger, auf welchem ein computer-lesbares Sprachsyntheseprogramm gespeichert ist, um ein Sprachsignal gemäß einem Text zu synthetisieren, wobei das Programm eine Computerprogramm-Codeeinrichtung aufweist, welches, wenn ausgeführt, die folgenden Schritte aufweist: einen Verhaltenszustands-Änderungsschritt zum Ändern eines Verhaltenszustands gemäß einem Verhaltensmodell; einen Emotionszustands-Änderungsschritt zum Ändern eines Emotionszustands gemäß einem Emotionsmodell;
    einen Auswahlschritt zum Auswählen von Steuerinformation gemäß zumindest von einem von dem Verhaltenszustand und dem Emotionszustand; und
    einen Synthetisierungsschritt zum Synthetisieren eines Sprachsignals entsprechend dem Text gemäß der Sprachsyntheseinformation, welche in der Steuerinformation enthalten ist, welche durch den Prozess des Auswahlschritts ausgewählt wurde; und einen Akkumulationsschritt zum Akkumulieren von zumindest einem von der Häufigkeit, mit der der Verhal tenszustands-Änderungsschritt Verhaltenszustände ändert, und der Häufigkeit, mit der der Emotionszustands-Änderungsschritt Emotionszustände ändert, und wobei der Auswahlschritt die Steuerinformation außerdem gemäß der Häufigkeit auswählt, welche im Akkumulationsschritt akkumuliert wurde.
  • Kurzbeschreibung der Zeichnungen
  • Um die vorliegende Erfindung besser verstehen zu können, wird nun auf die beiliegenden Zeichnungen als Beispiel bezuggenommen, in denen:
  • 1 ein Blockdiagramm ist, welches ein Aufbaubeispiel eines Bereichs zeigt, der auf die Sprachsynthese eines Roboters bezogen ist, bei dem eine Ausführungsform der vorliegenden Erfindung angewandt wird;
  • 2 ein Blockdiagramm ist, welches ein Aufbaubeispiel eines Steuerabschnitts 10 für ein Roboterbewegungssystem und einen Steuerabschnitt 11 für ein Roboterdenksystem zeigt, welches in 1 gezeigt ist;
  • 3 eine Ansicht ist, welche ein Verhaltensmodell 32 zeigt, welches in 2 gezeigt ist;
  • 4 eine Ansicht ist, welche ein Emotionsmodell 42 zeigt, welches in 2 gezeigt ist;
  • 5 eine Ansicht ist, welche eine Sprachsynthese-Steuerinformation zeigt;
  • 6 ein Blockdiagramm ist, welches ein ausführliches Aufbaubeispiel eines Sprachverarbeitungsabschnitts 14 zeigt;
  • 7 ein Flussdiagramm ist, welches die Arbeitsweise des Roboters zeigt, für den die vorliegende Erfindung angewandt wird;
  • 8 ein Blockdiagramm ist, welches ein weiteres Aufbaubeispiel des Bereichs zeigt, der sich auf die Sprachsynthese des Roboters bezieht, für den eine Ausführungsform der vorliegenden Erfindung angewandt wird;
  • 9 ein Blockdiagramm ist, welches ein weiteres Aufbaubeispiel des Bereichs zeigt, der sich auf die Sprachsynthese des Roboters bezieht, für den eine Ausführungsform der vorliegenden Erfindung angewandt wird; und
  • 10 ein Blockdiagramm ist, welches ein noch weiteres Aufbaubeispiel des Bereichs zeigt, der sich auf die Sprachsynthese des Roboters bezieht, für den eine Ausführungsform der vorliegenden Erfindung angewandt wird.
  • Beschreibung der bevorzugten Ausführungsformen
  • 1 zeigt ein Aufbaubeispiel eines Bereichs, der sich auf die Sprachsynthese in einem Roboter bezieht, für den eine Ausführungsform der vorliegenden Erfindung angewandt wird. Dieser Roboter hat eine Wortverbreitungsfunktion, ändert die Emotion und das Verhalten und ändert die Art und Weise zum Sprechen gemäß Änderungen bezüglich der Emotion und des Verhaltens.
  • Die verschiedenen Sensoren 1 ermitteln Zustände außerhalb des Roboters und die Arbeitsweise, die für den Roboter angewandt wird, und geben die Ergebnisse der Ermittlung an einen Roboterbewegungssystem-Steuerabschnitt 10 aus. Beispielsweise ermittelt ein Außentemperatursensor 2 die Außentemperatur des Roboters. Ein Temperatursensor 3 und ein Kontaktsensor 4 sind in der Nähe als Paar vorgesehen. Der Kontaktsensor 4 ermittelt den Kontakt des Roboters mit einem Objekt, und der Temperatursensor 3 ermittelt die Temperatur des kontaktierten Objekts. Ein druck-sensitiver Sensor 5 ermittelt die Stärke einer externen Kraft (beispielsweise der Kraft, welche durch Stoß angelegt wird, oder welche durch Tätscheln angelegt wird), welche an den Roboter angelegt wird. Ein Windgeschwindigkeitssensor 6 ermittelt die Geschwindigkeit des Winds, der an der Außenseite des Roboters bläst. Ein Beleuchtungssensor 7 ermittelt die Beleuchtung außerhalb des Roboters. Ein Bildsensor 8 ist beispielsweise aus einer CCD gebildet und ermittelt eine Szene außerhalb des Roboters als Bildsignal. Ein Tonsensor 9 besteht beispielsweise aus einem Mikrophon und ermittelt den Ton.
  • Ein Roboterbewegungssystem-Steuerabschnitt 10 besteht aus einem Bewegungssystem-Verarbeitungsabschnitt 31 und einem Verhaltensmodell 32, wie in 2 gezeigt ist, und verwaltet die Arbeitsweise des Roboters. Der Bewegungssystem-Verarbeitungsabschnitt 31 vergleicht die Ergebnisse der Ermittlung, die von verschiedenen Sensoren 1 zugeführt werden, ein internes Ereignis, welches in dessen Innenseite erzeugt wird, und eine Instruktion, welche von dem Roboterdenksystem-Steuerabschnitt 11 zugeführt wird, mit dem Verhaltensmodell 32, um das Verhalten des Roboters zu ändern, und gibt den aktuellen Verhaltenszustand an einen Sprachsynthese-Steuerinformations-Auswahlabschnitt 12 als Verhaltenszustand aus. Der Bewegungssystem-Verarbeitungsabschnitt 31 bestimmt außerdem ein Verhaltensereignis gemäß den Ergebnissen der Ermittlung, welche von den verschiedenen Sensoren 1 zugeführt werden, und gibt diese an den Roboterdenksystem-Steuerabschnitt 11 aus. Wenn das Ergebnis der Ermittlung, welches durch den druck-sensitiven Sensor 5 erlangt wird, eine Kraft zeigt, die gleich oder mehr als ein vorher festgelegter Schwellenwert ist, bestimmt beispielsweise der Bewegungssystem-Verarbeitungsabschnitt 31, dass das Verhaltensereignis ein Stoß auf den Kopf ist. Außerdem leitet der Bewegungssystem-Verarbeitungsabschnitt 31 die Ergebnisse der Ermittlung, welche von den verschiedenen Sensoren 1 gesendet werden, an den Roboterdenksystem-Steuerabschnitt 11 weiter. Die verschiedenen Sensoren 1 können unmittelbar die Ergebnisse der Ermittlung an einen Denksystem-Verarbeitungsabschnitt 41 liefern.
  • Das Verhaltensmodell 32 beschreibt einen Zustand, der verwendet wird, wenn der Roboter sich von einem Standardzustand zu jeder unterschiedlicher Verhaltensweisen sich ändert, wie in 3 gezeigt ist. Wenn die Instruktion "gehen" im Standardzustand ausgegeben wird, tritt beispielsweise ein Übergang zum Verhalten "gehen" auf. Wenn die Instruktion "steh auf" ausgegeben wird, tritt ein Übergang auf den Verhaltenszustand "aufstehen" auf. Wenn das interne Ereignis "Betrieb beendet" erzeugt wird, wenn das spezielle Verhalten beendet ist, tritt ein Übergang in den Standardzustand auf.
  • Kehrt man zu 1 zurück, so besteht der Roboterdenksystem-Steuerabschnitt 11 aus einem Denksystem-Verarbeitungsabschnitt 41 und einem Bewegungsmodell 42, wie in 2 gezeigt ist, und verwaltet die Emotion des Roboters. Der Denksystem-Verarbeitungsabschnitt 41 vergleicht ein Verhaltensereignis, welches vom Bewegungssystem-Verarbeitungsabschnitt 31 zugeführt wird, die Ergebnisse der Ermittlung, welche durch die verschiedenen Sensoren 1 erlangt werden, und ein internes Ereignis (beispielsweise Ereignisse, welche periodisch in einem Intervall einer festen Zeitperiode erzeugt werden), welche in dessen Innenseite erzeugt werden, mit dem Emotionsmodell 42, um die Emotion des Roboters zu ändern, und gibt die aktuelle Emotion an den Sprachsynthese-Steuerinformations-Auswahlabschnitt 12 als Emotionszustand aus. Der Denksystem-Verarbeitungsabschnitt 41 gibt außerdem eine Instruktion, welche sich auf ein Verhalten bezieht, an den Bewegungssystem-Verarbeitungsabschnitt 31 als Antwort auf die Ergebnisse der Ermittlung, welche durch die verschiedenen Sensoren 1 erlangt werden, aus. Außerdem erzeugt der Denksystem-Verarbeitungsabschnitt 41 einen Text zur Sprachsynthese, welche durch den Roboter verbreitet wird, als Antwort auf ein Verhaltenereignis, und die Ergebnisse der Ermittlung, welche durch die verschiedenen Sensoren erlangt werden, und gibt diese an einen Sprachverarbeitungsabschnitt 14 aus. Wenn das Verhaltensereignis "auf den Kopf gestoßen" auftritt, erzeugt beispielsweise der Denksystem-Verarbeitungsabschnitt 41 den Text "ouch" für die Sprachsynthese.
  • Das Emotionsmodell 42 beschreibt einen Zustand, der verwendet wird, wenn sich der Roboter von einem Standardzustand zu jedem unterschiedlicher Emotionen ändert, wie in 4 gezeigt ist. Wenn das Verhaltensergebnis "auf den Kopf gestoßen" im Standardzustand auftritt, tritt beispielsweise ein Übergang auf die Emotion "ärgerlich" auf. Wenn das Verhaltensereignis "auf dem Kopf gestreichelt" auftritt, tritt ein Übergang auf die Emotion "glück lich" auf. Wenn ein internes Ereignis erzeugt wird, wenn ein Verhaltensereignis nicht eine vorher festgelegte Zeitperiode oder mehr auftritt, tritt ein Übergang in den Standardzustand auf.
  • Kehrt man zu 1 zurück, so wählt der Sprachsynthese-Steuerinformations-Auswahlabschnitt 12 ein Feld aus, welches die geeignetste Sprachsynthese-Steuerinformation hat, unter vielen Feldern, welche in einer Sprachsynthese-Steuerinformationstabelle 13 vorbereitet sind, gemäß einem Verhaltenszustand, der vom Roboterbewegungssystem-Steuerabschnitt 10 zugeführt wird, und einem Emotionszustand, der vom Roboterdenksystem-Steuerabschnitt 11 zugeführt wird. Bei dieser Auswahl kann ein Feld gemäß einem Parameter ausgewählt werden, welches zusätzlich zum Betriebszustand hinzugefügt ist, und dem Emotionszustand (Details werden später mit Hilfe von 8 bis 10 beschrieben).
  • Die Sprachsynthese-Steuerinformationstabelle 13 hat eine Anzahl von Feldern als Antwort auf alle Kombinationen von Verhaltenszuständen, Emotionszuständen und weiteren Parametern (wird später beschrieben). Die Sprachsynthese-Steuerinformationstabelle 13 gibt die Auswahlinformation, welche im Feld gespeichert ist, welches durch den Sprachsynthese-Steuerinformations-Auswahlabschnitt 12 ausgewählt wird, an den Sprachverarbeitungsabschnitt 14 aus, und gibt die Sprachsynthese-Steuerinformation an einen Sprachsyntheseabschnitt 15 auf Basis einer Regel aus.
  • Jedes Feld umfasst die Auswahlinformation und die Sprachsynthese-Steuerinformation, wie in 5 gezeigt ist. Die Auswahlinformation besteht aus einem Wortabbildungs-Wörterbuch-ID und einer Stilumsetzungs-Regel-ID. Die Sprachsynthese-Steuerinformation ist aus einer Segment-Daten-ID, einer Silben-Satz-ID, einem Teilungsparameter, einem Parameter der Intensität des Akzents, einem Parameter der Intensität der Phase und einem Verbreitungsgeschwindigkeits-Parameter gebildet.
  • Die Wortabbildungs-Wörterbuch-IDs sind vorher in einer Wortabbildungs-Wörterdatenbank 54 vorbereitet (6). Jede von diesen ist Information, um ein Wörterbuch zu spezifizieren, welches in einem Wortumsetzungsabschnitt 53 zu verwenden ist (6) unter mehreren Wörterbüchern, beispielsweise einem Wortabbildungs-Wörterbuch für die Babysprache, einem Wortabbildungs-Wörterbuch für den Osaka-Dialekt, einem Wörterabbildungs-Wörterbuch für Wörter, welche durch Mädchen in Gymnasien verwendet werden, und einem Wörterabbildungs-Wörterbuch für Wörter, welche zum Imittieren von Katzen verwendet werden. Die Wortabbildungs-Wörterbücher werden gemäß der Persönlichkeitsinformation, was später beschrieben wird, des Roboters umgeschaltet, und werden verwendet, um Wörter zu ersetzen, welche in einem Text enthalten sind, zur Sprachsynthese, welche in der Standard sprache ausgedrückt wird, mit anderen Wörtern. Beispielsweise ersetzt das Wortabbildungs-Wörterbuch zur Babysprache das "buubu" für das Wort "kuruma", welches in einem Text zur Sprachsynthese enthalten ist.
  • Die Stilumsetzungs-Regel-IDs sind vorher in einer Stilumsetzungs-Regel-Datenbank 56 vorbereitet (6). Jede von diesen ist Information, um eine Regel zu spezifizieren, welche in einem Stilumsetzungsabschnitt 55 (6) zu verwenden ist, unter mehreren Regeln, beispielsweise einer Regel zum Umsetzen von weiblichen Wörtern, einer Regel zum Umsetzen von männlichen Wörtern, eine Regel zum Umsetzen der Babysprache, eine Regel zum Umsetzen des Osaka-Dialekts, einer Regel zum Umsetzen in Wörter, welche durch Mädchen in höheren Schulen verwendet werden, und einer Regel zum Umsetzen in Wörter, welche zum Imittieren von Katzen verwendet werden. Stilumsetzungsregeln werden gemäß der Persönlichkeitsinformation, was später beschrieben wird, des Roboters umgeschaltet und werden verwendet, um letztere Folgen, welche in einem Text enthalten sind, zur Sprachsynthese mit anderen späteren Folgen zu ersetzen. Beispielsweise ersetzt die Stielregel zum Umsetzen in Wörter unter Verwendung zum Imittieren von Katzen das Wort "nya" durch das Wort "desu", welches am Ende eines Satzes in einem Text zur Sprachsynthese verwendet wird.
  • Die Segment-Daten-ID, welche in der Sprachsynthese-Steuerinformation enthalten ist, ist Information, welche zum Spezifizieren eines Sprachsegments verwendet wird, welches bei dem Regelbasis-Sprachsyntheseabschnitt 15 zu verwenden ist. Sprachsegmente sind vorher im Regelbasis-Sprachsyntheseabschnitt 15 für die weibliche Stimme, die männliche Stimme, die Kinderstimme, die Pferdestimme, die mechanische Stimme und weitere Stimmen vorbereitet.
  • Die Silbensatz-ID ist Information, um einen Silbensatz zu spezifizieren, der durch den Regelbasis-Sprachsyntheseabschnitt 15 zu verwenden ist. Beispielsweise werden 266 Basissilbensätze und 180 vereinfachte Silbensätze vorbereitet. Die 180 vereinfachten Silbensätze haben eine eingeschränktere Anzahl von Phonemen, welche als die 266 Basissilbensätze verbreitet werden können. Mit den 180 vereinfachten Silbensätzen wird beispielsweise "ringo", der in einem Text zur Sprachsynthese enthalten ist, welches dem Sprachverarbeitungsabschnitt 14 zugeführt wird, als "ningo" ausgesprochen. Wenn Phoneme, die verbreitet werden können, auf diese Weise beschränkt werden, kann die Sprachverbreitung zum Lispeln von Kinder zum Ausdruck gebracht werden.
  • Der Tonhöhenparameter ist Information, der verwendet wird, die Tonhöhenfrequenz einer Sprache zu spezifizieren, welche durch den Regelbasis-Sprachsyntheseabschnitt 15 zu synthetisieren ist. Der Parameter der Intensität des Akzents ist Information, der verwendet wird, die Intensität eines Akzents eine Sprache zu spezifizieren, welche durch den Regelbasis-Sprachsyntheseabschnitt 15 zu synthetisieren ist. Wenn dieser Parameter groß ist, wird die Verbreitung mit starken Akzenten erreicht. Wenn der Parameter klein ist, wird die Verbreitung mit schwachen Akzenten erreicht.
  • Der Parameter der Intensität des Satzbaus ist Information, der zum Spezifizieren der Intensität des Satzbaus einer Sprache verwendet wird, welche durch den Regelbasis-Sprachsyntheseabschnitt 15 zu synthetisieren ist. Wenn dieser Parameter groß ist, treten häufige Satzbauten auf. Wenn der Parameter klein ist, treten weniger Satzbauten auf. Die Verbreitungsgeschwindigkeitsparameter ist Information, die verwendet wird, die Verbreitungsgeschwindigkeit einer Sprache zu spezifizieren, welche durch den Regelbasis-Sprachsyntheseabschnitt 15 zu synthetisieren ist.
  • Kehrt man zu 1 zurück, so analysiert der Sprachverarbeitungsabschnitt 14 einen Text zur Sprachsynthetisierung, der von dem Roboterdenksystem-Steuerabschnitt 11 zugeführt wird, hinsichtlich von Grammatik, setzt vorher festgelegte Bereiche der Sprachsynthese-Steuerinformation um und gibt diese an den Regelbasis-Sprachsyntheseabschnitt 15 aus.
  • 6 zeigt ein Aufbaubeispiel des Sprachverarbeitungsabschnitts 14. Der Text zur Sprachsynthetisierung, der von dem Roboterdenksystem-Steuerabschnitt 11 gesendet wird, wird an einen Stilanalysierungsabschnitt 51 ausgegeben. Die Auswahlinformation, welche von der Sprachsynthese-Steuerinformationstabelle 13 gesendet wird, wird an den Wortumsetzungsabschnitt 53 und an den Stilumsetzungsabschnitt 55 ausgegeben. Der Stilanalyseabschnitt 51 verwendet ein Analysewörterbuch 52, um eine Formanalyse an den Text zur Sprachsynthetisierung anzuwenden und gibt diesen an den Wortumsetzungsabschnitt 53 aus. Das Analysewörterbuch 52 beschreibt Information, welche für die Regelbasis-Sprachsynthese erforderlich ist, beispielsweise das Lesen von Wörtern (Formelemente), Akzentarten und Teile der Sprache, und eine einmalige Wort-ID jedes Worts.
  • Der Wortumsetzungsabschnitt 53 liest das Wörterbuch entsprechend der Wortabbildungs-Wörterbuch-ID, welche in der Auswahlinformation enthalten ist, von der Wortabbildungs-Wörterbuchdatenbank 54; ersetzt Wörter, welche in dem Lesewort-Abbildungswörterbuch spezifiziert sind, unter den Wörtern, welche im Text für die Sprachsynthese enthalten sind, für welche die Formanalyse angewandt wurde, welche vom Stilanalysierungsabschnitt 51 gesendet wird; und gibt diese an den Stilumsetzungsabschnitt 55 aus.
  • Der Stilumsetzungsabschnitt 55 liest die Regel entsprechend der Stilumsetzungs-Regel-ID, welche in der Auswahlinformation enthalten ist, aus der Stilumsetzungs-Regelda tenbank 56; setzt den Text zur Sprachsynthese, für welche die Wortumsetzung angewandt wurde, welche von dem Wortumsetzungsabschnitt 53 gesendet wurde, gemäß der Lesestil-Umsetzungsregel um, und gibt diese an den Regelbasis-Sprachsyntheseabschnitt 15 aus.
  • Kehrt man zurück zu 1 so synthetisiert der Regelbasis-Sprachsyntheseabschnitt 15 ein Sprachsignal entsprechend dem Text zur Sprachsynthese, der von dem Sprachverarbeitungsabschnitt 14 zugeführt wird, gemäß der Sprachsynthese-Steuerinformation, welche von der Sprachsynthese-Steuerinformationstabelle 13 zugeführt wird. Das Sprachsynthesesignal wird auf einen Ton durch einen Lautsprecher 16 geändert.
  • Ein Steuerabschnitt 17 steuert eine Ansteuerung 18, um ein Steuerprogramm zu lesen, welches auf einer Magnetplatte 19, einer optischen Platte 20, einer magneto-optischen Platte 21 oder einem Halbleiterspeicher 22 gespeichert ist, und steuert jeden Abschnitt gemäß dem gelesenen Steuerprogramm.
  • Die Verarbeitung des Roboters, für welche eine Ausführungsform der vorliegenden Erfindung angewandt wird, wird anschließend mit Hilfe eines Flussdiagramms, welches in 7 gezeigt ist, beschrieben. Die Verarbeitung beginnt beispielsweise, wenn der drucksensitive Sensor 5, d.h., einer der unterschiedlichen Sensoren 1, einen Zustand ermittelt, bei dem der Benutzer den Kopf des Roboters angestoßen hat, und das Ergebnis der Ermittlung dem Bewegungssystem-Verarbeitungsabschnitt 31 des Roboterbewegungssystems-Verarbeitungsabschnitts 10 zugeführt wird.
  • Im Schritt S1 bestimmt der Bewegungssystem-Verarbeitungsabschnitt 31, dass ein Verhaltensereignis "auf den Kopf gestoßen" auftritt, wenn das Ergebnis der Ermittlung, welches durch den druck-sensitiven Sensor 5 erlangt wird, zeigt, dass eine Kraft gleich oder mehr als ein vorher festgelegter Schwellenwert angelegt wurde, und berichtet die Bestimmung dem Denksystem-Verarbeitungsabschnitt 41 des Roboterdenksystem-Steuerabschnitts 11. Der Bewegungssystem-Verarbeitungsabschnitt 31 vergleicht außerdem das Verhaltensereignis "auf den Kopf gestoßen" mit dem Verhaltensmodell 32, um zu bestimmen ein Roboterverhalten "aufstehen", und gibt dies als einen Verhaltenszustand an den Sprachsynthese-Steuerinformations-Auswahlabschnitt 12 aus.
  • Im Schritt S2 vergleicht der Denksystem-Verarbeitungsabschnitt 41 des Roboterdenksystem-Steuerabschnitts 11 das Verhaltensereignis "auf den Kopf gestoßen", welches von dem Bewegungssystem-Verarbeitungsabschnitt 31 zugeführt wird, mit dem Bewegungsmodell 42, um die Emotion auf "ärgerlich" zu ändern, und gibt die aktuelle Emotion als einen Emotionszustand an den Sprachsynthese-Steuerinformation-Auswahlabschnitt 12 aus. Der Denksystem-Verarbeitungsabschnitt 41 erzeugt außerdem den Text "ouch" für die Sprach synthese als Antwort auf das Verhaltensereignis "auf den Kopf gefallen", und gibt dies an den Stilanalyseabschnitt 51 des Sprachverarbeitungsabschnitts 14 aus.
  • Im Schritt S3 wählt der Sprachsynthese-Steuerinformation-Auswahlabschnitt 12 ein Feld aus, welches die geeignetste Sprachsynthese-Steuerinformation hat, unter einer Anzahl von Feldern, welche in der Sprachsynthese-Steuerinformationstabelle 13 vorbereitet sind, gemäß dem Verhaltenszustand, der vom Bewegungssystem-Verarbeitungsabschnitt 31 zugeführt wird, und dem Emotionszustand, der vom Denksystem-Verarbeitungsabschnitt 41 zugeführt wird. Die Sprachsynthese-Steuerinformationstabelle 13 gibt die Auswahlinformation, welche im ausgewählten Feld gespeichert ist, an den Sprachverarbeitungsabschnitt 14 aus, und gibt die Sprachsynthese-Steuerinformation an den Regelbasis-Sprachsyntheseabschnitt 15 aus.
  • Im Schritt S4 verwendet der Stilanalyseabschnitt 51 des Sprachverarbeitungsabschnitts 14 das Analysewörterbuch 52, um Formanalyse für den Text zur Sprachsynthese anzuwenden, und gibt dies an den Wortumsetzungsabschnitt 53 aus. Im Schritt S5 liest der Wortumsetzungsabschnitt 53 das Wörterbuch entsprechend der Wortabbildungs-Wörterbuch-ID, welche in der Auswahlinformation enthalten ist, von der Wortabbildungs-Wörterbuchdatenbank 54; ersetzt Wörter, welche im Lesewort-Abbildungswörterbuch spezifiziert sind, unter den Wörtern, welche im Text zur Sprachsynthese enthalten sind, für welche die Formanalyse angewandet wurde, welche vom Stilanalyseabschnitt 51 gesendet wurde; und gibt diese an den Stilumsetzungsabschnitt 55 aus. Im Schritt S6 liest der Stilumsetzungsabschnitt 55 die Regel entsprechend der Stilumsetzungs-Regel-ID, welche in der Auswahlinformation enthalten ist, von der Stilumsetzungs-Regeldatenbank 56, setzt den Text zur Sprachsynthese um, zu welche die Wortumsetzung angelegt wurde, welche vom Wortumsetzungsabschnitt 53 gesendet wurde; und gibt diese an den Regelbasis-Sprachsyntheseabschnitt 15 aus.
  • Im Schritt S7 synthetisiert der Regelbasis-Sprachsyntheseabschnitt 15 ein Sprachsignal entsprechend dem Text zur Sprachsynthese, der von dem Sprachverarbeitungsabschnitt 14 zugeführt wird, gemäß der Sprachsynthese-Steuerinformation, welche von der Sprachsynthese-Steuerinformationstabelle 13 zugeführt wird, und ändert dieses in einen Ton im Lautsprecher 16.
  • Mit der oben beschriebenen Verarbeitung verhält sich der Roboter, als ob er Emotion hätte. Der Roboter ändert die Art und Weise des Sprechens gemäß von dessen Verhalten und der Änderung von dessen Emotion.
  • Ein Verfahren zum Hinzufügen eines Parameters anders als des Verhaltenszustands und des Emotionszustands im Auswahlprozess des Sprachsynthese-Steuerinformations-Auswahlabschnitts 12 wird anschließend mit Hilfe von 8 bis 10 beschrieben.
  • 8 zeigt ein Aufbaubeispiel, bei dem ein Kommunikationsport 61, ein Kommunikationssteuerabschnitt 62, und ein Persönlichkeits-Informationsspeicher 63 dem Aufbaubeispiel, welches in 1 gezeigt ist, hinzugefügt sind, um dem Roboter Persönlichkeit zu verleihen. Der Kommunikationsport 61 ist eine Schnittstelle, um Persönlichkeitsinformation zu und von einer externen Einrichtung zu übertragen und davon zu empfangen (beispielsweise einem Personalcomputer), und kann beispielsweise einer von diesen sein, welche mit den Kommunikationsstandards konform sind, beispielsweise RS-232C, USB und IEEE 1394. Der Kommunikationssteuerabschnitt 62 steuert Informationskommunikation mit einer externen Einheit über den Kommunikationsport 61 gemäß einem vorher festgelegten Protokoll, und gibt die empfangene Persönlichkeitsinformation an den Roboterdenksystem-Steuerabschnitt 11 aus. Der Persönlichkeitsinformationsspeicher 63 ist ein umschreibbarer nichtflüchtiger Speicher, beispielsweise ein Flashspeicher, und gibt die gespeicherte Persönlichkeitsinformation an Sprachsynthese-Steuerinformation-Auswahlabschnitt 12 aus.
  • Die folgenden beispielhaften Posten können als Persönlichkeitsinformation angesehen werden, welche von außerhalb gesendet werden.
    • Art: Hund/Katze
    • Geschlecht: männlich/weiblich
    • Alter: Kind/Erwachsener
    • Temperament: heftig/sanft
    • Physikalischer Zustand: mager/übergewichtig
  • Jeder dieser Begriffe ist im Persönlichkeitsinformationsspeicher 63 als Binärdaten 0 oder 1 gespeichert. Jeder Begriff kann nicht durch Binärdaten, jedoch durch Mehrfachwertdaten spezifiziert werden.
  • Um zu verhindern, dass die Persönlichkeitsinformation sehr häufig umgeschrieben wird, kann die Häufigkeit, mit der umgeschrieben wird, beschränkt werden. Ein Passwort kann zum Umschreiben spezifiziert werden. Ein Persönlichkeitsinformationsspeicher 63, der aus einem ROM gebildet ist, in welchem Persönlichkeitsinformation vorher geschrieben wurde, kann vorher eingebaut werden bei der Herstellung, ohne den Kommunikationsport 61 und den Kommunikationssteuerabschnitt 62 vorzusehen.
  • Mit solchem Aufbau wird ein Roboter, der eine Sprache verschieden von der eines anderen Roboters ausgibt, gemäß der spezifizierten Persönlichkeit realisiert werden.
  • 9 zeigt ein Aufbaubeispiel, bei dem ein Timer 71 dem Aufbaubeispiel hinzugefügt ist, welches in 1 gezeigt ist. Der Timer 71 zählt die Ablaufzeit, von welcher der Roboter zunächst aktiviert wurde, und gibt die Zeit an den Sprachsynthese-Steuerinformations-Auswahlabschnitt 12 aus. Der Timer 71 kann die Zeit zählen, in welcher der Roboter betrieben wird, von der, wo der Roboter zunächst angesteuert wurde.
  • Mit einem solchen Aufbau wird ein Roboter, der eine abgegebene Stimme gemäß der Ablaufzeit ausgibt, realisiert werden.
  • 10 zeigt ein Aufbaubeispiel, bei dem ein Berechnungsabschnitt 81 für einen empirischen Wert und ein Speicher 82 für einen empirischen Wert dem Aufbaubeispiel hinzugefügt sind, welches in 1 gezeigt ist, der Berechnungsabschnitt 81 für den empirischen Wert zählt die Häufigkeit von emotionellen Übergängen, die bei jedem geänderten Emotionszustand auftreten, wenn sich der Denksystem-Verarbeitungsabschnitt 41 die Emotion vom Standardzustand auf einen anderen Zustand ändert, und speichert diese in dem Speicher 82 für den empirischen Wert. Wenn vier Emotionszustände als Emotionsmodell 42, wie in 4 gezeigt ist, verwendet werden, wird beispielsweise die Häufigkeit der Übergänge für jeden der vier Zustände im Speicher 82 für den empirischen Wert gespeichert. Die Häufigkeit der Übergänge auf jeden Emotionszustand treten auf oder ein Emotionszustand, der die häufigsten Übergänge hat, die auftreten, kann dem Sprachsynthese-Steuerinformations-Auswahlabschnitt 12 mitgeteilt werden.
  • Mit einem solchen Aufbau kann beispielsweise ein Roboter, der häufig gestoßen wird, oder der eine große Anzahl an Häufigkeiten von Übergängen in den Bewegungszustand hat, "ärgerlich", ausgeführt werden, um einen Weg eines Sprechens zu einem leichtzugänglichen Ärgerlichkeitszustand zu erreichen. Ein Roboter, der häufig getätschelt wird und der eine große Häufigkeit an Übergängen in den Emotionszustand hat, "glücklich", die auftreten, kann ausgeführt werden, eine angenehme Art und Weise des Sprechens zu erlangen.
  • Die Aufbaubeispiele, welche in 8 bis 10 gezeigt sind, können wenn erforderlich kombiniert werden.
  • Die Ergebnisse der Ermittlung, welche durch die verschiedenen Sensoren 1 erreicht werden, können zum Sprachsynthese-Steuerinformations-Auswahlabschnitt 12 als Parameter gesendet werden, um die Art und Weise des Sprechens gemäß einem externen Zustand zu ändern. Wenn die Außentemperatur, welche durch den Außentemperatursensor 2 ermittelt wird, gleich oder weniger als eine vorher festgelegte Temperatur ist, kann beispielsweise eine zitternde Stimme verbreitet werden.
  • Die Ergebnisse der Ermittlung, welche durch die verschiedenen Sensoren 1 erzielt werden, können als Parameter verwendet werden, als Historie aufgezeichnet werden und zum Sprachsynthese-Steuerinformations-Auswahlabschnitt 12 gesendet werden. In diesem Fall kann beispielsweise ein Roboter, der viel Historie hat, bei dem die Außentemperatur gleich oder weniger als eine vorher festgelegte Temperatur ist, in einem Tohoku-Dialekt sprechen.
  • Die oben beschriebenen Reihen an Verarbeitung können nicht durch Hardware, sondern auch durch Software ausgeführt werden. Wenn die Reihe an Verarbeitungen durch Software ausgeführt wird, wird ein Programm, welches die Software enthält, von einem Aufzeichnungsmedium in einem Computer, der spezielle Hardware hat, installiert werden, oder in einen Allzweck-Personalcomputer, der verschiedene Funktionen erreichen kann, wenn verschiedene Programme installiert sind.
  • Das Aufzeichnungsmedium wird durch ein Paketmedium gebildet, welches dem Benutzer vertrieben wird, um das Programm bereitzustellen, separat vom Computer, und bei dem das Programm aufgezeichnet ist, beispielsweise als Magnetplatte 19 (einschließlich einer Diskette), einer optischen Platte 20 (einschließlich einer CD-ROM (kompakter Nur-Lese-Speicher) und einer DVD (universell verwendbare Platte)), einer magneto-optischen Platte 21 (einschließlich einer MD (Mini-Disc) oder einem Halbleiterspeicher 22, wie in 1 gezeigt ist. Alternativ wird das Aufzeichnungsmedium aus einem ROM oder einer Festplatte gebildet, welche dem Benutzer in einem Zustand bereitgestellt wird, bei dem diese im Computer vorher eingebaut sind und das Programm darauf aufgezeichnet ist.
  • Bei der vorliegenden Spezifikation umfassen Schritte, welche das Programm beschreiben, welche auf dem Aufzeichnungsmedium aufgezeichnet ist, nicht nur Prozesse, welche in zeitsequentieller Weise ausgeführt werden, gemäß der vorgeschriebenen Reihenfolge, sondern auch Prozesse, welche nicht notwendigerweise in einer zeitsequenziellen Weise erzielt werden müssen, sondern parallel oder unabhängig ausgeführt werden.
  • Wie oben beschrieben wird gemäß einer Sprachsynthesevorrichtung, einem Sprachsyntheseverfahren und einem Programm, welches auf einem Aufzeichnungsmedium von Ausführungsformen der vorliegenden Erfindung gespeichert ist, die Steuerinformation gemäß einem der Verhaltenszustände und einem Bewegungszustand ausgewählt, und ein Sprachsignal wird gemäß einem Text gemäß der Sprachsyntheseinformation synthetisiert, welche in der ausgewählten Steuerinformation enthalten ist. Daher wird ein Roboter, der die Art und Weise des Sprechens gemäß der Emotion und dem Verhalten ändern kann, um eine lebende Sache realer zu imittieren, realisiert.
  • Insoweit die Ausführungsformen der Erfindung, die oben beschrieben wurden, realisiert werden, wird zumindest teilweise unter Verwendung der software-gesteuerten Datenverarbeitungsvorrichtung es als vorteilhaft eingeschätzt, dass ein Computerprogramm, welches derartige Software-Steuerung bereitstellt, und ein Speichermedium, durch welches ein Computerprogramm gespeichert wird, in Betracht gezogen werden.
  • Die Erfindung ist den Patentansprüchen definiert.

Claims (10)

  1. Sprachsynthesevorrichtung zum Synthetisieren eines Sprachsignals, welches einem Text entspricht, welche aufweist: eine Verhaltenszustands-Änderungseinrichtung (31) zum Ändern eines Verhaltenszustands gemäß einem Verhaltensmodell (32); eine Emotionszustands-Änderungseinrichtung (41) zum Ändern eines Emotionszustands gemäß einem Emotionsmodell (42); eine Auswahleinrichtung (12) zum Auswählen von Steuerinformation gemäß zumindest einem von dem Verhaltenszustand und dem Emotionszustand; und eine Syntheseeinrichtung (15) zum Synthetisieren eines Sprachsignals entsprechend dem Text gemäß der Sprachsyntheseinformation, welche in der Steuerinformation enthalten ist, welche durch die Auswahleinrichtung ausgewählt wird; dadurch gekennzeichnet, dass die Vorrichtung außerdem eine Akkumulationseinrichtung (81, 82) aufweist, um zumindest eines von der Häufigkeit, mit der die Verhaltenszustands-Änderungseinrichtung Verhaltenszustände ändert, und der Häufigkeit, mit der die Emotionszustands-Änderungseinrichtung Emotionszustände ändert, zu akkumulieren, und wobei die Auswahleinrichtung die Steuerinformation auch gemäß der Häufigkeit auswählt, welche durch die Akkumulationseinrichtung akkumuliert wurde.
  2. Sprachsynthesevorrichtung nach Anspruch 1, wobei die Sprachsyntheseinformation zumindest eines von einer Segment-Daten-ID, einer Silbensatz-ID, einem Tonhöhenparameter, einem Parameter der Akzentintensität, einem Parameter der Satzintensität und einem Ausdruckgeschwindigkeitsparameter aufweist.
  3. Sprachsynthesevorrichtung nach Anspruch 1, die außerdem eine Ermittlungseinrichtung (1) zum Ermitteln eines externen Zustands aufweist, wobei die Auswahleinrichtung die Steuerinformation außerdem gemäß dem Ermittlungsergebnis auswählt, welches durch die Ermittlungseinrichtung erlangt wird.
  4. Sprachsynthesevorrichtung nach Anspruch 1, welche außerdem eine Halteeinrichtung (63) aufweist, um individuelle Information zu halten, und wobei die Auswahleinrichtung außerdem die Steuerinformation gemäß der individuellen Information auswählt, welche durch die Halteeinrichtung gehalten wird.
  5. Sprachsynthesevorrichtung nach Anspruch 1, welche außerdem eine Zähleinrichtung (71) aufweist, um die abgelaufene Zeit von der Aktivierung zu zählen, und wobei die Auswahleinrichtung die Steuerinformation außerdem gemäß der abgelaufenen Zeit auswählt, welche durch die Zähleinrichtung gezählt wird.
  6. Sprachsynthesevorrichtung nach Anspruch 1, welche außerdem eine Substituierungseinrichtung (53) aufweist, um Wörter, welche im Text enthalten sind, unter Verwendung eines Wortsubstituierungs-Wörterbuchs (54) entsprechend der Auswahlinformation, welche in der Steuerinformation enthalten ist, welche durch die Auswahleinrichtung ausgewählt wurde, zu substituieren.
  7. Sprachsynthesevorrichtung nach Anspruch 1, welche außerdem eine Umsetzungseinrichtung (55) aufweist, um den Stil des Textes gemäß einer Stilumsetzungsregel (56) entsprechend der Auswahlinformation umzusetzen, welche in der Steuerinformation enthalten ist, welche durch die Auswahleinrichtung ausgewählt wurde.
  8. Sprachsynthesevorrichtung nach Anspruch 1, wobei die Sprachsynthesevorrichtung ein Roboter ist.
  9. Sprachsyntheseverfahren für eine Sprachsynthesevorrichtung zum Synthetisieren eines Sprachsignals gemäß einem Text, welches aufweist: einen Verhaltenszustands-Änderungsschritt zum Ändern eines Verhaltenszustands gemäß eines Verhaltensmodells (32); einen Emotionszustands-Änderungsschritt zum Ändern eines Emotionszustands gemäß einem Emotionsmodell (42); einen Auswahlschritt zum Auswählen von Steuerinformation gemäß zumindest einem von dem Verhaltenszustand und dem Emotionszustand; und einen Synthetisierungsschritt zum Synthetisieren eines Sprachsignals entsprechend dem Text gemäß der Sprachsyntheseinformation, welche in der Steuerinformation enthalten ist, welche durch den Prozess des Auswahlschritts ausgewählt wurde; dadurch gekennzeichnet, dass das Verfahren außerdem einen Akkumulationsschritt zum Akkumulieren von zumindest einer von der Häufigkeit, mit der der Verhaltenszustands-Änderungsschritt Verhaltenszustände ändert, und der Häufigkeit, mit der der Emotionszustands-Änderungsschritt Emotionszustände ändert, und wobei der Auswahlschritt die Steuerinformation auch gemäß der Häufigkeit auswählt, die im Akkumulationsschritt akkumuliert wurde.
  10. Aufzeichnungsmedium, welches ein computer-lesbares Sprachsyntheseprogramm zum Synthetisieren eines Sprachsignals entsprechend einem Text speichert, wobei das Programm eine Computerprogramm-Codeeinrichtung aufweist, welches, wenn ausgeführt, die folgenden Schritte aufweist: einen Verhaltenszustands-Änderungsschritt zum Ändern eines Verhaltenszustands gemäß einem Verhaltensmodell (32); einen Emotionszustands-Änderungsschritt zum Ändern eines Emotionszustands gemäß einem Emotionsmodell (42); einen Auswahlschritt zum Auswählen von Steuerinformation gemäß zumindest von einem von dem Verhaltenszustand und dem Emotionszustand; und einen Synthetisierungsschritt zum Synthetisieren eines Sprachsignals entsprechend dem Text gemäß der Sprachsyntheseinformation, welche in der Steuerinformation enthalten ist, welche durch den Prozess des Auswahlschritts ausgewählt wurde; gekennzeichnet durch einen Akkumulationsschritt zum Akkumulieren von zumindest einem von der Häufigkeit, mit der der Verhaltenszustands-Änderungsschritt Verhaltenszustände ändert, und der Häufigkeit, mit der der Emotionszustands-Änderungsschritt Emotionszustände ändert, und wobei der Auswahlschritt die Steuerinformation außerdem gemäß der Häufigkeit auswählt, welche im Akkumulationsschritt akkumuliert wurde.
DE60035848T 1999-12-28 2000-12-27 Sprachsynthesevorrichtung und Verfahren, sowie Aufzeichnungsmedium Expired - Lifetime DE60035848T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP37378099A JP4465768B2 (ja) 1999-12-28 1999-12-28 音声合成装置および方法、並びに記録媒体
JP37378099 1999-12-28

Publications (2)

Publication Number Publication Date
DE60035848D1 DE60035848D1 (de) 2007-09-20
DE60035848T2 true DE60035848T2 (de) 2008-05-21

Family

ID=18502748

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60035848T Expired - Lifetime DE60035848T2 (de) 1999-12-28 2000-12-27 Sprachsynthesevorrichtung und Verfahren, sowie Aufzeichnungsmedium

Country Status (4)

Country Link
US (1) US7379871B2 (de)
EP (1) EP1113417B1 (de)
JP (1) JP4465768B2 (de)
DE (1) DE60035848T2 (de)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002049385A (ja) * 2000-08-07 2002-02-15 Yamaha Motor Co Ltd 音声合成装置、疑似感情表現装置及び音声合成方法
AU2002232928A1 (en) * 2000-11-03 2002-05-15 Zoesis, Inc. Interactive character system
JP2002304188A (ja) * 2001-04-05 2002-10-18 Sony Corp 単語列出力装置および単語列出力方法、並びにプログラムおよび記録媒体
EP1256931A1 (de) * 2001-05-11 2002-11-13 Sony France S.A. Verfahren und Vorrichtung zur Sprachsynthese und Roboter
US20030093280A1 (en) * 2001-07-13 2003-05-15 Pierre-Yves Oudeyer Method and apparatus for synthesising an emotion conveyed on a sound
EP1345207B1 (de) * 2002-03-15 2006-10-11 Sony Corporation Verfahren und Vorrichtung zum Sprachsyntheseprogramm, Aufzeichnungsmedium, Verfahren und Vorrichtung zur Erzeugung einer Zwangsinformation und Robotereinrichtung
DE10237951A1 (de) * 2002-08-20 2004-03-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren zum Betrieb eines Roboters zu laufender Musik
JP3864918B2 (ja) 2003-03-20 2007-01-10 ソニー株式会社 歌声合成方法及び装置
US7275032B2 (en) 2003-04-25 2007-09-25 Bvoice Corporation Telephone call handling center where operators utilize synthesized voices generated or modified to exhibit or omit prescribed speech characteristics
FR2859592A1 (fr) * 2003-09-05 2005-03-11 France Telecom Procede de commande d'un terminal multimodal, plate-forme de traitement et terminal multimodal
JP4661074B2 (ja) * 2004-04-07 2011-03-30 ソニー株式会社 情報処理システム、情報処理方法、並びにロボット装置
WO2006070566A1 (ja) * 2004-12-28 2006-07-06 Matsushita Electric Industrial Co., Ltd. 音声合成方法および情報提供装置
JP2006309162A (ja) * 2005-03-29 2006-11-09 Toshiba Corp ピッチパターン生成方法、ピッチパターン生成装置及びプログラム
GB2427109B (en) 2005-05-30 2007-08-01 Kyocera Corp Audio output apparatus, document reading method, and mobile terminal
TWI340660B (en) * 2006-12-29 2011-04-21 Ind Tech Res Inst Emotion abreaction device and using method of emotion abreaction device
CA2674614C (en) * 2007-01-25 2017-02-28 Eliza Corporation Systems and techniques for producing spoken voice prompts
AU2008100836B4 (en) * 2007-08-30 2009-07-16 Machinima Pty Ltd Real-time realistic natural voice(s) for simulated electronic games
US20090234638A1 (en) * 2008-03-14 2009-09-17 Microsoft Corporation Use of a Speech Grammar to Recognize Instant Message Input
US8374873B2 (en) 2008-08-12 2013-02-12 Morphism, Llc Training and applying prosody models
JP5398295B2 (ja) * 2009-02-16 2014-01-29 株式会社東芝 音声処理装置、音声処理方法及び音声処理プログラム
FR2947923B1 (fr) * 2009-07-10 2016-02-05 Aldebaran Robotics Systeme et procede pour generer des comportements contextuels d'un robot mobile
KR101678018B1 (ko) 2010-01-22 2016-11-22 삼성전자주식회사 감성 모델 장치 및 감성 모델 장치의 행동 결정 방법
JP2012198277A (ja) 2011-03-18 2012-10-18 Toshiba Corp 文書読み上げ支援装置、文書読み上げ支援方法および文書読み上げ支援プログラム
JP2013246742A (ja) * 2012-05-29 2013-12-09 Azone Co Ltd 受動型出力装置及び出力データ生成システム
US9788777B1 (en) 2013-08-12 2017-10-17 The Neilsen Company (US), LLC Methods and apparatus to identify a mood of media
CA2964065A1 (en) * 2014-09-09 2016-03-17 Mark Stephen Meadows Systems and methods for cinematic direction and dynamic character control via natural language output
JP6124306B2 (ja) * 2014-12-17 2017-05-10 日本電信電話株式会社 データ構造及び育児語使用傾向測定装置
JP6729424B2 (ja) * 2017-01-30 2020-07-22 富士通株式会社 機器、出力装置、出力方法および出力プログラム
CN108447470A (zh) * 2017-12-28 2018-08-24 中南大学 一种基于声道和韵律特征的情感语音转换方法
JP2019168623A (ja) * 2018-03-26 2019-10-03 カシオ計算機株式会社 対話装置、ロボット、対話制御方法及びプログラム
JP7463789B2 (ja) 2020-03-23 2024-04-09 株式会社リコー 体温計測用耳標及び体温データ管理システム
US20230032760A1 (en) * 2021-08-02 2023-02-02 Bear Robotics, Inc. Method, system, and non-transitory computer-readable recording medium for controlling a serving robot

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5029214A (en) * 1986-08-11 1991-07-02 Hollander James F Electronic speech control apparatus and methods
US5559927A (en) * 1992-08-19 1996-09-24 Clynes; Manfred Computer system producing emotionally-expressive speech messages
US5860064A (en) 1993-05-13 1999-01-12 Apple Computer, Inc. Method and apparatus for automatic generation of vocal emotion in a synthetic text-to-speech system
JP3439840B2 (ja) * 1994-09-19 2003-08-25 富士通株式会社 音声規則合成装置
US5615301A (en) * 1994-09-28 1997-03-25 Rivers; W. L. Automated language translation system
JP3254994B2 (ja) * 1995-03-01 2002-02-12 セイコーエプソン株式会社 音声認識対話装置および音声認識対話処理方法
US5918222A (en) * 1995-03-17 1999-06-29 Kabushiki Kaisha Toshiba Information disclosing apparatus and multi-modal information input/output system
JPH08279054A (ja) * 1995-04-07 1996-10-22 Hitachi Ltd 映像生成/表示システム
JP3741156B2 (ja) * 1995-04-07 2006-02-01 ソニー株式会社 音声認識装置および音声認識方法並びに音声翻訳装置
JPH1078952A (ja) * 1996-07-29 1998-03-24 Internatl Business Mach Corp <Ibm> 音声合成方法、音声合成装置、ハイパーテキストの制御方法及び制御装置
JPH10289006A (ja) * 1997-04-11 1998-10-27 Yamaha Motor Co Ltd 疑似感情を用いた制御対象の制御方法
KR100240637B1 (ko) * 1997-05-08 2000-01-15 정선종 다중매체와의 연동을 위한 텍스트/음성변환 구현방법 및 그 장치
EP0878790A1 (de) * 1997-05-15 1998-11-18 Hewlett-Packard Company Sprachkodiersystem und Verfahren
US6363301B1 (en) * 1997-06-04 2002-03-26 Nativeminds, Inc. System and method for automatically focusing the attention of a virtual robot interacting with users
IL121642A0 (en) * 1997-08-27 1998-02-08 Creator Ltd Interactive talking toy
US6112181A (en) * 1997-11-06 2000-08-29 Intertrust Technologies Corporation Systems and methods for matching, selecting, narrowcasting, and/or classifying based on rights management and/or other information
US6160986A (en) * 1998-04-16 2000-12-12 Creator Ltd Interactive toy
US6144938A (en) * 1998-05-01 2000-11-07 Sun Microsystems, Inc. Voice user interface with personality
US6243680B1 (en) * 1998-06-15 2001-06-05 Nortel Networks Limited Method and apparatus for obtaining a transcription of phrases through text and spoken utterances
US6260016B1 (en) * 1998-11-25 2001-07-10 Matsushita Electric Industrial Co., Ltd. Speech synthesis employing prosody templates
US6446056B1 (en) * 1999-09-10 2002-09-03 Yamaha Hatsudoki Kabushiki Kaisha Interactive artificial intelligence
US6598020B1 (en) * 1999-09-10 2003-07-22 International Business Machines Corporation Adaptive emotion and initiative generator for conversational systems
JP2001154681A (ja) * 1999-11-30 2001-06-08 Sony Corp 音声処理装置および音声処理方法、並びに記録媒体

Also Published As

Publication number Publication date
EP1113417A3 (de) 2001-12-05
EP1113417A2 (de) 2001-07-04
JP2001188553A (ja) 2001-07-10
JP4465768B2 (ja) 2010-05-19
DE60035848D1 (de) 2007-09-20
US7379871B2 (en) 2008-05-27
EP1113417B1 (de) 2007-08-08
US20010021907A1 (en) 2001-09-13

Similar Documents

Publication Publication Date Title
DE60035848T2 (de) Sprachsynthesevorrichtung und Verfahren, sowie Aufzeichnungsmedium
DE60215296T2 (de) Verfahren und Vorrichtung zum Sprachsyntheseprogramm, Aufzeichnungsmedium, Verfahren und Vorrichtung zur Erzeugung einer Zwangsinformation und Robotereinrichtung
DE60014833T2 (de) Sprachverarbeitung
AU2002230151B2 (en) Apparatus for determining dog&#39;s emotions by vocal analysis of barking sounds and method for the same
DE60124225T2 (de) Verfahren und Vorrichtung zur Erkennung von Emotionen
Noble et al. Human evolution, language and mind: A psychological and archaeological inquiry
CN100445046C (zh) 机器人装置及其行为控制方法
DE60111677T2 (de) Roboter und handlungsbestimmtes Verfahren für Roboter
DE60009583T2 (de) Sprecheradaptation auf der Basis von Stimm-Eigenvektoren
Tosa et al. Life-like communication agent-emotion sensing character" MIC" and feeling session character" MUSE"
JP3273550B2 (ja) 自動応答玩具
Wilshire Serial order in phonological encoding: An exploration of theword onset effect'using laboratory-induced errors
Doukhan et al. Prosodic analysis of a corpus of tales
Schon et al. Common features and individual differences in nurse grunting of domestic pigs (Sus scrofa): a multi-parametric analysis
Vallee The Science of Listening in Bioacoustics Research: Sensing the Animals' Sounds
Okanoya Finite-state song syntax in Bengalese finches: sensorimotor evidence, developmental processes, and formal procedures for syntax extraction
Stockman et al. Listener agreement on phonetic segments in early infant vocalizations
Arbib Language evolution: an emergentist perspective
Wheeldon et al. Spoken word production: Representation, retrieval, and integration
MacWhinney The emergence of linguistic complexity
Oller et al. Contextual flexibility in infant vocal development and the earliest steps in the evolution of language
Sjons et al. Articulation rate in child-directed speech increases as a function of child age
EP1064639B1 (de) Gerät zur wiedergabe von informationen bzw. zur ausführung von funktionen
CN110415727B (zh) 宠物情绪识别方法及装置
Edmondson Non-linear Phonology and Beyond

Legal Events

Date Code Title Description
8332 No legal effect for de
8370 Indication related to discontinuation of the patent is to be deleted
8381 Inventor (new situation)

Inventor name: SHIMAKAWA, MASATO, TOKYO, JP

Inventor name: YAMAZAKI, NOBUHIDE, TOKYO, JP

Inventor name: KOBAYASHI, ERIKA, TOKYO, JP

Inventor name: AKABANE, MAKOTO, TOKYO, JP

Inventor name: KOBAYASHI, KENICHIRO, TOKYO, JP

Inventor name: YAMADA, KEIICHI, TOKYO, JP

Inventor name: NITTA, TOMOAKI, TOKYO, JP

8364 No opposition during term of opposition
8320 Willingness to grant licences declared (paragraph 23)