DE60112512T2 - Kodierung von Ausdruck in Sprachsynthese - Google Patents

Kodierung von Ausdruck in Sprachsynthese Download PDF

Info

Publication number
DE60112512T2
DE60112512T2 DE60112512T DE60112512T DE60112512T2 DE 60112512 T2 DE60112512 T2 DE 60112512T2 DE 60112512 T DE60112512 T DE 60112512T DE 60112512 T DE60112512 T DE 60112512T DE 60112512 T2 DE60112512 T2 DE 60112512T2
Authority
DE
Germany
Prior art keywords
source
resynthesis
speech synthesis
source signal
library
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE60112512T
Other languages
English (en)
Other versions
DE60112512D1 (de
Inventor
Miranda Eduardo Reck
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony France SA
Original Assignee
Sony France SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony France SA filed Critical Sony France SA
Publication of DE60112512D1 publication Critical patent/DE60112512D1/de
Application granted granted Critical
Publication of DE60112512T2 publication Critical patent/DE60112512T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • G10L13/07Concatenation rules

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Toys (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

  • Die vorliegende Erfindung betrifft das Gebiet der Sprachsynthese, und insbesondere das Verbessern des Ausdrucks von durch einen Sprachsynthesizer erzeugten Sprachtönen.
  • In den letzten paar Jahren gab es einen enormen Fortschritt in der Entwicklung von Sprachsynthesizern, insbesondere im Zusammenhang von Text-Sprache (TTS)-Synthesizern. Es gibt zwei Hauptgrundansätze für Sprachsynthese, der Probenansatz (manchmal als der Verkettungs- oder Doppelphonbasis-Ansatz bezeichnet) und der Quellenfilter- (oder „artikulierte") Ansatz. Diesbezüglich siehe „Computer Sound Synthesis for the Electronic Musician" von E. R. Miranda, Focal Press, Oxford, UK, 1998.
  • Der Probenansatz macht Gebrauch von einer Indexdatenbank von digital aufgezeichneten, kurzen gesprochenen Segmenten, wie zum Beispiel Silben. Wenn es gewünscht ist, eine Sprache zu erzeugen, setzt dann eine Wiedergabemaschine die erforderlichen Worte durch fortlaufendes Kombinieren der geeigneten aufgezeichneten kurzen Segmente zusammen. In bestimmten Systemen wird eine Form von Analyse an den aufgezeichneten Tönen durchgeführt, um sie effektiver in der Datenbasis darstellen zu können. In anderen Fällen werden die kurzen gesprochenen Segmente in codierter Form aufgezeichnet: zum Beispiel sind in den US-Patenten 3,982,070 und 3,995,116 die gespeicherten Signale die durch einen Phasenvocoder erforderlichen Koeffizienten, um die fraglichen Töne wieder zu erzeugen.
  • Der Probenansatz zur Sprachsynthese ist der Ansatz, der im Allgemeinen für aufbauende TTS-Systeme bevorzugt ist, und tatsächlich ist er die Kerntechnik, die von den meisten Computersprachsystemen derzeit auf dem Markt benutzt wird.
  • Der Quellenfilteransatz erzeugt Töne ohne Vorgabe durch Nachahmen der Funktion des menschlichen Vokaltrakts – siehe 1. Das Quellenfiltermodell basiert auf der Einsicht, dass die Erzeugung von Sprachtönen durch Erzeugen eines Rohquellsignals simuliert werden kann, das anschließend durch eine komplexe Filteranordnung geformt wird. In diesem Zusammenhang siehe zum Beispiel „Software for a Cascade/Parallel Formant Synthesiser" von D. Klatt aus dem Journal of the Acoustical Society of America, 63(2), Seiten 971–995, 1980.
  • Beim Menschen entspricht die Rohtonquelle dem Ergebnis von durch die Stimmritze (Öffnung zwischen den Stimmbändern) erzeugten Schwingungen, und das komplexe Filter entspricht der Vokaltrakt"röhre". Das komplexe Filter kann auf verschiedene Weisen verwirklicht sein. Allgemein wird der Vokaltrakt als ein Rohr (mit einem Seitenzweig für die Nase) angesehen, der in eine Anzahl Querschnitte unterteilt ist, deren einzelne Resonanzen durch die Filter simuliert werden.
  • Um die Bestimmung der Parameter dieser Filter zu vereinfachen, ist das System normalerweise mit einer Schnittstelle eingerichtet, die Artikulationsinformationen (z.B. die Position der Zunge, des Kiefers und der Lippen während einer Äußerung von bestimmten Tönen) in Filterparameter umsetzt; damit der Grund, warum das Quellenfiltermodell manchmal als das Artikulationsmodell bezeichnet wird (siehe „Articulatory Model for the Study of Speech Production" von P. Mermelstein aus dem Journal of the Acoustical Society of America, 53(4), Seiten 1070–1082, 1973). Äußerungen werden dann erzeugt, indem dem Programm gesagt wird, wie es sich von einem Satz von Artikulationspositionen zum nächsten bewegen muss, ähnlich einer optischen Schlüsselbildanimation. Mit anderen Worten steuert eine Steuereinheit das Erzeugen einer synthetisierten Aussprache durch Setzen der Parameter der Tonquelle(n) und der Filter für jede einer Abfolge von Zeitdauern in einer Art und Weise, die angibt, wie sich das System von einem Satz von „Artikulationspositionen" und Tonquellen in aufeinander folgenden Zeitdauern zum nächsten bewegt.
  • Es gibt einen Bedarf für einen verbesserten Sprachsynthesizer zur Verwendung bei der Forschung nach Grundmechanismen von Sprachentwicklung. Eine solche Forschung wird zum Beispiel durchgeführt, um die sprachlichen Möglichkeiten von Computer- und Robotersystemen zu verbessern. Einer dieser Grundmechanismen enthält das Aufkommen von phonetischen und prosodischen Repertoires. Das Studium dieser Mechanismen erfordert einen Sprachsynthesizer, der in der Lage ist, i) evolutionäre Forschungsparadigmen, wie beispielsweise Selbstorganisation und Modularität zu unterstützen, ii) eine einheitliche Form von Wissensdarstellung für sowohl Spracherzeugung als auch -wahrnehmung zu unterstützen (um so in der Lage zu sein, die Annahme zu unterstützen, dass die Fähigkeiten, zu sprechen und zuzuhören, die gleichen sensomotorischen Mechanismen teilen), und iii) ausdrucksvoll zu sprechen und zu singen (einschließlich emotionalen und paralinguistischen Merkmalen).
  • Synthesizer basierend auf dem Probenansatz erfüllen keine der drei oben angegebenen Grundbedürfnisse. Der Quellenfilteransatz ist dagegen mit den obigen Anforderungen i) und ii) kompatibel, aber die Systeme, die bisher vorgeschlagen wurden, müssen verbessert werden, um die Anforderung iii) bestens zu erfüllen.
  • Der Erfinder hat herausgefunden, dass die in herkömmlichen Sprachsynthesizern benutzte Artikulationssimulation basierend auf dem Quellenfilteransatz für den Filterteil des Synthesizers zufriedenstellend arbeitet, aber die Verbesserung des Quellensignals wurde stark übersehen. Wesentliche Verbesserungen in der Qualität und Flexibilität von Quellenfiltersynthese können erzielt werden, indem man sich der Wichtigkeit der Stimmritze sorgfältiger zuwendet.
  • Die Standardpraxis besteht darin, die zwei Generatoren benutzende Quellenkomponente einzusetzen: einen Generator weißen Rauschens (um die Erzeugung von Konsonanten zu simulieren) und einen Generator eines periodischen harmonischen Impulses (um die Erzeugung von Vokalen zu simulieren). Der allgemeine Aufbau eines Sprachsynthesizers dieses herkömmlichen Typs ist in 2 veranschaulicht. Durch sorgfältiges Steuern der Signalgröße, die jeder Generator an die Filter sendet, kann man grob simulieren, ob die Stimmbänder gespannt sind (für Vokale) oder nicht (für Konsonanten). Die Hauptbeschränkungen dieses Verfahrens sind:
    • a) Das Mischen des Rauschsignals mit dem Impulssignal klingt nicht realistisch: die Rausch- und Impulssignale vermischen sich nicht gut, weil sie von komplett unterschiedlicher Natur sind. Außerdem erzeugt das schnelle Wechseln von Rauschen zu Impuls und umgekehrt (notwendig zum Bilden von Wörtern mit Konsonanten und Vokalen) häufig eine „brummende" Stimme.
    • b) Das Spektrum des Impulssignals besteht aus Oberwellen seiner Grundfrequenz (d.h. FO, 2·FO, 2·(2·FO), 2·(2·(2·FO)), usw.). Dies impliziert ein Wellensignal, dessen Komponenten vor dem Eintritt in die Filter nicht variieren können, wodurch die Timbrequalität der Stimme zurückgehalten wird.
    • c) Das Spektrum des Impulssignals hat eine feste Hüllkurve, wo die Energie jeder ihrer Oberwellen exponential um –6 dB bei einer Verdopplung der Frequenz sinkt. Ein Quellensignal, das immer die gleiche spektrale Form hat, schwächt die Flexibilität, Tonnuancen in der Stimme zu erzeugen. Auch Hochfrequenzformanten werden beeinträchtigt, falls sie einen höheren Energiewert als die niedrigeren haben müssen.
    • d) Zusätzlich zu b) und c) oben fehlt dem Spektrum des Quellensignals eine dynamische Trajektorie: beide Frequenzabstände zwischen den spektralen Komponenten und ihre Amplituden sind vom Ursprung zum Ende einer gegebenen Zeitdauer statisch. Dieses Fehlen von zeitvariablen Attributen lässt die Prosodie der synthetisierten Sprache verarmen.
  • Ein spezieller Sprachsynthesizer basierend auf dem Quellfilteransatz wurde in dem US-Patent 5,528,726 (Cook) vorgeschlagen, bei dem verschiedene Stimmritzenquellsignale synthetisiert werden. Bei diesem Sprachsynthesizer benutzt die Filteranordnung ein digitales Wellenleiternetz, und es wird eine Parameterbibliothek eingesetzt, welche Sätze von Wellenleiterverbindungssteuerparametern und zugehörigen Stimmritzenquellsignalparametern zum Erzeugen von Sätzen vordefinierter Sprachsignale speichert. In diesem System wird der Basisstimmritzenimpuls, der die verschiedenen Stimmritzenquellsignale bildet, durch eine Signalform angenähert, welche als eine erhöhte Kosinusform beginnt, aber sich dann in einem gradlinigen Abschnitt (abschließende Kante) fortsetzt, die zu Null herunterführt und für den Rest der Dauer bei Null bleibt. Die verschiedenen Stimmritzenquellsignale werden durch Variieren der Anfangs- und Endpunkte der abschließenden Kante mit einer festen Öffnungssteigung und einer festen Zeit gebildet. Anstatt Darstellungen dieser verschiedenen Stimmritzenquellsignale zu speichern, speichert das Cook-System Parameter einer Fourier-Reihendarstellung der verschiedenen Quellsignale.
  • Obwohl das Cook-System eine Synthese verschiedener Arten eines Stimmritzenquellsignals basierend auf in eine Bibliothek gespeicherten Parametern beinhaltet, werden im Hinblick auf ein nachfolgendes Filtern durch eine den Vokaltrakt nachbildende Anordnung die verschiedenen Arten von Quellsignalen basierend auf einem einzelnen Zyklus einer jeweiligen Basisimpulsform erzeugt, die von einer erhöhten Kosinusfunktion abgeleitet ist. Wichtiger gibt es keine Optimierung der verschiedenen Arten des Quellsignals im Hinblick auf eine Verbesserung der Ausdrucksweise des fertigen Tonsignalausgangs aus dem Synthesizer des Stimmritzenquellfiltertyps.
  • Die bevorzugten Ausführungsbeispiele der vorliegenden Erfindung, wie sie in den Ansprüchen 1 und 7 beansprucht sind, sehen ein Verfahren und eine Vorrichtung zur Sprachsynthese vor, die geeignet sind, alle obigen Anforderungen i) bis iii) zu erfüllen und die obigen Einschränkungen a) bis d) zu vermeiden. Insbesondere verbessern die bevorzugten Ausführungsbeispiele der Erfindung den Ausdruck der synthetisierten Sprache (obige Anforderung iii)), indem von einer Parameterbibliothek von Quelltonkategorien, die jeweils einer jeweiligen morphologischen Kategorie entsprechen, Gebrauch gemacht wird.
  • Die bevorzugten Ausführungsbeispiele der vorliegenden Erfindung sehen ferner ein Verfahren und eine Vorrichtung zur Sprachsynthese vor, bei denen die Quellsignale auf Signalformen variabler Länge basieren, insbesondere auf Signalformen entsprechend einem kurzen Segment eines Tons, das mehr als einen Zyklus einer Wiederholungssignalform im Wesentlichen irgendeiner Form enthalten kann.
  • Die bevorzugten Ausführungsbeispiele der vorliegenden Erfindung sehen noch weiter ein Verfahren und eine Vorrichtung zur Sprachsynthese vor, bei denen die Quelltonkategorien basierend auf einer Analyse einer realen Sprache abgeleitet werden.
  • In den bevorzugten Ausführungsbeispielen der vorliegenden Erfindung wird die Quellkomponente eines Synthesizers basierend auf dem Quellfilteransatz durch Ersetzen des herkömmlichen Impulsgenerators durch eine Bibliothek von Quelltonkategorien auf morphologischer Basis, die wiederhergestellt werden können, um Äußerungen zu erzeugen, verbessert. Die Bibliothek speichert Parameter betreffend verschiedener Kategorien von Quellen, die für jeweilige spezielle Klassen von Äußerungen passend gemacht sind, entsprechend der allgemeinen Morphologie dieser Äußerungen. Beispiele typischer Klassen sind „plosiver Konsonant zu offenem Vokal", „vorderer Vokal zu hinterem Vokal", ein besonders emotionales Timbre, usw.. Der allgemeine Aufbau dieser Art eines Sprachsynthesizers gemäß der Erfindung ist in 3 angegeben.
  • Sprachsyntheseverfahren und -vorrichtungen gemäß der vorliegenden Erfindung ermöglichen eine in der Gleichmäßigkeit der synthetisierten Äußerungen zu erzielende Verbesserung, weil Konsonanten und Vokale darstellende Signale beide von dem gleichen Quelltyp abstammen (anstatt von einer Rausch- und/oder Impulsquelle).
  • Gemäß der vorliegenden Erfindung ist es bevorzugt, dass die Bibliothek „parametrisch" sein sollte, mit anderen Worten sind die gespeicherten Parameter nicht die Töne selbst, sondern Parameter für die Tonsynthese. Die resynthetisierten Tonsignale werden dann als die Rohtonsignale verwendet, welche der komplexen Filteranordnung eingegeben werden, die den Vokaltrakt nachbildet. Die gespeicherten Parameter werden aus einer Sprachanalyse abgeleitet und diese Parameter können vor der Resynthese auf verschiedene Weise manipuliert werden, um eine bessere Leistung und ausdrucksstärkere Variationen zu erzielen.
  • Die gespeicherten Parameter können Phasenvocodermodulkoeffizienten (zum Beispiel Koeffizienten für einen digitalen Nachführungsphasenvocoder (TPV) oder einen „Oszillatorbank"-Vocoder) sein, die aus der Analyse von realen Sprachdaten abgeleitet sind. Die Resynthese der Rohtonsignale durch den Phasenvocoder ist eine Art einer additiven Resynthese, die Tonsignale durch Umsetzen von STFT-Daten in Amplituden- und Frequenztrajektorien (oder Hüllkurven) erzeugt [siehe das oben zitierte Buch von E. R. Miranda]. Der Ausgang von dem Phasenvocoder wird der Filteranordnung zugeführt, welche den Vokaltrakt simuliert.
  • Der Einsatz der Bibliothek als eine Parameterbibliothek ermöglicht eine größere Flexibilität bei der Sprachsynthese. Insbesondere können die Quellsynthese koeffizienten manipuliert werden, um verschiedene Stimmritzenqualitäten zu simulieren. Außerdem können die Spektraltransformationen auf der Basis des Phasenvocoders an den gespeicherten Koeffizienten vor einer Resynthese des Quelltons gemacht werden, wodurch es möglich gemacht wird, eine reichere Prosodie zu erzeugen.
  • Es ist auch vorteilhaft, Transformationen auf Zeitbasis an dem resynthetisierten Quellsignal zu realisieren, bevor es der Filteranordnung zugeleitet wird. Insbesondere kann die Ausdrucksstärke des fertigen Sprachsignals durch Modifizieren der Art, in welcher die Tonhöhe des Quellsignals über die Zeit variiert (und somit Modifizieren der „Intonation" des fertigen Sprachsignals) verbessert werden. Die bevorzugte Technik zum Erzielen dieser Tonhöhentransformation ist die Technik einer synchronen Überlappung und Zugabe von Tonhöhen (PSOLA).
  • Weitere Merkmale und Vorteile der vorliegenden Erfindung werden aus der folgenden Beschreibung eines durch die beiliegenden Zeichnungen veranschaulichten, beispielhaften bevorzugten Ausführungsbeispiels davon klar. Dabei zeigen:
  • 1 das Prinzip hinter der Quellfilter-Sprachsynthese;
  • 2 ein Blockschaltbild des allgemeinen Aufbaus eines herkömmlichen Sprachsynthesizers nach dem Quellfilteransatz;
  • 3 ein Blockschaltbild des allgemeinen Aufbaus eines Sprachsynthesizers gemäß den bevorzugten Ausführungsbeispielen der vorliegenden Erfindung;
  • 4 ein Flussdiagramm der Hauptschritte in dem Prozess des Bildens der Quelltonkategoriebibliothek gemäß den bevorzugten Ausführungsbeispielen der Erfindung;
  • 5 schematisch, wie ein Quelltonsignal (geschätztes Stimmritzensignal) durch inverses Filtern erzeugt wird;
  • 6 ein Flussdiagramm der Hauptschritte in dem Prozess zum Erzeugen von Quelltönen gemäß bevorzugten Ausführungsbeispielen der Erfindung;
  • 7 schematisch eine Sinuszugabetechnik, die durch eine in bevorzugten Ausführungsbeispielen der Erfindung benutzte Oszillatorbank realisiert wird; und
  • 8 einige verschiedene Arten von Transformationen, die auf die gemäß dem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung definierten Stimmritzenquellkategorien angewendet werden können, wobei
  • 8a) eine spektrale Zeitdehnung zeigt,
  • 8b) eine spektrale Verschiebung zeigt, und
  • 8c) eine spektrale Streckung zeigt.
  • Wie oben erwähnt, ist bei dem Sprachsyntheseverfahren und der Sprachsynthesevorrichtung gemäß bevorzugten Ausführungsbeispielen der Erfindung die herkömmliche Tonquelle eines Quellfilter-Synthesizers durch eine Parameterbibliothek von Tonquellkategorien auf morphologischer Basis ersetzt.
  • Irgendeine passende Filteranordnung, wie beispielsweise ein Wellenleiter- oder ein Bandpassfilter, welche den Vokaltrakt nachbildet, kann benutzt werden, um den Ausgang von dem Quellmodul gemäß der vorliegenden Erfindung zu verarbeiten. Optional kann die Filteranordnung nicht nur die Antwort des Vokaltrakts nachbilden, sondern kann auch die Art berücksichtigen, in welcher der Ton vom Kopf abstrahlt. Die entsprechenden herkömmlichen Techniken können genutzt werden, um die Parameter der Filter in der Filteranordnung zu steuern. Siehe zum Beispiel den oben zitierten Klatt.
  • Die bevorzugten Ausführungsbeispiele der Erfindung verwenden jedoch die Hohlleiterkettentechnik (siehe zum Beispiel „Waveguide Filter Tutorial" von J. O. Smith aus den Proceedings of the international Computer Music Conference, Seiten 9–16, Urbana (IL):ICMA, 1987) wegen ihrer Fähigkeit, nicht-lineare Vokaltraktverluste in das Modell zu integrieren (z.B. die Viskosität und die Elastizität der Traktwände). Dies ist eine wohlbekannte Technik, die zum Simulieren des Körpers von ver schiedenen Blasmusikinstrumenten, einschließlich dem Vokaltrakt (siehe „Towards the Perfect Audo Morph? Singing Voice Synthesis and Processing" von P. R. Cook, aus DAFX98 Proceedings, Seiten 223–230, 1998) erfolgreich eingesetzt worden ist.
  • Beschreibungen geeigneter Filteranordnungen und deren Steuerung sind in der Literatur auf diesem Gebiet einfach erhältlich, und so werden hier keine weiteren Details davon gegeben.
  • Das Aufbauen der Parameterbibliothek der Quelltonkategorien und deren Verwendung bei der Erzeugung von Quelltönen in den bevorzugten Ausführungsbeispielen der Erfindung werden nachfolgend Bezug nehmend auf 4 bis 8 beschrieben.
  • 4 zeigt die beim Aufbauen der Parameterbibliothek von Quelltonkategorien gemäß den bevorzugten Ausführungsbeispielen der vorliegenden Erfindung involvierten Schritte. In dieser Figur sind Positionen in Rechtecken Prozesse, während in Ellipsen eingeschlossene Positionen von jeweiligen Prozessen eingegebene/ausgegebene Signale sind.
  • Wie 4 zeigt, werden die gespeicherten Signale in den bevorzugten Ausführungsbeispielen wie folgt abgeleitet: ein echter Stimmton wird erfasst (1) und invers gefiltert (2), um die Artikulationseffekte abzuziehen, welche der Vokaltrakt auf das Quellsignal gelegt haben würde [siehe „SPASM: A Real-time Vocal Tract Physical Model Editor/Controller and Singer" von P. R. Cook in Computer Music Journal, 17(1), Seiten 30–42, 1993]. Der Grund hinter dem inversen Filtern ist, dass, falls eine Äußerung ωh das Ergebnis eines durch ein Filter mit einem Frequenzgang ϕh gefalteten Quellstroms Sh ist (siehe 1), es dann möglich ist, eine Näherung des Quellstroms durch Entfalten der Äußerung abzuschätzen: ωh = Shϕh → Sh = Erreur!
  • Die Entfaltung kann mittels irgendeiner passenden Technik erzielt werden, wie zum Beispiel Autoregressionsverfahren wie beispielsweise Cepstrum und ein lineares prädiktives Codieren (LPC):
    Figure 00100001
    wobei i der i-te Filterkoeffizient ist, p die Anzahl von Filtern ist, und nt ein Rauschsignal ist. Siehe „The Computer Music Tutorial" von Curtis Roads, MIT Press, Cambridge, Massachusetts, USA, 1996.
  • 5 zeigt, wie der Prozess des inversen Filterns dem Erzeugen eines geschätzten Stimmritzensignals dient (Position 3 in 4).
  • Das geschätzte Stimmritzensignal wird einer morphologischen Kategorie zugeordnet (4), welche generische Äußerungsformen beinhaltet: z.B. „plosiver Konsonant zu hinterem Vokal", „vorderer zu hinterer Vokal", einen gewissen emotionalen Timbre, usw.. Für eine gegebene Form (zum Beispiel einen bestimmten geflüsterten Vokal) wird ein diese Form darstellendes Signal durch Mitteln der geschätzten Stimmritzenvokalsignale, die aus einem inversen Filtern verschiedener Äußerungen der jeweiligen Form resultieren, berechnet (5). Das geschätzte Stimmritzensignal wird ein kurzes Tonsegment einer variablen Länge sein, wobei die Länge jene ist, die zum Charakterisieren der fraglichen glottalen morphologischen Kategorie notwendig ist. Das eine gegebene Form darstellende Bemittelte Signal wird hier als eine „Stimmritzensignalkategorie" bezeichnet (6).
  • Zum Beispiel werden verschiedene Fälle von der Silbe /pa/ wie in „park" und der Silbe /pe/ wie in „pedestrian", usw. dem System eingegeben und das System bildet eine Kategoriedarstellung aus diesen Beispielen. In diesem speziellen Beispiel könnte die erzeugte Kategoriedarstellung „plosiver zu offener Vokal" gekennzeichnet werden. Wenn ein spezielles Beispiel eines „plosiver zu offener Vokal" – Tons synthetisiert werden soll, zum Beispiel der Ton /pa/, wird ein Quellsignal durch Zugreifen auf die in der Bibliothek gespeicherte Kategoriedarstellung „plosiver zu offener Vokal" erzeugt. Die Parameter der Filter in der Filteranordnung sind in einer herkömmlichen Weise gesetzt, um so auf dieses Quellsignal eine Transformationsfunktion anzuwenden, welche in dem gewünschten speziellen Ton /pa/ resultieren wird.
  • Die Stimmritzensignalkategorien können in der Bibliothek ohne weitere Verarbeitung gespeichert werden. Es ist jedoch vorteilhaft, nicht die Kategorien (Quelltonsignale) selbst, sondern codierte Versionen davon zu speichern. Insbesondere wird gemäß bevorzugten Ausführungsbeispielen der Erfindung jede Stimmritzensignalkategorie mittels eines Short Time Fourier Transformation (STFT) – Algorithmus analysiert (7 in 4), um Koeffizienten zu erzeugen (8), die für eine Resynthese des ursprünglichen Quelltonsignals verwendet werden können, bevorzugt mittels eines Phasenvocoders. Diese Resynthesekoeffizienten werden dann in einer Stimmritzenquellbibliothek (9) für ein nachfolgendes Wiederherstellen während des Syntheseprozesses, um das jeweilige Tonsignal zu erzeugen, gespeichert.
  • Die STFT-Analyse bricht die Stimmritzensignalkategorie in überlappende Segmente herunter und formt jedes Segment mit einer Hüllkurve:
    Figure 00110001
    wobei χm das Eingangssignal ist, hn-m das zeitverschobene Fenster ist, n ein diskretes Zeitintervall ist, k der Index für das Frequenzfach ist, N die Anzahl von Punkten im Spektrum (oder die Länge des Analysefensters) ist und X(m,k) die Fourier-Transformation des gefensterten Eingangs in dem diskreten Zeitintervall n für das Frequenzfach k ist (siehe das oben zitierte „Computer Music Tutorial").
  • Die Analyse ergibt eine Darstellung des Spektrums in Termen von Amplituden und Frequenzkategorien (mit anderen Worten die Art, in welcher die Frequenzen der Teile (Frequenzkomponenten) des Tons sich mit der Zeit ändern), welche die Resynthesekoeffizienten bilden, die in der Bibliothek gespeichert werden.
  • Wie bei herkömmlichen Synthesizern des Quellfiltertyps wird, wenn eine Äußerung in den Verfahren und Vorrichtungen gemäß der vorliegenden Erfindung synthetisiert werden soll, diese Äußerung in eine Folge von Komponententönen heruntergebrochen, welche nacheinander ausgegeben werden müssen, um die fertige Äußerung in ihrer Gesamtheit zu erzeugen. Um die erforderliche Folge von Tönen am Ausgang der den Vokaltrakt nachbildenden Filteranordnung zu erzeugen, ist es notwendig, dieser Filteranordnung einen geeigneten Quellstrom einzugeben. 6 zeigt die Hauptschritte des Prozesses zum Erzeugen eines Quellstroms gemäß den bevorzugten Ausführungsbeispielen der Erfindung.
  • Wie in 6 dargestellt, ist es zuerst notwendig, die in der Äußerung enthaltenen Töne zu identifizieren und die zu den Tönen der jeweiligen Klassen gehörenden Codes aus der Bibliothek von Quelltonkategorien wiederherzustellen (21). Diese Codes bilden die Koeffizienten einer Resynthesevorrichtung (z.B. eines Phasenvocoders) und können theoretisch direkt dieser Vorrichtung zugeleitet werden, um das fragliche Quelltonsignal wieder zu erzeugen (27). Die in den bevorzugten Ausführungsbeispielen der Erfindung verwendete Resynthesevorrichtung ist ein Phasenvocoder, der eine Sinuszugabetechnik benutzt, um den Quellstrom zu synthetisieren. Mit anderen Worten treiben die aus der Stimmritzenquellbibliothek wiederhergestellten Amplituden und Frequenztrajektorien eine Bank von Oszillatoren an, die jeweils eine jeweilige Sinuswelle ausgeben, wobei diese Wellen aufsummiert werden, um das fertige Ausgangsquellsignal zu erzeugen (siehe 7).
  • Beim Synthetisieren einer Äußerung, die aus einer Folge von Tönen zusammengesetzt ist, wird eine Interpolation angewendet, um den Übergang von einem Ton zum nächsten zu glätten. Die Interpolation wird auf die Synthesekoeffizienten vor der Synthese (27) angewendet (24, 25). (Es muss noch mal in Erinnerung gerufen werden, dass auch die Filteranordnung wie bei Standardfilteranordnungen von Quellfilter-Synthesizern eine Interpolation durchführt, aber in diesem Fall ist es eine Interpolation zwischen den durch die Steuereinrichtung bestimmten Artikulationspositionen).
  • Ein Hauptvorteil des Speicherns der Stimmritzenquellkategorien in der Form von Wiederherstellungskoeffizienten (z.B. Amplituden und Frequenztrajektorien darstellenden Koeffizienten) ist, dass man eine Anzahl von Vorgängen an den Spektralinformationen dieses Signals mit der Hilfe zum Beispiel einer Feineinstellung oder eines Morphings (Konsonant-Vokal, Vokal-Konsonant) durchführen kann. Wie in 6 veranschaulicht, werden, falls erwünscht, die geeignete Transformationskoeffizienten (22) benutzt, um auf die aus der Stimmritzenquellbibliothek wiederhergestellten Resynthesekoeffizienten (24) Spektraltransformationen (25) anzuwenden. Dann werden die transformierten Koeffizienten (26) der Resynthese vorrichtung zur Erzeugung des Quellstroms zugeführt. Es ist zum Beispiel möglich graduelle Übergänge von einem Spektrum zum anderen zu machen, die spektrale Hüllkurve und die spektralen Inhalte der Quelle zu verändern, und zwei oder mehr Spektren zu mischen.
  • Einige Beispiele von Spektraltransformationen, die auf die aus der Stimmritzenquellbibliothek wiederhergestellten Stimmritzenquellkategorien angewendet werden können, sind in 8 veranschaulicht. Diese Transformationen enthalten eine Zeitstreckung (siehe 8a), eine spektrale Verschiebung (siehe 8b) und eine spektrale Streckung (siehe 8c). In dem in 8a gezeigten Fall verändert sich die Trajektorie der Amplituden der Teile mit der Zeit. In den in 8b und 8c gezeigten Fällen ist es die Frequenztrajektorie, die sich mit der Zeit verändert.
  • Das spektrale Zeitstrecken (8a) arbeitet durch Vergrößern des Abstandes (Zeitintervall) zwischen den Analyseframes des Ausgangstons (oberer Verlauf von 8a), um ein transformiertes Signal zu erzeugen, welches das Spektrum des in der Zeit gestreckten Tons ist (unterer Verlauf). Die spektrale Verschiebung (8b) arbeitet durch Verändern der Abstände (Frequenzintervalle) zwischen den Teilen des Spektrums: während das Intervall zwischen den Frequenzkomponenten im Ausgangsspektrum (oberer Verlauf) Δf sein kann, wird es in dem transformierten Spektrum (unterer Verlauf von 8b) zu Δf', wobei Δf' ≠ Δf. Das spektrale Strecken (8c) ist ähnlich der spektralen Verschiebung, außer dass im Fall des spektralen Streckens die jeweiligen Abstände (Frequenzintervalle) zwischen den Frequenzkomponenten nicht länger konstant sind – die Abstände zwischen den Teilen des Spektrums werden so geändert, dass sie exponentiell größer werden.
  • Es ist auch möglich, die Ausdrucksstärke (oder die so genannte „Emotion") des fertigen Sprachsignals durch Veränderung der Weise, in welcher die Tonhöhe des resynthetisierten Quellsignals sich mit der Zeit ändert, zu verbessern. Eine solche Transformation auf Zeitbasis macht es zum Beispiel möglich, ein relativ flaches Sprachsignal zu nehmen und es melodischer zu machen, oder einen Ausrufesatz in eine Frage umzuwandeln (durch Anheben der Tonhöhe am Ende), und dergleichen.
  • Im Kontext der vorliegenden Erfindung ist das bevorzugte Verfahren zum Realisieren solcher Transformationen auf Zeitbasis die oben genannte PSOLA-Technik. Diese Technik ist zum Beispiel in „Voice transformation using PSOLA technique" von H. Valbret, E. Moulines & J. P. Tulbach in Speech Communication, 11, Nr. 2/3, Juni 1992, Seiten 175–187, beschrieben.
  • Die PSOLA-Technik wird angewendet, um geeignete Modifikationen des Quellsignals (nach dessen Resynthese) zu machen, bevor das transformierte Quellsignal der den Vokaltrakt nachbildenden Filteranordnung zugeleitet wird. Somit ist es vorteilhaft, ein die PSOLA-Technik realisierendes Modul hinzuzufügen und am Ausgang von der Quellsyntheseeinheit 27 von 6 zu arbeiten.
  • Wie oben erwähnt, wird, wenn es erwünscht ist, einen speziellen Ton zu synthetisieren, ein Quellsignal basierend auf der in der Bibliothek für Töne dieser Klasse gespeicherten Kategoriedarstellung oder einer morphologischen Kategorie erzeugt, und die Filteranordnung ist angeordnet, um das Quellsignal in bekannter Weise zu modifizieren, um so den gewünschten speziellen Ton in dieser Klasse zu erzeugen. Die Ergebnisse der Synthese werden verbessert, weil das Rohmaterial, an welchem die Filteranordnung arbeitet, passendere Komponenten als jene in durch herkömmliche Einrichtungen erzeugten Quellsignalen hat.
  • Die Sprachsynthesetechnik gemäß der vorliegenden Erfindung verbessert die Beschränkung a) (oben im Detail) des Standard-Stimmritzenmodells in dem Sinn, dass das Morphing zwischen Vokalen und Konsonanten realistischer ist, da beide Signale von der gleichen Art von Quelle abstammen (anstatt von Rausch- und/oder Impulsquellen). So haben die synthetisierten Äußerungen eine verbesserte Glattheit.
  • In den bevorzugten Ausführungsbeispielen der Erfindung haben sich auch die Einschränkungen b) und c) deutlich verbessert, weil wir nun die Synthesekoeffizienten manipulieren können, um das Spektrum des Quellsignals zu verändern. Somit hat das System eine größere Flexibilität. Verschiedene Stimmritzenqualitäten (z.B. ausdrucksstarke Synthese, Zugabe von Emotion, Simulation der Idiosynkrasie einer speziellen Stimme) können durch Verändern der Werte der Phasenvocoder-Koeffizienten vor der Anwendung des Resyntheseprozesses simuliert werden. Dies impliziert automatisch eine Verbesserung der Einschränkung d), da wir nun zeitvariable Funktionen spezifizieren können, die die Quelle während der Stimmbildung verändern können. Eine reichere Prosodie kann deshalb erzielt werden.
  • Die vorliegende Erfindung basiert auf der Erkenntnis, dass die Quellkomponente des Quellfiltermodells so wichtig wie die Filterkomponente ist, und sieht eine Technik vor, um die Qualität und die Flexibilität der früheren zu verbessern. Das Potential dieser Technik könnte noch vorteilhafter genutzt werden, indem eine Methodik zum Definieren spezieller Spektraloperationen gefunden wird. Die reale Stimmritze verwaltet sehr feine Veränderungen im Spektrum der Quelltöne, aber die Bestimmung der Phasenvocoder-Koeffizienten zum Simulieren dieser delikaten Operation ist keine triviale Aufgabe.
  • Es ist selbstverständlich, dass die vorliegende Erfindung nicht durch die Merkmale der oben beschriebenen speziellen Ausführungsbeispiele beschränkt ist. Insbesondere können verschiedene Modifikationen an den bevorzugten Ausführungsbeispielen im Schutzumfang der anhängenden Ansprüche vorgenommen werden.
  • Es ist auch selbstverständlich, dass die Referenzen hierin auf den Vokaltrakt nicht die Erfindung auf Systeme einschränken, die menschliche Stimmen nachahmen. Die Erfindung deckt Systeme ab, welche eine synthetisierte Sprache (z.B. Sprache für einen Roboter) erzeugen, welche der menschliche Vokaltrakt typischerweise nicht erzeugt.

Claims (12)

  1. Sprachsynthesizervorrichtung, mit einem Quellmodul, das zum Ausgeben eines Quellsignals während Gebrauchs ausgebildet ist; und einem Filtermodul, das zum Empfangen des Quellsignals als Eingang und zum Anwenden einer Filterkennlinie, die die Reaktion des Vokaltrakts nachbildet, darauf ausgebildet ist, wobei das Quellmodul eine Bibliothek von gespeicherten Darstellungen von Quelltönen und eine Resynthesevorrichtung, die zum Ausgeben des Quellsignals ausgebildet ist, aufweist, wobei die gespeicherten Darstellungen in der Bibliothek durch inverses Filtern von realen Stimmtönen abgeleitet sind, um so die durch den Vokaltrakt auferlegten Artikulationseffekte abzuziehen, und sie in der Form von Resynthesekoeffizienten für die Resynthesevorrichtung vorliegen, und wobei das durch das Quellmodul ausgegebene Quellsignal einer gespeicherten Darstellung entspricht, dadurch gekennzeichnet, dass die gespeicherten Darstellungen in der Bibliothek jeweiligen Klassen von Tönen entsprechen, wobei jede Klasse einer jeweiligen morphologischen Kategorie entspricht; und dass die einer bestimmten morphologischen Kategorie entsprechende gespeicherte Darstellung durch Mitteln von Signalen abgeleitet ist, die durch inverses Filtern mehrerer Beispiele von Stimmtönen, welche die bestimmte morphologische Kategorie verkörpern, erzeugt sind.
  2. Sprachsynthesevorrichtung nach Anspruch 1, bei welcher die gespeicherten Darstellungen in der Bibliothek durch Entfalten jeweiliger Abschnitte einer Äußerung abgeleitet sind.
  3. Sprachsynthesevorrichtung nach Anspruch 1 oder 2, bei welcher die Resynthesevorrichtung einen Phasenvocoder aufweist, der zum Ausgeben von Stimmritzensignalen zum Senden an das Filtermodul ausgebildet ist; und die die gespeicherte Darstellung einer Quelltonkategorie bildenden Resynthesekoeffizienten einer Darstellung entsprechen, die durch eine STFT-Analyse von aus dem inversen Filtern resultierenden Signalen abgeleitet ist.
  4. Sprachsynthesevorrichtung nach Anspruch 3, und mit einer Einrichtung zum Durchführen von Spektraltransformationen an den Resynthesekoeffizienten, wobei der Phasenvocoder durch die transformierten Resynthesekoeffizienten abgeleitet ist.
  5. Sprachsynthesevorrichtung nach einem der vorherigen Ansprüche, bei welcher die Tonhöhe des Quellsignals als Funktion der Zeit variiert; und eine Einrichtung zum Transformieren des Quellsignals durch Modifizieren der Tonhöhenveränderungsfunktion vorgesehen ist, wobei das Filtermodul ausgebildet ist, um das Quellsignal nach seiner Transformation durch die Transformationseinrichtung zu bearbeiten.
  6. Sprachsynthesevorrichtung nach einem der vorherigen Ansprüche, bei welcher das Filtermodul mittels der Hohlleiterkettentechnik realisiert ist.
  7. Verfahren zur Sprachsynthese, mit den Schritten: Bereitstellen eines Quellmoduls mit einer Resynthesevorrichtung und einer Bibliothek von gespeicherten Darstellungen von Quelltönen, wobei die gespeicherten Darstellungen in der Bibliothek durch inverses Filtern von realen Stimmtönen abgeleitet sind, um so die durch den Vokaltrakt auferlegten Artikulationseffekte abzuziehen, und sie in der Form von Resynthesekoeffizienten für die Resynthesevorrichtung vorliegen; Veranlassen des Quellmoduls, ein Quellsignal durch Eingabe von Resynthesekoeffizienten in die Resynthesevorrichtung zu erzeugen und das durch die Resynthesevorrichtung erzeugte Signal als das Quellsignal auszugeben; Bereitstellen eines Filtermoduls mit einer Filterkennlinie, die die Reaktion des Vokaltrakts nachbildet; Eingeben des Quellsignals in das Filtermodul, dadurch gekennzeichnet, dass die gespeicherten Darstellungen in der Bibliothek jeweiligen Klassen von Tönen entsprechen, wobei jede Klasse einer jeweiligen morphologischen Kategorie entspricht, und dass die einer bestimmten morphologischen Kategorie entsprechende gespeicherte Darstellung durch Mitteln von Signalen abgeleitet ist, die durch inverses Filtern mehrerer Beispiele von Stimmtönen, die die bestimmte morphologische Kategorie verkörpern, erzeugt werden.
  8. Sprachsyntheseverfahren nach Anspruch 7, bei welchem die gespeicherten Darstellungen in der Bibliothek durch Entfalten jeweiliger Abschnitte einer Äußerung abgeleitet werden.
  9. Sprachsyntheseverfahren nach Anspruch 7 oder 8, bei welchem die Resynthesevorrichtung einen Phasenvocoder aufweist, der zum Ausgeben von Stimmritzensignalen an das Filtermodul ausgebildet ist, und die die gespeicherte Darstellung einer Quelltonkategorie bildenden Resynthesekoeffizienten einer Darstellung entsprechen, die durch eine STFT-Analyse von aus den inversen Filtern resultierenden Signalen abgeleitet ist.
  10. Sprachsyntheseverfahren nach Anspruch 9, bei welchem eine Spektraltransformation auf die gewonnenen Resynthesekoeffizienten angewendet wird und die transformierten Koeffizienten zum Antreiben des Phasenvocoders verwendet werden.
  11. Sprachsyntheseverfahren nach einem der Ansprüche 7 bis 10, bei welchem die Tonhöhe des Quellsignals als eine Funktion der Zeit variiert, und mit dem Schritt des Transformierens des Quellsignals durch Modifizieren der Tonhöhenveränderungsfunktion, wobei das Filtermodul ausgebildet ist, das Quellsignal nach seiner Transformation in dem Transformationsschritt zu bearbeiten.
  12. Sprachsyntheseverfahren nach einem der Ansprüche 7 bis 11, bei welchem das Filtermodul mittels der Hohlleiterkettentechnik realisiert ist.
DE60112512T 2000-06-02 2001-05-29 Kodierung von Ausdruck in Sprachsynthese Expired - Fee Related DE60112512T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP00401560 2000-06-02
EP00401560A EP1160764A1 (de) 2000-06-02 2000-06-02 Morphologische Kategorien für Sprachsynthese

Publications (2)

Publication Number Publication Date
DE60112512D1 DE60112512D1 (de) 2005-09-15
DE60112512T2 true DE60112512T2 (de) 2006-03-30

Family

ID=8173715

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60112512T Expired - Fee Related DE60112512T2 (de) 2000-06-02 2001-05-29 Kodierung von Ausdruck in Sprachsynthese

Country Status (4)

Country Link
US (1) US6804649B2 (de)
EP (1) EP1160764A1 (de)
JP (1) JP2002023775A (de)
DE (1) DE60112512T2 (de)

Families Citing this family (141)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US7457752B2 (en) * 2001-08-14 2008-11-25 Sony France S.A. Method and apparatus for controlling the operation of an emotion synthesizing device
US7483832B2 (en) * 2001-12-10 2009-01-27 At&T Intellectual Property I, L.P. Method and system for customizing voice translation of text to speech
US20060069567A1 (en) * 2001-12-10 2006-03-30 Tischer Steven N Methods, systems, and products for translating text to speech
US7191134B2 (en) * 2002-03-25 2007-03-13 Nunally Patrick O'neal Audio psychological stress indicator alteration method and apparatus
JP2003295882A (ja) 2002-04-02 2003-10-15 Canon Inc 音声合成用テキスト構造、音声合成方法、音声合成装置及びそのコンピュータ・プログラム
JP4178319B2 (ja) * 2002-09-13 2008-11-12 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声処理におけるフェーズ・アライメント
GB0229860D0 (en) * 2002-12-21 2003-01-29 Ibm Method and apparatus for using computer generated voice
US8103505B1 (en) * 2003-11-19 2012-01-24 Apple Inc. Method and apparatus for speech synthesis using paralinguistic variation
US7472065B2 (en) * 2004-06-04 2008-12-30 International Business Machines Corporation Generating paralinguistic phenomena via markup in text-to-speech synthesis
WO2006132054A1 (ja) * 2005-06-08 2006-12-14 Matsushita Electric Industrial Co., Ltd. オーディオ信号の帯域を拡張するための装置及び方法
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
CN101589430B (zh) * 2007-08-10 2012-07-18 松下电器产业株式会社 声音分离装置、声音合成装置及音质变换装置
FR2920583A1 (fr) * 2007-08-31 2009-03-06 Alcatel Lucent Sas Procede de synthese vocale et procede de communication interpersonnelle, notamment pour jeux en ligne multijoueurs
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US20090222268A1 (en) * 2008-03-03 2009-09-03 Qnx Software Systems (Wavemakers), Inc. Speech synthesis system having artificial excitation signal
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
CN102047321A (zh) 2008-05-30 2011-05-04 诺基亚公司 用于提供改进的语音合成的方法、设备和计算机程序产品
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
JP4516157B2 (ja) * 2008-09-16 2010-08-04 パナソニック株式会社 音声分析装置、音声分析合成装置、補正規則情報生成装置、音声分析システム、音声分析方法、補正規則情報生成方法、およびプログラム
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
WO2011089450A2 (en) 2010-01-25 2011-07-28 Andrew Peter Nelson Jerram Apparatuses, methods and systems for a digital conversation management platform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
JP5393544B2 (ja) 2010-03-12 2014-01-22 本田技研工業株式会社 ロボット、ロボット制御方法およびプログラム
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US20140066724A1 (en) * 2011-02-18 2014-03-06 Matias Zanartu System and Methods for Evaluating Vocal Function Using an Impedance-Based Inverse Filtering of Neck Surface Acceleration
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
EP2954514B1 (de) 2013-02-07 2021-03-31 Apple Inc. Sprachtrigger für einen digitalen assistenten
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
AU2014233517B2 (en) 2013-03-15 2017-05-25 Apple Inc. Training an at least partial voice command system
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
DE112014002747T5 (de) 2013-06-09 2016-03-03 Apple Inc. Vorrichtung, Verfahren und grafische Benutzerschnittstelle zum Ermöglichen einer Konversationspersistenz über zwei oder mehr Instanzen eines digitalen Assistenten
KR101809808B1 (ko) 2013-06-13 2017-12-15 애플 인크. 음성 명령에 의해 개시되는 긴급 전화를 걸기 위한 시스템 및 방법
AU2014306221B2 (en) 2013-08-06 2017-04-06 Apple Inc. Auto-activating smart responses based on activities from remote devices
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
AU2015266863B2 (en) 2014-05-30 2018-03-15 Apple Inc. Multi-command single utterance input method
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9606986B2 (en) 2014-09-29 2017-03-28 Apple Inc. Integrated word N-gram and class M-gram language models
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10872598B2 (en) 2017-02-24 2020-12-22 Baidu Usa Llc Systems and methods for real-time neural text-to-speech
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10896669B2 (en) 2017-05-19 2021-01-19 Baidu Usa Llc Systems and methods for multi-speaker neural text-to-speech
US10872596B2 (en) * 2017-10-19 2020-12-22 Baidu Usa Llc Systems and methods for parallel wave generation in end-to-end text-to-speech
US10796686B2 (en) 2017-10-19 2020-10-06 Baidu Usa Llc Systems and methods for neural text-to-speech using convolutional sequence learning
US11017761B2 (en) * 2017-10-19 2021-05-25 Baidu Usa Llc Parallel neural text-to-speech
JP6992612B2 (ja) * 2018-03-09 2022-01-13 ヤマハ株式会社 音声処理方法および音声処理装置
CN111602194B (zh) * 2018-09-30 2023-07-04 微软技术许可有限责任公司 语音波形生成
CN114341979A (zh) * 2019-05-14 2022-04-12 杜比实验室特许公司 用于基于卷积神经网络的语音源分离的方法和装置
CN112614477B (zh) * 2020-11-16 2023-09-12 北京百度网讯科技有限公司 多媒体音频的合成方法、装置、电子设备和存储介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3982070A (en) 1974-06-05 1976-09-21 Bell Telephone Laboratories, Incorporated Phase vocoder speech synthesis system
US3995116A (en) 1974-11-18 1976-11-30 Bell Telephone Laboratories, Incorporated Emphasis controlled speech synthesizer
US5278943A (en) * 1990-03-23 1994-01-11 Bright Star Technology, Inc. Speech animation and inflection system
US5327518A (en) * 1991-08-22 1994-07-05 Georgia Tech Research Corporation Audio analysis/synthesis system
US5528726A (en) * 1992-01-27 1996-06-18 The Board Of Trustees Of The Leland Stanford Junior University Digital waveguide speech synthesis system and method
US5473759A (en) * 1993-02-22 1995-12-05 Apple Computer, Inc. Sound analysis and resynthesis using correlograms
JPH08254993A (ja) * 1995-03-16 1996-10-01 Toshiba Corp 音声合成装置
US6182042B1 (en) * 1998-07-07 2001-01-30 Creative Technology Ltd. Sound modification employing spectral warping techniques
US6195632B1 (en) * 1998-11-25 2001-02-27 Matsushita Electric Industrial Co., Ltd. Extracting formant-based source-filter data for coding and synthesis employing cost function and inverse filtering
US6526325B1 (en) * 1999-10-15 2003-02-25 Creative Technology Ltd. Pitch-Preserved digital audio playback synchronized to asynchronous clock

Also Published As

Publication number Publication date
JP2002023775A (ja) 2002-01-25
US6804649B2 (en) 2004-10-12
DE60112512D1 (de) 2005-09-15
US20020026315A1 (en) 2002-02-28
EP1160764A1 (de) 2001-12-05

Similar Documents

Publication Publication Date Title
DE60112512T2 (de) Kodierung von Ausdruck in Sprachsynthese
DE69909716T2 (de) Formant Sprachsynthetisierer unter Verwendung von Verkettung von Halbsilben mit unabhängiger Überblendung im Filterkoeffizienten- und Quellenbereich
AT400646B (de) Sprachsegmentkodierungs- und tonlagensteuerungsverfahren für sprachsynthesesysteme und synthesevorrichtung
DE60126575T2 (de) Vorrichtung und Verfahren zur Synthese einer singenden Stimme und Programm zur Realisierung des Verfahrens
DE19610019C2 (de) Digitales Sprachsyntheseverfahren
DE60216651T2 (de) Vorrichtung zur Sprachsynthese
DE2115258A1 (de) Sprachsynthese durch Verkettung von in Formant Form codierten Wortern
EP1105867B1 (de) Verfahren und vorrichtungen zur koartikulationsgerechten konkatenation von audiosegmenten
DE69720861T2 (de) Verfahren zur Tonsynthese
DE60202161T2 (de) Verfahren, Vorrichtung und Programm zur Analyse und Synthese von Sprache
DE60205421T2 (de) Verfahren und Vorrichtung zur Sprachsynthese
JPH0641557A (ja) 音声合成のための方法および装置
EP1110203B1 (de) Vorrichtung und verfahren zur digitalen sprachbearbeitung
EP0058130B1 (de) Verfahren zur Synthese von Sprache mit unbegrenztem Wortschatz und Schaltungsanordnung zur Durchführung des Verfahrens
DE60305944T2 (de) Verfahren zur synthese eines stationären klangsignals
Acero Source-filter models for time-scale pitch-scale modification of speech
DE60316678T2 (de) Verfahren zum synthetisieren von sprache
Sondhi Articulatory modeling: a possible role in concatenative text-to-speech synthesis
DE60311482T2 (de) Verfahren zur steuerung der dauer bei der sprachsynthese
DE60131521T2 (de) Verfahren und Vorrichtung zur Steuerung des Betriebs eines Geräts bzw. eines Systems sowie System mit einer solchen Vorrichtung und Computerprogramm zur Ausführung des Verfahrens
DE10063503A1 (de) Vorrichtung und Verfahren zur differenzierten Sprachausgabe
EP3144929A1 (de) Synthetische erzeugung eines natürlich klingenden sprachsignals
Saiyod et al. Thai Speech Synthesis for Text-to-Speech based on Formant Synthesis Technique
DE19837661C2 (de) Verfahren und Vorrichtung zur koartikulationsgerechten Konkatenation von Audiosegmenten
EP1160766B1 (de) Kodierung von Ausdruck in Sprachsynthese

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee