DE60125664T2

DE60125664T2 - Vorrichtung und Verfahren zur Verarbeitung von Klangsignalen

Info

Publication number: DE60125664T2
Application number: DE60125664T
Authority: DE
Inventors: Kazunobu Shinagawa-ku Kubota
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2000-08-03
Filing date: 2001-08-02
Publication date: 2007-10-18
Anticipated expiration: 2021-08-03
Also published as: US7203327B2; JP4304845B2; EP1182643B1; JP2002051399A; US20020034307A1; EP1182643A1; DE60125664D1

Description

Die vorliegende Erfindung betrifft eine Vorrichtung und ein Verfahren zur Verarbeitung von Audiosignalen zur Benutzung mit Videospielmaschinen, Personalcomputern und dgl. und bei denen ein Ton- oder Klangbild eines Ton- oder Klanquellensignals virtuell lokalisiert ist.
Wenn virtuelle Realität durch Klänge realisiert wird, ist generell ein Verfahren wie es beispielsweise aus US 4 721 848 hervorgeht bekannt, bei dem ein monoaurales Audiosignal durch eine geeignete Signalverarbeitung wie beispielsweise Filterung so verarbeitet wird, dass durch Benutzung von nur zwei Lautsprechern für einen Zuhörer ein Klangbild nicht nur zwischen zwei Lautsprechern, sondern auch an jeder Position eines dreidimensionalen Raums lokalisiert werden kann.
Wenn ein monoaurales Audiosignal durch richtige Filterung auf Basis von Übertragungsfunktionen (HRTF: Head Related Transfer Function (kopfbezogene Übertragungsfunktion)) von einer Position, bei der ein Klangbild eines eingegebenen monoauralen Audiosignals bei Ohren eines Zuhörers lokalisiert ist, und Übertragungsfunktionen von einem Paar Lautsprechern, die vor dem Zuhörer oder den Ohren des Zuhörers lokalisiert sins, lokalisiert ist, verarbeitet wird, kann ein Klangbild sogar an jedem Platz anders als die Positionen eines Paars Lautsprecher wie beispielsweise hinter und auf der Seite von einem Zuhörer lokalisiert werden. In der Beschreibung der vorliegenden Erfindung ist diese Technik als eine „virtuelle Klangbildlokalisierung" bezeichnet. Wiedergabeeinrichtungen können Lautsprecher, Kopfhörer oder Ohrhörer sein, die von einem Zuhörer getragen werden. Wenn ein Zuhörer durch Kopfhörer wiedergegebenen Klängen eines Audiosignals, das durch diese Signalverarbeitung nicht verarbeitet worden ist, zuhört, tritt eine sogenannte „Im-Kopf-Lokalisierung (in-head localisation)" des wiedergegebenen Klangbilds auf. Wenn die obige Verarbeitung am Audiosignal bewirkt wird, kann ein wiedergegebenes Klangbild eine „Außer-Kopf-Lokalisierung (out-head localisation)" ähnlich zu der durch die Lautsprecher erhaltenen Klangbildlokalisierung erzeugt werden. Außerdem wird es möglich, ein Klangbild ähnlich zu der von den Lautsprechern bewirkten virtuellen Klangbildlokalisierung an einer beliebigen Position um den Zuhörer herum zu lokalisieren. Obgleich Signalverarbeitungsinhalte in Reaktion auf jeweilige Wiedergabeeinrichtungen etwas unterschiedlich werden, werden resultierende Ausgangssignale ein Paar Audiosignale (Stereoaudiosignale). Wenn dann die obigen Audiosignale, das heißt Stereoaudiosignale durch ein Paar geeignete Umsetzer (Lautsprecher oder Kopfhörer) wiedergegeben werden, kann ein Klangbild an einer beliebigen Position lokalisiert werden. Natürlich sind eingegebene Signale nicht auf die monoauralen Audiosignale beschränkt. Wie später beschrieben werden mehrere Klangwellensignale entsprechend jeweiligen Lokalisierungspositionen gefiltert und können zusammenaddiert werden, so dass ein Klangbild an einer beliebigen Position lokalisiert werden kann.
Wenn außerdem Mehrkanallautsprecher um den Zuhörer herum lokalisiert werden und Klangwellensignale diesen Kanälen richtig zugeordnet werden, können gewünschte Klangbilder lokalisiert werden.
Andererseits ist ein Verfahren bekannt, bei dem Bilder und Klangbilder durch Benutzung der obigen Technik lokalisiert werden, wenn der Benutzer die Wiedergabeeinrichtung betreibt.
Entsprechend einer Durchsatzverbesserung neuester Prozessoren und entsprechend einer Herstellerforderung und -suche nach einer Wiedergabe von komplexerer und realerer virtueller Realität wird die Verarbeitung selbst zunehmend fortschrittlich und komplexer.
Da das Klangvirtuelllokalisierungsverfahren, das die obige fundamentale Technologie wird, ein originales monaurales Klangsignal als eine Punktklangquelle annimmt, wird, wenn der Produzent beabsichtigt, eine Klangquelle von großer Größe auszudrücken, die nicht von einer Punktklangwelle wiedergegeben werden kann, um eine Klangquelle nahe bei einem Satz von Klangquellen mit komplexer Anordnung und einem Zuhörer zu lokalisieren, ein Satz von Klangquellen geteilt und im Voraus als mehrere Punktklangquellen T1, T2, T3, T4 gehalten, und mehrere Punktklangquellen werden separat virtuell lokalisiert. Dann wird, wie in 1 der beigefügten Zeichnungen gezeigt, ein Klangsignal durch Bewirken einer Synthetisierungsverarbeitung wie beispielsweise Mischung bei diesen Punktklangquellen erzeugt.
Es sei ein Satz von Klangquellen angenommen, die wie in 2 der beigefügten Zeichnungen gezeigt beispielsweise aus vier Punktklangquellen T1, T2, T3, T4 zusammengesetzt sind. Wenn die Position dieses Satzes bewegt oder gedreht wird, werden virtuelle Klangbilder aller Punktklangquellen T1, T2, T3, T4 lokalisiert und werden für einen Zuhörer M an den durch T11, T21, T31, T34 gezeigten Positionen Klangbilder lokalisiert.
Wenn Positionsbeziehungen der jeweiligen Klangquellen, die diesen Satz aufweisen, transformiert werden, werden virtuelle Klangbilder aller Punktklangquellen T1, T2, T3, T4 ähnlich lokalisiert, wodurch für den Zuhörer M an durch T12, T22, T32, T42 in 2 gezeigten Positionen Klangbilder lokalisiert werden.
Jedoch entsprechend dem obigen Verfahren wird, wenn eine virtuelle Klangbildlokalisierung eines realisierten Klangquellenobjekts (Klangquelle, die Positionsinformation und dgl. aufweist) komplexer wird und die Anzahl der Punktklangquellen zunimmt, die Menge von zu verarbeitenden Signalen sehr groß, so dass eine andere Verarbeitung unterdrückt wird, andernfalls überschreitet die Menge von zu verarbeitenden Signalen einen zulässigen Signalverarbeitungsgrad, so dass das Audiosignalverarbeitungsgerät unfähig wird, ein Audiosignal wiederzugeben.
Im Hinblick auf das oben genannte Problem ist es eine Aufgabe der vorliegenden Erfindung, eine Vorrichtung und ein Verfahren zur Verarbeitung eines Audiosignals bereitzustellen, mit denen eine zu verarbeitende Signalmenge reduziert werden kann, während eine virtuelle Realität von Klängen realisiert werden kann.
Gemäß einem Aspekt der vorliegenden Erfindung ist ein Verfahren zur Verarbeitung eines Audiosignals bereitgestellt, das die Schritte aufweist: Synthetisieren mehrerer Klangquellensignale, deren Anzahl M ist, zum Erzeugen von Klangquellensignalen, deren Anzahl N kleiner als die Anzahl M der Klangquellensignale ist, auf Basis wenigstens einer von Positionsinformation, Bewegungsinformation und Lokalisationsinformation der M Klangquellen, Synthetisieren wenigstens einer Information von Positionsinformation, Bewegungsinformation und Lokalisationsinformation, die mit synthetisierten Klangquellensignalen korrespondieren, und Lokalisieren der N synthetisierten Klangquellensignale in einem Klangbild auf Basis der synthetisierten Information.
Gemäß der vorliegenden Erfindung kann, da die synthetisierten Klangsignale von den Klangquellensignalen synthetisiert werden und virtuelle Klangbilder der synthetisierten Klangquellensignale der Anzahl kleiner als die der originalen Klangquellensignale lokalisiert werden, die Menge von zu verarbeitenden Signalen reduziert werden.
Gemäß einem weiteren Aspekt der vorliegenden Erfindung ist eine Vorrichtung zur Verarbeitung eines Audiosignals bereitgestellt, die aufweist: eine Synthetisiertklangquellensignal-Erzeugungseinrichtung zum Synthetisieren mehrerer Klangquellensignale, deren Anzahl M ist, zum Erzeugen von N Klangquellensignalen, wobei die Anzahl N kleiner als die Anzahl M der Klangquellensignale ist, auf Basis wenigstens einer von Positionsinformation, Bewegungsinformation und Lokalisierungsinformation der Klangquellen, eine Synthetisiertinformations-Erzeugungseinrichtung zum Erzeugung synthetisierter Information durch Synthetisieren von Information, die mit den synthetisierten Klangquellensignalen korrespondiert, von der Information und eine Signalverarbeitungseinrichtung zum Lokalisieren der N synthetisierten Klangquellensignale in einem Klangbild auf Basis der synthetisierten Information.
Gemäß der vorliegenden Erfindung kann, da virtuelle Klangbilder der synthetisierten Klangquellensignale, deren Anzahl kleiner als die der originalen Klangquellensignale ist, lokalisiert werden, die Menge von zu verarbeitenden Signalen reduziert werden.
Gemäß einem noch anderen Aspekt der vorliegenden Erfindung ist ein Aufzeichnungsmedium bereitgestellt, bei dem synthetisierte Klangquellensignale aufgezeichnet sind, wobei mehrere Klangquellensignale, deren Anzahl M ist, in N Signale, deren Anzahl N kleiner als die Anzahl M der Klangquellensignale ist, auf Basis wenigstens einer Information von Positionsinformation, Bewegungsinformation und Lokalisierungsinformation der Klangquelle synthetisiert sind und synthetisierte Information als wenigstens eine Information von Positionsinformation, Bewegungsinformation und Lokalisierungsinformation, die mit den synthetisierten Klangquellensignalen in Assoziation zueinander korrespondieren, synthetisiert ist.
Gemäß der vorliegenden Erfindung kann, da die synthetisierten Klangquellensignale, deren Anzahl kleiner als die der originalen Klangquellensignale ist, erzeugt und gespeichert werden, eine Kapazität zum Speichern der synthetisierten Klangquellensignale reduziert werden. Wenn die synthetisierten Klangquellensignale, deren virtuellen Klangbilder im Voraus lokalisiert worden sind, gespeichert werden, kann der Signalverarbeitungsgrad, der erforderlich ist, wenn die Signale wiedergegeben werden, reduziert werden.
Ausführungsformen der Erfindung werden nun nur beispielhaft anhand der beigefügten Zeichnungen beschrieben, bei denen:
1 eine schematische Darstellung ist, auf die bei der Erläuterung der Art und Weise, in der virtuelle Klangbilder mehrerer Punktklangquellen entsprechend der verwandten Technik lokalisiert und gemischt werden, Bezug genommen wird;
2 eine schematische Darstellung ist, auf die bei der Erläuterung eines Beispiels eines Audiosignalverarbeitungsverfahrens gemäß der verwandten Technik Bezug genommen wird;
3 ein Blockdiagramm ist, das ein Beispiel einer Videospielmaschine zeigt;
4 eine schematische Darstellung ist, auf die bei der Erläuterung eines Audiosignalverarbeitungsverfahrens gemäß einer Ausführungsform der vorliegenden Erfindung Bezug genommen wird;
5 ein Blockdiagramm ist, auf die bei der Erläuterung der Art und Weise, in der zwei virtuelle Klangbilder lokalisiert und gemischt werden, Bezug genommen wird;
6 eine schematische Darstellung ist, auf die bei der Erläuterung des Audiosignalverarbeitungsverfahrens gemäß der Ausführungsform der vorliegenden Erfindung Bezug genommen wird; und
7A bis 7C jeweils schematische Darstellungen sind, auf die bei der Erläuterung eines Audiosignalverarbeitungsverfahrens gemäß einer anderen Ausführungsform der vorliegenden Erfindung Bezug genommen wird.
Eine Vorrichtung und ein Verfahren zur Verarbeitung eines Audiosignals gemäß Ausführungsformen der vorliegenden Erfindung wird unten anhand der beigefügten Zeichnungen beschrieben.
Zuerst wird anhand der 3 eine Videospielmaschine beschrieben, bei der die vorliegende Erfindung angewendet ist.
Wie in 3 gezeigt weist die Videospielmaschine eine CPU (central processing unit (zentrale Verarbeitungseinheit)) 1 auf, die einen Mikrocomputer zur Steuerung des Ganzen von Operationen dieser Videospielmaschine aufweist. Während ein Benutzer eine externe Steuerungseinrichtung (Kontroller) 2 wie beispielsweise einen Joystick betätigt, wird ein auf Betätigungen des Kontrollers 2 reagierendes externes Steuerungssignal S1 in die CPU 1 eingegeben.
Die CPU 1 ist ausgebildet zum Auslesen von Information zur Bestimmung von Positionen oder Bewegungen eines Klangquellenobjekts, das aus einem Speicher 3 einen Klang erzeugt. Auf diese Weise vom Speicher 3 ausgelesene Information kann als Information zur Bestimmung der Position eines Klangquellenobjekts (Punktklangquelle) benutzt werden. Der Speicher 3 weist eine geeignete Einrichtung wie beispielsweise einen ROM (read only memory (Nurlesespeicher)), einen RAM (random-access memory (Direktzugriffsspeicher)), eine CD-ROM (compact disc read only memory (Kompaktdisk-Nurlesespeicher)) und einen DVD-ROM (digital versatile disc read only memory (Digital-Mehrseitigplatte-Nurlesespeicher)) auf, in welche dieses Klangquellenobjekt und andere notwendige Information wie beispielsweise ein Softwarespiel geschrieben sind. Der Speicher 3 kann an der Videospielmaschine angebracht (oder in diese geladen) sein.
Bei der Beschreibung der vorliegenden Erfindung weist das Klangquellenobjekt wenigstens eine Information von einem Klangquellensignal, einer Klangquellen-Positions/Bewegungs-Information und einer Lokalisationspositionsinformation als sein Attribut auf. Obgleich das Klangquellenobjekt als mehrere Klangquellen definiert sein kann, ist zum klareren Verständnis der vorliegenden Erfindung ein Klangquellenobjekt als eine einzelne Klangquelle definiert, und mehrere Klangquellen sind als „ein Satz von Klangquellen" definiert.
Die obige Klangquellenpositionsinformation bezeichnet Klangquellenpositionskoordinaten in dem als Softwarespiel angenommenen Koordinatenraum, eine relative Klangquellenposition relativ zu einer Position eines Zuhörers, eine relative Klangquellenposition relativ zu einem wiedergegebenen Bild und dgl. Außerdem können die Koordinaten entweder ein orthogonales Koordinatensystem oder ein Polarkoordinatensystem (Azimut und Abstand) sein. Dann bezieht sich Bewegungsinformation auf die Koordinatenrichtung, in welcher eine Lokalisationsposition einer wiedergegebenen Klangquelle von den laufenden Koordinaten bewegt wird, und bezieht sich auch auf eine Geschwindigkeit, mit der die Lokalisationsposition einer wiedergegebenen Klangquelle bewegt wird. Deshalb kann die Bewegungsinformation als eine Vektorgröße (Azimut und Geschwindigkeit) ausgedrückt werden. Lokalisationsinformation ist Information einer Lokalisationsposition einer wiedergegebenen Klangquelle und kann relative Koordinaten sein, die erhalten werden, wenn sie von einem Spiel-Spieler (Zuhörer) gesehen wird. Die Lokalisationsinformation kann VL (vorne links), Z (Zentrum), VR (vorne rechts), HL (hinten links) und HR (hinten rechts) sein und kann ähnlich wie die obige „Positionsinformation" definiert sein.
Selbst wenn die Bedienungsperson die Videospielmaschine nicht betätigt, kann Positionsinformation und Bewegungsinformation des Klangquellenobjekts mit Zeitinformation und Ereignisinformation (Triggersignal zur Aktivierung der Videospielmaschine) assoziiert sein, die in diesem Speicher 3 aufgezeichnet sind, und kann eine Bewegung einer vorher bestimmten Klangquelle ausdrücken. In manchen Fällen kann zur Darstellung von Fluktuationen Information, die sich zufällig bewegt, im Speicher 3 aufgezeichnet sein. Die obigen Fluktuationen werden zum Addieren von Stufeneffekten (stage effects) wie beispielsweise Explosion und Kollision oder zum Addieren feiner Stufeneffekte (delicate stage effects) benutzt. Um zufällige Bewegungen zu realisieren, kann Software oder Hardware, die Zufallszahlen erzeugt, in der CPU 1 installiert sein oder kann eine Tabelle von Zufallszahlen und dgl. im Speicher 3 gespeichert sein.
Wenn bei der in 3 gezeigten Ausführungsform die Bedienungsperson die externe Steuerungseinrichtung (Kontroller) 2 zum Zuführen des externen Steuerungssignals S1 zur CPU 1 betätigt, so ist ein Kopfhörer, bei dem Kopfbewegungen (Rotation, Bewegung usw.) einer Bedienungsperson (Zuhörer) durch einen Sensor detektiert werden und Klangbildlokalisationsposition in Reaktion auf detektierte Bewegungen geändert wird, bekannt. Ein von einem solchen Sensor detektiertes Signal kann der CPU 1 als externes Steuerungssignal zugeführt werden.
Schließlich kann das Klangquellensignal im Speicher 3 Positionsinformation, Bewegungsinformation und dgl im Voraus aufweisen oder braucht sie nicht aufzuweisen. In allen Fällen addiert die CPU 1 Positionsänderungsinformation, die in Reaktion auf eine Instruktion von innen außen dem Klangquellensignal zugeführt wird, und bestimmt eine Klangquellenlokalisationsposition dieses Klangquellensignals. Es sei nun beispielsweise angenommen, dass eine Bewegungsinformation, die ein Flugzeug darstellt, das von vorne über Kopf rechts hinter einen Spieler fliegt, während ein Spieler ein Spiel spielt, zusammen mit dem Klangquellensignalsignal auf dem Speicher 3 aufgezeichnet ist. Wenn ein Spieler durch Betätigung des Kontrollers 2 Instruktion zum Wenden des Flugzeugs nach links bereitstellt, wird die Klangbildlokalisationsposition derart variiert, dass Klänge des Flugzeugs so erzeugt werden, wie wenn das Flugzeug auf der rechten Seite fortflöge.
Dieser Speicher 3 braucht nicht in der gleichen Videospielmaschine platziert zu sein und kann Information beispielsweise durch das Netzwerk von einer separaten Maschine empfangen. Es sind auch Fälle denkbar, bei denen eine separate Bedienungsperson für eine separate Videospielmaschine existiert und Klangquellen-Positions- und -Bewegungsinformation auf Basis dieser Operationsinformation sowie Fluktuationsinformation und dgl., die von der separaten Videospielmaschine erzeugt werden, bei der Bestimmung der Position des Klangquellenobjekts inkludiert sind.
Demgemäss werden zusätzlich zur Positions-/Bewegungsinformation, die das Klangquellensignal im Voraus aufweist, die Klangquellen-Positions- und -Bewegungsinformation (mit Lokalisationsinformation), die von der Information bestimmt werden, welche von der CPU 1 auf Basis der in Reaktion auf eine Instruktion von innen/außen zugeführten Positionsänderungsinformation erhalten wird, zum Audioverarbeitungsabschnitt 4 übertragen. Der Audioverarbeitungsabschnitt 4 bewirkt eine Virtuellklangbildlokalisationsverarbeitung bezüglich eines ankommenden Audiosignals auf Basis übertragener Klangquellen-Positions- und -Bewegungsinformation und gibt schließlich das so verarbeitete Audiosignal von einem Audioausgangsanschluss 5 als ein Stereoausgangssignal S2 aus.
Wenn es mehrere wiederzugebende Klangquellenobjekte gibt, wird jeweilige Positions- und Bewegungsinformation für die mehreren Klangquellenobjekte in der CPU 1 bestimmt. Diese Information wird dem Audioverarbeitungsabschnitt 4 zugeführt, und der Audioverarbeitungsabschnitt 4 lokalisiert ein virtuelles Klangbild jedes Klangquellenobjekts. Dann addiert (mischt) der Audioverarbeitungsabschnitt 4 ein Linkskanal-Audiosignal und ein Rechtskanal-Audiosignal, die mit den jeweiligen Tonquellenobjekten korrespondieren, separat und führt die von allen Klangquellenobjekten erzeugten Audiosignale einem Audioausgangsanschluss 5 als Stereoausgangssignale zu.
In Fällen, bei denen es andere Audiosignale gibt, für die eine virtuelle Klangbildlokalisation nicht ausgeführt wird, ist ein Verfahren denkbar, bei dem Audiosignale mit den obigen Audiosignalen gemischt und zur gleichen Zeit ausgegeben werden. Bei dieser Ausführungsform sind in Bezug auf Audiosignale, für die eine virtuelle Klangbildlokalisation nicht ausgeführt wird, keine Vorkehrungen getroffen.
Gleichzeitig überträgt die CPU 1 anzuzeigende Information zu einem Videoverarbeitungsabschnitt 6. Der Videoverarbeitungsabschnitt 6 verarbeitet die zugeführte Information in einer geeigneten Videoverarbeitungsweise und gibt ein resultierendes Videosignal S3 von einem Videoausgangsanschluss 7 aus.
Das Audiosignal S2 und das Videosignal S3 werden beispielsweise einem Audioeingangsanschluss und einem Videoeingangsanschluss eines Monitors 8 zugeführt, wodurch ein Spieler und ein Zuhörer virtuelle Realität erfahren können.
Es wird ein Verfahren zur Wiedergabe eines komplexen Objekts dieser Ausführungsform beschrieben.
Bei Realisierung eines komplexen Objekts wie beispielsweise eines Dinosauriers wird vom Kopf eine Stimme erzeugt, und von den Füssen kommen Klänge wie beispielsweise von Fußstapfen. Wenn ein Dinosaurier einen Schwanz hat können noch andere Klänge (beispielsweise der den Boden treffende Schwanz) sowie abnorme Klänge aus dem Bauch erzeugt werden. Um das Realitätsgefühl weiter zu verstärken können unterschiedliche andere Klänge von verschiedenen anderen Teilen des Dinosauriers erzeugt werden.
Wenn wie bei dieser Ausführungsform virtuelle Realität durch Benutzung von CG (computer graphics (Computergrafik)) wiedergegeben wird, so ist ein Verfahren bekannt, bei dem Punktklangquellen in Reaktion auf die minimale Einheit (Polygon usw.) eines zu zeichnenden Bildes positioniert werden, die Punktklangquellen in der gleichen Weise wie die Bewegung des Bildes bewegt werden und das Realitätsgefühl durch Lokalisieren virtueller Klangbilder wiedergegeben werden kann.
Bei dem obigen Beispiel des Dinosauriers werden Stimmen, Fußstapfen, vom Schwanz erzeugte Klänge und dgl. so positioniert, dass sie in dem Bild mit dem Mund, den Füssen, dem Schwanz korrespondieren, werden Klangbilder entsprechend ihren Bewegungen individuell lokalisiert und werden von der jeweiligen virtuellen Klaugbildlokalisation erhaltene Audiosignale im linken- und rechten Kanal separat addiert und vom Audioausgangsanschluss 5 ausgegeben.
Entsprechend diesem Verfahren gilt, je größer die Zunahme der Anzahl von Klangquellenobjekten (Punktklangquellen, die zu positionieren sind) ist, desto mehr nähert sich die Darstellung der Realität, aber desto größer ist die Zunahme des Verarbeitungsgrads.
Der Besonderheit des Bilds beim Verstehen der Position von Klang sich zuwendend werden, wie in 4 gezeigt, die Klangquellenobjekte T1, T2, T3, T4 synthetisiert und als Stereoaudiosignale SL, SR gespeichert. In diesem Fall wird durch Synthetisieren von Positions- und Bewegungsinformation der Stereoaudioquellen SL, SR dieser synthetisierten Klangquelle synthetisierte Information gebildet.
Ist das Verstehen von Position durch den Gehörsinn (sense of hearing) im Vergleich zum Verständnis von Position durch den Gesichtssinn (sense of sight) vage. Selbst wenn Klangquellenobjekte nicht entsprechend der oben erwähnten minimalen Zeichnungseinheit positioniert werden, kann Position verstanden und Raum erkannt werden. Das heißt, Klangquellen müssen nicht mit einer Einheit so klein wie die zu einer Bildverarbeitung erforderliche klassifiziert werden.
Entsprechend der herkömmlichen Stereowiedergabetechnik kann, wenn Klänge durch zwei Lautsprecher wiedergegeben werden, der mit M bezeichnete Zuhörer Klänge, die von diesen Lautsprechern erzeugt werden, nicht immer so hören, wie wenn alle Klänge bei der Position platziert sind, bei der diese Lautsprecher platziert sind. Demgemäss kann der Zuhörer Klänge so hören, wie wenn Klänge auf einer die zwei Lautsprecher verbindenden Linie platziert sind.
Entsprechend dem Fortschritt bei Aufzeichnungs- und Editierungstechnologien in den letzten Jahren wird es möglich, bezüglich der obigen Linie der zwei Lautsprecher Klänge mit einem Gefühl von Tiefe wiederzugeben.
Mit dem obigen Hintergrund werden mehrere Klangquellenobjekte T1, T2, T3, T4 wie in 4 gezeigt synthetisiert und im Voraus editiert und als die Stereoaudiosignale SL, SR gespeichert. In diesem Fall wird synthetisierte Information auch durch Synthetisieren von Positions- und Bewegungsinformation der Stereoaudiosignale SL, SR dieser synthetisierten Klangquelle gebildet. Das Verfahren zur Bildung dieser synthetisierten Information ist, alle in der synthetisierten Klangquelle in einer einzelnen Gruppe enthaltene Positions- und Bewegungsinformation zu mitteln und addieren und irgendeine Positions- und Bewegungsinformation auszuwählen und zu berechnen bzw. schätzen usw.. Beispielsweise wird, wie in 4 gezeigt, Positionsinformation der Klangquellenobjekte T1, T4 jeweils als Positionsinformation von Stereoklangquellen SL, SR kopiert, werden Klangquellensignale der Klangquellenobjekte T1, T4 den Stereoaudiosignalen SL, SR jeweils zugeordnet, wird ein Klangquellensignal des Klangquellenobjekts T2 mit einem Klanglautstärkeverhältnis von 3:1 mit den Stereoaudiosignalen SL, SR gemischt, wird ähnlich ein Klangquellensignal der Klangquelle T3 mit einem Klanglautstärkeverhältnis von beispielsweise 2:3 mit dem Stereoaudiosignal SL, SR gemischt, resultierend darin, dass das synthetisierte Audiosignal und die synthetisierte Information gebildet werden. Durch Benutzung der als die synthetisierten Klangquellen dienenden Stereoaudiosignale SL, SR werden die zwei synthetisierten Stereoklangquellen SL, SR höchstens (at most) richtig angeordnet.
Wenn Klänge von Bild begleitet sind, reicht es aus, Klangquellen der obigen zwei Punkte auf zwei richtigen Polygonen, die in einem solchen Bild benutzt werden, zu platzieren. Klangquellen müssen nicht immer im Bild platziert sein, sondern können unabhängig platziert und verarbeitet werden. Die CPU 1 führt eine Steuerung über den zwei so eingestellten Punkten aus. Der Audioverarbeitungsabschnitt 4 lokalisiert virtuelle Klangbilder dieser zwei synthetisierten Klangquellen SL, SR auf Basis der obigen synthetisierten Information und mischt resultierende synthetisierte Klangquellen wie in 5 gezeigt in Links- und Rechtskanalkomponenten. Dann werden die gemischten Ausgangssignale als Stereoaudiosignale an den Audioausgangsanschluss ausgegeben.
Wie beispielsweise in 6 gezeigt werden, wenn Klangquellen so gruppiert werden, dass sie Stereoklangquellen SL, SR als synthetisierte Klangquellen bereitstellen, wenn eine virtuelle Position bewegt oder gedreht wird, virtuelle Klangbilder der Stereoklangquellen SL, SR der zwei synthetisierten Klangquellen in Reaktion auf synthetisierte Information auf Basis der Bewegung oder Drehung so lokalisiert, dass Klangbilder beispielsweise bei den durch die Klangquellen SL, SR gezeigten Positionen in Bezug auf den Zuhörer M lokalisiert sind.
Wenn eine Positionsbeziehung zwischen jeweiligen Klangquellen, die diesen Satz aufweisen, transformiert wird, werden in Reaktion auf die synthetisierte Information virtuelle Klangbilder nur von Stereoklangquellen SL, SR der zwei synthetisierten Klangquellen auf Basis einer solchen Transformation lokalisiert, so dass in Bezug auf den Zuhörer M Klangbilder beispielsweise bei den durch die Klangquellen SL2, SR2 in 6 gezeigten Positionen lokalisiert sind.
Wie oben beschrieben werden, während entsprechend der verwandten Technik Positions- und Bewegungsinformation kontrolliert werden sollte und virtuelle Klangbilder für die Anzahl von Klangquellenobjekten lokalisiert werden sollten, bei dieser Ausführungsform wie in 5 gezeigt für die Stereoklangquellen SL, SR höchstens zwei jeweilige Positions- und Bewegungsinformationen zum Audioverarbeitungsabschnitt 4 übertragen und höchstens zwei virtuelle Klangbilder für den linken und rechten Kanal lokalisiert und addiert (gemischt). Als eine Konsequenz kann eine Menge von zu verarbeitenden Signalen reduziert werden.
Die Klangquellenobjektverarbeitung (Klangquellensignale werden gruppiert und ein Audiosignal wird in Stereoaudiosignale umgesetzt) wird nicht notwendigerweise ausgeführt, um alle Klangquellenobjekte, von denen Klänge zu erzeugen sind, in Stereoaudiosignalen unterzubringen, vielmehr sollte der Produzent die obige Verarbeitung ausführen, nachdem der Produzent die Menge von verarbeiteten Signalen, die erforderlich ist, wenn Positions- und Bewegungsinformation aller Klangquellenobjekte gesteuert wird, verglichen hat, und virtuelle Klangbilder sollten entsprechend der verwandten Technik mit Änderungen von Effekten, die erzielt werden, wenn Klangquellensignale gruppiert werden, lokalisiert werden.
Beispielsweise sei wie früher erwähnt angenommen, dass es zwei Dinosaurier gibt und dass alle Klangquellenobjekte als eine einzelne Gruppe in Stereoaudiosignale vorverarbeitet sind. Obgleich Klänge der zwei Dinosaurier wiedergegeben werden können, wenn sich die zwei Dinosaurier immer Seite an Seite bewegen, können Klänge der zwei Dinosaurier nicht wiedergegeben werden, wenn sie sich separat bewegen.
Wenn andererseits der Produzent andere Effekte erwartet, die durch eine Gruppierung von Klangquellenobjekten der zwei Dinosaurier erzielt werden, ist es überflüssig zu sagen, dass die obigen Klangquellenobjekte der zwei Dinosaurier in einer einzelnen Gruppe vorverarbeitet werden sollten.
Selbst wenn es nur einen Dinosaurier gibt, brauchen ihre Klangquellen nicht in einer einzelnen Klangquelle gruppiert zu sein. Wenn beispielsweise die obere Hälfte des Körpers und die untere Hälfte des Körpers des Dinosauriers in zwei Gruppen gesetzt sind, können unterschiedliche Effekte von virtueller Realität erzielt werden, wenn Klangquellen in einer einzelnen Klangquelle gruppiert sind. Diese Alternative kann ebenso angenommen werden.
Außerdem sind gruppierte Klangquellen nicht immer auf Stereoklangquellen beschränkt. Wenn gruppierte Klangquellen wie in den 7A bis 7C gezeigt beispielsweise als Punktklangquellen realisiert werden können, können gruppierte Klangquellen in eine monoaurale Klangquelle SO umgesetzt werden.
Bei dem in den 7A bis 7C gezeigten Beispiel sind mehrere Klangquellenobjekte T1, T2, T3, T4 im Voraus gruppiert und wie in 7A gezeigt als Stereoklangquellensignale SL, SR als synthetisierte Klangquellensignale gehalten. In Anbetracht eines Falles, bei dem Klangbilder an Positionen lokalisiert sind, die vom Zuhörer M distant sind, werden Klangquellen in wie in 7B gezeigt eine nähere Klangquelle SO umgesetzt (weiter gruppiert) und gehalten. Wenn ein Satz von Klangquellen, der mehrere Klangquellenobjekte aufweist, an der Position relativ distant vom Zuhörer lokalisiert ist, können die jeweiligen Klangquellen unter der Bedingung, dass sie annähernd bei einem einzelnen Punkt konzentriert sind, behandelt werden.
In diesem Fall werden die Klangquellenobjekte, die als die Stereoaudiosignale SL, SR gruppiert worden sind, so gruppiert, dass sie monoaurale Audiosignale werden, und die so gehaltene Klangquelle SO ist wie in 7C gezeigt lokalisiert, wodurch die Mengen von Positionsinformation und Bewegungsinformation von Klangquellen reduziert werden können und der Grad von virtueller Klangbildlokalisation erniedrigt werden kann.
Gemäß der Ausführungsform der vorliegenden Erfindung werden Klangquellenobjekte, die soweit unterteilt worden sind, in einer oder zwei Klangquellen gruppiert, vorverarbeitet, verarbeitet und für jede Gruppe als Audiosignale von richtigen Kanälen gespeichert. Dann kann, wenn virtuelle Klangbilder der vorverarbeiteten Audiosignale entsprechend einer Wiedergabe eines virtuellen Raums lokalisiert werden, die Menge von zu verarbeitenden Signalen reduziert werden.
Wenn die Audiosignale wie oben beschrieben gruppiert und ein oder zwei Klangsignale gespeichert werden, so ist die vorliegende Erfindung nicht darauf beschränkt, sondern es können drei Klangsignale oder mehr gespeichert werden, wenn beabsichtigt ist, im Vergleich mit dem Fall, bei dem virtuelle Realität durch ein Stereoaudiosignal entsprechend der verwandten Technik wiedergegeben wird, eine komplexere virtuelle Realität wiederzugeben. In diesem Fall kann, obgleich Positionsinformation und Bewegungsinformation von Klangquellen gesteuert werden sollte und virtuelle Klangbilder in der Anzahl gleich der Anzahl der gespeicherten Klangquellensignale lokalisiert werden sollten, die Menge von zu verarbeitenden Signalen durch richtige Gruppierung der Anzahl N der gruppierten Klangquellensignale derart reduziert werden, dass die Anzahl N kleiner als die Anzahl M (Anzahl von originalen Punktklangquellen) der originalen Klangquellenobjekte wird.
Wenn wie oben beschrieben die virtuelle Klangbildlokalisation ausgeführt wird, wenn die Zeit vergeht, so ist die vorliegende Erfindung nicht darauf beschränkt, sondern es können N Klangquellensignale von M (M ist eine Mehrzahl), beispielsweise vier Klangquellensignalen synthetisiert werden, wobei die Anzahl N kleiner als die Anzahl M ist, können beispielsweise N virtuelle Klangbilder von zwei synthetisierten Klangquellensignalen auf Basis von mehreren vorher bestimmten Lokalisationspositionen lokalisiert werden, können mehrere Sätze von synthetisierten Klangquellensignalen, die in virtuellen Klangbildern lokalisiert worden sind, im Speicher (Speichereinrichtung) 3 in Assoziation zu ihren Lokalisierungspositionen gespeichert werden, und können die synthetisierten Klangquellensignale aus dem Speicher 3 gelesen und in Reaktion auf die wiedergegebenen lokalisierten Positionen der synthetisierten Klangquellensignale wiedergegeben werden.
In diesem Fall können eine Aktion und Effekte ähnlich zu denen der obigen Ausführungsform erzielt werden. Da außerdem die synthetisierten Klangquellensignale, die im virtuellen Klangbild im Voraus lokalisiert worden sind, im Speicher 3 gespeichert sind und die synthetisierten Klangquellensignale in Reaktion auf die wiedergegebenen Lokalisationspositionen der synthetisierten Klangquellensignale aus dem Speicher 3 gelesen und wiedergegeben werden, kann auch eine Menge von bei der Wiedergabe zu verarbeitenden Signalen reduziert werden.
Wie oben beschrieben kann der Speicher 3 in Form eines Speichers bereitgestellt sein, der an der Videospielmaschine angebracht (in diese geladen) sein kann. Wenn der Speicher 3 beispielsweise in der Form einer CD-ROM oder einer Speicherkarte bereitgestellt ist, können die vorher erzeugten synthetisierten Klangquellensignale auf dem Speicher 3 in Assoziation zu ihrer Lokalisierungsinformation aufgezeichnet und verteilt sein, und die synthetisierten Klangquellensignale können von der Videospielmaschine aus dem Speicher 3 gelesen werden.
Wenn wie oben beschrieben die Stereoaudiosignale durch Lokalisieren von virtuellen Klangbildern der synthetisierten Klangquellensignale erhalten werden, so ist die vorliegende Erfindung nicht darauf beschränkt, sondern es können Stereoklangsignale als Mehrkanal-Umgebungssignale wie beispielsweise 5.1-Kanalsystemsignale ausgegeben werden. Insbesondere können Mehrkanallautsprecher wie das Mehrkanal-Umgebungssystem wie beispielsweise das 5.1-Kanalsystem um den Zuhörer herum angeordnet sein, und können Klangquellensignale diesen Kanälen richtig zugeordnet und dann ausgegeben werden. Auch in diesem Fall können N (N < M) Klangquellensignale durch Gruppieren von M Klangquellensignalen synthetisiert werden und können gewünschte Klangbilder auf Basis von mit den synthetisierten Klangquellensignalen und dgl. korrespondierender Positionsinformation lokalisiert werden.
Gemäß der vorliegenden Erfindung kann das Gefühl virtueller Realität durch Klänge erzielt werden, während die Menge von zu verarbeitenden Signalen reduziert werden kann.
Nach Beschreibung bevorzugter Ausführungsformen der Erfindung anhand der beigefügten Zeichnungen ist es so zu verstehen, dass die Erfindung nicht auf diese präzisen Ausführungsformen beschränkt ist, sondern dass von einem Fachmann zahlreiche Änderungen und Modifikationen ohne Verlassen des in den beigefügten Ansprüchen definierten Schutzbereichs der Erfindung bewirkt werden können.

Claims

Verfahren zur Verarbeitung eines Audiosignals, gekennzeichnet durch die Schritte: Synthetisieren mehrerer Klangquellensignale (T1, T2, T3, T4), deren Anzahl M ist, zum Erzeugen von Klangquellensignalen (SL, SR), deren Anzahl N kleiner als die Anzahl M der Klangquellensignale ist, auf Basis wenigstens einer von Positionsinformation, Bewegungsinformation und Lokalisationsinformation der M Klangquellen, Synthetisieren von Information von wenigstens einer von Positionsinformation, Bewegungsinformation und Lokalisationsinformation, die mit den synthetisierten Klangquellensignalen korrespondieren, und Lokalisieren der N synthetisierten Klangquellensignale (SL, SR) in einem Klangbild auf Basis der synthetisierten Information.
Verfahren zur Verarbeitung eines Audiosignals nach Anspruch 1, wobei die Klangbildlokalisation eine virtuelle Klangbildlokalisation zum Erhalten von zweikanalig wiedergegebenen Signalen (SL, SR) ist, die einem Paar Akustikumsetzer zum Lokalisieren eines Klangbilds bei einer beliebigen Position um einen Hörer herum zugeführt werden.
Verfahren zur Verarbeitung eines Audiosignals nach Anspruch 1 oder 2, wobei die mit wenigstens einem Klangquellensignal der M Klangquellensignale (T1, T2, T3, T4) korrespondierende Information und/oder die mit wenigstens einem synthetisierten Klangquellensignal der N synthetisierten Klangquellensignale (SL, SR) korrespondierende synthetisierte Information durch eine Änderungsinstruktion geändert werden/wird.
Verfahren zur Verarbeitung eines Audiosignals nach Anspruch 3, wobei eine Änderungsinstruktion durch eine Operation eines Benutzers zugeführt wird.
Verfahren zur Verarbeitung eines Audiosignals nach Anspruch 3, wobei eine Änderungsinstruktion durch Detektieren einer Bewegung des Kopfs eines Hörers erhalten wird.
Verfahren zur Verarbeitung eines Audiosignals nach einem der Ansprüche 1 bis 5, außerdem mit dem Schritt zum Zuführen zufälliger Fluktuationen zu der mit wenigstens einem Klangsignal der M Klangquellensignale (T1, T2, T3, T4) korrespondierenden Information und/oder zu der mit wenigstens einem synthetisierten Signal der N synthetisierten Klangquellensignale (SL, SR) korrespondierenden synthetisierten Information.
Verfahren zur Verarbeitung eines Audiosignals nach einem der Ansprüche 1 bis 6, wobei die Anzahl N der synthetisierten Klangquellensignale (SL, SR) 2 oder größer ist, wenigstens eine der mit den synthetisierten Klangquellensignalen korrespondierenden synthetisierten Informationen Lokalisationsinformation ist und zumindest eine andere synthetisierte Information Lokalisationsinformation relativ zur einen Lokalisationsinformation ist.
Verfahren zur Verarbeitung eines Audiosignals nach einem der Ansprüche 1 bis 7, außerdem mit den Schritten einer Änderung eines Videosignals (S3) in Reaktion auf Änderungen von wiedergebenden Lokalisationspositionen der M Klangquellensignale (T1, T2, T3, T4) oder der N synthetisierten Klangquellensignale (SL, SR) und einer Ausgabe des Videosignals (S3).
Vorrichtung zur Verarbeitung eines Audiosignals, gekennzeichnet durch eine Einrichtung zum Synthetisieren mehrerer Klangquellensignale (T1, T2, T3, T4), deren Anzahl M ist, zum Erzeugen von N Klangquellensignalen (SL, SR), deren Anzahl N kleiner als die Anzahl M der Klangquellensignale ist, auf Basis wenigstens einer von Positionsinformation, Bewegungsinformation und Lokalisationsinformation der M Klangquellen, eine Einrichtung (1) zur Erzeugung synthetisierter Information durch Synthetisieren von mit den synthetisierten Klangquellensignalen korrespondierender Information aus der Information der M Klangquellen und eine Signalverarbeitungseinrichtung (4) zum Lokalisieren der N synthetisierten Klangquellensignale (SL, SR) in einem Klangbild auf Basis der synthetisierten Information.
Vorrichtung zur Verarbeitung eines Audiosignals nach Anspruch 9, wobei die Klangbildlokalisation in der Signalverarbeitungseinrichtung (4) eine virtuelle Klangbildlokalisation zum Erhalten von zweikanalig wiedergegebenen Signalen (SL, SR), die einem Paar Akustikumsetzer zum Lokalisieren eines Klangbilds bei einer beliebigen Position um einen Hörer herum zugeführt werden, ist.
Aufzeichnungsmedium (3), auf dem synthetisierte Klangquellensignale aufgezeichnet sind, wobei mehrere Klangquellensignale (T1, T2, T3, T4), deren Anzahl M ist, in N Signale (SL, SR), deren Anzahl N kleiner als die Anzahl M der Klangquellensignale ist, auf Basis wenigstens einer Information von Positionsinformation, Bewegungs- und Lokalisationsinformation der Klangquelle synthetisiert sind und synthetisierte Information als wenigstens eine Information von Positionsinformation, Bewegungsinformation und Lokalisationsinformation entsprechend den synthetisierten Klangquellensignalen in Assoziation zueinander synthetisiert ist.
Aufzeichnungsmedium (3) nach Anspruch 11, wobei die synthetisierten Klangquellensignale (SL, SR) zweikanalig wiedergegebene Signale sind, die einem Paar Akustikumsetzer zugeführt werden und dadurch Klangbilder an wiedergegebenen Lokalisationspositionen um einen Hörer herum lokalisiert werden.