DE69910757T2

DE69910757T2 - Wavelet-basierte gesichtsbewegungserfassung für avataranimation

Info

Publication number: DE69910757T2
Application number: DE69910757T
Authority: DE
Inventors: Thomas Maurer; Valerievich Egor ELAGIN; Pasquale Luciano NOCERA; Bernhard Johannes STEFFENS; Hartmut Neven
Original assignee: Eyematic Interfaces Inc
Current assignee: Google LLC
Priority date: 1998-04-13
Filing date: 1999-04-12
Publication date: 2004-06-17
Anticipated expiration: 2019-04-13
Also published as: AU3639699A; DE69910757D1; KR20010042673A; BR9909611B1; JP3970520B2; JP4177402B2; JP2002511620A; EP1072018A1; CA2327304A1; BR9909611A; US20010033675A1; JP2007109255A; ATE248409T1; WO1999053443A1; US6580811B2; EP1072018B1; KR100530812B1

Description

Gebiet der Erfindung
Die vorliegende Erfindung betrifft die dynamische Erkennung von Gesichts-Merkmalen und insbesondere ein auf visueller Basis arbeitendes Bewegungserfassungssystem, das ein in Echtzeit durchgeführtes Auffinden, Verfolgen und Klassifizieren von Gesichts-Merkmalen zur Eingabe in eine Graphik-Maschine ermöglicht, die einen Avatar animiert.
Hintergrund der Erfindung
Virtuelle Räume, die mit Avataren gefüllt sind, bieten eine attraktive Möglichkeit zur Ausübung einer gemeinsamen Benutzerumgebung. Existierende gemeinsame Benutzerumgebungen sind jedoch generell ungeeignet zur Erkennung von Gesichts-Merkmalen mit hinreichender Qualität dahingehend, dass ein Benutzer körperlich repräsentiert werden kann, d. h. dass ein Avatar mit dem Erscheinungsbild, dem Gesichtausdruck oder der Gestik des Benutzers erstellt werden kann. Eine qualitativ gute Erkennung von Gesichts-Merkmalen bietet beträchtliche Vorteile, da es sich bei der Mimik um eine bereits seit der Vorzeit bestehende Art der Kommunikation handelt. Somit wird durch eine körperliche Repräsentierung eines Benutzers die Attraktivität virtueller Räume verbessert.
Bei existierenden Verfahren zur Erkennung von Gesichts-Merkmalen werden typischerweise Markierungen verwendet, die am Gesicht einer Person angeheftet werden. Die Verwendung von Markierungenn zur Erfassung von Gesichtsbewegung ist umständlich und hat dazu geführt, dass die Verwendung einer Gesichtsbewegungs-Erfassung auf kostenintensive Anwendungsfälle wie z. B. bei Filmproduktionen beschränkt blieb.
Somit besteht ein beträchtlicher Bedarf an auf visueller Basis arbeitenden Bewegungserfassungssystemen, bei denen eine praktische und effiziente Erkennung von Gesichts-Merkmalen implementiert ist. Die vorliegende Erfindung erfüllt diesen Bedarf.
L. Wiskott et al. beschreiben in "Face Recognition by elastic bunch graph matching", IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, Vol. 19, No. 7, Juli 1997, pp. 775–779, IEEE Comput. Soc. Press, USA ein System, mit dem menschliche Gesichter anhand einzelner Bilder aus einer großen Datei erkannt werden können, die ein Bild pro Person enthält, wobei die Gesichter durch markierte graphische Darstellungen auf der Basis einer Gabor-Elementarwellentransformation repräsentiert sind. Bilddiagramme neuer Gesichter werden durch elastisches Bunch Graph Matching extrahiert und durch eine einfache Ähnlichkeitsfunktion verglichen.
T. Maurer et al. erläutern in „Tracking and learning graphs and pose on image sequences of faces", PROCEEDINGS OF THE SECOND INTERNATIONAL CONFERENCE ON AUTOMATIC FACE AND GESTURE RECOGNITION, KILLINGTON, VT, USA, 14.–16. Okt. 1996, pp. 176–181, IEEE Comput. Soc. Press, USA ein System, das in der Lage ist, Erkennungsmerkmale wie z. B. die Augen, den Mund oder das Kinn eines Gesichts in Echtzeit-Bildsequenzen zu verfolgen. Das System verfolgt das Gesicht ohne vorherige Kenntnis von Gesichtern, und die Ergebnisse dieses Verfolgungsvorgangs werden verwendet, um den Gesichtsausdruck einzuschätzen. Für die visuellen Merkmale werden Gabor-Filter verwendet.
Die Europäische Patentanmeldung EP-A-0 807 902 (Cyberclass Limited, 19. November 1997) beschreibt ein Verfahren und eine Vorrichtung zum Erzeugen beweglicher Charakteristika, wobei eine virtuelle Figur erzeugt wird, indem eine sich in Echtzeit verändernde 3D-Wiedergabe der Struktur des Charakteristikums mit einer auf die Struktur-Wiedergabe abgebildeten 3D-Oberflächenwiedergabe des Charakteristikums und mit einer 2D-Wiedergabe häufig veränderter Bereiche der Fläche kombiniert wird.
Ein rekursives Verfolgen von Bildpunkten mittels Anpassung markierter Diagramme ist beschrieben von Chandrashekhar et al. in "Recursive Tracking of Image Points using Labelled Graph Matching", PROCEEDINGS OF THE INTERNATIONAL CONFERENCE ON SYSTEMS, MAN AND CYBERNETICS, 1991.
Überblick über die Erfindung
Die Erfindung, wie sie in den Ansprüchen 1 und 21 aufgeführt ist, besteht in einer Vorrichtung und in einem entsprechenden Verfahren zum Erkennen der Gesichtsbewegungen, der Gesichtszüge oder der Gesichtscharakteristik einer Person. Die Ergebnisse der Gesichtserkennung können zum Animieren eines Avatar-Bildes verwendet werden. Die Avatar-Vorrichtung verwendet eine Bildverarbeitungstechnik, die auf Modell-Diagrammen und Gruppen-Diagrammen basiert, welche Bild-Merkmale effizient in Form von Strahlen repräsentieren, die aus Elementarwellen-Transformationen an markanten Punkten eines Gesichts-Bilds, welche leicht identifizierenden Merkmalen entsprechen, zusammengesetzt sind. Das Erkennungssystem ermöglicht das Verfolgen der natürlichen Charakteristika einer Person, ohne dass irgendwelche unnatürlichen Elemente mit den natürlichen Charakteristika der Person interferieren.
Der Merkmalserkennungsvorgang arbeitet mit einer Sequenz von Einzelbildern, wobei jedes Einzelbild durch eine Elementarwellen-Transformation transformiert wird, um ein transformiertes Einzelbild zu erzeugen. Die Schaltungspunkt-Stellen, die den Wellen-Strahlen eines Modell-Diagramms zu dem transformierten Bild hin zugeordnet sind, werden initialisiert, indem das Modell-Diagramm über das transformierte Einzelbild bewegt wird und das Modell-Diagramm an einer Stelle in dem transformierten Einzelbild platziert wird, an der eine maximale Strahl-Ähnlichkeit zwischen den Elementarwellen-Strahlen an den Schaltungspunkt-Stellen und dem transformierten Einzelbild herrscht. Die Position einer oder mehrerer Schaltungspunkt-Stellen des Modell-Diagramms wird zwischen den Einzelbildern verfolgt. Ein verfolgter Schaltungs punkt wird reinitialisiert, falls die Position des Schaltungspunkts über eine vorbestimmte Positionsbeschränkung zwischen Einzelbildern hinaus abweicht.
Gemäß einer Ausführungsform der Erfindung kann das Auffinden der Gesichts-Merkmale auf einem elastischen Bunch Graph Matching zum individuellen Erstellen eines Kopf-Modells basieren. Ferner kann das Gruppen-Diagramm zur Gesichtsbild-Analyse mehrere (z. B. 18) Positions-Schaltungspunkte enthalten, denen Unterscheidungsmerkmale eines menschlichen Gesichts zugeordnet sind.
Weitere Merkmale und Vorteile der vorliegenden Erfindung werden ersichtlich aus der folgenden detaillierten Beschreibung der bevorzugten Ausführungsformen im Zusammenhang mit den beigefügten Zeichnungen, in denen die Prinzipien der Erfindung anhand von Beispielen veranschaulicht sind.
Kurzbeschreibung der Zeichnungen
1 zeigt ein Blockschaltbild eines Avator-Animations-Systems und -Vorgangs gemäß der Erfindung.
2 zeigt ein Blockschaltbild einer Vorrichtung und eines Vorgangs zur Gesichtsmerkmals-Erkennung gemäß der Erfindung für das System und den Vorgang zur Avatar-Animation gemäß 1.
3 zeigt ein Blockschaltbild eines Videobild-Prozessors zum Implementieren der Gesichtsmerkmalserkennungs-Vorrichtung gemäß 2.
4 zeigt ein Flussdiagramm mit zugehörigen Photos zur Veranschaulichung einer Technik zum Auffinden markanter Erkennungsmerkmale, die bei der Vorrichtung und dem System zur Gesichtsmerkmals-Erkennung gemäß 2 angewandt werden.
5 zeigt eine Serie von Bildern zur Veranschaulichung der Verarbeitung eines Gesichtsbilds mittels Gabor-Wellen gemäß der Erfindung.
6 zeigt eine Serie von Diagrammen zur Veranschaulichung der Bildung eines Strahl-Bilddiagramms und eines Gruppen-Diagramms mittels der in 5 dargestellten Wellenverarbeitungstechnik gemäß der Erfindung.
7 zeigt eine schematische Darstellung eines Modell-Diagramms gemäß der Erfindung zum Verarbeiten von Gesichts-Bildern.
8 zeigt zwei schematische Darstellungen zur Veranschaulichung der Verwendung von Elementarwellen-Verarbeitung zum Lokalisieren eines Gesichtsmerkmals.
9 zeigt ein Flussdiagramm zur Veranschaulichung einer Verfolgungstechnik für das Verfolgen markanter Erkennungsmerkmale, die durch die Erkennungsmerkmal-Auffindungstechnik gemäß 4 gefunden wurden.
10 zeigt eine Darstellung einer Gaus'schen Bildpyramiden-Technik zur Veranschaulichung der Erkennungsmerkmal-Verfolgung in einer Dimension.
11 zeigt eine Serie zweier Gesichts-Bilder mit zugehörigen Diagrammen der Haltungswinkel gegenüber der Einzelbild-Nummer, wobei das Verfolgen von Gesichtsmerkmalen über eine Sequenz von 50 Einzelbildern gezeigt ist.
12 zeigt ein Flussdiagramm mit beigefügten Zeichnungen zur Veranschaulichung einer Haltungsbewertungs-Technik der Vorrichtung und des Systems zur Gesichtsmerkmals-Erkennung gemäß 2.
13 zeigt eine schematische Ansicht eines Gesichts mit extrahierten Augen- und Mundbereichen zur Veranschaulichung einer Grob-zu-fein-Merkmalssuchtechnik.
14 zeigt Photos zur Veranschaulichung der Extraktion von Profil- und Gesichtsmerkmalen mittels der elastischen Bunch-Graph-Technik gemäß 6.
15 zeigt ein Flussdiagramm zur Veranschaulichung der Erzeugung eines markierten personalisierten Gruppen-Diagramms zusammen mit einer entsprechenden Galerie von Bild-Segmenten, die verschiedene Gesichtsausdrücke einer Person umfasst, für die Avatar-Animation gemäß der Erfindung.
16 zeigt ein Flussdiagramm zur Veranschaulichung einer Technik zum Animieren eines Avatars mittels Bild-Segmenten, die an eine entfernte Stelle übertragen werden, und die an der entfernten Stelle auf der Basis übertragener Markierungen anhand der Gesichtserkennung der tatsächlichen Gesichtsausdrücke einer Person gewählt werden.
17 zeigt ein Flussdiagramm zur Veranschaulichung der Wiedergabe eines dreidimensionalen Kopfbilds, das basierend auf Gesichtsmerkmals-Positionen und -Markierungen mittels Volumen-Morphing erzeugt wird, das in dynamische Textur-Erzeugung integriert ist.
18 zeigt ein Blockschaltbild eines Avatar-Animationssystems gemäß der Erfindung, bei dem eine Audio-Analyse zum Animieren eines Avatars vorgesehen ist.
Detaillierte Beschreibung der bevorzugten Ausführungsformen
Die vorliegende Erfindung besteht in einer Vorrichtung und einem entsprechenden Verfahren zum Erkennen der Gesichtsbewegungen, Gesichtszüge und Gesichtseigenschaften und dgl., um basierend auf der Gesichtserkennung ein Avatar-Bild zu erzeugen und zu animieren. In der Avatar-Vorrichtung wird eine Bildverarbeitungstechnik verwendet, die auf Modell-Diagrammen und Gruppen-Diagrammen basiert, welche Bild-Merkmale effektiv als Strahlen repräsentieren. Die Strahlen werden durch Wellen-Transformationen gebildet, die an Schaltungspunktstellen oder Stellen markanter Merkmale auf einem Bild verarbeitet werden, welche leicht identifizierbaren Merkmalen entsprechen. Die Schaltungspunkte werden erfasst und verfolgt, um ein Avatar-Bild entsprechend den Gesichtsbewegungen der Person zu animieren. Ferner kann bei der Gesichtserkennung eine Strahlen-Ähnlichkeit verwendet werden, um die Gesichtszüge und -eigenschaften der Person zu bestimmen und somit zu ermöglichen, die natürlichen Eigenschaften einer Person zu verfolgen, ohne dass unnatürliche Elemente mit den natürlichen Eigenschaften interferieren können.
Gemäß 1 weist das Avator-Animationssystem 10 der Erfindung ein Bilderzeugungssystem 12, eine Gesichtserkennungs-Verarbeitungsvorrichtung 14, ein Datenkommunikations-Netzwerk 16, eine Gesichtsanimations-Verarbeitungsvorrichtung 18 und eine Avatar-Anzeigevorrichtung 20 auf. Das Bilderzeugungssytem erfasst und digitalisiert ein Live-Videobildsignal einer Person, so dass ein Strom digitalisierter Videodaten erzeugt wird, der in Form von Einzelbildern organisiert ist. Die digitalisierten Videobilddaten werden dem Gesichterkennungsvorgang zugeführt, der das Gesicht und die entsprechenden Gesichtszüge der Person in jedem Einzelbild lokalisiert. In dem Gesichtserkennungsvorgang werden ferner die Positionen und Eigenschaften der Gesichts-Merkmale von einem Einzelbild zum nächsten verfolgt. Die Verfolgungs-Information kann über das Netzwerk an eine oder mehrere entfernte Stellen übertragen werden, welche die Information empfängt und mittels einer Graphikmaschine ein animiertes Gesichtsbild auf der Avatar-Anzeige erzeugt. Das animierte Gesichtsbild kann auf einem photorealistischen Bild der Person, einer Cartoon-Figur oder einem Gesicht basieren, das keinerlei Beziehung zum Benutzer hat.
Das Bilderzeugungssytem 12 und die Gesichtserkennungs-Verarbeitungsvorrichtung 14 sind in 2 und 3 detaillierter gezeigt. Das Bilderzeugungssytem erfasst das Bild der Person mittels einer Digital-Videokamera 22, die einen Strom von Video-Einzelbildern erzeugt. Die Video-Einzelbilder werden zur Verarbeitung in eine Video-Direktzugriffsspeicher (VRAM) 24 übertragen. Ein zufriedenstellendes Bilderzeugungssystem ist das von Matrox^TM erhältliche System mit der Bezeichnung Matrox Meteor II, das auf der Basis von Aufnahmen, die mit einer herkömmlichen CCD-Kamera gemacht werden, digitalisierte Bilder generiert und die Bilder in Echtzeit mit einer Einzelbildrate von 30 Hz dem Speicher zuführt. Das Bild wird von einem Bildprozessor 26 verarbeitet, der eine zentrale Verarbeitungseinheit (CPU) 28 aufweist, die mit dem VRAM- und Direktzugriffsspeicher RAM 30 verbunden ist. Das RAM speichert den Programm-Code und die Daten zum Implementieren der Gesichtserkennungs- und Avatar-Animations-Vorgänge.
In dem Gesichtsmerkmals-Vorgang werden die digitalisierten Bilder Operationen unterzogen, um die Gesichts-Merkmale der Person aufzufinden (Block 32), die Merkmale zu verfolgen (Block 34) und die Merkmals-Verfolgung in der erforderlichen Weise zu reinitialisieren. Die Gesichts-Merkmale können auch klassifiziert werden (Block 36). Der Gesichtsmerkmals-Vorgang erzeugt Daten, die mit der Position und Klassifizierung der Gesichts-Merkmale in Zusammenhang stehen, wobei diese Daten einem Interface mit dem Gesichtsanimationsvorgang zugeführt werden (Block 38).
Das Gesichts-Merkmal kann durch elastisches Graph Matching gemäß 4 lokalisiert werden. Bei der elastischen Graph-Matching-Technik wird ein erfasstes Bild (Block 40) in einen Gabor-Raum transformiert, und zwar mittels Elementarwellen-Transformation (Block 42), die anhand von 5 noch detaillierter beschrieben wird. Das transformierte Bild (Block 44) ist durch 40 komplexe Werte repräsentiert, die Wellenlängenkomponenten für jeden Pixel des Originalbilds repräsentieren. Als nächstes wird eine starre Kopie eines Modell-Diagramms, das anhand von 7 noch detaillierter beschrieben wird, an variierenden Modell-Knotenpunkt-Positionen über dem transformierten Bild positioniert, um eine Position optimaler Ähnlichkeit zu lokalisieren (Block 46). Die Suche nach der optimalen Ähnlichkeit kann durchgeführt werden, indem das Modell-Diagramm in der oberen linken Ecke des Bilds positioniert wird, die Strahlen an den Knotenpunkten extrahiert werden und die Ähnlichkeit zwischen dem Bild-Diagramm und dem Modell-Diagramm bestimmt wird. Die Suche wird fortgeführt, indem das Modell-Diagramm von links nach rechts verschoben wird, beginnend an der oberen linken Ecke des Bilds (Block 48). Wenn eine Grobposition des Gesichts gefunden worden ist (Block 50), wird den Knotenpunkten erlaubt, sich individuell zu bewegen, wobei elastische Diagramm-Verzerrungen eingeführt werden (Block 52). Es wird eine phasen-unempfindliche Ähnlichkeitsfunktion verwendet, um eine gute Entsprechung zu lokalisieren (Block 54). Dann wird eine phasen-empfindliche Ähnlichkeitsfunktion verwendet, um einen Strahl präzise zu lokalisieren, da die Phase sehr empfindlich gegenüber kleinen Strahl-Verschiebungen ist. Die phasen-unempfindliche und die phasen-empfindliche Ähnlichkeitsfunktion werden weiter unten im Zusammenhang mit 5–8 beschrieben. Anzumerken ist, dass, obwohl die Diagramme in 4 im Zusammenhang mit dem Originalbild gezeigt sind, die Modelldiagramm-Bewegung und das Matching tatsächlich an dem transformierten Bild vorgenommen werden.
Die Elementarwellen-Transformation wird nun anhand von 5 beschrieben. Ein Originalbild wird unter Verwendung einer Gabor-Elementarwelle transformiert, um ein Konvolutions-Ergebnis zu erzielen. Die auf Gabor-Basis vorgesehene Elementarwelle weist ein zweidimensionales komplexes Wellenfeld auf, das durch eine Gaus'sche Hüllkurve moduliert ist.
Die Elementarwelle ist eine ebene Welle mit einem durch ein Gaus'sches Fenster beschränkten Wellenvektor k , dessen Größe relativ zur Wellenlänge durch σ parametrisiert ist. Durch den Ausdruck in der Klammer wird die Gleichstrom-Komponente entfernt. Die Amplitude des Wellenvektors k kann wie folgt gewählt werden, wobei ν sich auf die beschriebenen räumlichen Auflösungen bezieht.
Eine Elementarwelle, die an der Bildposition x zentriert ist, wird verwendet, um die Elementarwellen-Komponente J_k aus dem Bild mit Grauwellenverteilung I(x) zu extrahieren. J k(x ) = ∫ d x 'I(x ')ψ k(x – x ') (3)
Der Raum der Wellenvektoren k wird typischerweise in einer diskreten Hierarchie von 5 Auflösungsniveaus (die sich durch Halboktaven unterscheiden) und 8 Ausrichtungen auf jedem Auflösungsniveau abgetastet (siehe z. B. 8), so dass für jeden abgetasteten Bildpunkt 40 komplexe Werte erzeugt werden (wobei sich die realen und imaginären Komponenten auf die Cosinus- und Sinusphasen der ebenen Weile beziehen). Die Tastwerte in dem k-Raum sind durch den Index j = 1, ..., 40 bezeichnet, und sämtliche Elementarwellenkomponenten, die in einem einzelnen Bildpunkt zentriert sind, werden als ein Vektor betrachtet, der als Strahl 60 bezeichnet wird und in 6 gezeigt ist. Jeder Strahl beschreibt die örtlichen Merkmale des x umgebenden Bereichs. Falls das Bild mit hinreichender Dichte abgetastet wird, kann es aus Strahlen innerhalb des Bandpasses rekonstruiert werden, der von den abgetasteten Frequenzen abgedeckt ist. Somit ist jede Komponente eines Strahls eine Filter-Reaktion einer Gabor-Elementarwelle, die an einem Punkt (x, y) des Bilds abgetastet ist.
Ein markiertes Bild-Diagramm 62 gemäß 6 wird verwendet, um den Aspekt eines Objekts zu beschreiben (in diesem Kontext ein Gesicht). Die Knotenpunkte 64 des markierten Diagramms beziehen sich auf Punkte auf dem Objekt und werden durch Strahlen 60 markiert. Die Ränder 66 des Diagramms werden mit Abstandsvektoren zwischen den Knotenpunkten markiert. Die Knotenpunkte und Ränder definieren die Diagramm-Topologie. Diagramme mit gleicher Topologie können miteinander verglichen werden. Das normalisierte Punkt-Produkt der absoluten Komponenten zweier Strahlen definiert die Strahl-Ähnlichkeit. Dieser Wert ist unabhängig von Kontrastveränderungen. Zum Berechnen der Ähnlichkeit zwischen zwei Diagrammen wird die Summe von Ähnlichkeiten entsprechender Strahlen zwischen den Diagrammen gebildet.
7 zeigt ein Modell-Diagramm, das insbesondere zum Erkennen eines menschlichen Gesichts in einem Bild konzipiert ist. Die nummerierten Knotenpunkte des Diagramms betreffen die folgenden Stellen:

0: Pupille des rechten Auges
1: Pupille des linken Auges
2: oberer Bereich der Nase
3: rechte Ecke der rechten Augenbraue
4: linke Ecke der rechten Augenbraue
5: rechte Ecke der linken Augenbraue
6: linke Ecke der linken Augenbraue
7: rechtes Nasenloch
8: Nasenspitze
9: linkes Nasenloch
10: rechter Mundwinkel
11: Mitte der Oberlippe
12: linker Mundwinkel
13: Mitte der Unterlippe
14: Unterbereich des rechten Ohrs
15: Oberbereich des rechten Ohrs
16: Oberbereich des linken Ohrs
17: Unterbereich des linken Ohrs

Zum Wiedergeben eines Gesichts wird eine Datenstruktur verwendet, die als Gruppen-Diagramm 70 (6) bezeichnet wird. Diese ist dem oben beschriebenen Diagramm ähnlich, jedoch wird, statt dass an jedem Knotenpunkt nur ein einzelner Strahl angebracht wird, an jedem Knotenpunkt eine ganze Gruppe von Strahlen 72 (ein Gruppen-Strahl) angebracht. Jeder Strahl wird aus einem unterschiedlichen Gesichtsbild abgeleitet. Zur Bildung eines Gruppen-Diagramms wird eine Sammlung von Gesichtsbildern (die Gruppendiagramm-Galerie) an vorbestimmten Positionen des Kopfs mit Knotenpunkt-Stellen markiert. Diese definierten Positionen werden als Landmarks bezeichnet. Wenn ein Matching eines Gruppen-Diagramms mit einem Bild durchgeführt wird, wird der aus dem Bild extrahierte Strahl mit sämtlichen Strahlen in der entsprechenden Gruppe, die dem Gruppen-Diagramm zugeordnet ist, verglichen, und die am besten passende wird gewählt. Dieser Anpassungsvorgang wird als elastisches Bunch Graph Matching bezeichnet. Wenn ein Gruppen-Diagramm unter Verwendung einer sinnvoll gewählten Galerie gewählt wird, deckt es eine breite Vielfalt von Gesichtern ab, die signifikant unterschiedliche örtliche Eigenschaften haben können, z. B. beim Abtasten von männlichen und weiblichen Gesichtern und von Personen verschiedenen Alters oder verschiedener Rasse.
Wiederum zwecks Auffindens eines Gesichts in einem Einzelbild wird das Diagramm bewegt und skaliert und verzerrt, bis eine Stelle lokalisiert worden ist, an der das Diagramm am besten passt. (Die am besten passenden Strahlen in den Gruppen-Strahlen haben die größte Ähnlichkeit mit den Strahlen, die an den tatsächlichen Positionen der Knotenpunkten aus dem Bild extrahiert werden.) Da sich Gesichts-Merkmale von Gesicht zu Gesicht unterscheiden, ist das Diagramm für die Aufgabe in einer umfassenderen Weise ausgebildet; z. B. werden jedem Knotenpunkt Strahlen des entsprechenden Landmarks zugewiesen, die von 10 bis 100 individuellen Gesichtern abgenommen worden sind.
Es werden zwei verschiedenen Strahlen-Ähnlichkeitsfunktionen für zwei verschiedene oder sogar komplementäre Aufgaben verwendet. Falls die Komponenten eines Strahls J in der Form mit der Amplitude und der Phase φ_j geschrieben werden, besteht eine Form der Ähnlichkeit der beiden Strahlen J und J ' in dem normalisierten Skalar-Produkt des Amplituden-Vektors
Die andere Ähnlichkeits-Funktion hat die Form
Diese Funktion enthält einen Relativverschiebungsvektor zur Angabe der Verschiebung zwischen den Bildpunkten, auf die sich die beiden Strahlen beziehen. Wenn während des Diagramm-Anpassens zwei Strahlen verglichen werden, wird die Ähnlichkeit zwischen ihnen in Bezug auf d maximiert, was zu einer präzisen Bestimmung der Strahl-Position führt. Es werden beide Ähnlichkeits-Funktionen verwendet, wobei oft der phasen-unempfindlichen Version (die mit der Relativposition sanft variiert) der Vorzug gegeben wird, wenn ein Diagramm- zuerst angepasst wird, und der phasen-empfindlichen Version, wenn der Strahl präzise positioniert wird.
Nachdem die Gesichts-Merkmale lokalisiert worden sind, können die Gesichts-Merkmale über aufeinanderfolgende Einzelbilder hinweg verfolgt werden, wie 9 zeigt. Mit der Verfolgungstechnik der Erfindung wird eine robuste Verfolgung über lange Einzelbild-Sequenzen ermöglicht, indem ein Verfolgungskorrekturschema verwendet wird, das detektiert, ob die Verfolgung eines Merkmals oder Knotenpunkts verlorengegangen ist, und das den Verfolgungsvorgang für diesen Knotenpunkt reinitialisiert.
Die Position X_n eines einzelnen Knotenpunkts in einem Bild I_n der Bildsequenz ist entweder durch Landmark-Suchen in dem Bild I_nb mittels des oben beschriebenen Lankmark-Suchverfahrens (Block 80) oder durch Verfolgen des Knotenpunkts von dem Bild I_(n – 1) bis I_n mittels des Verfolgungsvorgangs bekannt. Der Knotenpunkt wird dann durch eine unter mehreren Techniken zu einer entsprechenden Position X_(n + 1) in dem Bild I_(n + 1) verfolgt (Block 82). Die oben beschriebenen Verfolgungsverfahren nehmen vorteilhafterweise auch eine schnelle Bewegung auf.
Bei einer ersten Verfolgungstechnik wird eine Linearbewegungsvorhersage verwendet. Die Suche nach der entsprechenden Knotenpunkt-Position X_(n + 1) in dem neuen Bild I_(n + 1) wird an einer Position gestartet, die von einer Bewegungsschätzvorrichtung generiert wird. Es wird ein Disparitätsvektor (X_n – X_(n – 1)) berechnet, der unter Annahme einer konstanten Geschwindigkeit die Verschiebung des Knotenpunkts zwischen den vorhergehenden beiden Einzelbildern repräsentiert. Der Disparitäts- oder Verschiebungsvektor D_n kann der Position X_n hinzuaddiert werden, um die Knotenpunkt-Position X_(n + 1) vorherzusagen. Dieses Linearbewegungs-Modell ist besonders vorteilhaft zur Aufnahme einer Bewegung mit konstanter Geschwindigkeit. Das Linearbewegungs-Modell leistet auch dann eine gute Verfolgung, wenn die Einzelbild-Rate im Vergleich mit der Beschleunigung der verfolgten Objekte hoch ist. Das Linearbewegungs-Modell arbeitet jedoch nur unzureichend, falls die Einzelbild-Rate im Vergleich mit der Beschleunigung der Objekte in der Einzelbild-Sequenz zu niedrig ist. Da es für jedes Bewegungsmodell schwierig ist, Objekte unter derartigen Bedingungen nachzuführen, wird die Verwendung einer Kamera mit höherer Einzelbild-Rate empfohlen.
Das Linearbewegungs-Modell kann möglicherweise einen zu großen geschätzten Bewegungsvektor D_n erzeugen, der zu einer Akkumulierung des Fehlers in der Bewegungsschätzung führen könnte. Deshalb kann die Linearvorhersage mit einem Dämpfungsfaktor f D gedämpft werden. Der resultierende geschätzte Bewegungsvektor lautet D_n = f_D*(X_n – X_(n – 1)). Ein geeigneter Dämpfungsfaktor beträgt 0,9. Falls kein vorheriges Einzelbild I_(n – 1) existiert, z. B. für ein Einzelbild unmittelbar nach dem Auffinden eines Landmark, wird der geschätzte Bewegungsvektor auf Null gesetzt (D_n = 0).
In 10 ist eine auf einer Gaus'schen Bildpyramide basierende Verfolgungstechnik veranschaulicht, die für eine einzige Dimension angewandt wird. Statt einer Verwendung der Original-Bildauflösung wird das Bild 2–4 Mal heruntergetastet, um eine Gaus'sche Pyramide des Bildes zu erzeugen. Eine Bildpyramide mit 4 Ebenen resultiert darin, dass ein Abstand von 24 Pixeln auf der feinsten, d. h. Original-Auflösungsebene durch nur 3 Pixel auf der gröbsten Ebene repräsentiert wird. Strahlen können auf jeder Ebene der Pyramide berechnet und verglichen werden.
Die Verfolgung eines Knotenpunkts an der Gaus'schen Bildpyramide wird generell zuerst auf der gröbsten Ebene durchgeführt, und anschließend geht bewegt sich die Verfolgung zu den feinsten Ebenen hin vor. Auf der gröbsten Gaus'schen Ebene des tatsächlichen Einzelbilds I_(n + 1) wird an der Position X_(n + 1) mittels der gedämpften Linearbewegungs-Schätzung X_(n + 1) = (X_n + D_n) wie oben beschrieben ein Strahl extrahiert und mit dem entsprechenden Strahl verglichen, der auf der gröbsten Gaus'schen Ebene des vorherigen Einzelbilds berechnet worden ist. Aus diesen beiden Strahlen wird die Disparität bestimmt, d. h. der 2D-Vektor R, der aus X_(n + 1) auf die Position weist, die dem Strahl aus dem vorherigen Einzelbild am besten entspricht. Diese neue Position wird X_(n + 1) zugewiesen. Die Disparitätsberechnung wird noch detaillierter beschrieben. Die Position auf der nächstfeineren Gaus'schen Ebene des tatsächlichen Bilds (das 2*X_(n + 1) ist), die der Position X_(n + 1) auf der gröbsten Gaus'schen Ebene entspricht, ist der Startpunkt für die Disparitäts-Berechnung auf dieser nächstfeineren Ebene. Der an diesem Punkt extrahierte Strahl wird mit dem entsprechenden Strahl verglichen, der auf der gleichen Gaus'schen Ebene des vorherigen Einzelbilds berechnet wurde. Dieser Vorgang wird für sämtliche Gaus'schen Ebenen wiederholt, bis die Ebene der feinsten Auflösung erreicht worden ist, oder bis die Gaus'sche Ebene erreicht worden ist, die zum Bestimmen der Position des Knotenpunkts spezifiziert ist, welcher der Position des vorherigen Rahmens entspricht.
In 10 sind zwei repräsentative Ebenen der Gaus'schen Bildpyramide gezeigt, und zwar oben eine gröbere Ebene 94 und unten eine feinere Ebene 96. Es wird angenommen, dass jeder Strahl Filterreaktionen für zwei Frequenzebenen aufweist. Beginnend an der Position 1 auf der gröberen Gaus-schen Ebene, X_(n + 1) = X_n + D_n, führt eine erste Disparitätsbewegung, bei der nur die kleinsten Frequenzstrahl-Koeffizienten verwendet werden, zu einer Position 2. Eine zweite Disparitätsbewegung, bei der sämtliche Strahl-Koeffizienten beider Frequenzebenen verwendet werden, führt zu der Position 3, der letzen Position dieser Gaus'schen Ebene. Die Position 1 auf der feineren Gausschen Ebene entspricht der Position 3 auf der gröberen Gaus'schen Ebene, wobei die Koordinaten verdoppelt sind. Die Disparitätsbewegungssequenz wird wiederholt, und die Position 3 auf der feinsten Gaus'schen Ebene ist die letzte Position des verfolgten Landmarks. Für ein noch präziseres Verfolgen kann die Anzahl der Gaus'schen und Frequenz-Ebenen vergrößert werden.
Nachdem die neue Position des verfolgten Knotenpunkts in dem tatsächlichen Einzelbild bestimmt worden ist, werden an dieser Position die Strahlen auf sämtlichen Gaus'schen Ebenen berechnet. Ein für das vorherige Einzelbild berechnetes gespeichertes Array von Strahlen, das den verfolgten Knotenpunkt repräsentiert, wird dann durch ein für das tatsächliche Einzelbild berechnetes neues Array von Strahlen ersetzt.
Die Verwendung der Gaus'schen Bildpyramide bietet zwei Hauptvorteile: Erstens sind die Bewegungen der Knotenpunkte in Hinblick auf die Pixel auf einer gröberen Ebene viel kleiner als in dem Originalbild, so dass eine Verfolgung einfach dadurch ermöglicht wird, dass nur eine örtliche Bewegung anstelle einer erschöpfenden Suche in einem großen Bildbereich durchgeführt wird. Zweitens erfolgt die Berechnung der Strahlen-Komponenten bei niedrigen Frequenzen sehr viel schneller, da die Berechnung mit einem kleinen Kern-Fenster an einem heruntergetasteten Bild vorgenommen wird, statt mit einem großen Kern-Fenster an dem Bild mit der Originalauflösung.
Zu beachten ist, dass die entsprechende Ebene dynamisch gewählt werden kann; beispielsweise kann im Fall des Verfolgens von Gesichts-Merkmalen die entsprechende Ebene in Abhängigkeit von der tatsächlichen Größe des Gesichts gewählt werden. Auch die Größe der Gaus'schen Bildpyramide kann im Verlauf des Verfolgungsvorgangs geändert werden, d. h. die Größe kann vergrößert werden, wenn die Bewegung schneller wird, und verkleinert werden, wenn die Bewegung sich verlangsamt. Typischerweise ist die maximale Knotenpunkt-Bewegung auf der gröbsten Gaus'schen Ebene auf 4 Pixel beschränkt. Ferner ist anzumerken, dass die Bewegungsschätzung oft nur auf der gröbsten Ebene vorgenommen wird.
Im folgenden wird die Berechnung des Vektors der Verschiebung zwischen zwei gegebenen Strahlen auf der gleichen Gaus'schen Ebene (d. h, des Disparitätsvektors) beschrieben. Zum Berechnen des Verschiebungsvektors zwischen zwei aufeinanderfolgenden Einzelbildern wird ein Verfahren verwendet, das ursprünglich für die Disparitätsschätzung bei Stereobildern entwickelt wurde, basierend auf D. J. Fleet und A. D. Jepson, "Computation of component image velocity from local phase information", in: International Journal of Computer Vision, Vol. 5, Ausgabe 1, pp. 77–104, 1990, und W. M. Theimer und H. A. Mallot, "Phase-based binocular vergence control and depth reconstruction using active vision", in: CVGIP: Image Understanding, Vol. 60, Ausgabe 3, pp. 343– 358, November 1994.
Die starke Variation der Phasen der komplexen Filter-Reaktionen wird explizit verwendet, um die Pixel-Verschiebung mit Subpixel-Genauigkeit zu berechnen (Wiskott, L., "Labeled Graphs and Dynamic Link Matching for Face Recognition and Scene Analysis", Verlag Harri Deutsch, Thun – Frankfurt am Main, Reihe Physik 53 (Dissertation 1995). Durch Schreiben der Reaktion J auf den j-ten Gabor-Filter in Hinblick auf die Amplitude α_j und die Phase j kann eine Ähnlichkeitsfunktion definiert werden als
Unter der Annahme, dass J und J' zwei Strahlen an den Positionen X und X' = X + d sind, kann die Verschiebung d festgestellt werden, indem die Ähnlichkeit S in Bezug auf d maximiert wird, wobei k_j die Wellenvektoren repräsentiert, die dem J_j erzeugenden Filter zugeordnet sind. Da die Schätzung von d nur für kleine Verschiebungen, d. h. eine große Überlappung der Gabor-Strahlen präzise ist, werden große Verschiebungsvektoren nur als eine erste Schätzung behandelt, und der Vorgang wird in der folgenden Weise wiederholt. Zuerst werden nur die Filter-Reaktionen der niedrigsten Frequenzebene verwendet, was in einem ersten Schätzwert d_1 resultiert. Als nächstes wird diese Schätzung ausgeführt, und der Strahl J wird an der Position X_1 = x + d_1 neuberechnet, die näher an der Position X' des Strahls J' liegt. Dann werden die beiden niedrigsten Frequenzebenen für die Schätzung der Verschiebung d_2 verwendet, und der Strahl J wird an der Position X_2 = X_1 + d_2 neuberechnet. Dies wird iterierend durchgeführt, bis die höchste verwendete Frequenzebene erreicht ist, und die endgültige Disparität d zwischen den beiden Start-Strahlen J und J' ist gegeben als die Summe d = d_1 + d_2 + .... Somit können Verschiebungen bis zur Hälfte der Wellenlänge des Kerns mit der niedrigsten Frequenz berechnet werden (siehe Wiskott 1995 oben).
Obwohl die Verschiebungen mittels floatender Punkt-Nummern bestimmt werden, können Strahlen nur an (ganzzahligen) Pixel-Positionen extrahiert (d. h. durch Konvolution berechnet) werden, was in einem systematischen Rundungsfehler führt. Zum Kompensieren dieses Subpixel-Fehlers Δd müssen die Phasen der komplexen Gabor-Filter-Reaktionen entsprechend Δϕj = Δd·kj (7)verschoben werden, so dass die Strahlen so erscheinen, als ob sie an der korrekten Subpixel-Position extrahiert worden wären. Somit können die Gabor-Strahlen mit Subpixel-Präzision extrahiert werden, ohne dass Rundungsfehler berücksichtigt werden müssten. Anzumerken ist, dass Gabor-Strahlen einen beträchtlichen Vorteil bei der Bildverarbeitung bieten, da das Problem der Subpixel-Präzision bei den meisten anderen Bildverarbeitungsverfahren schwieriger anzugehen ist.
Ein Verfolgungsfehler kann detektiert werden, indem geprüft wird, ob ein Vertrauens- oder Ähnlichkeitswert kleiner ist als ein vorbestimmter Schwellenwert (Block 84 in 9). Der Ähnlichkeits- oder Vertrauenswert 5 kann berechnet werden, um anzugeben, wie gut die beiden Bildbereiche in den beiden Einzelbildern einander entsprechen, gleichzeitig mit der Berechnung der Verschiebung eines Knotenpunkts zwischen aufeinanderfolgenden Einzelbildern. Typischerweise liegt der Vertrauenswert nahe bei 1, was eine gute Entsprechung anzeigt. Falls der Vertrauenswert nicht nahe bei 1 liegt, ist entweder der entsprechende Punkt in dem Bild nicht gefunden worden (z. B. weil die Einzelbild-Rate im Vergleich zu der Geschwindigkeit des sich bewegenden Objekts zu niedrig war), oder dieser Bildbereich hat sich von einem Einzelbild zum nächsten derart drastisch verändert, dass die Entsprechung nicht mehr gut definiert ist (z. B. wenn der Knotenpunkt die Pupille des Auges verfolgt und das Augenlid geschlossen worden ist). Knotenpunkte, die einen Vertrauenswert unterhalb eines bestimmten Schwellenwerts haben, können abgeschaltet werden.
Ein Verfolgungsfehler kann auch detektiert werden, wenn bestimmte geometrische Beschränkungen verletzt werden (Block 86). Falls mehrere Knotenpunkte gleichzeitig verfolgt werden, kann die geometrische Konfiguration der Knotenpunkte auf Konsistenz überprüft werden. Derartige geometrische Beschränkungen können recht weit ausgelegt sein; beispielsweise muss, wenn die Nase verfolgt wird, die Nase zwischen den Augen und dem Mund angeordnet sein. Alternativ können derartige geometrischen Beschränkungen ziemlich präzise vorgesehen sein, z. B. wenn ein Modell die exakte Information zur Form des verfolgten Gesichts enthält. Zwecks mittlerer Genauigkeit können die Beschränkungen auf einem Flachebenen-Modell basieren. Bei dem Flachebenen-Modell wird angenommen, dass die Knotenpunkte des Gesichts-Diagramms auf einer flachen Ebene liegen. Bei Bildsequenzen, die mit einer Vorderansicht beginnen, können die verfolgten Knotenpunkt-Positionen mit den entspre chenden Knotenpunkt-Positionen des Frontal-Diagramms verglichen werden, das durch eine affine Transformation zu dem tatsächlichen Einzelbild transformiert worden ist. Die 6 Parameter der optimalen affinen Transformation werden berechnet, indem die kleinsten Fehlerquadrate in den Knotenpunkt-Positionen minimiert werden. Abweichungen zwischen den verfolgten Knotenpunkt-Positionen und den transformierten Knotenpunkt-Positionen werden mit einem Schwellenwert verglichen. Die Knotenpunkte, die Abweichungen aufweisen, welche größer als der Schwellenwert sind, werden abgeschaltet. Die Parameter der affinen Transformation können verwendet werden, um die Haltung und die relative Skalierung (verglichen mit dem Start-Diagramm) gleichzeitig zu bestimmen (Block 88). Somit gewährleistet dieses Grob-Flachebenen-Modell, dass Verfolgungsfehler nicht über einen vorbestimmten Schwellwert hinaus zunehmen können.
Falls der verfolgte Knotenpunkt aufgrund eines Verfolgungsfehlers ausgeschaltet wird, kann der Knotenpunkt an der korrekten Position reaktiviert werden (Block 90), vorzugsweise unter Verwendung von Gruppen-Diagrammen, die verschiedene Haltungen enthalten, und der Verfolgungsvorgang wird von der korrigierten Position aus fortgesetzt (Block 92). Nachdem ein verfolgter Knotenpunkt ausgeschaltet worden ist, kann das System warten, bis eine vorbestimmte Haltung erreicht worden ist, für die ein spezielles Haltungs-Gruppendiagramm existiert. Andernfalls, wenn nur ein Frontal-Gruppendiagramm gespeichert ist, muss das System warten, bis die Frontalhaltung erreicht worden ist, um irgendwelche Verfolgungsfehler zu korrigieren. Die gespeicherte Gruppe von Strahlen kann mit dem die passende Position umgebenden Bildbereich (z. B. aus dem Flachebenen-Modell) verglichen werden, was auf die gleiche Weise durchgeführt wird wie die Verfolgung, außer dass, statt einen Vergleich mit dem Strahl des vorherigen Einzelbilds vorzunehmen, der Vergleich mit sämtlichen Strahlen der Gruppe von Beispielen wiederholt wird, und der Strahl mit der größten Ähnlichkeit gewählt wird. Da die Gesichts-Merkmale bekannt sind, z. B. die tatsächliche Haltung, Skalierung und sogar die Grobposition, ist ein Graph Matching oder eine erschöpfende Suche in dem Bild- und/oder Hal tungs-Raum nicht erforderlich, und die Knotenpunktverfolgungs-Korrektur kann in Echtzeit durchgeführt werden.
Bei der Verfolgungskorrektur werden für zahlreiche verschiedene Haltungen und Skalierungen keine Gruppen-Diagramme benötigt, da die Drehung in der Bildebene sowie die Skalierung berücksichtigt werden kann, indem entweder der örtliche Bildbereich oder die Strahlen des Gruppen-Diagramms entsprechend transformiert werden, wie 11 zeigt. Zusätzlich zur Frontalhaltung brauchen Gruppen-Diagramme nur für Drehungen in der Tiefe erzeugt zu werden.
Die Geschwindigkeit des Reinitialisierungsvorgangs kann erhöht werden, indem die Tatsache genutzt wird, dass die Identität der verfolgten Person während einer Bildsequenz gleichbleibt. Somit kann in einem anfänglichen Lernsitzung eine erste Sequenz der Person aufgenommen werden, wobei die Person ein volles Repertoire frontaler Gesichtausdrücke zeigt. Diese erste Sequenz kann mit hoher Präzision verfolgt werden, indem das oben beschriebene Verfolgungs- und Korrekturschema basierend auf einem großen generalisierten Gruppen-Diagramm verwendet wird, das Information über zahlreiche verschiedene Positionen enthält. Dieser Vorgang kann offline durchgeführt werden und erzeugt ein neues personalisiertes Gruppen-Diagramm. Das personalisierte Gruppen-Diagramm kann dann verwendet werden, um diese Person mit einer schnellen Rate in Echtzeit zu verfolgen, da das personalisierte Gruppen-Diagramm weitaus kleiner ist als das größere, generalisierte Gruppen-Diagramm.
Die Geschwindigkeit des Reinitialisierungsvorgangs kann auch erhöht werden, indem eine Teil-Gruppendiagramm-Reinitialisierung vorgenommen wird. Ein Teilgruppen-Diagramm enthält nur ein Subset der Knotenpunkte eines vollen Gruppen-Diagramms. Das Subset kann so klein sein, dass es nur einen einzigen Knotenpunkt umfasst.
Eine Haltungs-Schätzungs-Gruppendiagramm verwendet eine Familie zweidimensionaler Gruppen-Diagramme, die in der Bildebene definiert sind. Die unterschiedlichen Diagramme innerhalb einer Familie berücksichtigen die unterschiedlichen Haltungen und/oder Skalierungen des Kopfs. In dem Landmark-Suchvorgang wird der Versuch unternommen, jedes Gruppen-Diagramm aus der Familie an das eingegebene Bild anzupassen, um die Haltung oder die Größe des Kopfs in dem Bild zu bestimmen. Ein Beispiel eines derartigen Haltungseinschätzungs-Vorgangs ist in 12 gezeigt. Der erste Schritt der Haltungs-Einschätzung ist demjenigen bei der regulären Landmark-Suche gleichwertig. Das Bild (Block 98) wird transformiert (Blöcke 100 und 102), um die Diagrammähnlichkeits-Funktionen zu verwenden. Anschließend wird anstelle nur eines einzigen Gruppen-Diagramms eine Familie aus drei Gruppen-Diagrammen verwendet. Das erste Gruppen-Diagramm enthält nur die Frontalhaltungs-Gesichter (die der oben beschriebenen Frontal-Haltung gleichwertig sind), und die anderen beiden Gruppen-Diagramme enthalten um ein Viertel gedrehte Gesichter (von denen eines eine Drehung nach links und das andere eine Drehung nach rechts repräsentiert). Wie zuvor befinden sich die Anfangs-Positionen für jedes der Diagramme in der oberen linken Ecke, und die Positionen der Diagramme werden an dem Bild abgetastet, und die Position und das Diagramm, die nach der Landmark-Suche die größte Ähnlichkeit zeigen, werden gewählt (Blöcke 104–114).
Nach der Anfangs-Anpassung für jedes Diagramm werden die Ähnlichkeiten der End-Positionen verglichen (Block 116). Das Diagramm, das der im Bild vorliegenden Haltung am besten entspricht, hat die höchste Ähnlichkeit. In 12 passt das nach links gedrehte Diagramm am besten zu dem Bild, wie anhand seiner Ähnlichkeit ersichtlich ist (Block 118). Je nach der Auflösung und dem Grad der Drehung des Gesichts in dem Bild variiert die Ähnlichkeit des korrekten Diagramms und der Diagramme für andere Haltungen und wird sehr eng, wenn sich das Gesicht auf halbem Weg zwischen den beiden Haltungen befindet, für die die Diagramme definiert worden sind. Durch Erzeugen von Gruppen-Diagrammen für mehr Haltungen kann eine feinere Haltungs-Schätzung implementiert werden, die zwischen einer größeren Anzahl von Kopfdrehungen unterscheiden kann und Drehungen in anderen Richtungen (z. nach oben und unten) handhaben kann.
Um ein Gesicht bei beliebigem Abstand von der Kamera robust auffinden zu können, kann ein ähnlicher Ansatz verwendet werden, bei dem zwei oder drei Gruppen-Diagramme mit unterschiedlichen Skalierungen benutzt werden. Dabei wird angenommen, dass das Gesicht in dem Bild die gleiche Skalierung hat wie das Gruppen-Diagramm, das die stärkste Reaktion auf das Gesichts-Bild zeigt.
Bei einer dreidimensionalen (3D-) Landmark-Suchtechnik, die der oben beschriebenen ähnlich ist, können auch mehrere Gruppen-Diagramme verwendet werden, die an unterschiedliche Haltungen angepasst sind. Bei dem 3D-Ansatz wird jedoch nur eines einziges Gruppen-Diagramm verwendet, das in einem 3D-Raum definiert ist. Die Geometrie des 3D-Raums reflektiert eine durchschnittliche Gesichts- oder Kopf-Geometrie. Durch Extrahieren von Strahlen aus den Bildern der Gesichter mehrerer Personen bei unterschiedlichen Dreh-Graden wird ein 3D-Gruppen-Diagramm erzeugt, das dem 2D-Ansatz analog ist. Jeder Strahl wird nun mit den drei Dreh-Winkeln parametrisiert. Wie bei dem 2D-Ansatz werden die Knotenpunkte an den zweckmäßigen Punkten der Kopf-Oberfläche angeordnet. Dann werden in dem Anpassungs-Vorgang Projektionen des 3D-Diagramms verwendet. Eine wichtige Generalisierung des 3D-Ansatzes besteht darin, dass für jeden Knotenpunkt die zugeordnete parametrisierte Familie von Gruppen-Strahlen an verschiedene Haltungen angepasst ist. Die zweite Generalisierung besteht darin, dass das Diagramm Euklidische Transformationen im 3D-Raum und nicht nur Transformationen in der Bildebene erfahren kann.
Der Diagramm-Anpassungsvorgang kann als ein Grob-zu-fein-Ansatz formuliert werden, bei dem zunächst Diagramme mit weniger Knotenpunkten verwendet werden und dann in nachfolgenden Schritten dichtere Diagramme verwendet werden. Der Grob-zu-fein-Ansatz ist besonders zweckmäßig, falls eine Hochpräzisions-Lokalisierung der Merkmals-Punkte in bestimmten Bereichen des Gesichts erwünscht ist. Somit wird Rechenaufwand eingespart, indem ein hierarchischer Ansatz verwendet wird, bei dem die Landmark-Suche zuerst mit gröberer Auflösung durchgeführt wird und anschließend die angepassten Diagramme mit höherer Auflösung geprüft werden, um bestimmte Bereiche detaillierter zu analysieren.
Ferner kann der Rechenaufwand bei einer Mehrfachprozessormaschine leicht dahingehend aufgeteilt werden, dass, nachdem die groben Bereiche gefunden worden sind, einige wenige Child-Prozesse parallel ihren eigenen Teil des Gesamtbilds zu bearbeiten beginnen. Am Ende der Child-Vorgänge teilen die Vorgänge die Merkmals-Koordinaten, die sie lokalisiert haben, dem Master-Vorgang mit, in dem diese in geeigneter Weise skaliert und kombiniert werden, um sie zurück in das Originalbild einzupassen, so dass die Gesamt-Berechungszeit beträchtlich reduziert wird.
Gemäß 13 können die den Knotenpunkten entsprechenden Gesichts-Merkmale so klassifiziert werden, dass irrelevante Verfolgungsfehler-Hinweise wie z. B. bei einem Augenblinzeln oder beim Öffnen des Mundes als solche berücksichtigt werden. Die Markierungen werden an den unterschiedlichen Strahlen in dem Gruppen-Diagramm angebracht, die den Gesichts-Merkmalen entsprechen, z. B. Auge offen/geschlossen, Mund offen/geschlossen etc. Die Markierungen können zusammen mit den entsprechenden Strahlen in dem Gruppen-Diagramm kopiert werden, das dem aktuellen Bild am ähnlichsten ist. Die Markierungs-Verfolgung kann kontinuierlich überwacht werden, unabhängig davon, ob ein Verfolgungsfehler detektiert wird. Somit können die verfolgten Knotenpunkte mit Klassifizierungs-Knotenpunkten für folgende Aspekte versehen werden:

– Auge offen/geschlossen
– Mund offen/geschlossen
– Zunge sichtbar oder nicht
– Haartyp-Klassifizierung
– Gesichtsfalten-Detektion (z. B. an der Stirn)

Somit können bei der Verfolgung zwei Informationsquellen verwendet werden. Eine Informationsquelle basiert auf den Merkmals-Positionen, d. h. den Knotenpunkt-Positionen, und die andere Informationsquelle basiert auf den Merkmals-Klassen. Die Merkmalsklassen-Information basiert stärker auf der Texdtur und kann, indem der örtliche Bildbereich mit einem Satz gespeicherter Beispiele verglichen wird, mit niedrigerer Auflösung und Verfolgungs-Genauigkeit funktionieren als die Merkmalsklassen-Information, die ausschließlich auf den Knotenpunkt-Positionen basiert.
Die Gesichts-Erkennung gemäß der Erfindung kann gemäß 14 bei der Erzeugung und Animierung statischer und dynamischer Avatare verwendet werden. Der Avatar kann auf einem generischen Gesichtsmodell oder auf einem personenspezifischen Gesichtsmodell basieren. Die Verfolgung und Gesichtsausdrucks-Erkennung kann für die Inkarnation des mit den Gesichtszügen der Person versehenen Avatars verwendet werden.
Das generische Gesichts-Modell kann an eine repräsentative Anzahl von Individuen angepasst werden und kann so ausgelegt werden, dass eine realistische Animation und die Wiedergabe eines weiten Bereichs von Gesichtszügen und/oder -ausdrücken durchgeführt werden kann. Das generische Modell kann durch die folgenden Techniken erstellt werden.

1. Mono-Kamera-Systeme können verwendet werden, um einen realistischen Avatar zur Verwendung in Low-End – Tele-Immersions-Systemen zu erzeugen (T. Akimoto et al., 1993). Gesichtsprofil-Informationen von Individuen, wie sie aus den sagitalen und koronalen Ebenen wahrgenommen werden, können kombiniert werden, um den Avatar zu erhalten.
2. Stereo-Kamera-Systeme sind in der Lage, präzise 3D-Messungen durchzuführen, wenn die Kameras voll kalibriert sind. (Kamera-Parameter werden durch einen Kalibrierungsvorgang berechnet.) Dann kann ein individuelles Gesichts-Modell erstellt werden, indem ein generisches Gesichts-Modell an die berechneten 3D-Daten angepasst wird. Da Stereo-Algorithmen keine präzise Information zu nicht texturierten Bereichen liefern, kann eine Projektion aktiv texturierten Lichts verwendet werden.
3. Gesichts-basierende Stereo-Techniken, bei den die Markierungen an dem individuellen Gesicht verwendet werden, um präzise 3D-Positionen der Markierungen zu berechnen. Die 3D-Information wird dann verwendet, um ein generisches Modell anzupassen.
4. Dreidimensionale Digitalisieren, bei denen ein Sensor oder eine Lokalisierungsvorrichtung über jeden zu messenden Oberflächenpunkt bewegt wird.
5. Aktives strukturiertes Licht, bei dem Muster projiziert werden und der resultierende Video-Strom zum Extrahieren von 3D-Messwerten verarbeitet wird.
6. Laser-basierte Oberflächenabtastvorrichtungen (wie z. B. die von Cyberware Inc. entwickelten), die präzise Gesichts-Messwerte liefern.
7. Eine Kombination der vorherigen Techniken.

Diese verschiedenen Techniken sind weisen für den Benutzer nicht den gleichen Grad an Praktikabilität auf. Einige sind in der Lage, Meswerte über das Individuum auf Einzelzeitpunkt-Basis zu bilden (wobei sich das Gesicht für die Dauer des Messvorgangs in einer gewünschten Position befindet), während andere eine Sammlung von Tastwerten benötigen und in der Verwendung umständlicher sind.
Ein generisches dreidimensionales Kopf-Modell für eine bestimmte Person kann unter Verwendung zweier Gesichts-Bilder erzeugt werden, die eine Frontal- und eine Profilansicht zeigen. Die Gesichts-Erkennung ermöglicht eine effiziente und robuste Erzeugung des 3D-Kopf-Modells.
Die Gesichtskontur-Extraktion wird zusammen mit der Lokalisierung der Augen, der Nase, des Mundes und des Kinns der Person durchgeführt. Diese Merkmals-Lokalisierung kann erhalten werden, indem die elastische Bunch-Graph-Technik in Kombination mit hierarchischer Anpassung verwendet wird, um Gesichts-Merkmale gemäß 14 automatisch zu extrahieren. Die Gesichtspositionen-Information kann dann kombiniert werden (siehe T. Akimoto und Y. Suenaga), "Automatic Creation of 3D Facial Models", in: IEEE Computer Graphics & Applications, pp. 16–22, September 1993), um ein 3D-Modell des Kopfs der Person zu erhalten. Ein generisches dreidimensionales Kopf-Modell wird derart angepasst, dass seine Proportionen mit den Messwerten des Bilds in Beziehung gesetzt werden. Schließlich können die Seiten- und Vorder-Bilder kombiniert werden, um ein besseres Textur-Modell für den Avatar zu erhalten, d. h. die Vorderansicht wird zum Textur-Abbilden der Vorderseite des Modells verwendet, und die Seitenansicht wird für die Seite des Modells verwendet. Durch Gesichts-Erkennung wird diese Technik verbessert, da die extrahierten Merkmale gekennzeichnet werden können (Bekannte Punkte können in dem Profil definiert sein), so dass die beiden Bilder nicht gleichzeitig aufgenommen zu werden brauchen.
Ein Avatar-Bild kann durch die folgenden allgemeinen Techniken animiert werden (siehe F. I. Parke und K. Waters, Computer Facial Animation, A. K. Peters Ltd., Wellesley, Massachusetts 1996).

1. Haupt-Einzelbilderfassung und geometrische Interpolation, wobei eine Anzahl von Haupt-Haltungen und -Ausdrücken definiert werden. Dann wird eine geometrische Interpolation zwischen den Haupt-Einzelbildern vorgenommen, um die Animation zu erzeugen. Ein derartiges System wird häufig als ein arbeitsbasiertes (oder arbeitsgesteuertes) Modell bezeichnet.
2. Direkt-Parametrisierung, bei der die Gesichtsausdrücke und die Haltung direkt auf ein Set von Parametern abgebildet werden, die dann zum Steuern des Modells verwendet werden.
3. Pseudo-Muskel-Modelle, die mittels geometrischer Verformungen Muskelbetätigungen simulieren.
4. Modelle auf Muskel-Basis, bei denen die Muskeln und die Haut mittels physischer Modelle modelliert werden.
5. 2D- und 3D-Morphing, wobei ein 2D-Morphing zwischen Bildern in einem Video-Strom verwendet wird, um eine 2D-Animation zu erzeugen. Ein Set von Landmarks wird identifiziert und verwendet, um zwischen zwei Bildern einer Sequenz eine Kette (warp) zu bilden. Eine derartige Technik kann auf 3D erweitert werden (siehe F. F. Pighin, J. Hecker, D. Lischinski, R. Szeliski und D.H. Salesin, Synthesizing Realistic Facial Expressions from Photographs, in: SIGGRAPH 98 Conference Proceedings, pp. 75–84, Juli 1998).
6. Weitere Ansätze wie z. B. Steuerpunkte und Modelle mit finiten Elementen.

Bei diesen Techniken wird durch die Gesichts-Erkennung der Animationsvorgang verbessert, indem eine automatische Extraktion und Charakterisierung von Gesichts-Merkmalen durchgeführt wird. Extrahierte Merkmale können verwendet werden, um im Fall von Haupt-Einzelbilderzeugungs- und Interpolations-Modellen Ausdrücke zu interpolieren, oder um bei Direkt-Parametrisierungs-Modellen oder Pseudo-Muskel- oder Muskel-Modellen Parameter zu wählen. Im Falle des 2D- und 3D-Morphing kann die Gesichts-Erkennung verwendet werden, um automatisch Merkmale auf einem Gesicht zu wählen, welche die passende Information zum Durchführen der geometrischen Transformation bilden.
Ein Beispiel einer Avatar-Animation, bei der Gesichtsmerkmals-Verfolgung und- Klassifikation verwendet werden, lässt sich anhand von 15 erläutern. Während der Lernphase wird das Individuum zu einer Reihe vorbestimmter Gesichtsausdrücke aufgefordert (Block 120), und der Erkennungsvorgang wird zum Verfolgen der Merkmale verwendet (Block 122). An vorbestimmten Stellen werden Strahlen- und Bildmuster für die verschiedenen Gesichtsausdrücke extrahiert (Block 124). Bildmuster, die Gesichtsmerkmale umgeben, werden zusammen mit den aus diesen Merkmalen extrahierten Strahlen 126 aufgenommen. Diese Strahlen werden später verwendet, um Gesichts-Merkmale zu klassifizieren oder zu kennzeichnen. Dies erfolgt unter Verwendung dieser Strahlen, um ein personalisiertes Gruppen-Diagramm zu erzeugen, und durch Anwendung des oben beschriebenen Klassifikationsverfahrens.
Gemäß 6 wird für die Animierung eines Avatars überträgt für die Animation eines Avatars das System sämtliche Bild-Bereiche 128 sowie das Bild des gesamten Gesichts 130 (das "Einzelbild") minus der in den Bildbereichen gezeigten Teile an eine entfernte Stelle (Blöcke 132 und 134). Möglicherweise muss auch die Software für die Animationsmaschine übertragen werden. Das Erkennungssystem beobachtet dann das Gesicht des Benutzers, und es wird ein Gesichtsabtastvorgang durchgeführt, um festzustellen, welcher der Bildbereiche dem derzeitigen Gesichtsausdruck am ähnlichsten ist (Blöcke 136 und 138). Die Bild-Markierungen werden an die entfernte Stelle übertragen (Block 140), wobei der Animationsmaschine ermöglicht wird, das Gesicht 142 unter Verwendung der korrekten Bildbereiche zusammenzusetzen.
Um die Bildbereiche übergangslos in das Einzelbild einzupassen, kann eine Gaus'sche Unschärfeerzeugung verwendet werden. Für eine realistische Wiedergabe kann ein örtliches Bild-Morphing benötigt werden, da die Animation möglicherweise nicht zusammenhängend in dem Sinne ist, dass eine Abfolge von Bildern wie durch die Erkennung vorgegeben präsentiert werden kann. Das Morphing kann realisiert werden durch lineare Interpolation entsprechender Punkte in dem Bildraum. Zum Erzeugen von Zwischenbildern wird eine lineare Interpolation unter Verwendung folgender Gleichungen angewandt: Pi = (2 – i)P1 + (i – 1)P2 (7) Ii = (2 – i)I1 + (i – 1)I2 (8),wobei P₁ und P₂ entsprechende Punkte in den Bildern I₁ und I₂ sind und I₁ das i-te interpolierte Bild ist: dabei ist 1 ≤ i ≤ 2. Zu beachten ist, das zwecks Vor gangseffizienz die Bild-Interpolation unter Verwendung einer vorberechneten Hashierungs-Tabelle für P₁ und I₁ implementiert werden kann. Die Anzahl und die Präzision der verwendeten Punkte und das interpolierte Gesichts-Modell bestimmen generell die resultierende Bildqualität.
Somit kann das rekonstruierte Gesicht in der entfernten Anzeigevorrichtung zusammengesetzt werden, indem Teile von Bildern, die den im Lern-Schritt detektierten Gesichtsausdrücken entsprechen, zusammengefügt werden. Somit zeigt der Avatar Merkmale, die der die Animation befehlenden Person entsprechen. Folglich wird bei der Initialisierung ein Set abgenommener Bilder, die jedem verfolgten Gesichts-Merkmal entsprechen, und ein "Gesichts-Behälter" als resultierendes Bild des Gesichts nach dem Entfernen jedes Merkmals verwendet. Die Animation wird gestartet, und der Gesichtserkennungs-Vorgang wird verwendet, um spezifische Markierungen zu generieren, die in der bereits beschriebenen Weise übertragen werden. Das Dekodieren erfolgt durch Wählen von Bild-Stücken, die der übertragenen Kennzeichnung zugeordnet sind, z. B. des Bildes des Munds, das mit der Kennzeichnung "lächelnder Mund" 146 versehen ist (16).
Ein fortgeschritteneres Niveau der Avatar-Animation kann erreicht werden, wenn die bereits erwähnte dynamische Textur-Erzeugung mit eher herkömmlichen Techniken des Volumen-Morphings gemäß 17 integriert wird. Zum Durchführen des Volumen-Morphing kann die Stelle der Knotenpunkt-Positionen verwendet werden, um Steuerpunkte auf einem Gitter 150 zu steuern. Als nächstes werden die mittels der Kennzeichnungen dynamisch erzeugten Texturen 152 auf das Gitter abgebildet, um ein realistisches Kopf-Bild zu erzeugen. Eine Alternative zur Verwendung der abgetasteten Knotenpunkt-Positionen als Steuerelemente für die Steuerpunkte auf dem Gitter besteht darin, die Markierungen zum Wählen örtlicher Morph-Targets zu verwenden. Ein Morph-Target ist eine örtliche Gitter-Konfiguration, die für verschiedene Gesichtsausdrücke und Mimiken bestimmt worden ist, für die Gruppen-Strahlen gesammelt worden sind. Diese örtlichen Gitter-Geometrien können durch Stereo-Sichttechniken bestimmt werden. Die Verwendung von Morph- Targets ist unter der folgenden Verweis eingehender dargelegt (siehe J. R. Kent, W. E. Carlson und R. E. Parent, "Shape Transformation for Polyhedral Objects", in: SIGGRAPH 92 Conference Proceedings, Vol. 26, pp. 47–54, August 1992, Pighin et al., 1998 vgl. oben).
Ein zweckmäßige Erweiterung der auf Sicht basierenden Avatar-Animation besteht darin, die Gesichts-Erkennung mit Sprach-Erkennung in integrieren, um die korrekte Lippenbewegung gemäß 18 zu synthetisieren. Die Lippensynchronisierungstechnik ist besonders zweckmäßig, um auf Sprechäußerungen basierende Lippenbewegungen auf einem Avatar abzubilden. Ferner ist diese Technik hilfreich als Backup für den Fall, dass die auf Sicht-Basis durchgeführte Lippen-Verfolgung versagt.
Obwohl vorstehend die bevorzugten Ausführungsformen der Erfindung offenbart sind, wird darauf hingewiesen, dass Fachleute verschiedene Änderungen an den bevorzugten Ausführungsformen vornehmen können, ohne den Bereich der Endung zu verlassen. Die Erfindung ist nur durch die folgenden Ansprüche definiert.

Claims

Verfahren zur Merkmalserkennung in einer Abfolge von Einzelbildern (40), mit einem Schritt (42) zum Transformieren jedes Einzelbilds (40) durch eine Elementarwellen-Transformation, um ein transformiertes Einzelbild (44) zu erzeugen, einem Schritt (46), um Knotenpunkte (64) eines Modell-Diagramms (68), von denen jeder Knotenpunkt (64) einem für ein Merkmal spezifischen Elementarwellen-Strahl (60) zugeordnet ist, zu Positionen an dem transformierten Einzelbild (44) zu initialisieren, indem das Modell-Diagramm (68) über das eine transformierte Einzelbild (44) bewegt wird und das Modell-Diagramm (68) an einer Position in dem transformierten Einzelbild (44) platziert wird, an der die maximale Strahl-Ähnlichkeit (50) zwischen den Elementarwellen-Strahlen (60) der Knotenpunkte (64) und Positionen an dem transformierten Einzelbild (44) besteht, die bestimmt werden, während das Modell-Diagramm (68) über das transformierte Einzelbild (44) bewegt wird, und einem Schritt (34) zum Verfolgen der Position eines oder mehrerer Knotenpunkte (64) des Modell-Diagramms (68) zwischen Einzelbildern, dadurch gekennzeichnet, dass das Verfahren ferner einen Schritt (90) zum Reinitialisieren der Position eines verfolgten Knotenpunkts (64), falls die Position des verfolgten Knotenpunkts (64) zwischen Einzelbildern (40) über eine vorbestimmte Positionsbeschränkung hinaus abweicht, aufweist, derart, dass nur die Position eines verfolgten Knotenpunkts (64), die über die vorbestimmte Positionsbeschränkung hinaus abgewichen ist, reinitialisiert wird und die Position eines oder mehrerer weiterer Knotenpunkte (64) des Modell-Diagramms (68), die nicht über die vorbestimmte Positionsbeschränkung hinaus zwischen Einzelbildern (40) abgewichen sind, ohne Reinitialisierung fortbesteht, und wobei das in dem Initialisierungs-Schritt (46) und dem Reinitialisierungs-Schritt (50) verwendete Modell-Diagramm (68) auf einer vorbestimmten Orientierung des verfolgten Objekts basiert.
Verfahren zur Merkmalserkennung nach Anspruch 1, dadurch gekennzeichnet, dass in dem Verfolgungs-Schritt (34) die Knotenpunkt(64)-Positionen durch elastisches Bunch Graph Matching verfolgt werden.
Verfahren zur Merkmalserkennung nach Anspruch 1, dadurch gekennzeichnet, dass in dem Verfolgungs-Schritt (34) eine Linearpositions-Vorhersage zum Vorhersagen von Knotenpunkt(64)-Positionen in einem nachfolgenden Einzelbild verwendet wird und in dem Reinitialisierungs-Schritt eine Knotenpunkt(64)-Position auf der Basis einer Abweichung von der vorhergesagten Knotenpunkt(64)-Position reinitialisiert wird, die größer ist als eine vorbestimmte Schwell-Abweichung.
Verfahren zur Merkmalserkennung nach Anspruch 1, dadurch gekennzeichnet, dass die vorbestimmte Positionsbeschränkung auf einer geometrischen Positionsbeschränkung basiert, die Relativpositionen der Knotenpunkt(64)-Positionen zugeordnet ist.
Verfahren zur Merkmalserkennung nach Anspruch 1, dadurch gekennzeichnet, dass die Knotenpunkt(64)-Positionen an eine entfernte Position (16, 18, 20, 132, 134, 140) zwecks Animierung eines Bilds einer virtuellen Figur (142) übertragen werden.
Verfahren zur Merkmalserkennung nach Anspruch 1, dadurch gekennzeichnet, dass in dem Knotenpunktpositionen-Verfolgungs-Schritt (34) eine Lippen-Synchronisierung basierend auf Audiosignalen durchgeführt wird, die derjenigen Bewegung der Knotenpunkt-Positionen zugeordnet sind, welche für einen die Audio-Signale erzeugenden Mund spezifisch sind.
Verfahren zur Merkmalserkennung nach Anspruch 1, dadurch gekennzeichnet, dass der Reinitialisierungs-Schritt (90) durch Gruppen-Diagramm-Anpassung (104, 108, 112) durchgeführt wird.
Verfahren zur Merkmalserkennung nach Anspruch 7, dadurch gekennzeichnet, dass die Gruppen-Diagramm-Anpassung (104, 108, 112) durch ein Teilgruppen-Diagramm durchgeführt wird.
Verfahren zur Merkmalserkennung nach Anspruch 1, dadurch gekennzeichnet, dass in dem Verfolgungs-Schritt (34) ein Gesichts-Merkmal bestimmt wird.
Verfahren zur Merkmalserkennung nach Anspruch 9, dadurch gekennzeichnet, dass das Verfahren ferner das Übertragen der Knotenpunkt-Positionen und Gesichts-Merkmale an eine entfernte Position (132, 134, 140) zwecks Animierung eines Bilds einer virtuellen Figur (142) umfasst, das Gesichts-Merkmale aufweist, die auf den durch den Verfolgungs-Schritt (34) bestimmten Gesichts-Merkmalen basieren.
Verfahren zur Merkmalserkennung nach Anspruch 9, dadurch gekennzeichnet, dass das durch den Verfolgungs-Schritt (34) bestimmte Gesichts-Merkmal darin besteht, ob ein Mund offen oder geschlossen ist.
Verfahren zur Merkmalserkennung nach Anspruch 9, dadurch gekennzeichnet, dass das durch den Verfolgungs-Schritt (34) bestimmte Gesichts-Merkmal darin besteht, ob Augen offen oder geschlossen sind.
Verfahren zur Merkmalserkennung nach Anspruch 9, dadurch gekennzeichnet, dass das durch den Verfolgungs-Schritt (34) bestimmte Gesichts-Merkmal darin besteht, ob eine Zunge im Mund sichtbar ist.
Verfahren zur Merkmalserkennung nach Anspruch 9, dadurch gekennzeichnet, dass das durch den Verfolgungs-Schritt (34) bestimmte Gesichts-Merkmal auf im Bild detektierten Gesichtsfalten basiert.
Verfahren zur Merkmalserkennung nach Anspruch 9, dadurch gekennzeichnet, dass das durch den Verfolgungs-Schritt (34) bestimmte Gesichts-Merkmal auf dem Haar-Typ basiert.
Verfahren zur Merkmalserkennung nach Anspruch 9, dadurch gekennzeichnet, dass jedes Gesichts-Merkmal durch Training (120) einer Bild-Markierung (128, 138) zugeordnet wird, die ein Bild-Segment des Einzelbilds (130) identifiziert, das dem Gesichts-Merkmal zugeordnet ist.
Verfahren zur Merkmalserkennung nach Anspruch 16, dadurch gekennzeichnet, dass die durch die zugeordnete Bild-Markierung (128, 138) identifizierten Bild-Segmente morphemweise in ein Bild einer virtuellen Figur (142) eingebracht werden.
Verfahren zur Merkmalserkennung nach Anspruch 16, dadurch gekennzeichnet, dass die Knotenpunkt-Positionen und Merkmals-Markierungen zur Volumen-Morphemeinbringung der entsprechenden Bild-Segmente in ein dreidimensionales Bild verwendet werden.
Verfahren zur Merkmalserkennung nach Anspruch 9, dadurch gekennzeichnet, dass das Modell-Diagramm (68) 18 Knotenpunkte (64) aufweist, die unterscheidenden Merkmalen eines menschlichen Gesichts zugeordnet sind.
Verfahren zur Merkmalserkennung nach Anspruch 19, dadurch gekennzeichnet, dass die 18 Knotenpunkt(64)-Positionen des Gesichts im Einzelnen betreffen: die Pupille des rechten Auges; die Pupille des linken Auges; den oberen Bereich der Nase; die rechte Ecke der rechten Augenbraue; die linke Ecke der rechten Augenbraue; die linke Ecke der linken Augenbraue; das rechte Nasenloch; die Nasenspitze; das linke Nasenloch; den rechten Mundwinkel; die Mitte der Oberlippe; den linken Mundwinkel; die Mitte der Unterlippe; den Unterbereich des rechten Ohrs; den Oberbereich des rechten Ohrs; den Unterbereich des linken Ohrs; und den Oberbereich des linken Ohrs.
Vorrichtung zur Merkmalserkennung in einer Abfolge von Einzelbildern (40), mit einer Einrichtung (12, 22, 24, 26, 28, 30) zum Transformieren jedes Einzelbilds (40) durch eine Elementarwellen(wavelet)-Transformation, um ein transformiertes Einzelbild (44) zu erzeugen, einer Einrichtung (46), um Knotenpunkte (64) eines Modell-Diagramms (68), von denen jeder Knotenpunkt (64) einem für ein Merkmal spezifischen Elementarwellen-Strahl (60) zugeordnet ist, zu Positionen an dem transformierten Einzelbild (44) zu initialisieren, indem das Modell-Diagramm (68) über das eine transformierte Einzelbild (44) bewegt wird und das Modell-Diagramm (68) an einer Position in dem transformierten Einzelbild (44) platziert wird, an der die maximale Strahl-Ähnlichkeit (50) zwischen den Elementarwellen-Strahlen (60) der Knotenpunkte (64) und Positionen an dem transformierten Einzelbild (44) besteht, die bestimmt werden, während das Modell-Diagramm (68) über das transformierte Einzelbild (44) bewegt wird, und einer Einrichtung (34) zum Verfolgen der Position eines oder mehrerer Knotenpunkte (64) des Modell-Diagramms (68) zwischen Einzelbildern, dadurch gekennzeichnet, dass das Verfahren ferner eine Einrichtung zum Reinitialisieren eines verfolgten Knotenpunkts (64) aufweist, falls die Position des verfolgten Knotenpunkts zwischen Einzelbildern (40) über eine vorbestimmte Positionsbeschränkung hinaus abweicht, derart, dass nur die Position eines verfolgten Knotenpunkts (64), die über die vorbestimmte Positionsbeschränkung hinaus abgewichen ist, reinitialisiert wird und die Position eines oder mehrerer weiterer Knotenpunkte (64) des Modell-Diagramms (68), die nicht über die vorbestimmte Positionsbeschränkung hinaus zwischen Einzelbildern (40) abgewichen sind, ohne Reinitialisierung fortbesteht, und wobei der von der Initialisierungs-Einrichtung (46) und dem Reinitialisierungs-Einrichtung (90) verwendete Modell-Diagramm (68) auf einer vorbestimmten Orientierung des verfolgten Objekts basiert.
Vorrichtung zur Merkmalserkennung nach Anspruch 21, dadurch gekennzeichnet, dass die Vorrichtung ferner eine Einrichtung (14) zum Bestimmen eines Gesichts-Merkmals und eine Einrichtung (08) zur Animation eines Bilds mit virtueller Figur mit Gesichts-Merkmalen aufweist, die auf den von der Bestimmungs-Einrichtung (14) generierten Gesichts-Eigenschaften basieren.