-
Die
Erfindung bezieht sich auf digitale Bildverarbeitungsverfahren zum
Erkennen von Gesichtselementen und insbesondere auf Verfahren zum
Erkennen von menschlichen Augen.
-
In
der digitalen Bildverarbeitung ist es häufig erwünscht, menschliche Augen in
einem Bild erkennen zu können.
Diese Information wird zum Beispiel benötigt, um andere Elemente des
Bildes, etwa die Sichtrichtung eines Menschen, bestimmen zu können. Außerdem kann
diese Information auch anderen Zwecken dienen, zum Beispiel dazu,
die Ausrichtung des menschlichen Gesichts im Bild festzustellen.
-
Verfahren
zum Erkennen menschlicher Augen in einem digitalen Bild sind dem
Fachmann bekannt. Zum Beispiel beschreibt US-A-6 072 892 den Einsatz
eines Schwellenwert-Verfahrens zum Erkennen der Position von menschlichen
Augen in einem digitalen Bild. Bei diesem Verfahren wird das gesamte
Bild in einem Rasterabtastverfahren mittels eines Abtastfensters
gescannt. Während
des Abtastens des Bildes extrahiert ein Histogramm-Extrahiermechanismus
aus dem Fenster ein Intensitäts-Histogramm.
Ein Spitzenwert-Detektor ermittelt in jedem Intensitäts-Histogramm
drei Spitzenwerte, die die Haut, das Weiß des Auges und das Schwarz
der Pupille repräsentieren.
Ein Histogramm, das diese drei Spitzenwerte aufweist, deutet auf
eine Position in einem Bild hin, die potentiell eine Augenposition
sein kann. Aus den potentiellen Positionen wird die Augenposition
dadurch bestimmt, dass man den vom Histrogramm erfassten, jeder
potentiellen Position zugeordneten Bereich berechnet und die Position
auswählt,
die dem Histogramm mit dem größten Bereich
entspricht.
-
Eines
der Probleme dieser Lösung
besteht darin, dass das gesamte Bild Pixel für Pixel abgetastet werden muss.
Hierzu muss an jedem Pixel des Bildes ein Suchfenster positioniert
und an jeder Pixelposition ein Histogramm erstellt werden. Ferner
muss der von jedem Histo gramm erfasste Bereich berechnet und gespeichert
werden. Natürlich
beansprucht dieses Verfahren eine enorme Rechnerleistung und verlangsamt
die Verarbeitung der Bilder. Ferner ergibt dieses Verfahren einen
hohen Anteil an Fehltreffern.
-
Bekannt
sind ferner Verfahren zum Erkennen von menschlichen Augen, die einen
abnorm hohen Rotanteil aufweisen. Dieser abnorm hohe Rotanteil wird
normalerweise mit einem als "rote
Augen"-Effekt bekannten
fotografischen Phänomen
verbunden. Rote Augen werden normalerweise durch einen Lichtblitz
verursacht, der von einer Pupille reflektiert wird. Aus dem gemeinsam
abgetretenen Parallelpatent US-A-6 292 574 ist bekannt, Bilder nach
Pixeln abzusuchen, die den auf rote Augen hinweisenden hohen Rotgehalt
aufweisen. Desgleichen beschreibt die gemeinsam abgetretene US-A-5
432 863 ein benutzerinteraktives Verfahren zum Erkennen von Pixeln
in einem Bild, die die Farbmerkmale von roten Augen aufweisen. Es
versteht sich, dass diese Verfahren Augen nur erkennen können, wenn
tatsächlich
rote Augen vorliegen.
-
Es
besteht daher ein Bedarf an einem Verfahren, das das genauere und
effizientere Bestimmen menschlicher Augen in einem digitalen Bild
ermöglicht.
-
Bei
einer anderen, in der gemeinsam abgetretenen
EP 0899680 mit dem Titel "Verfahren zum automatischen
Erkennen von menschlichen Augen in digitalen Bildern" beschriebenen Lösung wird
ein Computerprogrammprodukt zum Bestimmen erster und zweiter Objekte
bereitgestellt, die jeweils im Wesentlichen dieselben physischen
Eigenschaften aufweisen und bei denen das Verhältnis des Abstandes zwischen
den ersten und zweiten Objekten und der Größe jedes Objekts im Wesentlichen
unveränderlich
ist. Gemäß dem dort
beschriebenen Verfahren werden in einem Bild potentielle Hautbereiche
und vertiefte Bereiche bestimmt. Mittels einer Schablone wird eine
Vielzahl von Positionen ermittelt, deren Objekte die gewünschte Übereinstimmung mit
der Schablone aufweisen. Durch weitere Überprüfungen wird die Wahrscheinlichkeit
des Vorhandenseins potentieller Augenpaare an den durch die Schablonenprüfung ermittelten
Positionen festgestellt.
-
Bei
einer weiteren, in XP-00893534 mit dem Titel "Erkennen eines Gesichts und Extraktion
von Gesichtselementen mittels farb-, form- und symmetriebasierter
Kostenfunktionen" beschriebenen
Lösung
wird ein Verfahren zum Erkennen von menschlichen Gesichtern und zum
anschließenden
Bestimmen der Position der Augen, der Nase und des Mundes angegeben.
In einem ersten Schritt dieses Verfahrens wird die Position eines
Gesichts anhand von Farb- und Forminformationen bestimmt. Mittels
eines überwachten
pixelbasierten Farbklassifizierverfahrens werden alle Pixel markiert,
die innerhalb eines bestimmten Abstandes der "Hautfarbe" liegen. Diese Farbklassifizierungs-Matrix
wird dann einer Glättung
entweder durch morphologische Operationen oder Filtern mittels eines
Gibbs-Zufallsfeldmodells unterzogen. Mithilfe aus der räumlichen
Kovarianz-Matrix errechneter Eigenwerte und Eigenvektoren wird dann
eine Ellipse auf den zu analysierenden Hautbereich angelegt. Anhand
des Hausdorff-Abstandes wird ein Vergleich zur Ermittlung der Ähnlichkeit
zwischen der Form des Bereichs und der Modell-Ellipse durchgeführt. Dann
werden der Mittelpunkt der Augen, die Nasenspitze und der Mittelpunkt
des Mundes innerhalb der Gesichts-Segmentierungsmaske mittels symmetriebasierter
Kostenfunktionen festgelegt. Dabei nutzen die Kostenfunktionen die
den Gesichtsformen eigenen Symmetrien.
-
Es
wurden also bereits eine Vielzahl von Verfahren zum Erkennen von
Gesichtsmerkmalen vorgeschlagen. Allerdings eignet sich nicht jedes
Verfahren zur effizienten Analyse jedes Bildes, so dass der Wunsch
nach einem Verfahren für
die Auswahl und die effiziente Anwendung eines oder mehrerer dieser
Verfahren besteht.
-
Erfindungsgemäß wird dieser
Bedarf durch ein digitales Bildverarbeitungsverfahren zum Erkennen von
menschlichen Augen in einem digitalen Bild erfüllt. Das Verfahren umfasst
die folgenden Schritte: Erkennen von Irispixeln in dem Bild, Anhäufen der
Irispixel und Auswählen
mindestens eines der folgenden Verfahren zum Identifizieren von
Augenpositionen: Anwenden geometrischer Schlussfolgerungen, um unter
Verwendung der Irispixelanhäufungen
Augenpositionen zu erkennen, Anwenden des Verfahrens der Summation
der quadratischen Differenzen, um auf der Grundlage der Irispixelanhäufungen
Augenpositionen zu erkennen, und Anwenden des Verfahrens der Summation
der quadratischen Differenzen, um anhand der Pixel im Bild Augenpositionen
zu erkennen, wobei das angewandte Verfahren auf der Grundlage der
Anzahl von Irispixelanhäufungen
ausgewählt
wird.
-
Die
Erfindung wird im Folgenden anhand eines in der Zeichnung dargestellten
Ausführungsbeispiels näher erläutert.
-
Es
zeigen:
-
1 ein
schematisches Diagramm eines für
die Ausführung
der Erfindung geeigneten Bildverarbeitungssystems;
-
2 ein
Flussdiagramm des erfindungsgemäßen Verfahrens
zum Erkennen von Augen;
-
3 eine
Darstellung der Beziehung zwischen bestimmten geometrischen Parametern
und einem ovalen hautfarbigen Bereich in einem Bild;
-
4 eine
Darstellung der bedingten Wahrscheinlichkeit, dass ein gegebenes
Pixel ein Irispixel ist, ausgedrückt
als Funktion einer bestimmten Rotintensität, sowie der bedingten Wahrscheinlichkeit,
dass ein gegebenes Pixel kein Irispixel ist, ausgedrückt als
Funktion einer bestimmten Rotintensität I;
-
5 ein
Flussdiagramm des Verfahrens zur Entwicklung eines statistischen
Modells der bedingten Wahrscheinlichkeit, dass ein gegebenes Pixel
ein Irispixel ist, ausgedrückt
als Funktion einer bestimmten Rotinsitätsstufe, sowie eines statistischen
Modells der bedingten Wahrscheinlichkeit, dass ein gegebenes Pixel kein
Irispixel ist, ausgedrückt
als Funktion einer bestimmten Rotintensitätsstufe;
-
6 eine
Darstellung der irisfarbigen Pixelanhäufungen;
-
7 ein
Flussdiagramm des Prozesses der Anwendung der Summation der quadrierten
Differenzen zum Erkennen von Augenpositionen mittels Irispixelanhäufungen;
-
8 eine
Augenschablone und ein auf den Mittelpunkt einer Irispixelanhäufung zentriertes
Suchfenster; und
-
9 eine
Augenschablone und ein Bild, wie diese bei der Anwendung des Verfahrens
der Summation der quadrierten Differenzen zum Erkennen von Augenpositionen
mittels Bildpixeln angewandt werden.
-
In 1 ist
ein für
die Durchführung
der Erfindung geeignetes Bildverarbeitungssystem mit einer digitalen
Farbbildquelle 10, etwa einem Filmscanner, einer digitalen
Kamera oder einer digitalen Bildspeichervorrichtung, zum Beispiel
einem CD-Laufwerk mit Bild-CD, dargestellt. Das von der digitalen
Bildquelle 10 kommende digitale Bild wird einem Bildprozessor 12,
etwa einem programmierten PC oder einer digitalen Bildverarbeitungs-Arbeitsstation,
zum Beispiel einer Workstation Sun Sparc 20, zugeführt. Der
Bildprozessor 12 ist gegebenenfalls mit einem Kathodenstrahl-Display 14 und
einer Bedienerschnittstelle, etwa einer Tastatur 16 und
einer Maus 18, verbunden. Ferner ist der Bildprozessor 12 mit
einem computerlesbaren Speichermedium 17 verbunden. Der
Bildprozessor 12 übermittelt
verarbeitete digitale Bilder an ein Ausgabegerät 19. Das Ausgabegerät 19 besteht
zum Beispiel aus einem Drucker, einem Langzeit-Bildspeichergerät, einem
Anschluss an einen weiteren Prozessor oder einem zum Beispiel mit
dem Internet verbundenen Telekommunikationsgerät für Bilder.
-
In 2 wird
das erfindungsgemäße Verfahren
genauer beschrieben. 2 zeigt ein Flussdiagramm einer
Ausführungsform
des erfindungsgemäßen Verfahrens
zum Erkennen von Augen. Gemäß 2 wird
ein zu erarbeitendes digitales Farbbild zunächst einem Schritt 200 zum
Erkennen von irisfarbigen Pixeln zugeführt. Bei der dargestellten
Ausführungsform
werden irisfarbige Pixel dadurch erkannt, dass zunächst hautfarbige
Bereiche im Bild erkannt werden und die irisfarbigen Pixel dann
durch Messen der Rotintensitätsstufen innerhalb
der hautfarbigen Bereiche identifiziert werden.
-
Der
erste Schritt des Verfahrens zum Erkennen von hautfarbigen Bereichen
besteht in dem in 2 als Schritt 201 dargestellten
Farbhistogramm-Ausgleich. Im Schritt 201 – Farbhistogramm-Ausgleich – werden die
zu verarbeitenden Bilder entgegengenommen, und es wird sichergestellt,
dass sich die Bilder in einer Form befinden, die das Erkennen von
hautfarbigen Bereichen erlaubt. Dieser Schritt ist deshalb nötig, weil
die menschliche Haut in einem Bild wegen spezieller Belichtungsbedingungen,
Blitzlichteinwirkung und der Eigenschaften des Films jede beliebige
Anzahl unterschiedlicher Farben annehmen kann. Dadurch wird es schwierig,
Hautbereiche in solchen Bildern automatisch zu erkennen. Im Farbhisto-gramm-Ausgleich des Schritts 201 wird
eine statistische Analyse jedes Bildes durchgeführt. Wenn die statistische
Analyse ergibt, dass das Bild gegebenenfalls Hautbereiche enthält, deren
Aussehen durch Belichtungsbedingungen verändert wurde, werden diese Bilder
so modifiziert, dass hautfarbige Bereiche erkannt werden können.
-
Nach
dem Schritt des Farbhistogramm-Ausgleichs wird das Bild im Schritt 203 – Hautfarbenerkennung – nach hautfarbigen
Bereichen durchsucht. Zwar gibt es zahlreiche Möglichkeiten, Hautbereiche in
einem digitalen Bild zu erkennen, ein bevorzugtes Verfahren zum
Erkennen von Hautbereichen in einem digitalen Bild besteht jedoch
darin, die hautfarbigen Pixel von anderen Pixeln in einem Bild zu
trennen, indem ein Arbeits-Farbraum definiert wird, der einen Farbbereich
möglicher
Hautfarben enthält,
die aus einer großen
ausgeglichenen Menge von Bildern zusammengetragen wurden. Ein Pixel
wird dann als hautfarbiges Pixel identifiziert, wenn es eine innerhalb
des Arbeits-Farbraums liegende Farbe aufweist.
-
Der
Schritt 203 zum Erkennen von Hautfarben identifiziert einen
im Bild vorkommenden Bereich von hautfarbigen Pixeln. Dieser Bereich
kann in unterschiedlicher Weise definiert werden. Bei einer Ausführungsform
wird der hautfarbige Bereich durch eine Gruppe von Pixelpositionen
definiert, an denen sich im Bild Pixel mit Hautfarben befinden.
Bei einer anderen Ausführungsform
wird ein modifiziertes Bild erzeugt, das nur hautfarbige Pixel enthält. Bei
einer weiteren Ausführungsform
definiert der Hautfarben-Erkennungsschritt 203 Grenzen
des hautfarbigen Bereichs im Bild. Selbstverständlich können in einem Bild auch mehrere
hautfarbige Bereiche identifiziert werden.
-
Im
Schritt 204 – Extraktion
eines ovalen Bereichs – werden
die durch den Hautfarben-Erkennungsschritt 203 erkannten
hautfarbigen Bereiche untersucht, um hautfarbige Bereiche zu lokalisieren,
die auf ein Gesicht hinweisen könnten.
Da das menschliche Gesicht eine ungefähr ovale Form aufweist, werden
die hautfarbigen Bereiche auf einen ovalen Hautfarbenbereich untersucht.
Wird ein ovaler Hautfarbenbereich gefunden, misst der Schritt 204 – Extraktion
eines ovalen Bereichs – die
geometrischen Eigenschaften des ovalen Hautfarbenbereichs. Diese
Messungen werden im Schritt 204 – Extraktion eines ovalen Bereichs – zur Festlegung
von Parametern verwendet, die die Größe des Gesichts und die Position
des Gesichts innerhalb des Bildes beschreiben.
-
In 3 ist
die Beziehung zwischen den für
die Definition eines ovalen Hautfarbenbereichs im Bild angewandten
geometrischen Parametern dargestellt. Gemäß der Darstellung in 3 sind
dies die Parameter Oval_top 300 (oberer Rand des Ovals),
Oval_bottom 302 (unterer Rand des Ovals), Oval_left 304 (linker
Rand des Ovals), Oval_right 306 (rechter Rand des Ovals),
Oval_center_row 308 (mittlere Reihe des Ovals), und Oval_center_column 310 (mittlere
Spalte des Ovals). Diese Parameter werden in späteren Schritten des erfindungsgemäßen Verfahrens
zur Verbesserung der Effizienz des Augenerkennungsverfahrens angewandt.
Es versteht sich, dass das erfindungsgemäße Verfahren auch auf der Grundlage
von Hautfarben-Erkennungsbreichen durchgeführt werden kann, die andere
als ovale Formen aufweisen, und dass in Verbindung mit diesen Formen
andere geometrische Parameter definiert werden können. Außerdem versteht es sich, dass
nicht unbedingt ein ovaler Bereich oder ein andersförmiger Bereich
im Bild erkannt werden muss. In einem solchen Fall wird der Hautfarbenbereich
auf irisfarbige Pixel untersucht. Außerdem werden in einem solchen
Fall weitere den Hautfarbenbereich beschreibende Parameter zur Anwendung
im Augenerkennungsprozess definiert.
-
Nach
der Extraktion des ovalen Bereichs wird der ovale Hautfarbenbereich
auf irisfarbige Pixel untersucht. Dies geschieht im Schritt 206 – Erkennen
irisfarbiger Pixel. Durch die Begrenzung der Suche der irisfarbigen
Pixel auf die innerhalb des ovalen Hautfarbenbereichs liegenden
Pixel wird natürlich
die Effizienz des Verfahrens zum Erkennen irisfarbiger Pixel verbessert.
Außerdem
bestehen natürlich
viele Möglichkeiten,
Pixel, die einer Iris zugeordnet werden können, im Irispixel-Erkennungsschritt 200 zu
erkennen. Zum Beispiel können
sie durch einfache Farbschwellenwert-Verfahren, Modellabbildung
und andere auf dem Gebiet bekannte Verfahren identifiziert werden.
-
Bei
einer bevorzugten Ausführungsform
werden Irispixel mittels des im gemeinsam abgetretenen Patent US-A-6
652 458 mit dem Titel "Digitales
Bildverarbeitungsverfahren und Computerprogrammprodukt zum Erkennen
der menschlichen Iris in einem Bild" beanspruchten und beschriebenen Verfahrens
erkannt. Bei dieser Ausführungsform
erfolgt im Schritt 206 – Erkennen von irisfarbigen
Pixeln – die
Bestimmung, ob ein Pixel ein Irispixel ist, durch Messen der Rotintensität des Pixels.
Denn es wurde beobachtet, dass eine menschliche Iris im Vergleich
zur menschlichen Haut, die eine relativ hohe Rotintensität aufweist,
nur eine geringe Rotintensität
hat. Allerdings werden bei dieser Ausführungsform irisfarbige Pixel
nicht mittels eines einfachen Schwellenwertverfahrens von hautfarbigen
Pixeln getrennt. Vielmehr wird anhand der Rotintensitäten der
Pixel im ovalen Hautfarbenbereich die Wahrscheinlichkeit bestimmt,
dass die einzelnen Pixel jeweils Irispixel sind bzw. dass die einzelnen
Pixel keine Irispixel sind. Durch Analyse der Beziehung zwischen
der Wahrscheinlichkeit, dass das Pixel ein Irispixel ist, und der Wahrscheinlichkeit,
dass das Pixel kein Irispixel ist, wird dann bestimmt, ob das Pixel
ein Irispixel ist.
-
Die
Bestimmung der Wahrscheinlichkeit, dass ein Pixel mit einer gegebenen
Rotintensität
ein Irispixel ist, erfolgt anhand eines statischen Irismodells.
Desgleichen wird anhand eines statistischen Irismodells die Wahrscheinlichkeit,
dass ein gegebenes Pixel kein Irispixel ist, auf Basis der Rotintensitätsstufe
des Pixels definiert. Wie in dem Beispiel der 4 dargestellt,
die ein Beispiel eines statistischen Modells der bedingten Wahrscheinlichkeit 402,
dass ein gegebenes Pixel ein Irispixel ist, als Funktion einer bestimmten
Rotintensität sowie
ein Beispiel eines statistischen Modells der bedingten Wahrscheinlichkeit 404,
dass ein gegebenes Pixel kein Irispixel ist, als Funktion einer
bestimmten Rotinsität
I darstellt, ist die Beziehung zwischen diesen Modellen nicht linear.
-
Die
Wahrscheinlichkeitsanalyse kann in unterschiedlicher Weise durchgeführt werden.
Zum Beispiel können
die Wahrscheinlichkeiten auf unterschiedliche Weise mit einem Pixel
kombiniert werden, das auf der Grundlage der Beziehung zwischen
diesen Wahrscheinlichkeiten als Iris- oder Nichtiris-Pixel klassifiziert
wird. Bei einer bevorzugten Ausführungsform
werden jedoch mittels eines als Bayes-Modell bekannten mathematischen
Konstrukts die Wahrscheinlichkeiten so kombiniert, dass sich die
bedingte Wahrscheinlichkeit ergibt, dass ein Pixel mit einer gegebenen
Rotintensität
zu einer Iris gehört.
-
Bei
dieser Ausführungsform
wird das Bayes-Modell wie folgt angewandt:
worin P(iris|I) die bedingte
Wahrscheinlichkeit ist, dass eine gegebene Pixelintensität zu einer
Iris gehört, P(I|iris)
die bedingte Wahrscheinlichkeit ist, dass ein gegebenes Irispixel
eine bestimmte Intensität
I aufweist, P(iris) die Wahrscheinlichkeit des Auftretens einer
Iris in dem ovalen Gesichtsbereich wiedergibt, P(I|noniris) die
bedingte Wahrscheinlichkeit wiedergibt, dass ein gegebenes Nichtiris-Pixel
eine bestimmte Intensität
I aufweist, und P(noniris) die Wahrscheinlichkeit des Auftretens
eines Nichtiris-Pixels im ovalen Gesichts bereich wiedergibt. Außerdem wendet
das Bayes-Modell die Wahrscheinlichkeit des Auftretens eines Irispixels
in einem ovalen Gesichtsbereich und die Wahrscheinlichkeit des Auftretens
eines Nichtiris-Pixels in dem ovalen Gesichtsbereich an. Mithilfe
einer auf dem Bayes-Modell
beruhenden Wahrscheinlichkeitsanalyse wird ein Pixel als Irispixel
qualifiziert, wenn die bedingte Wahrscheinlichkeit, dass ein Pixel
mit einer gegebenen Rotintensität
zu einer Iris gehört,
größer ist
als zum Beispiel 0,05.
-
Bei
der vorstehend beschriebenen Ausführungsform werden nur die Pixel
geprüft,
die sich innerhalb des durch Oval_top 300, Oval_bottom 302,
Oval_left 304, und Oval_right 306 definierten
ovalen Hautfarbenbereichs befinden. Dadurch, dass die zu prüfenden Pixel
auf die im ovalen Hautfarbenbereich befindlichen Pixel beschränkt werden,
wird die Anzahl der zu prüfenden
Pixel reduziert und die Wahrscheinlichkeit verringert, dass Pixel,
die keine Iris darstellen, als solche klassifiziert werden. Es versteht
sich, dass die in anderen Ausführungsformen
der Erfindung beschriebene Beschränkung der zu prüfenden Pixel
auf die Pixel im Hautfarbenbereich ähnliche Vorteile mit sich bringt.
Ferner versteht es sich, dass es nicht zwingend nötig ist,
Hautfarbenbereiche zu erkennen, und dass die Erfindung auch in der
Weise durchgeführt
werden kann, dass man die Rotintensität jedes Pixels im Bild misst
und anhand der vorstehend beschriebenen Wahrscheinlichkeitsanalyse bestimmt,
ob ein Pixel ein Irispixel ist.
-
Das
Flussdiagramm der 5 gibt den Bayes-Farbmodell-Lernschritt 226 wieder,
mittels dessen das statistische Modell zur Bestimmung, ob das Pixel
ein Irispixel ist, und das statistische Modell zur Bestimmung, ob
das Pixel ein Nichtiris-Pixel ist, definiert werden. Das Verfahren
gemäß Schritt 226 wird
vor Anwendung des erfindungsgemäßen Verfahrens
zum Erkennen von Irispixeln ausgeführt. Hierzu wird, wie in 5 dargestellt, eine
große
Probemenge von Gesichts-Frontalbildern gesammelt und untersucht.
Dann werden alle im Gesichtsbereich vorhandenen Irispixel und Nichtiris-Pixel – 502 und 504 – identifiziert.
Danach werden zunächst die
bedingte Wahrscheinlichkeit P(I|iris), dass ein gegebenes Irispixel
eine bestimmte Rotintensität
I aufweist, sowie die Wahrscheinlichkeit P(iris) 506, dass
eine Iris im ovalen Gesichtsbereich vorliegt, und anschließend die
bedingte Wahrscheinlichkeit P(I|noniris) berechnet, dass ein gegebenes
Nichtiris-Pixel eine bestimmte Rotintensität I aufweist, wonach schließlich die
Wahrscheinlichkeit P(noniris) 508 des Vorliegens eines
Nichtiris-Pixels im ovalen Gesichtsbereich berechnet wird. Die berechneten
statistischen Modelle dienen dem Bayes-Modell dazu, die bedingte Wahrscheinlichkeit
P(iris|I) 510 wiederzugeben, dass eine gegebene Pixelintensität zu einer
Iris gehört.
Bei bestimmten Ausführungsformen
kann das Bayes-Modell
auch eingesetzt werden, um eine Vergleichstabelle für den Irispixel-Erkennungsschritt 206 zu
erzeugen.
-
Nachdem
die Position der Irispixel im Bild im Irisfarbpixel-Erkennungsschritt 206 identifiziert
wurde, werden die Irisfarbpixel Clustern zugewiesen. Dies geschieht
im Irispixel-Clusterbildungsschritt 208.
Ein Cluster ist eine nicht leere Gruppe von irisfarbigen Pixeln
mit der Eigenschaft, dass sich jedes Pixel im Cluster auch innerhalb
eines vorbestimmten Abstands zu einem anderen Pixel des Clusters
befindet. Ein solcher vorgegebener Abstand kann zum Beispiel ein
Dreißigstel
der digitalen Bildhöhe
betragen. Der Irispixel-Clusterbildungsschritt 208 gemäß 2 bildet
aus den irisfarbigen Pixeln Cluster gemäß dieser Cluster-Definition.
Es versteht sich jedoch, dass die Gruppierung der Pixel zu Clustern
auch nach anderen Kriterien erfolgen kann.
-
Unter
bestimmten Umständen
kann die Definition für
ein Cluster irisfarbiger Pixel so weit gefasst sein, dass auch ungültige Cluster
darunter fallen. In einem solchen in 2 dargestellten
Fall wird ein zusätzlicher Schritt 209 zur
Validierung der Cluster eingeführt.
Ein Cluster kann gegebenenfalls ungültig sein, weil es zu viele
irisfarbige Pixel enthält
oder weil die geometrische Beziehung der Pixel im Cluster vermuten
lässt,
dass das Cluster nicht auf eine Iris hinweist. Wenn zum Beispiel
das Verhältnis
zwischen Höhe
und Breite des Clusters bestimmt wird und dieses Verhältnis größer als
zwei ist, ist das Cluster ungültig.
Ungültige
Irispixel-Cluster bleiben bei der weiteren Verarbeitung unberücksichtigt.
Daher werden in den folgenden Abschnitten der Beschreibung gültige Irispixel-Cluster
einfach als Irispixel-Cluster bezeichnet.
-
Im
Schritt 210 wird die Anzahl der Irispixel-Cluster "n" berechnet. Die Anzahl der Irispixel-Cluster "n" dient im Entscheidungsschritt 210 dazu,
zwischen zwei Pfaden zum Erkennen von Augen in einem Bild auszuwählen. Wenn
die Anzahl der Irispixel "n" kleiner ist als
zwei, wird der Prozess mit dem Schritt 224 fortgesetzt,
der im Folgenden noch beschrieben wird. Wenn die Anzahl der irisfarbigen
Pixel "n" mindestens zwei beträgt, wird
der Prozess mit dem Schritt 212 fortgesetzt, in dem die
Mittelpunkte der Cluster bestimmt werden. Als Mit telpunkt eines
Clusters gilt der Massenmittelpunkt des Clusters. Die Mittelpunktposition
des Clusters wird in Bezug auf den Nullpunkt des Bild-Koordinatensystems
berechnet. Hierzu befindet sich der Nullpunkt des Bild-Koordinatensystems
in der oberen linken Ecke des Bildrandes.
-
Nachdem
der Mittelpunkt jedes Irispixel-Clusters lokalisiert ist, wird versucht,
durch geometrische Beweisführung
Augen auf der Grundlage der geometrischen Beziehung zwischen den
Irispixel-Clustern zu erkennen. Wenn, wie in 6 dargestellt,
nur zwei Cluster vorhanden sind, wobei eines in der linken Hälfe 604 und eines
in der rechten Hälfte 606 liegt,
und wenn der horizontale Abstand zwischen den Mittelpunkten der
beiden Cluster kleiner ist als der 0,4-fache Wert des Abstandes zwischen Oval_right 306 und
Oval_left 304, und wenn der vertikale Abstand zuwischen
den Mittelpunkten der beiden Cluster kleiner ist als ein Zehntel
des Abstandes zwischen Oval_top 300 und Oval_bottom 302,
werden diese Mittelpunktpositionen dieser beiden Cluster als die
Augenpositionen behandelt.
-
Es
ist ersichtlich, dass diese Analyse sehr schnell durchgeführt werden
kann. Wenn diese Analyse erfolgreich ist, ist keine weitere Maßnahme zum
Erkennen von Augenpositionen erforderlich. Deshalb wird im Schritt 216 eine Überprüfung des
Erkennungsergebnisses durchgeführt
um festzustellen, ob Augenpositionen erkannt wurden. Wurden Augenpositionen
erkannt, endet der Augenerkennungsprozess. Wurden keine Augenpositionen
erkannt, wird der Prozess mit Schritt 218 fortgesetzt.
-
Im
Schritt 218 wird das Verfahren der Summation quadrierter
Differenzen angewandt, um das Bild nach Augenpositionen zu durchsuchen.
Allgemein beinhaltet das Verfahren der Summation quadrierter Differenzen
die Berechnung der Summe der quadrierten Differenzen der Intensitätswerte
der entsprechenden Pixel in einer Augenschablone und in einem Bildbereich,
der dieselbe Größe aufweist
wie die Schablone. Bei diesem Verfahren entspricht jedes Pixel der
Pixelteilfläche
einem entsprechenden Pixel in der Schablone. Zunächst wird die Differenz zwischen
der Intensitätsstufe
jedes der entsprechenden Pixel berechnet. Dann wird jede Differenz
quadriert, und anschließend
wird die Summe der quadrierten Differenzen für alle Pixel der Gruppe berechnet.
Diese Summation quadrierter Differenzen liefert ein relatives Maß der Übereinstimmung
zwischen jeder der gemessenen Pixelgruppen und der Schablone. Werden
keine Augenpositionen erkannt – 220 –, wird das
Verfahren mit dem Schritt 224 fortgesetzt.
-
Erfindungsgemäß erfolgt
die Summation quadrierter Differenzen für jedes Pixel in jedem Fenster
jeder Halbregion. Diese Werte werden dann verglichen, und das Cluster
mit der relativ kleinsten Summe der quadrierten Differenzwerte wird
ausgewählt
und als eine Augenposition für
die betreffende Halbregion identifiziert. Dieses Verfahren wird
für die
Cluster der linken und der rechten Halbregionen wie nachstehend
beschrieben getrennt durchgeführt.
-
Es
ist darauf hinzuweisen, dass gemäß der Beschreibung
der Erfindung zwar das Verfahren der Summation quadrierter Differenzen
angewandt wird, um die relativ beste Korrelation zwischen der durchschnittlichen
Augenschablone und den einzelnen Pixelteilbereichen zu identifizieren,
dass aber auch andere Verfahren für diesen Zweck eingesetzt werden
können,
unter anderem auch das Verfahren der mittleren quadratischen Abweichung.
-
Gemäß einer
Ausführungsform
des erfindungsgemäßen Verfahrens
werden die im Ovalbereich-Erkennungsschritt 204 berechneten
Parameter dazu verwendet, die Effizienz der Anwendung des Verfahrens
der Summation quadrierter Differenzen zu verbessern, indem die Anzahl
der Positionen im Bild, an denen die Summation quadrierter Differenzen
berechnet werden muss, verringert wird. Wie in 6 dargestellt,
wird bei dieser Ausführungsform
der ovale Bereich mittels der mittleren Spalte des Ovals – 310 – in eine
linke Region 604 und eine rechte Region 606 unterteilt.
Wie ebenfalls in 6 zu erkennen ist, befinden
sich die Irispixelcluster 600 und die Mittelpunktposition 620 der
Irispixelcluster 600 entweder in der linken oder der rechten Halbregion 604 bzw. 606,
die durch die mittlere Spalte 310 des Ovals getrennt sind.
-
Im
Schritt 218 wird mittels des Verfahrens der Summation quadrierter
Differenzen und der Pixelcluster 600 in der linken Halbregion 604 ein
Suchprozess für
das linke Auge durchgeführt.
Desgleichen wird im Schritt 218 ein Suchprozess für das rechte
Auge in der rechten Halbregion anhand des Verfahrens der Summation quadrierter
Differenzen und der in der rechten Halbregion 606 befindlichen
Irispixelcluster 600 durchgeführt.
-
Im
Folgenden wird nun anhand der 7 und 8 das
Verfahren für
die Auswahl eines Clusters aus den Clustern einer Halbregion beschrieben.
Zu Beginn des Augenposition-Suchprozesses wird ein Fenster 800 im
Mittelpunkt jedes Clusters 802 der entsprechenden Halbregion
zentriert – 70.
Der Vorgabewert für
die Fenstergröße 800 beträgt ein Zwanzigstel
der Größe des Bildes 804.
Anschließend
erfolgt die Berechnung der Summe der quadrierten Differenzen – 72 – für jedes
der Pixel in jedem Fenster 800. Bei 76 wird dann
die Position des Pixels mit der kleinsten Summe quadrierter Differenzen
in jedem Fenster 800 aufgezeichnet. Wenn für jedes
Pixel jedes Fensters der Halbregion 78 eine Summe der quadrierten
Differenzen berechnet wurde, wird die Position des Pixels mit der
kleinsten Summe quadrierter Differenzen bei 79 aufgezeichnet.
Es ist dies die angenommene Augenposition der Halbregion. Dann wird
dieser Prozess für
die andere Halbregion durchgeführt.
Das Verfahren endet, wenn bei diesem Verfahren zwei Augen erkannt
werden.
-
Es
versteht sich, dass die Summation quadrierter Differenzen im Schritt 218 auch
ohne den Schritt der Extraktion eines ovalen hautfarbigen Bereichs
erfolgen kann. Bei einer solchen Ausführungsform kann der hautfarbige
Bereich in einen linken Halbbereich und einen rechten Halbbereich
unterteilt werden. Dann können die
Irispixelcluster in Cluster des linken Halbbereichs und Cluster
des rechten Halbbereichs unterteilt werden. Abschließend kann
das Verfahren der Summation quadrierter Differenzen wie vorstehend
beschrieben durchgeführt
werden.
-
Wenn
jedoch nach Durchführung
des Schritts 218 keine Augen erkannt wurden – 220 –, oder
wenn weniger als zwei Augenpixel-Cluster im Schritt 209 erkannt
wurden, wird das Augenerkennungsverfahren mit dem Schritt 224 fortgesetzt.
Der Schritt 224 läuft ähnlich ab
wie der Schritt 218. Allerdings wird, wie in 9 dargestellt,
das gesamte Bild 900 unterteilt und die Summe der quadrierten
Differenzen für
jedes Pixel des Bildes 904 im linken Halbbereich 908 bzw.
im rechten Halbbereich 910 berechnet.
-
Es
versteht sich, dass anstelle des Verfahrens der Summation quadrierter
Differenzen auch andere Verfahren zur Bestimmung der relativen Korrelation
zwischen einem Teilbereich eines Bildes und einer Augenschablone
angewandt werden können.
Ein Beispiel eines solchen Verfahrens ist das Verfahren der kleinsten quadratischen
Abweichung. Dieses Verfahren ist dem Fachmann bekannt.
-
Aus
Vorstehendem ist ersichtlich, dass das erfindungsgemäße Verfahren
drei unterschiedliche Prozesse zum Erkennen von Augen in einem Bild
vorsieht, die geometrische Beweisführung 212 und 214,
die Summation quadrierter Differenzen anhand der Irispixel-Cluster 218 und
die Summation quadrierter Differenzen anhand der Bildpixel 224.
Außerdem
versteht sich, dass die geometrische Beweisführung das einfachste und effizienteste
dieser Verfahren darstellt. Denn die geometrische Beweisführung stellt
das effizienteste Verarbeitungsverfahren dar und wird nur auf Irispixel-Cluster
angewandt. Die Anzahl dieser Cluster ist im Vergleich zur Anzahl
der Pixel in einem Bild relativ klein.
-
Dagegen
ist die im Schritt 224 erforderliche Anwendung des Verfahrens
der Summation quadrierter Differenzen auf jedes der Pixel in einem
Bild ein rechentechnisch umfangreicher Schritt, der viele Verarbeitungsschritte
und Berechnungen erfordert um festzustellen, ob ein einzelnes Pixel
im Bild für
eine Augenposition steht. Außerdem
muss das Verfahren des Schritts 224 auf alle Nichtiris-Pixel
in einem Bild angewandt werden. Bei einem heute üblichen Format werden digitale
Bilder mit 2,1 Megapixel-Kameras erfasst. Es wurden aber bereits
Kameras mit bis zu 16 Megapixel vorgestellt. Daher ist klar, dass
die Anwendung des Schritts 224 zum Erkennen von Augenpositionen
in einem Bild buchstäblich
Hunderte von Millionen von Arbeitsgängen für die Verarbeitung eines einzigen
Bildes erforderlich macht. Dies ist ein zeitaufwändiger und computerintensiver Prozess.
-
Als
Zwischenlösung
wird im Schritt 218 eine rechentechnisch umfangreiche Summation
quadrierter Differenzen durchgeführt,
wobei jedoch die Anwendung dieses Verfahrens auf die Pixel in dem
um die Irispixel-Cluster herum definierten Fenster beschränkt ist.
Dadurch wird die Anzahl der Pixel, auf die das Verfahren der Summation
quadrierter Differenzen anzuwenden ist, erheblich verringert, so
dass die Anwendung des Verfahrens der Summation quadrierter Differenzen – 220 – weniger
computerintensiv wird als das Verfahren der Summation quadrierter
Differenzen gemäß Schritt 224.
-
Ferner
ist ersichtlich, dass das erfindungsgemäße Verfahren eine Möglichkeit
vorsieht, automatisch zwischen diesen Augenerkennungsverfahren auszuwählen und
die Verfahren so zu kombinieren, dass die Anzahl der Irispixel-Cluster
zur Auswahl des effizientesten Verfahrens für das Erkennen von Augen in
einem Bild eingesetzt wird.
-
Der
Gegenstand der vorliegenden Erfindung bezieht sich auf die Technologie
des Verständnisses
digitaler Bilder, d.h. eine Technologie, die digitale Bilder verarbeitet,
um für
den Menschen verständliche
Objekte, Attribute oder Bedingungen zu erkennen und ihnen eine sinnvolle
Bedeutung zuzuweisen und die erhaltenen Ergebnisse für die weitere
Verarbeitung des digitalen Bildes zu verwenden.
-
Die
Aufgabe der Erfindung wird somit durch das vorliegende Verfahren
und das beschriebene Computerprogrammprodukt erfüllt.