DE60123378T2

DE60123378T2 - Digitales Bildverarbeitungsverfahren mit verschiedenen Arbeitsweisen zum Erkennen von Augen

Info

Publication number: DE60123378T2
Application number: DE60123378T
Authority: DE
Inventors: Shoupu Rochester Chen; Lawrence A. Rochester Ray
Original assignee: Eastman Kodak Co
Current assignee: Eastman Kodak Co
Priority date: 2000-12-19
Filing date: 2001-12-10
Publication date: 2007-08-23
Anticipated expiration: 2021-12-11
Also published as: EP1229493A3; EP1229493B1; US20020114495A1; JP3999964B2; US6792134B2; EP1229493A2; DE60123378D1; JP2002208014A

Description

Die Erfindung bezieht sich auf digitale Bildverarbeitungsverfahren zum Erkennen von Gesichtselementen und insbesondere auf Verfahren zum Erkennen von menschlichen Augen.
In der digitalen Bildverarbeitung ist es häufig erwünscht, menschliche Augen in einem Bild erkennen zu können. Diese Information wird zum Beispiel benötigt, um andere Elemente des Bildes, etwa die Sichtrichtung eines Menschen, bestimmen zu können. Außerdem kann diese Information auch anderen Zwecken dienen, zum Beispiel dazu, die Ausrichtung des menschlichen Gesichts im Bild festzustellen.
Verfahren zum Erkennen menschlicher Augen in einem digitalen Bild sind dem Fachmann bekannt. Zum Beispiel beschreibt US-A-6 072 892 den Einsatz eines Schwellenwert-Verfahrens zum Erkennen der Position von menschlichen Augen in einem digitalen Bild. Bei diesem Verfahren wird das gesamte Bild in einem Rasterabtastverfahren mittels eines Abtastfensters gescannt. Während des Abtastens des Bildes extrahiert ein Histogramm-Extrahiermechanismus aus dem Fenster ein Intensitäts-Histogramm. Ein Spitzenwert-Detektor ermittelt in jedem Intensitäts-Histogramm drei Spitzenwerte, die die Haut, das Weiß des Auges und das Schwarz der Pupille repräsentieren. Ein Histogramm, das diese drei Spitzenwerte aufweist, deutet auf eine Position in einem Bild hin, die potentiell eine Augenposition sein kann. Aus den potentiellen Positionen wird die Augenposition dadurch bestimmt, dass man den vom Histrogramm erfassten, jeder potentiellen Position zugeordneten Bereich berechnet und die Position auswählt, die dem Histogramm mit dem größten Bereich entspricht.
Eines der Probleme dieser Lösung besteht darin, dass das gesamte Bild Pixel für Pixel abgetastet werden muss. Hierzu muss an jedem Pixel des Bildes ein Suchfenster positioniert und an jeder Pixelposition ein Histogramm erstellt werden. Ferner muss der von jedem Histo gramm erfasste Bereich berechnet und gespeichert werden. Natürlich beansprucht dieses Verfahren eine enorme Rechnerleistung und verlangsamt die Verarbeitung der Bilder. Ferner ergibt dieses Verfahren einen hohen Anteil an Fehltreffern.
Bekannt sind ferner Verfahren zum Erkennen von menschlichen Augen, die einen abnorm hohen Rotanteil aufweisen. Dieser abnorm hohe Rotanteil wird normalerweise mit einem als "rote Augen"-Effekt bekannten fotografischen Phänomen verbunden. Rote Augen werden normalerweise durch einen Lichtblitz verursacht, der von einer Pupille reflektiert wird. Aus dem gemeinsam abgetretenen Parallelpatent US-A-6 292 574 ist bekannt, Bilder nach Pixeln abzusuchen, die den auf rote Augen hinweisenden hohen Rotgehalt aufweisen. Desgleichen beschreibt die gemeinsam abgetretene US-A-5 432 863 ein benutzerinteraktives Verfahren zum Erkennen von Pixeln in einem Bild, die die Farbmerkmale von roten Augen aufweisen. Es versteht sich, dass diese Verfahren Augen nur erkennen können, wenn tatsächlich rote Augen vorliegen.
Es besteht daher ein Bedarf an einem Verfahren, das das genauere und effizientere Bestimmen menschlicher Augen in einem digitalen Bild ermöglicht.
Bei einer anderen, in der gemeinsam abgetretenen EP 0899680 mit dem Titel "Verfahren zum automatischen Erkennen von menschlichen Augen in digitalen Bildern" beschriebenen Lösung wird ein Computerprogrammprodukt zum Bestimmen erster und zweiter Objekte bereitgestellt, die jeweils im Wesentlichen dieselben physischen Eigenschaften aufweisen und bei denen das Verhältnis des Abstandes zwischen den ersten und zweiten Objekten und der Größe jedes Objekts im Wesentlichen unveränderlich ist. Gemäß dem dort beschriebenen Verfahren werden in einem Bild potentielle Hautbereiche und vertiefte Bereiche bestimmt. Mittels einer Schablone wird eine Vielzahl von Positionen ermittelt, deren Objekte die gewünschte Übereinstimmung mit der Schablone aufweisen. Durch weitere Überprüfungen wird die Wahrscheinlichkeit des Vorhandenseins potentieller Augenpaare an den durch die Schablonenprüfung ermittelten Positionen festgestellt.
Bei einer weiteren, in XP-00893534 mit dem Titel "Erkennen eines Gesichts und Extraktion von Gesichtselementen mittels farb-, form- und symmetriebasierter Kostenfunktionen" beschriebenen Lösung wird ein Verfahren zum Erkennen von menschlichen Gesichtern und zum anschließenden Bestimmen der Position der Augen, der Nase und des Mundes angegeben. In einem ersten Schritt dieses Verfahrens wird die Position eines Gesichts anhand von Farb- und Forminformationen bestimmt. Mittels eines überwachten pixelbasierten Farbklassifizierverfahrens werden alle Pixel markiert, die innerhalb eines bestimmten Abstandes der "Hautfarbe" liegen. Diese Farbklassifizierungs-Matrix wird dann einer Glättung entweder durch morphologische Operationen oder Filtern mittels eines Gibbs-Zufallsfeldmodells unterzogen. Mithilfe aus der räumlichen Kovarianz-Matrix errechneter Eigenwerte und Eigenvektoren wird dann eine Ellipse auf den zu analysierenden Hautbereich angelegt. Anhand des Hausdorff-Abstandes wird ein Vergleich zur Ermittlung der Ähnlichkeit zwischen der Form des Bereichs und der Modell-Ellipse durchgeführt. Dann werden der Mittelpunkt der Augen, die Nasenspitze und der Mittelpunkt des Mundes innerhalb der Gesichts-Segmentierungsmaske mittels symmetriebasierter Kostenfunktionen festgelegt. Dabei nutzen die Kostenfunktionen die den Gesichtsformen eigenen Symmetrien.
Es wurden also bereits eine Vielzahl von Verfahren zum Erkennen von Gesichtsmerkmalen vorgeschlagen. Allerdings eignet sich nicht jedes Verfahren zur effizienten Analyse jedes Bildes, so dass der Wunsch nach einem Verfahren für die Auswahl und die effiziente Anwendung eines oder mehrerer dieser Verfahren besteht.
Erfindungsgemäß wird dieser Bedarf durch ein digitales Bildverarbeitungsverfahren zum Erkennen von menschlichen Augen in einem digitalen Bild erfüllt. Das Verfahren umfasst die folgenden Schritte: Erkennen von Irispixeln in dem Bild, Anhäufen der Irispixel und Auswählen mindestens eines der folgenden Verfahren zum Identifizieren von Augenpositionen: Anwenden geometrischer Schlussfolgerungen, um unter Verwendung der Irispixelanhäufungen Augenpositionen zu erkennen, Anwenden des Verfahrens der Summation der quadratischen Differenzen, um auf der Grundlage der Irispixelanhäufungen Augenpositionen zu erkennen, und Anwenden des Verfahrens der Summation der quadratischen Differenzen, um anhand der Pixel im Bild Augenpositionen zu erkennen, wobei das angewandte Verfahren auf der Grundlage der Anzahl von Irispixelanhäufungen ausgewählt wird.
Die Erfindung wird im Folgenden anhand eines in der Zeichnung dargestellten Ausführungsbeispiels näher erläutert.
Es zeigen:
1 ein schematisches Diagramm eines für die Ausführung der Erfindung geeigneten Bildverarbeitungssystems;
2 ein Flussdiagramm des erfindungsgemäßen Verfahrens zum Erkennen von Augen;
3 eine Darstellung der Beziehung zwischen bestimmten geometrischen Parametern und einem ovalen hautfarbigen Bereich in einem Bild;
4 eine Darstellung der bedingten Wahrscheinlichkeit, dass ein gegebenes Pixel ein Irispixel ist, ausgedrückt als Funktion einer bestimmten Rotintensität, sowie der bedingten Wahrscheinlichkeit, dass ein gegebenes Pixel kein Irispixel ist, ausgedrückt als Funktion einer bestimmten Rotintensität I;
5 ein Flussdiagramm des Verfahrens zur Entwicklung eines statistischen Modells der bedingten Wahrscheinlichkeit, dass ein gegebenes Pixel ein Irispixel ist, ausgedrückt als Funktion einer bestimmten Rotinsitätsstufe, sowie eines statistischen Modells der bedingten Wahrscheinlichkeit, dass ein gegebenes Pixel kein Irispixel ist, ausgedrückt als Funktion einer bestimmten Rotintensitätsstufe;
6 eine Darstellung der irisfarbigen Pixelanhäufungen;
7 ein Flussdiagramm des Prozesses der Anwendung der Summation der quadrierten Differenzen zum Erkennen von Augenpositionen mittels Irispixelanhäufungen;
8 eine Augenschablone und ein auf den Mittelpunkt einer Irispixelanhäufung zentriertes Suchfenster; und
9 eine Augenschablone und ein Bild, wie diese bei der Anwendung des Verfahrens der Summation der quadrierten Differenzen zum Erkennen von Augenpositionen mittels Bildpixeln angewandt werden.
In 1 ist ein für die Durchführung der Erfindung geeignetes Bildverarbeitungssystem mit einer digitalen Farbbildquelle 10, etwa einem Filmscanner, einer digitalen Kamera oder einer digitalen Bildspeichervorrichtung, zum Beispiel einem CD-Laufwerk mit Bild-CD, dargestellt. Das von der digitalen Bildquelle 10 kommende digitale Bild wird einem Bildprozessor 12, etwa einem programmierten PC oder einer digitalen Bildverarbeitungs-Arbeitsstation, zum Beispiel einer Workstation Sun Sparc 20, zugeführt. Der Bildprozessor 12 ist gegebenenfalls mit einem Kathodenstrahl-Display 14 und einer Bedienerschnittstelle, etwa einer Tastatur 16 und einer Maus 18, verbunden. Ferner ist der Bildprozessor 12 mit einem computerlesbaren Speichermedium 17 verbunden. Der Bildprozessor 12 übermittelt verarbeitete digitale Bilder an ein Ausgabegerät 19. Das Ausgabegerät 19 besteht zum Beispiel aus einem Drucker, einem Langzeit-Bildspeichergerät, einem Anschluss an einen weiteren Prozessor oder einem zum Beispiel mit dem Internet verbundenen Telekommunikationsgerät für Bilder.
In 2 wird das erfindungsgemäße Verfahren genauer beschrieben. 2 zeigt ein Flussdiagramm einer Ausführungsform des erfindungsgemäßen Verfahrens zum Erkennen von Augen. Gemäß 2 wird ein zu erarbeitendes digitales Farbbild zunächst einem Schritt 200 zum Erkennen von irisfarbigen Pixeln zugeführt. Bei der dargestellten Ausführungsform werden irisfarbige Pixel dadurch erkannt, dass zunächst hautfarbige Bereiche im Bild erkannt werden und die irisfarbigen Pixel dann durch Messen der Rotintensitätsstufen innerhalb der hautfarbigen Bereiche identifiziert werden.
Der erste Schritt des Verfahrens zum Erkennen von hautfarbigen Bereichen besteht in dem in 2 als Schritt 201 dargestellten Farbhistogramm-Ausgleich. Im Schritt 201 – Farbhistogramm-Ausgleich – werden die zu verarbeitenden Bilder entgegengenommen, und es wird sichergestellt, dass sich die Bilder in einer Form befinden, die das Erkennen von hautfarbigen Bereichen erlaubt. Dieser Schritt ist deshalb nötig, weil die menschliche Haut in einem Bild wegen spezieller Belichtungsbedingungen, Blitzlichteinwirkung und der Eigenschaften des Films jede beliebige Anzahl unterschiedlicher Farben annehmen kann. Dadurch wird es schwierig, Hautbereiche in solchen Bildern automatisch zu erkennen. Im Farbhisto-gramm-Ausgleich des Schritts 201 wird eine statistische Analyse jedes Bildes durchgeführt. Wenn die statistische Analyse ergibt, dass das Bild gegebenenfalls Hautbereiche enthält, deren Aussehen durch Belichtungsbedingungen verändert wurde, werden diese Bilder so modifiziert, dass hautfarbige Bereiche erkannt werden können.
Nach dem Schritt des Farbhistogramm-Ausgleichs wird das Bild im Schritt 203 – Hautfarbenerkennung – nach hautfarbigen Bereichen durchsucht. Zwar gibt es zahlreiche Möglichkeiten, Hautbereiche in einem digitalen Bild zu erkennen, ein bevorzugtes Verfahren zum Erkennen von Hautbereichen in einem digitalen Bild besteht jedoch darin, die hautfarbigen Pixel von anderen Pixeln in einem Bild zu trennen, indem ein Arbeits-Farbraum definiert wird, der einen Farbbereich möglicher Hautfarben enthält, die aus einer großen ausgeglichenen Menge von Bildern zusammengetragen wurden. Ein Pixel wird dann als hautfarbiges Pixel identifiziert, wenn es eine innerhalb des Arbeits-Farbraums liegende Farbe aufweist.
Der Schritt 203 zum Erkennen von Hautfarben identifiziert einen im Bild vorkommenden Bereich von hautfarbigen Pixeln. Dieser Bereich kann in unterschiedlicher Weise definiert werden. Bei einer Ausführungsform wird der hautfarbige Bereich durch eine Gruppe von Pixelpositionen definiert, an denen sich im Bild Pixel mit Hautfarben befinden. Bei einer anderen Ausführungsform wird ein modifiziertes Bild erzeugt, das nur hautfarbige Pixel enthält. Bei einer weiteren Ausführungsform definiert der Hautfarben-Erkennungsschritt 203 Grenzen des hautfarbigen Bereichs im Bild. Selbstverständlich können in einem Bild auch mehrere hautfarbige Bereiche identifiziert werden.
Im Schritt 204 – Extraktion eines ovalen Bereichs – werden die durch den Hautfarben-Erkennungsschritt 203 erkannten hautfarbigen Bereiche untersucht, um hautfarbige Bereiche zu lokalisieren, die auf ein Gesicht hinweisen könnten. Da das menschliche Gesicht eine ungefähr ovale Form aufweist, werden die hautfarbigen Bereiche auf einen ovalen Hautfarbenbereich untersucht. Wird ein ovaler Hautfarbenbereich gefunden, misst der Schritt 204 – Extraktion eines ovalen Bereichs – die geometrischen Eigenschaften des ovalen Hautfarbenbereichs. Diese Messungen werden im Schritt 204 – Extraktion eines ovalen Bereichs – zur Festlegung von Parametern verwendet, die die Größe des Gesichts und die Position des Gesichts innerhalb des Bildes beschreiben.
In 3 ist die Beziehung zwischen den für die Definition eines ovalen Hautfarbenbereichs im Bild angewandten geometrischen Parametern dargestellt. Gemäß der Darstellung in 3 sind dies die Parameter Oval_top 300 (oberer Rand des Ovals), Oval_bottom 302 (unterer Rand des Ovals), Oval_left 304 (linker Rand des Ovals), Oval_right 306 (rechter Rand des Ovals), Oval_center_row 308 (mittlere Reihe des Ovals), und Oval_center_column 310 (mittlere Spalte des Ovals). Diese Parameter werden in späteren Schritten des erfindungsgemäßen Verfahrens zur Verbesserung der Effizienz des Augenerkennungsverfahrens angewandt. Es versteht sich, dass das erfindungsgemäße Verfahren auch auf der Grundlage von Hautfarben-Erkennungsbreichen durchgeführt werden kann, die andere als ovale Formen aufweisen, und dass in Verbindung mit diesen Formen andere geometrische Parameter definiert werden können. Außerdem versteht es sich, dass nicht unbedingt ein ovaler Bereich oder ein andersförmiger Bereich im Bild erkannt werden muss. In einem solchen Fall wird der Hautfarbenbereich auf irisfarbige Pixel untersucht. Außerdem werden in einem solchen Fall weitere den Hautfarbenbereich beschreibende Parameter zur Anwendung im Augenerkennungsprozess definiert.
Nach der Extraktion des ovalen Bereichs wird der ovale Hautfarbenbereich auf irisfarbige Pixel untersucht. Dies geschieht im Schritt 206 – Erkennen irisfarbiger Pixel. Durch die Begrenzung der Suche der irisfarbigen Pixel auf die innerhalb des ovalen Hautfarbenbereichs liegenden Pixel wird natürlich die Effizienz des Verfahrens zum Erkennen irisfarbiger Pixel verbessert. Außerdem bestehen natürlich viele Möglichkeiten, Pixel, die einer Iris zugeordnet werden können, im Irispixel-Erkennungsschritt 200 zu erkennen. Zum Beispiel können sie durch einfache Farbschwellenwert-Verfahren, Modellabbildung und andere auf dem Gebiet bekannte Verfahren identifiziert werden.
Bei einer bevorzugten Ausführungsform werden Irispixel mittels des im gemeinsam abgetretenen Patent US-A-6 652 458 mit dem Titel "Digitales Bildverarbeitungsverfahren und Computerprogrammprodukt zum Erkennen der menschlichen Iris in einem Bild" beanspruchten und beschriebenen Verfahrens erkannt. Bei dieser Ausführungsform erfolgt im Schritt 206 – Erkennen von irisfarbigen Pixeln – die Bestimmung, ob ein Pixel ein Irispixel ist, durch Messen der Rotintensität des Pixels. Denn es wurde beobachtet, dass eine menschliche Iris im Vergleich zur menschlichen Haut, die eine relativ hohe Rotintensität aufweist, nur eine geringe Rotintensität hat. Allerdings werden bei dieser Ausführungsform irisfarbige Pixel nicht mittels eines einfachen Schwellenwertverfahrens von hautfarbigen Pixeln getrennt. Vielmehr wird anhand der Rotintensitäten der Pixel im ovalen Hautfarbenbereich die Wahrscheinlichkeit bestimmt, dass die einzelnen Pixel jeweils Irispixel sind bzw. dass die einzelnen Pixel keine Irispixel sind. Durch Analyse der Beziehung zwischen der Wahrscheinlichkeit, dass das Pixel ein Irispixel ist, und der Wahrscheinlichkeit, dass das Pixel kein Irispixel ist, wird dann bestimmt, ob das Pixel ein Irispixel ist.
Die Bestimmung der Wahrscheinlichkeit, dass ein Pixel mit einer gegebenen Rotintensität ein Irispixel ist, erfolgt anhand eines statischen Irismodells. Desgleichen wird anhand eines statistischen Irismodells die Wahrscheinlichkeit, dass ein gegebenes Pixel kein Irispixel ist, auf Basis der Rotintensitätsstufe des Pixels definiert. Wie in dem Beispiel der 4 dargestellt, die ein Beispiel eines statistischen Modells der bedingten Wahrscheinlichkeit 402, dass ein gegebenes Pixel ein Irispixel ist, als Funktion einer bestimmten Rotintensität sowie ein Beispiel eines statistischen Modells der bedingten Wahrscheinlichkeit 404, dass ein gegebenes Pixel kein Irispixel ist, als Funktion einer bestimmten Rotinsität I darstellt, ist die Beziehung zwischen diesen Modellen nicht linear.
Die Wahrscheinlichkeitsanalyse kann in unterschiedlicher Weise durchgeführt werden. Zum Beispiel können die Wahrscheinlichkeiten auf unterschiedliche Weise mit einem Pixel kombiniert werden, das auf der Grundlage der Beziehung zwischen diesen Wahrscheinlichkeiten als Iris- oder Nichtiris-Pixel klassifiziert wird. Bei einer bevorzugten Ausführungsform werden jedoch mittels eines als Bayes-Modell bekannten mathematischen Konstrukts die Wahrscheinlichkeiten so kombiniert, dass sich die bedingte Wahrscheinlichkeit ergibt, dass ein Pixel mit einer gegebenen Rotintensität zu einer Iris gehört.
Bei dieser Ausführungsform wird das Bayes-Modell wie folgt angewandt:
worin P(iris|I) die bedingte Wahrscheinlichkeit ist, dass eine gegebene Pixelintensität zu einer Iris gehört, P(I|iris) die bedingte Wahrscheinlichkeit ist, dass ein gegebenes Irispixel eine bestimmte Intensität I aufweist, P(iris) die Wahrscheinlichkeit des Auftretens einer Iris in dem ovalen Gesichtsbereich wiedergibt, P(I|noniris) die bedingte Wahrscheinlichkeit wiedergibt, dass ein gegebenes Nichtiris-Pixel eine bestimmte Intensität I aufweist, und P(noniris) die Wahrscheinlichkeit des Auftretens eines Nichtiris-Pixels im ovalen Gesichts bereich wiedergibt. Außerdem wendet das Bayes-Modell die Wahrscheinlichkeit des Auftretens eines Irispixels in einem ovalen Gesichtsbereich und die Wahrscheinlichkeit des Auftretens eines Nichtiris-Pixels in dem ovalen Gesichtsbereich an. Mithilfe einer auf dem Bayes-Modell beruhenden Wahrscheinlichkeitsanalyse wird ein Pixel als Irispixel qualifiziert, wenn die bedingte Wahrscheinlichkeit, dass ein Pixel mit einer gegebenen Rotintensität zu einer Iris gehört, größer ist als zum Beispiel 0,05.
Bei der vorstehend beschriebenen Ausführungsform werden nur die Pixel geprüft, die sich innerhalb des durch Oval_top 300, Oval_bottom 302, Oval_left 304, und Oval_right 306 definierten ovalen Hautfarbenbereichs befinden. Dadurch, dass die zu prüfenden Pixel auf die im ovalen Hautfarbenbereich befindlichen Pixel beschränkt werden, wird die Anzahl der zu prüfenden Pixel reduziert und die Wahrscheinlichkeit verringert, dass Pixel, die keine Iris darstellen, als solche klassifiziert werden. Es versteht sich, dass die in anderen Ausführungsformen der Erfindung beschriebene Beschränkung der zu prüfenden Pixel auf die Pixel im Hautfarbenbereich ähnliche Vorteile mit sich bringt. Ferner versteht es sich, dass es nicht zwingend nötig ist, Hautfarbenbereiche zu erkennen, und dass die Erfindung auch in der Weise durchgeführt werden kann, dass man die Rotintensität jedes Pixels im Bild misst und anhand der vorstehend beschriebenen Wahrscheinlichkeitsanalyse bestimmt, ob ein Pixel ein Irispixel ist.
Das Flussdiagramm der 5 gibt den Bayes-Farbmodell-Lernschritt 226 wieder, mittels dessen das statistische Modell zur Bestimmung, ob das Pixel ein Irispixel ist, und das statistische Modell zur Bestimmung, ob das Pixel ein Nichtiris-Pixel ist, definiert werden. Das Verfahren gemäß Schritt 226 wird vor Anwendung des erfindungsgemäßen Verfahrens zum Erkennen von Irispixeln ausgeführt. Hierzu wird, wie in 5 dargestellt, eine große Probemenge von Gesichts-Frontalbildern gesammelt und untersucht. Dann werden alle im Gesichtsbereich vorhandenen Irispixel und Nichtiris-Pixel – 502 und 504 – identifiziert. Danach werden zunächst die bedingte Wahrscheinlichkeit P(I|iris), dass ein gegebenes Irispixel eine bestimmte Rotintensität I aufweist, sowie die Wahrscheinlichkeit P(iris) 506, dass eine Iris im ovalen Gesichtsbereich vorliegt, und anschließend die bedingte Wahrscheinlichkeit P(I|noniris) berechnet, dass ein gegebenes Nichtiris-Pixel eine bestimmte Rotintensität I aufweist, wonach schließlich die Wahrscheinlichkeit P(noniris) 508 des Vorliegens eines Nichtiris-Pixels im ovalen Gesichtsbereich berechnet wird. Die berechneten statistischen Modelle dienen dem Bayes-Modell dazu, die bedingte Wahrscheinlichkeit P(iris|I) 510 wiederzugeben, dass eine gegebene Pixelintensität zu einer Iris gehört. Bei bestimmten Ausführungsformen kann das Bayes-Modell auch eingesetzt werden, um eine Vergleichstabelle für den Irispixel-Erkennungsschritt 206 zu erzeugen.
Nachdem die Position der Irispixel im Bild im Irisfarbpixel-Erkennungsschritt 206 identifiziert wurde, werden die Irisfarbpixel Clustern zugewiesen. Dies geschieht im Irispixel-Clusterbildungsschritt 208. Ein Cluster ist eine nicht leere Gruppe von irisfarbigen Pixeln mit der Eigenschaft, dass sich jedes Pixel im Cluster auch innerhalb eines vorbestimmten Abstands zu einem anderen Pixel des Clusters befindet. Ein solcher vorgegebener Abstand kann zum Beispiel ein Dreißigstel der digitalen Bildhöhe betragen. Der Irispixel-Clusterbildungsschritt 208 gemäß 2 bildet aus den irisfarbigen Pixeln Cluster gemäß dieser Cluster-Definition. Es versteht sich jedoch, dass die Gruppierung der Pixel zu Clustern auch nach anderen Kriterien erfolgen kann.
Unter bestimmten Umständen kann die Definition für ein Cluster irisfarbiger Pixel so weit gefasst sein, dass auch ungültige Cluster darunter fallen. In einem solchen in 2 dargestellten Fall wird ein zusätzlicher Schritt 209 zur Validierung der Cluster eingeführt. Ein Cluster kann gegebenenfalls ungültig sein, weil es zu viele irisfarbige Pixel enthält oder weil die geometrische Beziehung der Pixel im Cluster vermuten lässt, dass das Cluster nicht auf eine Iris hinweist. Wenn zum Beispiel das Verhältnis zwischen Höhe und Breite des Clusters bestimmt wird und dieses Verhältnis größer als zwei ist, ist das Cluster ungültig. Ungültige Irispixel-Cluster bleiben bei der weiteren Verarbeitung unberücksichtigt. Daher werden in den folgenden Abschnitten der Beschreibung gültige Irispixel-Cluster einfach als Irispixel-Cluster bezeichnet.
Im Schritt 210 wird die Anzahl der Irispixel-Cluster "n" berechnet. Die Anzahl der Irispixel-Cluster "n" dient im Entscheidungsschritt 210 dazu, zwischen zwei Pfaden zum Erkennen von Augen in einem Bild auszuwählen. Wenn die Anzahl der Irispixel "n" kleiner ist als zwei, wird der Prozess mit dem Schritt 224 fortgesetzt, der im Folgenden noch beschrieben wird. Wenn die Anzahl der irisfarbigen Pixel "n" mindestens zwei beträgt, wird der Prozess mit dem Schritt 212 fortgesetzt, in dem die Mittelpunkte der Cluster bestimmt werden. Als Mit telpunkt eines Clusters gilt der Massenmittelpunkt des Clusters. Die Mittelpunktposition des Clusters wird in Bezug auf den Nullpunkt des Bild-Koordinatensystems berechnet. Hierzu befindet sich der Nullpunkt des Bild-Koordinatensystems in der oberen linken Ecke des Bildrandes.
Nachdem der Mittelpunkt jedes Irispixel-Clusters lokalisiert ist, wird versucht, durch geometrische Beweisführung Augen auf der Grundlage der geometrischen Beziehung zwischen den Irispixel-Clustern zu erkennen. Wenn, wie in 6 dargestellt, nur zwei Cluster vorhanden sind, wobei eines in der linken Hälfe 604 und eines in der rechten Hälfte 606 liegt, und wenn der horizontale Abstand zwischen den Mittelpunkten der beiden Cluster kleiner ist als der 0,4-fache Wert des Abstandes zwischen Oval_right 306 und Oval_left 304, und wenn der vertikale Abstand zuwischen den Mittelpunkten der beiden Cluster kleiner ist als ein Zehntel des Abstandes zwischen Oval_top 300 und Oval_bottom 302, werden diese Mittelpunktpositionen dieser beiden Cluster als die Augenpositionen behandelt.
Es ist ersichtlich, dass diese Analyse sehr schnell durchgeführt werden kann. Wenn diese Analyse erfolgreich ist, ist keine weitere Maßnahme zum Erkennen von Augenpositionen erforderlich. Deshalb wird im Schritt 216 eine Überprüfung des Erkennungsergebnisses durchgeführt um festzustellen, ob Augenpositionen erkannt wurden. Wurden Augenpositionen erkannt, endet der Augenerkennungsprozess. Wurden keine Augenpositionen erkannt, wird der Prozess mit Schritt 218 fortgesetzt.
Im Schritt 218 wird das Verfahren der Summation quadrierter Differenzen angewandt, um das Bild nach Augenpositionen zu durchsuchen. Allgemein beinhaltet das Verfahren der Summation quadrierter Differenzen die Berechnung der Summe der quadrierten Differenzen der Intensitätswerte der entsprechenden Pixel in einer Augenschablone und in einem Bildbereich, der dieselbe Größe aufweist wie die Schablone. Bei diesem Verfahren entspricht jedes Pixel der Pixelteilfläche einem entsprechenden Pixel in der Schablone. Zunächst wird die Differenz zwischen der Intensitätsstufe jedes der entsprechenden Pixel berechnet. Dann wird jede Differenz quadriert, und anschließend wird die Summe der quadrierten Differenzen für alle Pixel der Gruppe berechnet. Diese Summation quadrierter Differenzen liefert ein relatives Maß der Übereinstimmung zwischen jeder der gemessenen Pixelgruppen und der Schablone. Werden keine Augenpositionen erkannt – 220 –, wird das Verfahren mit dem Schritt 224 fortgesetzt.
Erfindungsgemäß erfolgt die Summation quadrierter Differenzen für jedes Pixel in jedem Fenster jeder Halbregion. Diese Werte werden dann verglichen, und das Cluster mit der relativ kleinsten Summe der quadrierten Differenzwerte wird ausgewählt und als eine Augenposition für die betreffende Halbregion identifiziert. Dieses Verfahren wird für die Cluster der linken und der rechten Halbregionen wie nachstehend beschrieben getrennt durchgeführt.
Es ist darauf hinzuweisen, dass gemäß der Beschreibung der Erfindung zwar das Verfahren der Summation quadrierter Differenzen angewandt wird, um die relativ beste Korrelation zwischen der durchschnittlichen Augenschablone und den einzelnen Pixelteilbereichen zu identifizieren, dass aber auch andere Verfahren für diesen Zweck eingesetzt werden können, unter anderem auch das Verfahren der mittleren quadratischen Abweichung.
Gemäß einer Ausführungsform des erfindungsgemäßen Verfahrens werden die im Ovalbereich-Erkennungsschritt 204 berechneten Parameter dazu verwendet, die Effizienz der Anwendung des Verfahrens der Summation quadrierter Differenzen zu verbessern, indem die Anzahl der Positionen im Bild, an denen die Summation quadrierter Differenzen berechnet werden muss, verringert wird. Wie in 6 dargestellt, wird bei dieser Ausführungsform der ovale Bereich mittels der mittleren Spalte des Ovals – 310 – in eine linke Region 604 und eine rechte Region 606 unterteilt. Wie ebenfalls in 6 zu erkennen ist, befinden sich die Irispixelcluster 600 und die Mittelpunktposition 620 der Irispixelcluster 600 entweder in der linken oder der rechten Halbregion 604 bzw. 606, die durch die mittlere Spalte 310 des Ovals getrennt sind.
Im Schritt 218 wird mittels des Verfahrens der Summation quadrierter Differenzen und der Pixelcluster 600 in der linken Halbregion 604 ein Suchprozess für das linke Auge durchgeführt. Desgleichen wird im Schritt 218 ein Suchprozess für das rechte Auge in der rechten Halbregion anhand des Verfahrens der Summation quadrierter Differenzen und der in der rechten Halbregion 606 befindlichen Irispixelcluster 600 durchgeführt.
Im Folgenden wird nun anhand der 7 und 8 das Verfahren für die Auswahl eines Clusters aus den Clustern einer Halbregion beschrieben. Zu Beginn des Augenposition-Suchprozesses wird ein Fenster 800 im Mittelpunkt jedes Clusters 802 der entsprechenden Halbregion zentriert – 70. Der Vorgabewert für die Fenstergröße 800 beträgt ein Zwanzigstel der Größe des Bildes 804. Anschließend erfolgt die Berechnung der Summe der quadrierten Differenzen – 72 – für jedes der Pixel in jedem Fenster 800. Bei 76 wird dann die Position des Pixels mit der kleinsten Summe quadrierter Differenzen in jedem Fenster 800 aufgezeichnet. Wenn für jedes Pixel jedes Fensters der Halbregion 78 eine Summe der quadrierten Differenzen berechnet wurde, wird die Position des Pixels mit der kleinsten Summe quadrierter Differenzen bei 79 aufgezeichnet. Es ist dies die angenommene Augenposition der Halbregion. Dann wird dieser Prozess für die andere Halbregion durchgeführt. Das Verfahren endet, wenn bei diesem Verfahren zwei Augen erkannt werden.
Es versteht sich, dass die Summation quadrierter Differenzen im Schritt 218 auch ohne den Schritt der Extraktion eines ovalen hautfarbigen Bereichs erfolgen kann. Bei einer solchen Ausführungsform kann der hautfarbige Bereich in einen linken Halbbereich und einen rechten Halbbereich unterteilt werden. Dann können die Irispixelcluster in Cluster des linken Halbbereichs und Cluster des rechten Halbbereichs unterteilt werden. Abschließend kann das Verfahren der Summation quadrierter Differenzen wie vorstehend beschrieben durchgeführt werden.
Wenn jedoch nach Durchführung des Schritts 218 keine Augen erkannt wurden – 220 –, oder wenn weniger als zwei Augenpixel-Cluster im Schritt 209 erkannt wurden, wird das Augenerkennungsverfahren mit dem Schritt 224 fortgesetzt. Der Schritt 224 läuft ähnlich ab wie der Schritt 218. Allerdings wird, wie in 9 dargestellt, das gesamte Bild 900 unterteilt und die Summe der quadrierten Differenzen für jedes Pixel des Bildes 904 im linken Halbbereich 908 bzw. im rechten Halbbereich 910 berechnet.
Es versteht sich, dass anstelle des Verfahrens der Summation quadrierter Differenzen auch andere Verfahren zur Bestimmung der relativen Korrelation zwischen einem Teilbereich eines Bildes und einer Augenschablone angewandt werden können. Ein Beispiel eines solchen Verfahrens ist das Verfahren der kleinsten quadratischen Abweichung. Dieses Verfahren ist dem Fachmann bekannt.
Aus Vorstehendem ist ersichtlich, dass das erfindungsgemäße Verfahren drei unterschiedliche Prozesse zum Erkennen von Augen in einem Bild vorsieht, die geometrische Beweisführung 212 und 214, die Summation quadrierter Differenzen anhand der Irispixel-Cluster 218 und die Summation quadrierter Differenzen anhand der Bildpixel 224. Außerdem versteht sich, dass die geometrische Beweisführung das einfachste und effizienteste dieser Verfahren darstellt. Denn die geometrische Beweisführung stellt das effizienteste Verarbeitungsverfahren dar und wird nur auf Irispixel-Cluster angewandt. Die Anzahl dieser Cluster ist im Vergleich zur Anzahl der Pixel in einem Bild relativ klein.
Dagegen ist die im Schritt 224 erforderliche Anwendung des Verfahrens der Summation quadrierter Differenzen auf jedes der Pixel in einem Bild ein rechentechnisch umfangreicher Schritt, der viele Verarbeitungsschritte und Berechnungen erfordert um festzustellen, ob ein einzelnes Pixel im Bild für eine Augenposition steht. Außerdem muss das Verfahren des Schritts 224 auf alle Nichtiris-Pixel in einem Bild angewandt werden. Bei einem heute üblichen Format werden digitale Bilder mit 2,1 Megapixel-Kameras erfasst. Es wurden aber bereits Kameras mit bis zu 16 Megapixel vorgestellt. Daher ist klar, dass die Anwendung des Schritts 224 zum Erkennen von Augenpositionen in einem Bild buchstäblich Hunderte von Millionen von Arbeitsgängen für die Verarbeitung eines einzigen Bildes erforderlich macht. Dies ist ein zeitaufwändiger und computerintensiver Prozess.
Als Zwischenlösung wird im Schritt 218 eine rechentechnisch umfangreiche Summation quadrierter Differenzen durchgeführt, wobei jedoch die Anwendung dieses Verfahrens auf die Pixel in dem um die Irispixel-Cluster herum definierten Fenster beschränkt ist. Dadurch wird die Anzahl der Pixel, auf die das Verfahren der Summation quadrierter Differenzen anzuwenden ist, erheblich verringert, so dass die Anwendung des Verfahrens der Summation quadrierter Differenzen – 220 – weniger computerintensiv wird als das Verfahren der Summation quadrierter Differenzen gemäß Schritt 224.
Ferner ist ersichtlich, dass das erfindungsgemäße Verfahren eine Möglichkeit vorsieht, automatisch zwischen diesen Augenerkennungsverfahren auszuwählen und die Verfahren so zu kombinieren, dass die Anzahl der Irispixel-Cluster zur Auswahl des effizientesten Verfahrens für das Erkennen von Augen in einem Bild eingesetzt wird.
Der Gegenstand der vorliegenden Erfindung bezieht sich auf die Technologie des Verständnisses digitaler Bilder, d.h. eine Technologie, die digitale Bilder verarbeitet, um für den Menschen verständliche Objekte, Attribute oder Bedingungen zu erkennen und ihnen eine sinnvolle Bedeutung zuzuweisen und die erhaltenen Ergebnisse für die weitere Verarbeitung des digitalen Bildes zu verwenden.
Die Aufgabe der Erfindung wird somit durch das vorliegende Verfahren und das beschriebene Computerprogrammprodukt erfüllt.

Claims

Digitales Bildverarbeitungsverfahren zum Erkennen von menschlichen Augen in einem digitalen Bild, Bestimmen potentieller Hautfarbenbereiche in einem Bild, Lokalisieren von Hautfarbenbereichen mit einer Form, die ein Gesicht sein könnte, gekennzeichnet durch die Schritte: Erkennen von Irispixeln in den lokalisierten Bereichen (206); Anhäufen der Irispixel (208); Bestimmen der Anzahl von Irispixelanhäufungen (210); Auswählen mindestens eines der folgenden Verfahren zum Identifizieren von Augenpositionen in einem Bild (210); i) Anwenden geometrischer Schlussfolgerungen, um unter Verwendung der Irispixelanhäufungen (212, 214) Augenpositionen zu erkennen; ii) Anwenden einer Summation einer quadratischen Differenz, um auf der Grundlage der Irispixelanhäufungen (218) Augenpositionen zu erkennen; iii) Anwenden einer Summation einer quadratischen Differenz, um anhand der Pixel im Bild (224) Augenpositionen zu erkennen; worin der Schritt des Anwendens ausgewählt wird auf der Grundlage der Anzahl von Irispixelanhäufungen.
Verfahren nach Anspruch 1, worin der Anwendungsschritt iii) ausgewählt wird, wenn weniger als zwei Irispixelanhäufungen erkannt werden.
Verfahren nach Anspruch 1, worin der Anwendungsschritt i) ausgewählt wird, wenn mindeste zwei Irispixelanhäufungen erkannt werden.
Verfahren nach Anspruch 3, worin das Verfahren i) zuerst angewandt wird und das Verfahren ii) anschließend angewandt wird, wenn das Verfahren i) nicht mindestens zwei Augenpositionen erkennt.
Verfahren nach Anspruch 4, worin das Verfahren ii) angewandt wird und das Verfahren iii) anschließend angewandt wird, wenn das Verfahren ii) nicht mindestens zwei Augenpositionen erkennt.
Digitales Bildverarbeitungsverfahren nach Anspruch 1, worin der Schritt des Auswählens eines Verfahrens zum Erkennen von Augenpositionen auf der Grundlage der Anzahl von Irispixelanhäufungen den Schritt des Auswählens einer Reihe von Augenerkennungsschritten umfasst.
Digitales Bildverarbeitungsverfahren nach Anspruch 1, worin der Schritt des Auswählens eines Verfahrens zum Erkennen von Augenpositionen auf der Grundlage der Anzahl von Irispixelanhäufungen und der zum Ausführen eines jeden Verfahrens erforderlichen Zeit erfolgt.
Digitales Bildverarbeitungsverfahren nach Anspruch 1, worin der Schritt des Auswählens eines Verfahrens zum Erkennen von Augenpositionen auf der Grundlage der Anzahl von Irispixelanhäufungen und der Rechenleistung des ausgewählten Verfahrens erfolgt.