DE69935504T2 - System und verfahren zur videoinhaltsanalyse unter verwendung ermittelter texte in videorahmen - Google Patents

System und verfahren zur videoinhaltsanalyse unter verwendung ermittelter texte in videorahmen Download PDF

Info

Publication number
DE69935504T2
DE69935504T2 DE69935504T DE69935504T DE69935504T2 DE 69935504 T2 DE69935504 T2 DE 69935504T2 DE 69935504 T DE69935504 T DE 69935504T DE 69935504 T DE69935504 T DE 69935504T DE 69935504 T2 DE69935504 T2 DE 69935504T2
Authority
DE
Germany
Prior art keywords
video
text
image text
attribute
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69935504T
Other languages
English (en)
Other versions
DE69935504D1 (de
Inventor
Lalitha Agnihotri
Nevenka Dimitrova
Jan H. Elenbaas
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US09/370,931 external-priority patent/US6608930B1/en
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of DE69935504D1 publication Critical patent/DE69935504D1/de
Application granted granted Critical
Publication of DE69935504T2 publication Critical patent/DE69935504T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/635Overlay text, e.g. embedded captions in a TV program
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/034Electronic editing of digitised analogue information signals, e.g. audio or video signals on discs
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/102Programmed access in sequence to addressed parts of tracks of operating record carriers
    • G11B27/105Programmed access in sequence to addressed parts of tracks of operating record carriers of operating discs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Television Signal Processing For Recording (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)
  • Studio Circuits (AREA)

Description

  • TECHNISCHER BEREICH DER ERFINDUNG
  • Die vorliegende Erfindung bezieht sich im Allgemeinen auf Videoverarbeitungsssysteme und insbesondere auf ein System zum Analysieren und Charakterisieren eines Videostromes auf Basis von Textattribute, die in dem Inhalt des Videos detektiert wurden.
  • HINTERGRUND DER ERFINDUNG
  • Die Erwartung von Digitalfernsehen (DTV), die wachsende Beliebtheit vom Internet und die Einführung von Multimedia-Unterhaltungselektronik, wie CD- und DVD-Spielern, haben den Konsumenten riesige Mengen Multimediainformation zur Verfügung gestellt. Da Videoinhalt einfach verfügbar wird und Produkte zum Zugreifen darauf den Konsumentenmarkt erreichen, wird das Ermitteln, das Indizieren und Identifizieren großer Mengen von Multimediadaten eine noch größere Aufforderung und noch wichtiger.
  • Systeme und Verfahren zum Indizieren und Klassifizieren von Video wurden bereits in vielen Veröffentlichungen beschrieben, u. a.: von M. Abdel-Mottaleb u. a. in: "CONIVAS: Content-based Image and Video Access System", "Proceedings of ACM Multimedia", Seiten 427–428, Boston (1996); S-F. Chang u. a. in: "VideoQ: An Automated Content Based Video Search System Using Visual Cues", "Proceedings of an ACM Multimedia, Seiten 313–324, Seattle (1994); M. Christel u. a. in: "Informedia Digital Video Library", "Comm. Of the ACM", Heft 38, Nr. 4, Seiten 57–58 (1995); N. Dimitrova u. a. in: "Video Content Management in Consumer Devices", "IEEE Transaction on Knowledge and Data Engineering" (Nov. 1998); U. Gargi u. a. in: "Indexing Text Events in Digital Video Databases", "International Conference ob Pattern Recognition", Brisbane, Seiten 916–918 (Aug. 1998); M.K. Mandal u. a. in: "Image Indexing Using Moments and Wavelets", "IEEE Transactions on Consumer Electronics", Heft 42, Nr. 3 (Aug. 1996); und S. Pfeiffer u. a. in: "Abstracting Digital Moves Automatically", "Journal on Visual Communications and Image Representation", Heft 7, Nr. 4, Seiten 345–353 (1996).
  • Die Detektion von Werbesendungen in einem Videostrom ist ebenfalls ein aktives Forschungsgebiet. Siehe R. Lienhart u. a. in: "On the detection and Recognition of Television Commercials", "Proceedings of IEEE International Conference on Multimedia Computing and Systems", Seiten 509–516 (1997); und T. McGee u. a. in: "Parsing TV Programs for Identification and Removal of Non-Story-Segments", "SPIE Conference on Storage and Retrieval in Image and Video Databases", San Jose (Jan. 1999).
  • Texterkennung in Dokumentbildern ist durchaus bekannt. Dokumentabtastanordnungen und assoziierte OCR-Software ("optical character recognition") sind durchaus verfügbar und gut bekannt. Detektion und Erkennung aber von Text in Videoframes bringt einzigartige Probleme mit sich und erfordert eine ganz andere Annäherung als Text in gedruckten Dokumenten. Text in gedruckten Dokumenten beschränkt sich meisten auf einfarbige Zeichen auf einem einheitlichen Hintergrund (blankes Papier) und erfordert im Allgemeinen einen einfachen Schwellenalgorithmus um den Text von dem Hintergrund zu trennen. Durch Kontrast fehlt es Zeichen in den herunter skalierten Videobildern an einer Varietät an Rauschanteilen, einschließlich nicht gesteuerter Beleuchtungsumstände. Auch verlagert sich oft der Hintergrund und Textzeichen können von verschiedenen Farbe, Größe und Zeichensatz sein.
  • Die Extraktion von Zeichen durch örtlicher Schwellenbehandlung und die Detektion von Bildgebieten mit Zeichen durch Bewertung von Graupegelunterschieden zwischen benachbarten Gebieten ist beschrieben worden, und zwar in: "Recognizing Characters in Scene Images" von Ohya u. a. in "IEEE Transaction on Pattern Analysis and Machine Intelligence", Heft 16, Seiten 214–224, (Feb. 1994). Ohya u. a. beschreibt weiterhin die Vermischung detektierter Gebiete mit nahe liegenden und ähnlichen Graupegeln um Zeichenmusterkandidaten zu erzeugen.
  • Die Verwendung des räumlichen Kontextes und Zeichen von Videotext mit hohem Kontrast zum Vermischen von Gebieten mit horizontalen und vertikalen Rändern in nächster Nähe von einander zum Detektieren von Text, wurde beschrieben in: "Text, Speech and Vision for Video Segmentation: The Information Project" von A. Hauptmann u. a. in "AAAI Fall 1995" Symposium on Computational Models for Integrating Language and Vision (1995). R. Lienhart und F. Suber beschreiben ein nicht lineares rotes, grünes und blaues (RGB) Farbsystem zum Reduzieren der Anzahl Farben in einem Videobild in: "Automatic Text Recognition for Video Indexing", "SPIE Conference on image and Video Processing" (Jan. 1996). Ein darauf folgender Spalt-und-Vermischungsprozess erzeugt homogene Segmente mit derselben Farbe. Lienhart und Suber benutzen mehrere heuristische Verfahren zum Detektieren von Zeichen in homogenen Gebieten, einschließlich Vordergrundzeichen, monochromer oder starrer Zeichen, in der Größe begrenzter Zeichen, und Zeichen mit einem hohen Kontrast im vergleich zu umliegenden Gebieten.
  • Die Anwendung von mehrfach bewerteter Bilddekomposition zum Orten von text und zum Trennen von Bildern in viele echte Vordergrund- und Hintergrundbilder ist beschrieben worden in: "Automatic Text Location in Images and Video Frames" von A.K. Jain und B. Yu, in: "Proceedings of IEEE Pattern Recognition", Seiten 2055–2076, Heft 31 (12. Nov. 1998). J-C.Shim u. a. beschreibt die Anwendung eines allgemeinen Gebietsbezeichnungsalgorithmus zum Finden homogener Gebiete und zum Segmentieren und Extrahieren von text in: "Automatic Text Extraction from Video for Content-Based Annotation and Retrieval", "Proceedings of the International Conference on Pattern Recognition", Seiten 618–620 (1998). Identifizierte Vordergrundbilder werden geclustert, um die Farbe und die Stelle von Text zu ermitteln.
  • Andere nützliche Algorithmen zur Zeichensegmentierung sind von K.V. Mardia u. a. in: "A Spatial Thresholding Method for Image Segmentation", "IEEE Transactions on Pattern Analysis and Machine Intelligence" Heft 10, Seiten 919–927 (1988), und von A. Perex u. a. in: "An Iterative Thresholding Method for Image Segmentation", "IEEE Transactions on Pattern Analysis and Machine Intelligence", Heft 9, Seiten 742–751 (1987) beschrieben worden.
  • Der Artikel: "Visual Content Highlighting Videoinformationssignal Automatic Extraction of Embedded Captions on MPEG Compressed Video", B-L. Yeo, B. Liu, "Proceedings of the SOIE", Heft 2668, Seiten 38–47 beschreibt die Identifikation von Beschriftungen zum Analysieren des Textinhaltes der Beschriftungen.
  • Der Stand der Technik in Texterkennungssystemen berücksichtigt aber nicht die nicht-semantischen Attribute von Text, detektiert in dem Inhalt des Videos. Die bekannten Systeme identifizieren einfach den semantischen Inhalt des Bildtextes und indizieren die Videoclips auf Basis des semantischen Inhaltes. Andere Attribute des Bildtextes, wie eine physikalische Lage in dem Frame, Dauer, Verlagerung und/oder zeitliche Lage in einem Programm werden verneint. Außerdem ist kein Versuch angestellt, Videoinhalt zum Identifizieren und Editieren von Videoclips anzuwenden.
  • Deswegen gibt es ein Bedürfnis in dem betreffenden technischen Bereich nach besseren Videoverarbeitungssystemen, die einem Benutzer die Möglichkeit bieten, ein Archiv mit Videoclips zu durchstöbern und alle Videoclips oder Teile davon zu speichern und/oder zu editieren, die Bildtextattribute enthalten, die mit Bildtextattributen, die von einem Benutzer selektiert wurden, übereinstimmen.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Um die oben genannten Mängel des Standes der Technik zu beseitigen beschreibt die vorliegende Erfindung eine Videoverarbeitungsanordnung zum Ermitteln oder Filtern von Videoströmen auf ein oder mehrere durch den Benutzer selektierte Bildtextattribute. Im Allgemeinen betrifft "Ermitteln" von Videoströmen das Ermitteln in Reaktion auf Eingaben durch den Benutzer definiert, während "Filtern" sich im Allgemeinen auf einen automatisierten Prozess bezieht, der nur wenig oder kaum Eingaben durch den Benutzer erfordert. Aber in der Beschreibung können "Ermitteln" und "Filtern" austauschbar verwendet werden. Ein Bildprozessor detektiert und Extrahiert Bildtext aus Frames in Videoclips, bestimmt die relevanten Attribute des extrahierten Bildtextes und vergleicht die extrahierten Bildtextattribute mit den vom Benutzer selektierten Bildtextattributen. Wenn es eine Übereinstimmung gibt, kann die Videoverarbeitungsanordnung wenigstens einen Teil des Videostroms entsprechend Benutzerbefehlen modifizieren, übertragen, markieren oder auf andere Art und Weise identifizieren. Die Videoverarbeitungsanordnung benutzt die vom Benutzer selektierten Bildtextattribute zum Durchstöbern eines Archivs mit Videoclips um Folgendes zu erzielen:
    • 1) das Ermitteln bestimmter Ereignistypen, wie Nachrichtenprogramme oder Sportereignisse,
    • 2) das Ermitteln von Programmen, die sich um bestimmte Personen oder Gruppen handeln,
    • 3) das Ermitteln von Programmen auf Namen,
    • 4) das Speichern oder Entfernen von allen oder einigen Werbesendungen und auf andere Art und Weise das Sortieren, Editieren und Speichern aller Videoclips oder eines Teils derselben entsprechend Bildtext, der in den Frames der Videoclips auftritt.
  • Es ist daher u. a. eine Hauptaufgabe der vorliegenden Erfindung, zur Anwendung in einem System, das imstande ist, Bildtext in Videoframes zu analysieren, eine Videoverarbeitungsanordnung zu schaffen, die imstande ist, in Reaktion auf den Empfang wenigstens eines selektierten Bildtextattributs Videoströme zu ermitteln und/oder zu filtern. In einem Ausführungsbeispiel umfasst die Videoverarbeitungsanordnung einen Bildprozes sor, der imstande ist, einen ersten Videostrom mit einer Anzahl Videoframes zu empfangen, Bildtext aus den vielen Videoframes zu detektieren und zu extrahieren, wenigstens ein Attribut des extrahierten Bildtextes zu ermitteln, das wenigstens eine extrahierte Bildtextattribut mit dem wenigstens einen selektierten Bildtextattribut zu vergleichen und, in Reaktion auf eine Übereinstimmung zwischen dem wenigstens einen extrahierten Bildtextattribut und dem wenigstens einen selektierten Bildtextattribut wenigstens einen der nachfolgenden Vorgänge durchzuführen:
    • 1) das Modifizieren wenigstens eines Teils des ersten Videostromes entsprechend einem ersten Benutzerbefehl;
    • 2) das Übertragen wenigstens eines Teils des ersten Videostromes entsprechend einem zweiten Benutzerbefehl, und
    • 3) das Markieren wenigstens eines Teils des ersten Videostroms entsprechend einem dritten Benutzerbefehl.
  • Nach einem Ausführungsbeispiel der vorliegenden Erfindung gibt das wenigstens eine extrahierte Bildtextattribut an, dass der Bildtext in den vielen Videoframes eine der nachfolgenden Erscheinungen aufweist: horizontales Rollen, vertikales Rollen, Schwund, Spezialeffekte und Animationseffekte.
  • Nach einer Ausführungsform der vorliegenden Erfindung gibt das wenigstens eine extrahierte Bildtextattribut an, dass der Bildtext in den vielen Videoframes ein Name einer Person oder ein Name einer Gruppe ist.
  • Nach einer anderen Ausführungsform der vorliegenden Erfindung gibt das wenigstens eine extrahierte Bildtextattribut an, dass der Bildtext in den vielen Videoframes ein Teil einer Werbeanzeige ist.
  • Nach noch einer anderen Ausführungsform der vorliegenden Erfindung gibt das wenigstens eine extrahierte Bildtextattribut an, dass der Bildtext in den vielen Videoframes Text ist, der am Start eines Programms oder am Ende eines Programms erscheint.
  • Nach wieder einer anderen Ausführungsform der vorliegenden Erfindung gibt das wenigstens eine extrahierte Bildtextattribut an, dass der Bildtext in den vielen Videoframes ein Teil des Programmnamens ist.
  • Nach einer anderen weiteren Ausführungsform der vorliegenden Erfindung gibt das wenigstens eine extrahierte Bildtextattribut an, dass der Bildtext in den vielen Videoframes ein teil eines Nachrichtenprogramms ist.
  • Nach noch einer anderen weiteren Ausführungsform der vorliegenden Erfindung gibt das wenigstens eine extrahierte Bildtextattribut an, dass der Bildtext in den vielen Videoframes ein Teil eines Sportprogramms ist.
  • Obenstehendes hat die Merkmale und die technischen Vorteile der vorliegenden Erfindung ziemlich breit beschrieben, so dass der Fachmann die nachfolgende detaillierte Beschreibung der vorliegenden Erfindung besser verstehen dürfte. Zusätzliche Merkmale und Vorteile der vorliegenden Erfindung werden nachstehend beschrieben und bilden Gegenstand der Patentansprüche der vorliegenden Erfindung. Es dürfte dem Fachmann einleuchten, dass man das Konzept und die beschriebene spezifische Ausführungsform als Basis zum Modifizieren oder Entwerfen anderer Strukturen zum Durchführen derselben Zwecke der vorliegenden Erfindung benutzen können.
  • Vor der Behandlung der DETAILLIERTEN BESCHREIBUNG kann es vorteilhaft sein, Definitionen bestimmter Wörter und Phrasen zu beschreiben, die in diesem Patentdokument verwendet werden: die Ausdrücke "enthalten" und "umfassen" sowie die Herleitungen davon bedeuten unbegrenztes aufweisen; der Ausdruck "oder" ist einschließlich, was bedeutet und/oder; die Phrasen "assoziiert mit" und "damit assoziiert" sowie Herleitungen davon, können bedeuten: enthalten, enthalten sein in, verbunden sein mit, umfassen, gekoppelt sein mit, verbindbar sein mit, zusammenarbeiten mit, in der Nähe sein von, begrenzt sein durch oder mit, haben, eine Eigenschaft aufweisen, oder dergleichen; und der Ausdruck "Prozessor" oder "Controller" bedeuten jede Anordnung, jedes System oder jeder Teil davon, die, das bzw. der wenigstens einen Vorgang steuert, eine derartige Anordnung kann in Hardware, Firmware oder Software oder aber in einer Kombination von wenigstens zwei derselben implementiert werden. Es sei bemerkt, dass die mit einem bestimmten Controller assoziierte Funktionalität zentralisiert oder verteilt sein kann, ob örtlich oder im Abstand. Außerdem kann der Ausdruck "Videoclip" ein Videosegment, eine Videosequenz, einen Videoinhalt oder dergleichen bedeuten. Definitionen für bestimmte Wörter und Phrasen werden durch das ganze Patentdokument hindurch geprägt. Dem Fachmann dürfte es einleuchten, dass in vielen, wenn nicht allen Fällen derartige Definitionen auf bestehenden sowie künftigen Gebrauch derart definierter Wörter und Phrasen angewandt werden können.
  • KURZE BESCHREIBUNG DER ZEICHNUNG
  • Ausführungsbeispiele der vorliegenden Erfindung sind in der Zeichnung dargestellt und werden im Folgenden näher beschrieben. Es zeigen:
  • 1 ein Beispiel eines Bildtextanalysensystems nach einer Ausführungsform der vorliegenden Erfindung,
  • 2 ein Flussdiagramm zur Erläuterung eines Textextraktions- und Texterkennungsvorgangs eines Ausführungsbeispiels einer Videoverarbeitungsanordnung in 1,
  • 3A und 3B eine Darstellung von Videoframes, die Bildtext mit selektierten Attributen enthalten, die von einer Videoverarbeitungsanordnung nach 1 identifiziert werden können,
  • 4 eine Darstellung eines Ausführungsbeispiels einer Bildtextattributtabelle mit systemdefinierten und benutzerdefinierten Bildtextattributen nach einer Ausführungsform der vorliegenden Erfindung, und
  • 5 ein Flussdiagramm zur Erläuterung eines Bildtextattributanalysenvorgangs der Videoverarbeitungsanordnung nach 1 nach einer Ausführungsform der vorliegenden Erfindung.
  • DETAILLIERTE BESCHREIBUNG
  • Die nachstehend beschriebenen 1 bis 5 und die jeweiligen Ausführungsformen, die zum Beschreiben der Grundlagen der vorliegenden Erfindung in diesem Patentdokument verwendet werden, dienen nur zur Erläuterung und sollen keineswegs als den Rahmen der vorliegenden Erfindung beschränkend betrachtet werden. Dem Fachmann dürfte es einleuchten, dass die Grundlagen der vorliegenden Erfindung in jedem beliebigen auf geeignete Art und Weise ausgebildeten Bildtextanalysensystem implementiert werden können.
  • 1 zeigt ein Ausführungsbeispiel eines Bildtextanalysensystems 100 nach einer Ausführungsform der vorliegenden Erfindung. Das Bildtextanalysensystem 100 umfasst eine Videoverarbeitungsanordnung 110, eine Videoquelle 180, einen Monitor 185 und Benutzeranordnungen 190. Die Videoverarbeitungsanordnung 110 schafft Mittel zum Analysieren empfangener Videobilder. Dies umfasst das Ausführen des Prozesses der vor liegenden Erfindung, wodurch Videotext extrahiert, analysiert und kategorisiert wird, und zwar auf Basis von system- oder benutzerdefinierten Textattributen.
  • Die Videoquelle 180 schafft ein Archiv von Videoclips zum Ermitteln mit Hilfe der Videoverarbeitungsanordnung 110. Die Videoquelle 180 kann eine Antenne, ein Videobandgerät, ein digitaler Videoplattenspieler/Recorder (DVD-Spieler/Recorder), ein Videoplattenspieler/Recorder oder eine ähnliche Anordnung sein, die imstande ist, digitalisierte Videobilder mit oder ohne Audio zu speichern und zu übertragen. Die Videoquelle 180 kann imstande sein, einige kurze Clips oder viele Clips mit digitalisierten Videobildern größerer Länge zu schaffen. Die Videoquelle 180 kann Videodaten in jedem bekannten analogen oder digitalen Format, wie MPEG-2, MJPEG und dergleichen liefern.
  • Der Monitor 185 schafft Mittel zum Wiedergeben von Videobildern und kann für Audio ausgebildet sein, je nachdem dies erforderlich ist. Die Benutzeranordnungen) 190 stell(t)en eine oder mehrere Peripheriegeräte dar, die von dem Benutzer des Bildtextanalysensystem 100 manipuliert werden können um dem System mit Benutzereingaben zu versehen. Typische periphere Benutzereingabeanordnungen umfassen eine Computermaus, ein Tastenfeld, einen Leuchtstift, einen Joystick, eine Berührungstafel und einen assoziierten Stift, und/oder jede andere beliebige Anordnung, die selektiv verwendet werden kann um Daten einzugeben, zu selektieren und/oder zu manipulieren, einschließlich aller wiedergegebenen Videobilder oder teile davon. Die Benutzeranordnung 190 kann imstande sein die gewünschten Videotextidentifikationsattribute zum Eingeben in die Videoverarbeitungsanordnung 110 zu selektieren. Die Benutzeranordnung 190 kann auch Ausgangsanordnungen, wie einen Farbdrucker, enthalten, der eine "Hardcopy" eines bestimmten Bildes, eines Frames oder eines Videoclips reproduziert.
  • Die Videoverarbeitungsanordnung 110 umfasst den Bildprozessor 120, den RAM 130, den Speicher 140, die Benutzer I/O Karte 150, die Videokarte 160, den I/O Puffer 170 und den Prozessorbus 175. Der Prozessorbus 175 überträgt Daten zwischen den jeweiligen Elementen der Videoverarbeitungsanordnung 110. Der RAM 130 umfasst weiterhin Bildtextarbeitsraum 132 und einen Textanalysencontroller 134.
  • Der Bildprozessor 120 schafft eine Gesamtsteuerung für die Videoverarbeitungsanordnung 110 und führt die Bildverarbeitung durch, die für das Bildtextanalysensystem 100 erforderlich ist, einschließlich der Analyse des Textes in Videoframes, und zwar auf Basis von systemselektierten und benutzerselektierten Attributen. Dies umfasst auch das Implementieren von Editierungsprozessen, das Verarbeiten digitalisierter Videobilder zur Wiedergabe an einem Monitor 185 und/oder zur Speicherung in einem Speicher 140, und das Übertragen von Daten zwischen den jeweiligen Elementen des Bildtextanalysensystems 100. Die Anforderungen und die Fähigkeiten für einen Bildprozessor 120 sind in dem betreffenden technischen Bereich durchaus bekannt und brauch in diesem Zusammenhang nicht detailliert beschrieben zu werden, anders als für die vorliegende Erfindung erforderlich.
  • Der RAM 130 schafft einen Speicher mit beliebigem Zugriff zur vorübergehenden Speicherung von Daten, die von der Videoverarbeitungsanordnung 110 geschaffen werden, die nicht auf andere Art und Weise von Elementen innerhalb des Systems geliefert werden. Der RAM 130 umfasst einen Speicher für Bildtextarbeitsraum 132 und einen Textanalysencontroller 134, sowie einen anderen Speicher, erforderlich für den Bildprozessor 120 und assoziierte Anordnungen. Der Bildtextarbeitsraum 132 stellt den Teil des RAMs 130 dar, in dem Videobilder, assoziiert mit einem bestimmten Videoclip, während des Textanalysenprozesses vorübergehend gespeichert werden. Der Bildtextarbeitsraum 132 schafft Mittel zum Modifizieren von Frames innerhalb eines Clips ohne Beeinflussung der ursprünglichen Daten, so dass die ursprünglichen Daten nachher wiederhergestellt werden können.
  • In einer Ausführungsform der vorliegenden Erfindung stellt der Textanalysencontroller 134 den Teil des RAMs 130 dar, der der Speicherung eines Applikationsprogramms zugeordnet ist, durchgeführt durch den Bildprozessor 120, der die Analyse von Videobildern auf Basis von system- oder benutzerdefinierten Textattributen durchführt. Der Textanalysencontroller 134 führt durchaus bekannte Editiertechniken durch, wie Verwandlung oder Randdetektion zwischen Szenen, sowie die neuen Techniken für Videoanalyse, assoziiert mit der vorliegenden Erfindung. Der Editiercontroller 134 kann auch als ein Programm auf einer CD-ROM, einer Computerdiskette, oder auf einem anderen Speichermedium ausgebildet sein, das in einen entfernbaren Diskportierungsspeicher 140 oder sonst wo, wie in der Videoquelle 180 geladen werden kann.
  • Der Speicher 140 umfasst ein oder mehrere Disk-Systeme mit entfernbaren Disks (magnetisch oder optisch) zur Dauerspeicherung von Programmen und anderen Daten, mit erforderlichen Video- und Audiodaten. Je nach den Systemanforderungen ist der Speicher 140 ausgebildet zum Verbinden mit einem oder mehreren bidirektionalen Bussen zur Übertragung von Video- und Audiodaten zu und von der (den) Videoquelle(n) 180, sowie von dem Rest des Systems. Der Speicher 140 ist imstande, Daten mit Videorate zu übertragen, falls erforderlich. Der Speicher 140 ist derart bemessen, dass er entsprechenden Speicherraum bietet für mehrere Minuten Video für Editierzwecke, einschließlich Textattributanalyse. Je nach spezifischen Applikationen und der Fähigkeit des Bildprozessors 120 kann der Speicher 140 derart ausgebildet werden, dass er die Fähigkeit hat, eine Vielzahl Videoclips zu speichern.
  • Die Benutzer I/O Karte 150 schafft Mittel zum Verbinden von Benutzeranordnungen) 190 mit dem Rest des Bildtextanalysensystems 100. Die Benutzer I/O Karte 150 verwandelt Daten, die von Benutzeranordnungen 190 empfangen worden sind, in das Format des Schnittstellenbusses 175 zur Übertragung zu dem Bildprozessor 120 oder zu dem RAM 130 zum nachfolgenden Zugriff durch den Bildprozessor 120. Die Benutzer I/O Karte 150 überträgt ebenfalls Daten zu den Benutzerausgangsanordnungen, wie Druckern. Die Videokarte 160 schafft eine Schnittstelle zwischen dem Monitor 185 und dem Rest der Videoverarbeitungsanordnung 110 über den Datenbus 175.
  • Der I/O Puffer 170 schafft eine Schnittstelle zwischen der Videoquelle 180 und dem Rest des Bildtextanalysensystems 100 über den Bus 175. Wie oben beschrieben, hat die Videoquelle 180 wenigstens einen bidirektionalen Bus zur Verbindung mit dem I/O Puffer 170. Der I/O Puffer 170 überträgt Daten zu/von der Videoquelle 180 mit der erforderlichen Videobildübertragungsrate. Innerhalb der Videoverarbeitungsanordnung 110 überträgt der I/O Puffer 170 Daten, die von der Videoquelle 180 empfangen worden sind, zu dem Speicher 140, zu dem Bildprozessor 120, oder zu dem RAM 130, wie erforderlich. Gleichzeitige Übertragung von Videodaten zu dem Bildprozessor 120 schaffen Mittel zum Wiedergeben von Videobildern, wenn diese empfangen werden.
  • 2 zeigt ein Flussdiagramm 200, das den Textextraktions- und Erkennungsvorgang der Videoverarbeitungsanordnung 110 illustriert. Textextraktion erfolgt an einzelnen Videoframes, wobei der Ursprung (0,0) des M × N Frames als die obere linke Ecke bezeichnet wird. Pixel innerhalb der Frames werden durch (x, y) Koordinaten bezeichnet, wobei x die Pixelspalte (0 durch N) und y die Pixelreihe (0 durch M) ist.
  • Kanaltrennung (Prozessschritt 205):
  • Zunächst trennt der Bildprozessor 120 Farben von einem oder mehreren Frames des Videobildes und speichert ein reduziertes Farbbild zur Verwendung beim Extrahieren von Text. In einer Ausführungsform der vorliegenden Erfindung benutzt der Bildprozessor 120 ein Rot-Grün-Blau (RGB) Farbraummodell zum Isolieren des roten Bestandteils der Pixel. Der rote Bestandteil ist nützlicher zum detektieren von Weiß, Gelb und schwarzen Farben, die für Videotext vorwiegend verwendet werden. Das isolierte rote Frame schafft scharfe, kontrastreiche Ränder für diese oft auftretenden Textfarben. Das isolierte rote Framebild wird in dem Bildtextarbeitsspeicher 132 gespeichert. In alternativen Ausführungsformen der vorliegenden Erfindung kann der Bildprozessor 120 andere Farbraummodelle, wie das Grauskalabild oder den Y-Anteil des YIQ-Videoframes.
  • Bildverbesserung (Prozessschritt 210):
  • Bevor eine weitere Verarbeitung durchgeführt wird, wird das eingefangene rote Frame verbessert, und zwar unter Verwendung einer 3 × 3 Maske, und zwar wie folgt:
    Figure 00110001
  • Außerdem werden Salz und Pfeffer (beliebige) Rauschanteile unter Verwendung eines Medianfilters, wie von R.C. Gonzalez und R.E. Woods in: "Digital Image Processing", "Addison-Wesley Publishing Company, Inc." (1992), entfernt.
  • Randdetektion (Prozessschritt 215):
  • Textzeichenränder in dem verbesserten roten Bild werden durch Verwendung der nachfolgenden Maske detektiert:
    Figure 00110002
    wobei die Nummern in der Matrix die Gewichtungen des Randoperators darstellen.
  • Wenn EDGE das M × N Randbild darstellt, kann die nachfolgende Gleichung zur Randdetektion angewandt werden:
    Figure 00120001
    wobei 0 < m < M und 0 < n < N ist. Die Werte wij sind die Gewichtungen aus der Randmaske und Fx+i,y+j stellt ein Pixel des Bildes "F" dar. Die obere und die untere Pixelreihe und die linke und rechte Pixelspalte (d.h. die äußersten Pixel) des Frames werden in dem Randdetektionsprozess ignoriert.
  • Randschwelle ist ein vorbestimmter Schwellenwert und kann fest oder variabel sein. Die Verwendung einer festen Schwelle kann zu einem Haufen Salz und Pfeffer-Rauschen, was nachher entfernt werden soll. Auch die Verwendung einer festen Schwelle kann dafür sorgen, dass die festen Ränder um den Text als unterbrochen und nicht verbunden erscheinen, was zu einem offenen Zeichen führt. Die Anwendung bekannter Öffnungsverfahren (beispielsweise Erosion mit nachfolgender Erweiterung) führen dazu, dass Textteile zusammen mit Salz und Pfefferstörungen verloren gehen. Deswegen iat die Verwendung einer adaptiven Schwelle eine Verbesserung gegenüber der Verwendung einer statischen Schwelle.
  • Wenn für ein Pixel einige oder alle Nachbarpixel als Ränder markiert sind, wird die Schwelle für das aktuelle Pixel verringert, damit diese als Rand markiert wird. Die Schwelle für das aktuelle Pixel kann je nach der Anzahl als Ränder markierter Nachbarpixel verringert werden. Die Tatsache, dass Nachbarpixel Ränder sind, steigert die Wahrscheinlichkeit, dass das aktuelle Pixel ein Rand ist. Die niedrigere Randschwelle wird zum Berechnen der reduzierten Schwelle für Nachbarpixel verwendet. Dies gewährleistet, dass Pixel nicht als Ränder markiert werden, wenn sie keine Ränder sind. Der Prozess könnte in umgekehrter Richtung durchgeführt werden um ein Pixel als ein Rand zu markieren, wenn es von Randpixeln umgeben wird.
  • Randfilterung (Prozessschritt 220):
  • Wenn die Zeichenränder einmal detektiert worden sind, führt der Bildprozessor 120 eine vorbereitende Randfilterung durch um Bildgebiete zu entfernen, die möglicherweise keinen Text enthalten oder, in denen Text nicht auf zuverlässige Art und Weise detektiert wird. Der Bildprozessor 120 kann Randfilterung auf verschiedenen Pegeln durchführen. So kann beispielsweise Randfilterung auf einem Framepegel und einem Subframepegel durchgeführt werden.
  • Auf dem Framepegel ignoriert der Bildprozessor 120 ein Frame oder filtert es aus, wenn es sich herausstellt, dass mehr als ein angemessener Teil des Frames aus Rändern besteht, was durch eine hohe Dichte von Objekten in dem Frame verursacht werden kann. Wenn ein Frame ausgefiltert wird, fährt die Textanalyse zu dem nächsten Eingangsframe fort. Wenn Filterung auf Framepegel durchgeführt wird, behält der Bildprozessor 120 einen Randzähler, damit ein Zählwert der Anzahl Ränder in dem Bildframe beibehalten wird. Dies aber kann zu einem Verlust von Text in einigen sauberen Gebieten des Bildes führen und kann zu falschen Negativen führen.
  • Um dieses Problem zu überwinden kann der Bildprozessor 120 Randfilterung auf einem Subframepegel durchführen. Um Text in einem "voll gestopften" Frame zu finden, verteilt der Bildprozessor 120 das Frame in kleinere Gebiete oder Subframes. In einem Ausführungsbeispiel der vorliegenden Erfindung verteilt der Bildprozessor 120 das Subframe in drei Gruppen von Pixelspalten und drei Gruppen von Pixelreihen, was zu einer Menge von sechs Subframes führt.
  • Der Bildprozessor 120 beauftragt einen Subframezähler eine Randzählung für jeden unterverteilten Teil des Bildes einzuhalten, was zu sechs Subframezählern führt. In dem Ausführungsbeispiel werden drei Zähler für drei vertikale Subframes (Spalten) des Bildes verwendet. Jedes vertikale Subframe deckt ein Drittel des Gebietes des Frames. Auf gleiche Weise werden drei Zähler für drei horizontale (Reihen) Subframes des Bildes verwendet. Auch hier deckt jedes horizontale Subframe ein Drittel des Framegebietes.
  • Daraufhin untersucht der Bildprozessor 120 jedes Subframegebiet um die Anzahl Ränder in dem Subframe zu ermitteln, wobei der assoziierte Zähler diese Anzahl reflektiert. Eine größere Anzahl Subframes kann angewandt werden um kleinere Subframegebiete zu schaffen, um mehr Gebiete beizubehalten, die sauber sind und um Text in einem Gebiet zu halten, das kleiner ist als ein Drittel eines Bildes.
  • Zeichendetektion (Prozesschritt 225):
  • Danach führt der Bildprozessor 120 eine CC-Analyse ("Connected-Component") an Rändern durch, die in dem vorhergehenden Schritt erzeugt wurden. Es wird vorausgesetzt, dass jedes Textzeichen eine verbundene Komponente oder ein Teil davon hat. Der Bildprozessor 120 mischt Randpixel, die sich innerhalb eines bestimmten Abstandes voneinander befinden (wie eine acht-Pixel-Nachbarschaft) zu einer einzigen CC- Struktur. Diese CC-Struktur enthält die Stelle der Pixel, die miteinander verbunden sind. Diese Struktur enthält auch de Wert (in Termen von x- und y-Achsen) des linksten, rechtesten, obersten und untersten Pixels in der Struktur, zusammen mit der Stelle der Mitte der Struktur.
  • Die CC-Struktur enthält auch den Zählwert der Anzahl Pixel, welche die verbundene Komponente bilden. Der Pixelzählwert stellt das Gebiet der betreffenden verbundenen Komponente dar. Vorbestimmte System- und/oder Benutzerschwellen definieren die maximale und minimale Grenze für Gebiet, Höhe und Breite der verbundenen Komponente um zu ermitteln, welche verbundenen zu der nächsten Verarbeitungsstufe weitergeleitet werden sollen. Verbundene Komponenten, die sich außerhalb der Schwellenkriterien befinden, werden ausgefiltert.
  • Textkastendetektion (Prozessschritt 230):
  • Der Bildprozessor 120 sortiert die verbundenen Komponenten, welche die Kriterien in dem vorhergehenden Schritt in ansteigender Reihenfolge auf Basis der Stelle des unteren linken Pixels weiterleiten. Der Bildprozessor 120 sortiert auf Basis der (x, y) Koordinatenstelle, welche die absolute Stelle eines Pixels darstellt, gegeben als die y-fache Spaltengröße plus x. Die sortierte Liste verbundener Komponenten wird durchquert und die verbundenen Komponenten werden danach zusammen gemischt um Kästen mit Text zu bilden.
  • Der Bildprozessor 120 bezeichnet die erste verbundene Komponente, die verbundene Komponente (1), als den ersten Kasten und auch als den ersten oder aktuellen Kasten für Analyse. Der Bildprozessor 120 testet jede nachfolgende verbundene Komponente (i) um zu sehen, ob das unterste Pixel innerhalb einer vorbestimmten akzeptierbaren Pixelreihenschwelle von dem untersten Pixel des aktuellen Textkastens liegt. Wenn die verbundene Komponente (i) innerhalb einer Reihen (beispielsweise, 2 Reihen) des aktuellen Kastens liegt, gibt es eine gute Möglichkeit, dass der aktuelle Textkasten und die verbundene Komponente (i) zu derselben Textzeile gehören. Die Reihenunterschiedsschwelle kann fest oder variabel sein, wie erforderlich. So kann beispielsweise die Schwelle ein Bruchteil der Höhe des aktuellen Textkastens sein.
  • Um ein Vermischen von verbundenen Komponenten, die durch einen zu großen Abstand in dem Bild getrennt sind, zu vermeiden, wird ein zweiter test durchge führt, um zu sehen, ob der Spaltenabstand zwischen der verbundenen Komponente (i) und den Textkästen kleiner ist als eine Spaltenschwelle. Diese variable Schwelle ist ein Vielfaches der Breite der verbundenen Komponente (i). Der Bildprozessor 120 mischt die verbundene Komponente (i) mit dem aktuellen Textkasten, wenn der Textkasten und die verbundene Komponente (i) dicht beisammen liegen. Wenn die verbundene Komponente (i) den Kriterien zum Vermischen mit dem aktuellen Textkasten nicht entspricht, wird ein neuer Textkasten mit der verbundenen Komponente (i) als erste Komponente gestartet und die Durchquerung wird fortgesetzt. Dieser Prozess kann zu vielen Textkästen für eine einzige Textzeile in dem Bild führen.
  • Der Bildprozessor 120 führt für jeden der Textkästen, die von dem Anfangszeichenmischprozess geschaffen wurden, einen zweiten Mischpegel durch. Dies vermischt Textkästen, die irrtümlicherweise als einzelne Textzeilen interpretiert sein könnten, entweder durch strikte verbundene Komponentenvermischungskriterien, oder durch eine zu schlechte Randdetektion, wodurch mehrere verbundene Komponenten für dasselbe Zeichen resultieren.
  • Der Bildprozessor 120 vergleicht jeden Kasten mit den Textkästen, die folgen für einen Satz von Bedingungen. Die vielen Testbedingungen für zwei Textkästen sind:
    • a) Der Boden des einen Kastens liegt innerhalb der Reihendifferenzschwelle des anderen. Auch der Abstand in der horizontalen Richtung zwischen den zwei Kästen ist kleiner als eine variable Schwelle auf Basis der mittleren Breite von Zeichen in dem ersten Kasten.
    • b) Die Mitte jedes der Kästen liegt innerhalb des Gebietes des anderen Textkastens, oder
    • c) die Textkästen überlappen sich.
  • Wenn eine der oben stehenden Bedingungen erfüllt wird, löscht der Bildprozessor 120 den zweiten Kasten aus der Liste mit Textkästen und vermischt diesen in den ersten Kasten. Der Bildprozessor 120 wiederholt den Prozess, bis alle Textkästen untereinander getestet und möglichst miteinander kombiniert worden sind.
  • Textzeilendetektion und Verbesserung (Prozessschritt 235):
  • Der Bildprozessor 120 akzeptiert die Textkästen, erhalten aus dem Schritt 235 als Textzeilen, wenn sie mit den Beschränkungen des Gebietes, der Breite und der Höhe übereinstimmen. Für jeden der Textkästen extrahiert der Bildprozessor 120 das Subbild entsprechend dem Textkasten aus dem ursprünglichen Bild. Der Bildprozessor 120 modifi ziert danach das extrahierte Subbild, so dass der Text als schwarz mit einem weißen Hintergrund in dem Vordergrund erscheint. Diese Modifikation ist erforderlich, so dass das Ausgangssignal dieser Stufe mit Hilfe eines OCR-Applikationsprogramms verarbeitet werden kann.
  • Der Bildprozessor 120 modifiziert das Textkastenbild durch Berechnung des mittleren Grauskalenwertes der Pixel in dem Textkasten (AvgFG). Der mittlere Grauskalenwert eines Gebietes (beispielsweise 5 Pixel) um den Textkasten wird auch berechnet (AvgBG). Innerhalb des Textkastens markiert der Bildprozessor 120 alles über AvgFG als Weiß und markiert alles unterhalb AvgFG als Schwarz. Der Mittelwert für die als Weiß markierten Pixel, Avg1, wird zusammen mit dem Mittelwert für die als Schwarz markierten Pixel, Avg2.
  • Wenn der Textkasten einmal in ein Schwarz und Weiß (binäres) Bild umgewandelt worden ist, vergleicht der Bildprozessor 120 Avg1 und Avg2 mit AvgBG. Das Gebiet, das einen Mittelwert hat, der näher bei AvgBG liegt, wird als Hintergrund bezeichnet und das andere Gebiet wird als Vordergrund (oder Text) bezeichnet . Wenn beispielsweise der Mittelwert des schwarzen Gebietes näher bei AvgBG liegt, wird das schwarze Gebiet in Weiß umgesetzt und umgekehrt. Dies gewährleistet, dass der Text immer in Schwarz ist und zur Eingabe in ein OCR-Programm konsistent ist.
  • Der Bildprozessor 120 speichert daraufhin den extrahierten Frametext in Bildtextarbeitsraum 132 und der Prozess fährt mit dem nächsten Frame beim Prozessschritt 205 fort. Die Sequenz setzt sich fort, bis Text von allen Frames des selektierten Videoclips extrahiert worden ist. Wenn der Videobildtext einmal erkannt und extrahiert worden ist, kann der Bildprozessor 120 weiterhin den extrahierten Text auf Basis systemselektierter oder benutzerselektierter Textattribute isolieren und analysieren. Videosequenzen oder Clips können auf Basis des Textes, der sich in einem Frame oder einer Gruppe von Frames ermittelt oder indiziert werden. So kann beispielsweise das Vorhandensein des Wortes "Hotel" in einem Frame eine hohe Wahrscheinlichkeit einer Hotelszene in dem aktuellen und nachfolgenden Frames angeben. Das Vorhandensein von Straßennamen und Nummern gibt die Möglichkeit von Stadtszenen an. Identifikation von Werbetexten kann hilfsreich sein beim Ermitteln von Frames mit Autobahnszenen.
  • Wiedergabeschirm ist auch möglich, Text zum Analysieren und Etikettieren bestimmter Videoframes zu verwenden. So kann beispielsweise der Bildprozessor 120 ak tuelle Nachrichten identifizieren und extrahieren, die als Teil eines bestimmten Nachrichtenprogramms gesendet wurden oder von einem bestimmten Berichterstatter gegeben wurden. Der Bildprozessor 120 kann dies dadurch machen, das in einem Bildtext nach Stichwörtern wie "LIVE", dem Programmnamen (beispielsweise "NEWS4 AT NITE") oder dem Namen des Berichterstatters (beispielsweise "Carol Jones") gesucht wird.
  • Durch Erkennung des Textkastens kann der Bildprozessor 120 Videoframes und Clips indizieren, und zwar auf Basis des Namens des Programms, des Gastgebers, des Produzenten, des Regisseurs, oder eines beliebigen anderen Namens. Dies umfasst die Identifikation und die Klassifizierung von Bildern of Basis der Namen von Musikgruppen (beispielsweise MTV und VH-1 Videoclips), Talk Show-Gastgebern oder Gästen, usw. Weiterhin können Sportprogramme ermittelt werden durch Extraktion von Kastenergebnissen, die oft am Schirm erscheinen. So kann beispielsweise der Bildprozessor 120 nach Ergebnissen, Mannschaftsnamen, Spielernamen und dergleichen suchen. Börseninformation kann extrahiert und indiziert werden. Wetterinformation kann auch extrahiert und indiziert werden, und zwar auf Basis der am Schirm vorhandenen Textinformation.
  • Der laufende "Ticker", der bei Spielen, Talk Shows, Nachrichten und dergleichen läuft, kann durch Untersuchung von Bildtext in Bezug auf selektierte Attribute erkannt werden. Schirmticker liefern Information über das aktuelle Wetter, über Börsenlagen und andere Information, die durch Attributanalyse identifiziert und benannt und für künftige Verwendung ermittelt werden kann. Extrahierte Tickerinformation kann als unabhängig von dem gesendeten Programm betrachtet werden, da e keine Beziehung mit dem Programm hat, bei dem sie erscheint.
  • Die Analyse überlagerten Textes in Bezug auf den Inhalt des restlichen Teils des Frames kann hilfsreich sein, wenn es erforderlich ist, dass Schlüsselframes eines Videosegmentes identifiziert werden. Eine derartige überlagerte Information ist komplementär zu der Video-, Audio- und Transskriptionsinformation. Dieser Text kann im Zusammenhang mit Schußdetektionsalgorithmen für Videoindizierung verwendet werden um Schlüsselframes mit Text zu erzeugen. Die Schlüsselframes mit text sind bedeutungsvoller und repräsentativer für die Videosequenz als diejenigen ohne Text. So ist beispielsweise ein Schlüsselframe mit einem Ergebnis eines Fußballwettkampfes nützlicher als ein ohne Ergebnis. Weiterhin kann die Detektion der Lage und der Größe von Text in Werbesendungen im Zusammenhang mit anderen Attributen für eine zuverlässige Detektion von Werbesendungen verwendet werden.
  • Weiterhin schafft Videotextanalyse neue Möglichkeiten zum Analysieren und Kategorisieren von Videoinhalt des restlichen Teils des Bildes. Szenentext und die Attribute schaffen Hinweise auf den Videoinhalt. Dies bietet mehrere Vorteile, einschließlich der Tatsache, dass dazu viel weniger Computerspeicherraum und Zeit erforderlich ist um Text zu analysieren, stattdessen, dass der sichtbare Inhalt des Videos analysiert werden muss. So kann beispielsweise die Detektion von laufendem Text den Anfang oder das Ende eines Programms identifizieren. Auf diese Weise kann dieses Attribut behilflich sein, wenn es notwendig ist, die Grenzen des Programms innerhalb eines Videos mit einer Gruppierung vieler Programme zu finden.
  • 3A und 3B zeigen Beispiele von Videoframes 305 und 350 mit Bildtext mit selektierten Attributen, die von der Videoverarbeitungsanordnung 110 in 1 identifiziert werden können. Der Bildtext in den Videoframes 305 und 350 erscheint nicht unbedingt gleichzeitig am Schirm während jedes beliebigen Videoclips. Die Videoframes 305 und 350 werden angeboten um selektierte Attribute des Bildtextes zu illustrieren, wie laufende Bewegung, Lage, Schwund, kurze Dauer und Stichwörter. Der Kürze und der Deutlichkeit in der Erläuterung der Wirkungsweise der vorliegenden Erfindung wegen, wird Bildtext von verschiedenen Programmtypen zu Videoframes 305 und 350 kombiniert.
  • Das Videoframe 305 stellt Text dar, extrahiert aus einem Videoframe eines Fernsehprogramms. In diesem Fall hat das System/der Benutzer Attribute zum Isolieren horizontal oder vertikal laufenden Textes, wie eines Textes assoziiert mit Programmabspann- oder Teckerzeileninformation auf der Unterseite des Frames selektiert. Ein laufendes Attribut wird durch Identifikation von Text detektiert, der in einer Sequenz von Frames identisch ist, ausgenommen, es sei denn, dass die Lage des Textes sich von Frame zu Frame leicht verschiebt. Weiterhin kann der Bildprozessor, sogar für Programmabspanninformation, die nicht läuft, Programminformation identifizieren durch Identifikation einer Sequenz von Textnachrichten, die nur kurz am Schirm erscheinen und ggf. durch weitere Identifikation von Stichwörtern in dem Text, wie "Produzent", "Regie", "Mitwirkende" und dergleichen.
  • Unter Verwendung selektierter vertikal laufender Attribute hat der Bildprozessor 120 Abspanntextzeilen 310 isoliert, was ein aufwärts laufendes Textgebiet ist, wie durch das punktierte Rechteck angegeben. Unter Verwendung selektierter horizontal laufender Attribute hat der Bildprozessor 120 auf der Unterseite des Frames eine laufende Warnungstextnachricht 315 isoliert, wobei es sich um eine Wetternachricht in dem angegebenen Rechteck handelt, wobei der Text für den Zuschauer von rechts nach links läuft.
  • Das Videoframe 350 enthält andere Beispiele von Bildtext mit speziellen Attributen, die in einem Videoframe einfach identifiziert werden können. So schafft beispielsweise der Kasten mit Ergebnistext 355 in der oberen linken Ecke des Videoframes 350 drei Textzeilen. Die erste Zeile identifiziert den Sender oder das Netzwerk, und die restlichen zwei Zeilen geben ein Spielergebnis wieder. Der Bildprozessor 120 kann Sportprogramme identifizieren durch Identifikation von Sportergebnisse im Schirm mit Attributen ähnlich dem Kastenergebnistext 255. Die meisten Ergebnisse werden typischerweise in einer Ecke des Schirms präsentiert und numerische Daten (d.h. die gesamten Punkte jeder Mannschaft) erscheint vertikal ausgerichtet in dem Kasten Ergebnisse.
  • Auf gleiche Weise hat der Werbetext 360 die Stichwortattribute einer Telefonnummer, assoziiert mit einem Inserenten (beispielsweise "1–800–") und Werbetext 365 hat die Stichwortattribute einer Internetadresse, assoziiert mit dem Inserenten (beispielsweise: "www.[Firmenname].com" . Weiterhin haben der Werbetext 360 und der Werbetext 365 einer des anderen Attribut, das zum identifizieren einer Werbeanzeige verwendet werden kann, und zwar liegen beide in der Nähe der Mitte des Videobildes 350. Die meisten anderen Texttypen befinden sich unten am Schirm oder in der Ecke desselben. Zum Schluss hat das Textgebiet 370 ein Schlüsselwortattribut (und zwar "Nachrichten"), das das Frame als Teil eines Nachrichtenprogramms identifiziert. Das Textgebiet 375 hat ein anderes Schlüsselwortattribut (und zwar "Live"), das angibt, dass das wiedergegebene Textframe ein Teil eines Nachrichtenprogramms ist.
  • 4 zeigt ein Beispiel einer Bildtextattributtabelle 400 in dem Speicher 140, der systemdefinierte und benutzerdefinierte Bildtextattribute nach einer Ausführungsform der vorliegenden Erfindung aufweist. Jede system-/benutzerdefinierte Attributklassifizierung in der Tabelle 400 entspricht einer Datei von Attributen, die fest oder variabel sein kann, wie durch die spezielle Implementierung des Bildtextanalysensystem nach 1 bestimmt.
  • Kommerzielle Attribute 405 stellen Kennzeichen eines kommerziellen Werbetextes dar, die in einer Datei zum Anschauen extrahiert werden können. Attribute, assozi iert mit kommerziellem Inhalt können Text innerhalb einer bestimmten Größe oder Lagenbeschränkungen, Text von kurzer Dauer, Wiedergabe von Telefonnummern, E-Mail-adressen, Internetadressen und Schlüsselwörtern innerhalb der Werbetexte, wie "Ausverkauf', "Preisnachlass" oder dergleichen enthalten.
  • Programmnameattribute 410 versehen dem System/Benutzer mit Mitteln zum Isolieren eines Videoclips, in dem Text erscheint, der ein bestimmtes Programm angibt. Auch hier können Programmnameattribute 410 Attribute, wie Größe und Lage sowie einen wirklichen Programmnamen, wie "Seinfeld" enthalten. Programmnameattribute 410 können angeben, dass der Bildprozessor 120 nur nach einem identifizierten Segment des Videoclips (wie dem Anfang) für den Programmnamen schauen soll, damit Werbesendungen für das Programm eliminiert werden, die während anderer Programme erscheinen.
  • Programmtypattribute 415 umfassen Textattribute, die einen speziellen Programmtyp identifizieren (Sport, Nachrichten, Musikvideo usw.), Diese Programmtypen können identifiziert werden, wie oben beschrieben, indem nach dem Kasten Ergebnisse Attribute gesucht wird, die Sportliga-Schlüsselwörter enthalten (beispielsweise NBA, NHL), Nachrichtenprogramm-Schlüsselwörter (beispielsweise "Nachrichten", "Wetter", "Live"), oder Musikvideo-Schlüsselwörter (beispielsweise "Produzent", "aufgezeichnet von").
  • Personennamenattribute 420 umfassen Text, der eine bestimmte Person identifiziert ("John Smith") und können im Zusammenhang mit anderen Textattributen (wie Nachrichtenprogrammname, Sportorganisationsname, usw.) verwendet werden. Firmennamenattribute 425 schaffen Mittel zum Untersuchen eines Videoclips aus das Vorhandensein eines spezifischen Firmennamens. So kann beispielsweise der Bildprozessor 120 einen bestimmten Firmennamen auf Werbeplakaten, die einen Fußballplatz umrahmen, identifizieren. Die Attributselektion kann oben beschriebene Textmerkmale, Identifikation von Programmtypen, die auf Firmennamen untersucht werden, Identifikation von spezifischen Firmennamen zur Wiedergabe, Firmennamen auf Produkten innerhalb einer Nachrichtensendung usw. umfassen.
  • Ereignisattribute 430 referieren an Textattribute bestimmter Ereignistypen, wie den "Super Bowl" oder "White House Briefing". In dieser Hinsicht können Ereignisattribute 430 den Pogrammattributen oder Personenattributen sehr ähnlich sein.
  • Texteffektattribute 435 schaffen eine Gruppe von Standardtextcharakteristiken, die für lektions- und Wiedergabezwecke verfügbar sind. Texteffektattribute 435 können Texteffekte umfassen, wie horizontales und vertikales Laufendes Zooming (d.h. Heranzoomen oder Wegzoomen), Blitzen, Welle (oder Welligkeit), Schälen, Verwürfeln, "Flying", Animation und Szenentext.
  • Netzwerklogoattribute 440 beziehen sich auf Textattribute, assoziiert mit Netzwerkidentifikationslogos. Diese umfassen Netzwerknamen und Logos zur Verwendung, wenn Text und Primärframegebiete miteinander übereinstimmen, wo Logos höchstwahrscheinlich angebracht werden sollen. Es ist üblich, dass Netzwerke einen verblassten Umriss (oder ein Wasserzeichen) ihres Logos über das Schirmbild des Programms überlagern.
  • Texterscheinungsattribute 445 beziehen sich auf ein oder mehrere bestimmte Merkmale des Bildtextes, wie eine bestimmte Textfarbe, Zeichentyp, Texthöhe, Textbreite, oder Textlage. Im Falle von Texthöhe, Textbreite oder Textlage kann die Größe oder die Lage in absoluten Termen gegeben werden (beispielsweise eine bestimmte Anzahl oder ein bestimmter Bereich von Pixeln) oder in relativen Termen (beispielsweise einen bestimmten Prozentsatz oder ein Prozentsatzbereich der Schirmgröße).
  • 5 zeigt ein Flussdiagramm 500, das einen Bildtextattributanalysenvorgang eines Ausführungsbeispiels einer Videoverarbeitungsanordnung 110 nach einer Ausführungsform der vorliegenden Erfindung illustriert. Eine Gruppe von Standardtextattributen kann in dem Speicher 140 durch den Textanalysencontroller 134 zum Zeitpunkt der Systeminitialisierung gespeichert werden und/oder modifiziert oder über Benutzeranordnungen 190 eingegeben werden. Auf diese Weise kann der Bildprozessor 120 selektierte Textattribute standardmäßig aus dem Speicher 140 oder durch spezifische Eingabe aus Benutzeranordnungen 190 (Prozessschritt 505) empfangen.
  • Wenn die Videotextanalyse aktiviert wird, detektiert, extrahiert und speichert der Bildprozessor 120 Text aus den selektierten Videoframes, wie in 2 detailliert beschrieben (Prozessschritt 510). Die Textattribute des extrahierten Textes werden ermittelt und in dem Bildarbeitsraum 132 gespeichert. Der extrahierte Bildtext wird danach mit den selektierten Attributen verglichen und das Ergebnis wird in dem Bildarbeitsraum 132 und/oder dem Speicher 140 gespeichert, wie erforderlich (Prozessschritt 515).
  • Je nach der betreffenden Applikation kann der Videobildtext, der mit den selektierten Attributen übereinstimmt, mit Hilfe bekannter Editierungsprozesse in Reaktion auf Benutzerbefehle modifiziert werden (Prozessschritt 520). Das Editieren kann beispielsweise das Entfernen aller Werbesendungen, oder auf alternative Weise das Beibehalten nur der Werbesendungen und das Löschen des Programms umfassen. Die resultierende Videodatei und der assoziierte analysierte Text kann für Erfassungszwecke benannt, in dem Speicher 140 gespeichert, und/oder zur späteren Verwendung zu einem internen oder externen Speicher weiter geleitet werden (Prozessschritt 525).
  • Obschon die vorliegende Erfindung detailliert beschrieben worden ist, dürfte es dem Fachmann einleuchten, dass dieser im Rahmen der vorliegenden Erfindung, wie in den beiliegenden Patentansprüchen definiert, mehrere Änderungen, Abwandlungen und Modifikationen durchführen kann.
  • Text in der Zeichnung
  • Fig. 1
    110
    Videoverarbeitungsanordnung
    120
    Bildprozessor
    132
    Bildtextarbeitsraum
    134
    Textanalysencontroller
    140
    Speicher
    170
    I/O Puffer
    160
    Videokarte
    150
    Benutzer I/O Karte
    180
    Videoquelle (Antenne, Kabel, VTR, DVD, CD, usw.)
    190
    Benutzeranordnungen
    Fig. 2
    205
    Kanaltrennung durchführen
    210
    Bildverbesserung durchführen
    215
    Randdetektion durchführen
    220
    Randfilterung durchführen
    225
    Zeichendetektion durchführen
    230
    Textkastendetektion durchführen
    235
    Textzeilendetektion durchführen
    zum nächsten Frame
    Fig. 3A
    310
    Produzent...
    315
    Warnung vor heftigen Stürmen
    Fig. 4
    400
    Bildtextattributsystem/benutzerdefiniert
    405
    Werbungsattribute
    410
    Programmnameattribute
    415
    Programmtypattribute
    420
    Personnameattribute
    425
    Firmennameattribute
    430
    Ereignisattribute
    435
    Texteffektattribute
    440
    Netzwerklogoattribute
    445
    Texterscheinungsattribute
    Fig. 5
    505
    Empfang selektierter Textattribute
    510
    Durchführung von Bildtextextraktion und Erkennung in Quellenvideostrom
    515
    Ermittlung extrahierter Bildtextattribute und Vergleich mit selektierten Bildtextattributen
    520
    ggf. Videoeditierung entsprechend Benutzerbefehlen
    525
    Speicherung/Beförderung/Benennung der Videodatei.
    Ende

Claims (6)

  1. Videoverarbeitungsanordnung (110), die imstande ist, Videoströme zu suchen und zu filtern, gekennzeichnet durch: – einen Bildprozessor (120), der imstande ist: – wenigstens ein selektiertes Bildtextattribut zu empfangen, selektiert aus einer Gruppe mit Scrollbewegung, Fading, Dauer, Zoomen; Welligkeit, Fliegen und Blitzen – einen ersten Videostrom zu empfangen, der eine Anzahl Videoframes (305, 350) aufweist, – Bildtext zu detektieren und zu extrahieren, und zwar aus der genannten Anzahl Videoframes (305, 350), – wenigstens ein Attribut des genannten extrahieren Bildtextes zu ermitteln, das genannte wenigstens eine extrahierte Bildtextattribut mit dem genannten wenigstens einen selektierten Bildtextattribut zu vergleichen, und – in Reaktion auf eine Übereinstimmung zwischen dem genannten wenigstens einen extrahierten Bildtextattribut und dem genannten wenigstens einen selektierten Bildtextattribut wenigstens einen der nachfolgenden Vorgänge durchzuführen: – das Modifizieren wenigstens eines Teils des genannten ersten Videostroms, – das Übertragen wenigstens eines Teils des genannten ersten Videostroms, und – das Kennzeichnen wenigstens eines Teils des genannten ersten Videostroms.
  2. Videoverarbeitungsanordnung (110) nach Anspruch 1, wobei das genannte wenigstens eine extrahierte Bildtextattribut eine Scrollbewegung ist, und dazu benutzt wird, anzugeben, dass der genannte Bildtext in der genannten Anzahl Videoframes (305, 350) Text ist, der erscheint: – am Start eines Programms; oder – am Ende eines Programms.
  3. Bildtextanalysensystem (100), das die nachfolgenden Elemente umfasst: – eine Videoverarbeitungsanordnung (110) nach Anspruch 1, – einen Wiedergabemonitor (185) zum Wiedergeben des genannten wenigstens einen Teils des genannten ersten Videostroms; und – eine Benutzerreingabeanordnung (190) zum Eingeben des genannten wenigstens einen selektierten Bildtextattributs.
  4. Verfahren zum Suchen und Filtern von Videoströmen, gekennzeichnet durch die nachfolgenden Verfahrensschritte: – das Empfangen wenigstens eines selektierten Bildtextattributs, selektiert aus einer Gruppe mit Scrollbewegung, Fading, Dauer, Zoomen; Welligkeit, Fliegen und Blitzen, – das Empfangen eines ersten Videostroms, der eine Anzahl Videoframes (305, 350) aufweist, – das Detektieren und das Extrahieren von Bildtext, und zwar aus der genannten Anzahl Videoframes (305, 350), – das Ermitteln wenigstens eines Attributs des genannten extrahieren Bildtextes, – das Vergleichen des genannten wenigstens einen extrahierten Bildtextattributs mit dem genannten wenigstens einen selektierten Bildtextattribut, und – in Reaktion auf eine Übereinstimmung zwischen dem genannten wenigstens einen extrahierten Bildtextattribut und dem genannten wenigstens einen selektierten Bildtextattribut das Durchführen wenigstens eines der nachfolgenden Vorgänge: – das Modifizieren wenigstens eines Teils des genannten ersten Videostroms, – das Übertragen wenigstens eines Teils des genannten ersten Videostroms, und – das Kennzeichnen wenigstens eines Teils des genannten ersten Videostroms.
  5. Von einem Computer auslesbares Speichermedium (140) auf dem von einem Computer durchführbare Verfahrensschritte gespeichert sind zum Durchführen von Suche und Filterung von Videoströmen in Reaktion auf den Empfang wenigstens eines selektierten Bildtextattributs, selektiert aus einer Gruppe mit Scrollbewegung, Fading, Dauer, Zoomen; Welligkeit, Fliegen und Blitzen, wobei die von einem Computer durchführbaren Verfahrensschritte die nachfolgenden Schritte umfassen: – das Empfangen eines ersten Videostroms, der eine Anzahl Videoframes (305, 350), – das Detektieren und das Extrahieren von Bildtext, und zwar aus der genannten Anzahl Videoframes (305, 350), – das Ermitteln wenigstens eines Attributs des genannten extrahieren Bildtextes, – das Vergleichen des genannten wenigstens einen extrahierten Bildtextattributs mit dem genannten wenigstens einen selektierten Bildtextattribut, und – in Reaktion auf eine Übereinstimmung zwischen dem genannten wenigstens einen extrahierten Bildtextattribut und dem genannten wenigstens einen selektierten Bildtextattribut das Durchführen wenigstens eines der nachfolgenden Vorgänge: – das Modifizieren wenigstens eines Teils des genannten ersten Videostroms, – das Übertragen wenigstens eines Teils des genannten ersten Videostroms, und – das Kennzeichnen wenigstens eines Teils des genannten ersten Videostroms.
  6. Von einem Computer auslesbares Speichermedium (140) nach Anspruch 5, wobei das wenigstens eine extrahierte Bildtextattribut angibt, dass der Bildtext in den vielen Videoframes das horizontale Scrollen, das vertikale Scrollen, Fading, Zoomen, Welligkeit, Fliegen oder Blitzen ist.
DE69935504T 1999-01-28 1999-12-24 System und verfahren zur videoinhaltsanalyse unter verwendung ermittelter texte in videorahmen Expired - Lifetime DE69935504T2 (de)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US11765899P 1999-01-28 1999-01-28
US117658P 1999-01-28
US370931 1999-08-09
US09/370,931 US6608930B1 (en) 1999-08-09 1999-08-09 Method and system for analyzing video content using detected text in video frames
PCT/EP1999/010408 WO2000045291A1 (en) 1999-01-28 1999-12-24 System and method for analyzing video content using detected text in video frames

Publications (2)

Publication Number Publication Date
DE69935504D1 DE69935504D1 (de) 2007-04-26
DE69935504T2 true DE69935504T2 (de) 2007-11-22

Family

ID=26815500

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69935504T Expired - Lifetime DE69935504T2 (de) 1999-01-28 1999-12-24 System und verfahren zur videoinhaltsanalyse unter verwendung ermittelter texte in videorahmen

Country Status (6)

Country Link
US (1) US6731788B1 (de)
EP (1) EP1066577B1 (de)
JP (1) JP4643829B2 (de)
CN (1) CN100342376C (de)
DE (1) DE69935504T2 (de)
WO (1) WO2000045291A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2381677A1 (de) 2010-04-26 2011-10-26 LOEWE OPTA GmbH Fernsehgerät mit automatischer Abschaltung

Families Citing this family (110)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6469749B1 (en) * 1999-10-13 2002-10-22 Koninklijke Philips Electronics N.V. Automatic signature-based spotting, learning and extracting of commercials and other video content
CN1240218C (zh) * 1999-11-01 2006-02-01 皇家菲利浦电子有限公司 用于替换不希望的广告中断或其它视频序列的视频内容的方法和装置
US7230653B1 (en) 1999-11-08 2007-06-12 Vistas Unlimited Method and apparatus for real time insertion of images into video
JP3535444B2 (ja) * 2000-03-27 2004-06-07 株式会社エーエスエー・システムズ 印刷物を用いた情報秘匿システム
JP2002169819A (ja) * 2000-12-01 2002-06-14 Kanebo Ltd 動画情報配信方法およびそれに用いる動画情報配信システム
US6798912B2 (en) 2000-12-18 2004-09-28 Koninklijke Philips Electronics N.V. Apparatus and method of program classification based on syntax of transcript information
US7046914B2 (en) * 2001-05-01 2006-05-16 Koninklijke Philips Electronics N.V. Automatic content analysis and representation of multimedia presentations
FR2825173B1 (fr) * 2001-05-23 2003-10-31 France Telecom Procede de detection de zones de texte dans une image video
US7206434B2 (en) * 2001-07-10 2007-04-17 Vistas Unlimited, Inc. Method and system for measurement of the duration an area is included in an image stream
US7096179B2 (en) * 2001-08-15 2006-08-22 Siemens Corporate Research, Inc. Text-based automatic content classification and grouping
US7400768B1 (en) * 2001-08-24 2008-07-15 Cardiff Software, Inc. Enhanced optical recognition of digitized images through selective bit insertion
KR100473952B1 (ko) * 2001-09-29 2005-03-08 엘지전자 주식회사 디지털 영상신호에서 추출된 텍스트 영역의 이미지 향상방법
JP3924476B2 (ja) * 2002-02-26 2007-06-06 富士通株式会社 画像データ処理システム
US7143352B2 (en) * 2002-11-01 2006-11-28 Mitsubishi Electric Research Laboratories, Inc Blind summarization of video content
US20090119717A1 (en) * 2002-12-11 2009-05-07 Koninklijke Philips Electronics N.V. Method and system for utilizing video content to obtain text keywords or phrases for providing content related to links to network-based resources
JP4112968B2 (ja) * 2002-12-26 2008-07-02 富士通株式会社 ビデオテキスト処理装置
US8644969B2 (en) 2003-01-02 2014-02-04 Catch Media, Inc. Content provisioning and revenue disbursement
US8732086B2 (en) 2003-01-02 2014-05-20 Catch Media, Inc. Method and system for managing rights for digital music
US7191193B2 (en) 2003-01-02 2007-03-13 Catch Media Automatic digital music library builder
US8666524B2 (en) 2003-01-02 2014-03-04 Catch Media, Inc. Portable music player and transmitter
US8918195B2 (en) 2003-01-02 2014-12-23 Catch Media, Inc. Media management and tracking
WO2004090752A1 (en) * 2003-04-14 2004-10-21 Koninklijke Philips Electronics N.V. Method and apparatus for summarizing a music video using content analysis
US7146361B2 (en) * 2003-05-30 2006-12-05 International Business Machines Corporation System, method and computer program product for performing unstructured information management and automatic text analysis, including a search operator functioning as a Weighted AND (WAND)
US7327885B2 (en) * 2003-06-30 2008-02-05 Mitsubishi Electric Research Laboratories, Inc. Method for detecting short term unusual events in videos
US7870504B1 (en) * 2003-10-01 2011-01-11 TestPlant Inc. Method for monitoring a graphical user interface on a second computer display from a first computer
EP1530156B1 (de) * 2003-11-07 2012-03-14 Mitsubishi Electric Information Technology Centre Europe B.V. Erfassung visueller Objekte
JP4267475B2 (ja) * 2004-02-13 2009-05-27 富士通株式会社 図面照合装置
JP2006180306A (ja) * 2004-12-24 2006-07-06 Hitachi Ltd 動画記録再生装置
US20080159585A1 (en) * 2005-02-14 2008-07-03 Inboxer, Inc. Statistical Categorization of Electronic Messages Based on an Analysis of Accompanying Images
CN100353756C (zh) * 2005-02-25 2007-12-05 英特维数位科技股份有限公司 滤除广告资料的装置及其方法
CN100517374C (zh) * 2005-12-29 2009-07-22 佳能株式会社 从复杂背景文档图像提取文本的装置、方法
US8219553B2 (en) 2006-04-26 2012-07-10 At&T Intellectual Property I, Lp Methods, systems, and computer program products for managing audio and/or video information via a web broadcast
CN1968137A (zh) * 2006-04-30 2007-05-23 华为技术有限公司 一种媒体流审查系统及审查码流生成节点设备
JP4760572B2 (ja) * 2006-06-30 2011-08-31 ソニー株式会社 編集装置および編集方法、並びにプログラム
JP4706581B2 (ja) * 2006-07-14 2011-06-22 富士ゼロックス株式会社 画像処理装置および画像形成装置
CN100401302C (zh) * 2006-09-14 2008-07-09 浙江大学 基于标注重要性次序的图像语义自动标注方法
US20080231027A1 (en) * 2007-03-21 2008-09-25 Trw Automotive U.S. Llc Method and apparatus for classifying a vehicle occupant according to stationary edges
JP4659793B2 (ja) * 2007-08-07 2011-03-30 キヤノン株式会社 画像処理装置及び画像処理方法
JP4814849B2 (ja) * 2007-08-10 2011-11-16 富士通株式会社 フレームの特定方法
JP5115089B2 (ja) * 2007-08-10 2013-01-09 富士通株式会社 キーワード抽出方法
US20090196524A1 (en) * 2008-02-05 2009-08-06 Dts Digital Images, Inc. System and method for sharpening of digital images
CN101271487B (zh) * 2008-04-22 2011-09-14 北京中星微电子有限公司 视频处理芯片的验证方法和系统
EP2136317B1 (de) 2008-06-19 2013-09-04 Samsung Electronics Co., Ltd. Verfahren und Vorrichtung zur Erkennung von Zeichen
CN101616264B (zh) * 2008-06-27 2011-03-30 中国科学院自动化研究所 新闻视频编目方法及系统
JP5353170B2 (ja) * 2008-10-02 2013-11-27 富士通株式会社 録画予約プログラム、録画予約方法、及び、録画予約装置
JP2010183301A (ja) * 2009-02-04 2010-08-19 Sony Corp 映像処理装置、映像処理方法及びプログラム
CN101887445B (zh) * 2009-05-12 2012-10-10 大相科技股份有限公司 处理动态图像的方法、系统与加值处理的方法
EP2259207B8 (de) 2009-06-02 2012-11-28 Fundacion Centro de Tecnologias de Interaccion Visual y comunicaciones Vicomtech Verfahren zur Erfassung und Erkennung von Logos in einem Videodatenstrom
US10097880B2 (en) 2009-09-14 2018-10-09 Tivo Solutions Inc. Multifunction multimedia device
US8406528B1 (en) * 2009-10-05 2013-03-26 Adobe Systems Incorporated Methods and apparatuses for evaluating visual accessibility of displayable web based content and/or other digital images
CN101739450B (zh) * 2009-11-26 2012-08-22 北京网梯科技发展有限公司 对视频中出现的信息进行检索的方法及系统
US8682145B2 (en) 2009-12-04 2014-03-25 Tivo Inc. Recording system based on multimedia content fingerprints
CN101833584A (zh) * 2010-05-20 2010-09-15 无敌科技(西安)有限公司 嵌入式设备中查询教学视频内容的系统及其方法
GB2485833A (en) 2010-11-26 2012-05-30 S3 Res & Dev Ltd Improved OCR Using Configurable Filtering for Analysing Set Top Boxes
CN102158732A (zh) * 2011-04-22 2011-08-17 深圳创维-Rgb电子有限公司 基于电视画面的信息搜索方法及系统
US9251144B2 (en) 2011-10-19 2016-02-02 Microsoft Technology Licensing, Llc Translating language characters in media content
WO2013098848A2 (en) * 2011-12-07 2013-07-04 Tata Consultancy Services Limited Method and apparatus for automatic genre identification and classification
CN103297842B (zh) * 2012-03-05 2016-12-28 联想(北京)有限公司 一种数据处理方法及电子设备
US9342930B1 (en) 2013-01-25 2016-05-17 A9.Com, Inc. Information aggregation for recognized locations
US9256795B1 (en) * 2013-03-15 2016-02-09 A9.Com, Inc. Text entity recognition
KR102103277B1 (ko) * 2013-04-12 2020-04-22 삼성전자주식회사 이미지를 관리하는 방법 및 그 전자 장치
CN104252475B (zh) * 2013-06-27 2018-03-27 腾讯科技(深圳)有限公司 定位图片中文本信息的方法及装置
US9329692B2 (en) 2013-09-27 2016-05-03 Microsoft Technology Licensing, Llc Actionable content displayed on a touch screen
GB2531969B (en) * 2013-10-03 2016-08-10 Supponor Oy Method and apparatus for image frame identification
KR102016545B1 (ko) * 2013-10-25 2019-10-21 한화테크윈 주식회사 검색 시스템 및 그의 동작 방법
US9424598B1 (en) 2013-12-02 2016-08-23 A9.Com, Inc. Visual search in a controlled shopping environment
KR101406288B1 (ko) * 2014-01-02 2014-06-12 진종원 평생 학습 서비스 제공 방법
US9310518B2 (en) 2014-01-24 2016-04-12 International Business Machines Corporation Weather forecasting system and methods
US10643266B2 (en) * 2014-03-31 2020-05-05 Monticello Enterprises LLC System and method for in-app payments
US11250493B2 (en) 2014-03-31 2022-02-15 Monticello Enterprises LLC System and method for performing social media cryptocurrency transactions
US10121186B2 (en) * 2014-03-31 2018-11-06 Monticello Enterprises LLC System and method of using a browser application programming interface for making payments
CA2977929A1 (en) * 2014-03-31 2015-10-08 Monticello Enterprises LLC System and method for providing a single input field having multiple processing possibilities
US11282131B2 (en) * 2014-03-31 2022-03-22 Monticello Enterprises LLC User device enabling access to payment information in response to user input
US11004139B2 (en) * 2014-03-31 2021-05-11 Monticello Enterprises LLC System and method for providing simplified in store purchases and in-app purchases using a use-interface-based payment API
US20180019984A1 (en) * 2014-03-31 2018-01-18 Monticello Enterprises LLC System and method for providing a credential management api
US10002396B2 (en) 2014-03-31 2018-06-19 Monticello Enterprises LLC System and method for transitioning from a first site to a second site
US10832310B2 (en) * 2014-03-31 2020-11-10 Monticello Enterprises LLC System and method for providing a search entity-based payment process
US9922380B2 (en) * 2014-03-31 2018-03-20 Monticello Enterprises LLC System and method for providing messenger application for product purchases
US10726472B2 (en) * 2014-03-31 2020-07-28 Monticello Enterprises LLC System and method for providing simplified in-store, product-based and rental payment processes
US10152756B2 (en) 2014-03-31 2018-12-11 Monticello Enterprises LLC System and method for providing multiple payment method options to browser
US10511580B2 (en) * 2014-03-31 2019-12-17 Monticello Enterprises LLC System and method for providing a social media shopping experience
US20240013283A1 (en) * 2014-03-31 2024-01-11 Monticello Enterprises LLC System and method for providing a social media shopping experience
US11080777B2 (en) * 2014-03-31 2021-08-03 Monticello Enterprises LLC System and method for providing a social media shopping experience
US10497037B2 (en) * 2014-03-31 2019-12-03 Monticello Enterprises LLC System and method for managing cryptocurrency payments via the payment request API
JP6199795B2 (ja) * 2014-04-23 2017-09-20 京セラドキュメントソリューションズ株式会社 画像処理装置
US9536161B1 (en) 2014-06-17 2017-01-03 Amazon Technologies, Inc. Visual and audio recognition for scene change events
US9965796B2 (en) * 2014-06-26 2018-05-08 Paypal, Inc. Social media buttons with payment capability
JP6225844B2 (ja) * 2014-06-30 2017-11-08 株式会社デンソー 対象物検出装置
US9508006B2 (en) * 2014-11-03 2016-11-29 Intelescope Solutions Ltd. System and method for identifying trees
US9430766B1 (en) 2014-12-09 2016-08-30 A9.Com, Inc. Gift card recognition using a camera
US10269055B2 (en) 2015-05-12 2019-04-23 Pinterest, Inc. Matching user provided representations of items with sellers of those items
US10679269B2 (en) 2015-05-12 2020-06-09 Pinterest, Inc. Item selling on multiple web sites
US9858340B1 (en) 2016-04-11 2018-01-02 Digital Reasoning Systems, Inc. Systems and methods for queryable graph representations of videos
US10083369B2 (en) 2016-07-01 2018-09-25 Ricoh Company, Ltd. Active view planning by deep learning
CN106254933B (zh) * 2016-08-08 2020-02-18 腾讯科技(深圳)有限公司 字幕提取方法及装置
US10395293B1 (en) * 2016-08-25 2019-08-27 PredictSpring, Inc. Canonical order management system
CN106776831A (zh) * 2016-11-24 2017-05-31 维沃移动通信有限公司 一种多媒体组合数据的编辑方法及移动终端
CN108632639B (zh) * 2017-03-23 2020-09-25 北京小唱科技有限公司 一种视频类型判断方法及服务器
CN108460106A (zh) * 2018-02-06 2018-08-28 北京奇虎科技有限公司 一种识别广告视频的方法和装置
CN108491774B (zh) * 2018-03-12 2020-06-26 北京地平线机器人技术研发有限公司 对视频中的多个目标进行跟踪标注的方法和装置
US10880604B2 (en) 2018-09-20 2020-12-29 International Business Machines Corporation Filter and prevent sharing of videos
CN109344292B (zh) * 2018-09-28 2022-04-22 百度在线网络技术(北京)有限公司 赛事得分片段的生成方法、装置、服务器和存储介质
US11727456B2 (en) * 2018-10-11 2023-08-15 International Business Machines Corporation Generating a quote to cash solution
GB2579816B (en) 2018-12-14 2021-11-10 Sony Interactive Entertainment Inc Player identification system and method
CN110267105A (zh) * 2019-06-10 2019-09-20 深圳Tcl新技术有限公司 视频广告的过滤方法、智能终端及计算机可读存储介质
US20200394705A1 (en) * 2019-06-14 2020-12-17 Fevo, Inc. Systems and methods of group electronic commerce and distribution of items
US11423463B2 (en) * 2019-12-31 2022-08-23 Paypal, Inc. Dynamically rendered interface elements during online chat sessions
US11449912B1 (en) * 2021-04-06 2022-09-20 1ClickPay Inc System and method for facilitating e-commerce transaction using an interactive support agent platform
US11741527B1 (en) * 2022-08-11 2023-08-29 Bambumeta, Llc Systems and methods for distributed commerce based on a token economy
US11887178B1 (en) * 2023-02-28 2024-01-30 Stodge Inc. Materialization of a shopping cart at an instant messaging platform

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4837842A (en) 1986-09-19 1989-06-06 Holt Arthur W Character and pattern recognition machine and method
EP0329356A3 (de) 1988-02-17 1991-10-09 Wayne State University Physiologische Wellenformanalyse
US4933872A (en) * 1988-11-15 1990-06-12 Eastman Kodak Company Method and system for wavefront reconstruction
US4912654A (en) 1988-12-14 1990-03-27 Government Systems Corporation Gte Neural networks learning method
JPH05266257A (ja) 1992-03-11 1993-10-15 Nec Corp ニューラルネット用学習データ作成装置
CH684856A5 (de) * 1992-11-30 1995-01-13 Mars Inc Verfahren zur Klassifizierung eines Musters - insbesondere eines Musters einer Banknote oder einer Münze - und Einrichtung zur Durchführung des Verfahrens.
JP3549569B2 (ja) 1993-04-27 2004-08-04 ソニー エレクトロニクス インコーポレイテッド 映像内の目標パターン探知方法
JPH0728953A (ja) 1993-07-08 1995-01-31 Nec Corp 文字検出装置
JPH0737087A (ja) 1993-07-19 1995-02-07 Matsushita Electric Ind Co Ltd 画像処理装置
JPH07192097A (ja) 1993-12-27 1995-07-28 Nec Corp 文字認識装置およびその方法
EP0811946A3 (de) 1994-04-15 1998-01-14 Canon Kabushiki Kaisha Bildvorverarbeitung für Zeichenerkennungsanlage
US5644656A (en) * 1994-06-07 1997-07-01 Massachusetts Institute Of Technology Method and apparatus for automated text recognition
US5524182A (en) * 1994-12-21 1996-06-04 Hewlett-Packard Company System and method for compressing and decompressing fonts based upon font stroke regularities
EP0720114B1 (de) 1994-12-28 2001-01-24 Siemens Corporate Research, Inc. Verfahren und Gerät zur Detektion und Interpretation von Untertiteln in digitalen Videosignalen
US5859925A (en) 1995-08-08 1999-01-12 Apple Computer, Inc. Classifying system having a single neural network architecture for multiple input representations
US5892843A (en) * 1997-01-21 1999-04-06 Matsushita Electric Industrial Co., Ltd. Title, caption and photo extraction from scanned document images

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2381677A1 (de) 2010-04-26 2011-10-26 LOEWE OPTA GmbH Fernsehgerät mit automatischer Abschaltung
DE102010017152A1 (de) 2010-04-26 2011-10-27 Loewe Opta Gmbh Fernsehgerät mit automatischer Abschaltung

Also Published As

Publication number Publication date
WO2000045291A1 (en) 2000-08-03
JP4643829B2 (ja) 2011-03-02
JP2002536853A (ja) 2002-10-29
EP1066577A1 (de) 2001-01-10
EP1066577B1 (de) 2007-03-14
DE69935504D1 (de) 2007-04-26
CN100342376C (zh) 2007-10-10
US6731788B1 (en) 2004-05-04
CN1295690A (zh) 2001-05-16

Similar Documents

Publication Publication Date Title
DE69935504T2 (de) System und verfahren zur videoinhaltsanalyse unter verwendung ermittelter texte in videorahmen
US6608930B1 (en) Method and system for analyzing video content using detected text in video frames
DE102008056603B4 (de) Verfahren und Vorrichtungen zur Messung von Markenexposition in Medienstreams und zur Festlegung von Interessenbereichen in zugeordneten Videoframes
US6807306B1 (en) Time-constrained keyframe selection method
Lienhart Automatic text recognition for video indexing
Girgensohn et al. Time-constrained keyframe selection technique
Gllavata et al. A robust algorithm for text detection in images
Assfalg et al. Semantic annotation of sports videos
US6614930B1 (en) Video stream classifiable symbol isolation method and system
Agnihotri et al. Text detection for video analysis
DE10195928B4 (de) Abschätzen der Textfarbe und Segmentieren von Bildern
DE60029746T2 (de) Automatische signaturbasierte erkennung, erlernung und extrahierung von werbung und anderen videoinhalten
US8971633B2 (en) Content retrieval to facilitate recognizing content details of a moving image
DE112013003859T5 (de) Identifizieren von Schlüsselrahmen unter Verwendung einer auf dünner Besiedelung basierenden Gruppenanalyse
Babaguchi et al. Linking live and replay scenes in broadcasted sports video
Oh et al. Content-based scene change detection and classification technique using background tracking
Wang et al. A novel video caption detection approach using multi-frame integration
Bertini et al. Automatic caption localization in videos using salient points
Ghorpade et al. Extracting text from video
Zhang et al. Accurate overlay text extraction for digital video analysis
Bertini et al. Dynamic pictorial ontologies for video digital libraries annotation
Dimitrova et al. MPEG-7 Videotext description scheme for superimposed text in images and video
Goëau et al. Interactive visualization tool with graphic table of video contents
Tabii et al. A framework for soccer video processing and analysis based on enhanced algorithm for dominant color extraction
Assfalg et al. Feature extraction and content analysis for sports videos annotation

Legal Events

Date Code Title Description
8364 No opposition during term of opposition