CN1703694A

CN1703694A - 用于在视频节目中检索与人物相关的信息的系统和方法

Info

Publication number: CN1703694A
Application number: CNA028245628A
Authority: CN
Inventors: D·李; N·迪米特罗瓦; L·阿格尼霍特里
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2001-12-11
Filing date: 2002-11-20
Publication date: 2005-11-30
Also published as: EP1459209A2; AU2002347527A1; WO2003050718A3; WO2003050718A2; KR20040066897A; US20030107592A1; JP2005512233A

Abstract

一种信息跟踪设备从一个或多个信息源接收诸如视频或电视信号之类的内容数据，并且根据查询条件来分析所述内容数据以便提取相关报道。所述查询条件运用了各种各样的信息，比如但不限于：用户请求、用户简档以及已知关系的知识库。利用所述查询条件，信息跟踪设备计算人物或事件出现在内容数据中的概率，并相应地定位和提取报道。对结果进行索引、排序，并继而将其显示在显示设备上。

Description

用于在视频节目中检索与人物相关的信息的系统和方法

本发明涉及一种用于从多个信息源中检索与目标人物相关的信息的人物跟踪器和方法。

因为通过因特网可以访问500+频道的可用电视内容和无尽流(endlesss tream)的内容，所以看起来人们总是可以访问所希望的内容。然而，相反的是，电视观众往往找不着他们正寻找着的内容类型。这可能会导致一种不爽的体验。

当用户看电视时，时常会发生用户会对获悉有关该用户正在观看的节目中的人物的详细信息感兴趣的情况。然而，目前的系统未能提供用于检索与诸如男演员或女演员或者运动员之类的目标主题相关的信息的机构。例如，EP1031964涉及了一种自动搜索设备。举例来说，一位访问200个电视台的用户说出他对观看例如Robert Redford电影或游戏演出的愿望。语音识别系统引发对可获得内容的搜索以及根据请求给用户呈现选择。因此，所述系统是一种高级的频道选择系统，但是不会到所呈现的频道之外去为用户获取附加信息。此外，U.S.5,596,705为用户呈现了例如电影的多层展示(presentation)。电视观众可以观看电影或者利用该系统公式化查询，以便获得关于这部电影的附加信息。然而，看起来这种搜索关于与电影有关的内容的闭路系统的。与之相反，本发明的公开跳出了可用电视节目的范围，并且也跳出了内容的单个源的范围。下面给出几个示例。用户正在观看现场板球比赛，并可以检索选手击球的详细统计。观看电影的用户想要了解有关于屏幕上的演员的更多信息以及从各种web源上定位附加信息，而并非想要了解与这部电影一起发送的并行信号。用户看到屏幕上眼熟的女演员，但是记不得她的名字。所述系统识别所有用户已经观看过的、该女演员曾经演过的节目。由此，这里所提出的方案代表了比上述两个引用的参考文献中任何一个都要更宽泛的或可扩充的、用于访问更大量综合内容的搜索系统。

在因特网上，寻找内容的用户可以将搜索请求键入到搜索引擎中。然而，这些搜索引擎常常命中或不命中，而且可能使用起来非常低效。此外，目前的搜索引擎不能连续地访问相关的内容以便随时间的过去更新结果。用户也可以访问专业化的Web站点和新闻组(例如，运动站点、电影站点等等)。然而，每当用户想要获得信息时，这些站点需要用户注册并就特定题目而进行询问。

此外，也没有这样一种可用的系统，该系统将跨越各种媒体类型整合信息检索能力到一起，所述媒体类型诸如是电视和因特网，并且该系统还能够从多个频道和站点中提取有关这类人物的人士或报道。在EP915621当中公开的一个系统中，URL被嵌入到发送的封闭式字幕(closed caption)部分中，以便能提取该URL来与电视信号同步地检索相应的web页面。然而，这种系统没有考虑到用户交互。

由此，想要一种用于允许用户创建对信息的目标请求的系统和方法，所述请求由可访问多个信息源的计算设备加以处理，以便检索与请求的主题相关的信息。

本发明克服了现有技术的缺陷。一般来讲，人物跟踪器包括：内容分析器，其包含用于存储从信息源接收的内容数据的存储器；以及处理器，其用于执行一组用来根据查询条件分析内容数据的机器可读指令。所述人物跟踪器进一步包括：可通信地连接于内容分析器的输入设备，其用于允许用户与内容分析器进行交互；以及可通信地连接于内容分析器的显示设备，其用于显示内容分析器执行的内容数据分析的结果。根据这组机器可读指令，内容分析器的处理器分析内容数据，以便提取和索引与查询条件相关的一个或多个报道。

更具体而言，在示范性实施例中，内容分析器的处理器运用查询条件来定位(spot)内容数据中的主题，并为用户检索关于所定位的人物的信息。所述内容分析器还进一步包括知识库，该知识库包括多个已知关系，这些关系包括已知脸部及声音对于名字及其它有关信息的映射。根据来自于音频、视频以及可用电视图文或封闭式字幕信息(closed-caption information)的线索的融合(fusion of cues)来实现名人发现系统。根据所述音频数据，该系统能够根据声音来识别讲演者。根据视觉线索，该系统能够跟踪脸部轨迹并识别对应每个脸部轨迹的脸部。每当可获得时，该系统能够从电视图文和封闭式字幕数据中提取出名字。接着，可以运用决策层融合策略来将不同的线索综合在一起以得出结果。当用户发送与屏幕上显示的人物的身份相关的请求时，该人物跟踪器能够根据嵌入的知识来识别出那个人物，所述知识可以存储在跟踪器中或者从服务器加载。继而，能够根据识别结果来创建适当的响应。如果想要得到附加信息或背景信息，那么还可以向服务器发送请求，所述服务器继而通过候选者列表或各种外部源来进行搜索，所述外部源比如像用于潜在答案或线索的因特网(例如，名人Web站点)，所述线索将使内容分析器能够判断答案。

通常来讲，处理器根据机器可读指令来执行几个步骤，以便于作出对用户请求或兴趣最相关的相匹配，所述请求或兴趣包括但不限于：人物定位、报道提取、推理与名字求解、索引、结果呈现和用户简档管理。更具体而言，根据示范性实施例，机器可读指令的人物定位功能从内容数据中提取脸部、语音及文本，进行已知脸部对提取脸部的第一次匹配，进行已知声音对提取声音的第二次匹配，扫描所提取的文本以进行对已知名字的第三次匹配，并根据第一、第二和第三次匹配来计算特定人物出现在内容数据中的概率。另外，优选地，报道提取功能对内容数据的音频、视频和抄本信息进行分段，执行信息融合、内部报道分段/注解、以及推理与名字求解，以便提取出相关的报道。

通过结合附图来阅读下列对本发明的详细说明，本发明的上述及其它特征和优点将变得显而易见。

所述的附图仅仅是说明性的，并且其中相似的参考标记自始至终表示相似的元件，在附图中：

图1是依照本发明的信息检索系统的示范性实施例的概略示意图；

图2是依照本发明的信息检索系统的可选实施例的示意图；

图3是依照本发明的信息检索方法的流程图；

图4是依照本发明的人物定位和识别方法的流程图；

图5是报道提取方法的流程图；和

图6是对提取的报道进行索引的方法的流程图。

本发明涉及一种用于根据该系统用户的请求、从多个媒体源中检索信息的交互式系统和方法。

具体来讲，信息检索和跟踪系统可通信地连接于多个信息源。优选地，所述信息检索和跟踪系统从信息源接收作为恒定的数据流的媒体内容。响应于来自用户的请求(或者由用户简档触发)，所述系统分析内容数据并检索与那个请求最密切相关的数据。显示所检索出的数据，或者将其存储起来以供稍后显示在显示设备上。

系统体系结构

参照图1，示出了依照本发明的信息检索系统10的第一实施例的示意性概观图。

集中式内容分析系统20互连于多个信息源50。按照非限制性示例的方式，信息源50可以包括电缆或卫星电视以及因特网或信息的数据库。所述内容分析系统20还可通信地连接于多个远程用户站点100，这将在下面作进一步描述。

在第一实施例中，如图1中所示的那样，集中式内容分析系统20包括内容分析器25和一个或多个数据存储设备30。优选地，所述内容分析器25和存储设备30通过局域网或广域网相互连。所述内容分析器25包括处理器27和存储器29，它们能接收和分析从信息源50接收的信息。所述处理器27可以是微处理器和相关联的操作存储器(RAM和ROM)，并且还包括用于预处理数据输入的视频、音频及文本成分的第二处理器。所述处理器27例如可以是英特尔奔腾芯片或是其它更强大的多处理器，正如下面所述的那样，该处理器最好强大到足以逐帧地执行内容分析。在下面结合图3-5来进一步详细描述内容分析器25的功能。

所述存储设备30可以是磁盘阵列或者可以包括具有百万兆(tera)、千兆兆(peta)和千兆兆(exa)字节的存储设备的分级存储系统、光存储设备，优选地，每个所述存储设备和光存储设备都具有成百或上千的千兆字节的存储能力，以用来存储媒体内容。本领域技术人员将会认识到的是，任何数目不同的存储设备30都可以用来支持信息检索系统10的集中式内容分析系统20的数据储存需要，所述信息检索系统10访问几个信息源50并且能够在任何指定时间支持多个用户。

如上所述，优选地，所述集中式内容分析系统20经由网络200而可通信地连接于多个远程用户站点100(例如，用户的家庭或办公室)。网络200是任何全球通信网，包括但不限于：因特网、无线/卫星网络、有线电视网等等。优选地，网络200能够以相对较高的数据传输速率来将数据发送到远程用户站点100，以便支持媒体丰富的内容检索，比如像现场的电视节目或录制的电视节目。

如图1所示，每个远程站点100都包括机顶盒110或其它信息接收设备。机顶盒是较为可取的，这是因为大部分的诸如像TiVoX^、WebTB^或UltimateTV^这类机顶盒都能够接收几种不同类型的内容。例如，来自微软公司的UltimateTV^机顶盒能够接收来自于数字电缆服务和因特网的内容数据。作为选择，卫星电视接收器能够连接于诸如家庭个人电脑140之类的计算设备，该计算设备能够通过家庭局域网接收并处理Web内容。但不论是在哪种情况下，所有的信息接收设备都最好连接于显示设备115，比如像电视机或CRT/LCD显示器。

处于远程用户站点100的用户通常利用各种输入设备120来访问机顶盒110和/或其它信息接收设备并与之进行通信，所述输入设备比如像是键盘、多功能遥控设备、语音激活式设备或麦克风，或是个人数字助理。正如下面所进一步描述的那样，通过使用这类输入设备120，用户能够将特定请求输入到人物跟踪器，该人物跟踪器利用请求来搜索与特定的人物相关的信息。

在可选的实施例中，如图2中所示，内容分析器25位于每个远程站点100上，并且可通信地连接于信息源50。在这个可选实施例中，可以将内容分析器25与大容量存储设备集成在一起，或者可以使用集中式存储设备(未示出)。在任一种场合下，对集中式分析系统20的需要都在这个实施例中得以消除。也可以将内容分析器25集成到任何其它类型的计算设备140中，所述计算设备能够接收并分析来自于信息源50的信息，按照非限定性举例的方式，所述信息源比如像是个人电脑、手持式计算设备、具有提高的处理和通信能力的游戏控制台、电缆机顶盒等等。可以在所述计算设备140中使用诸如TriMedia^TMTricodec卡之类的二级处理器，以便预处理视频信号。然而，在图2中，为了避免混淆，内容分析器25、存储设备130和机顶盒110中的每一个都是独立加以描述的。

内容分析器的功能

正如将通过以下论述而变得明显的是，信息检索系统10的功能具有与基于电视/视频的内容和基于Web的内容相等同的适用性。优选地，利用固件和软件包来对内容分析器25进行编程，以便传送这里所述的功能。当将内容分析器25连接到适当设备上，即连接到电视机、家用计算机、有线电视网等等上，优选地，用户就会利用输入设备120来输入个人简档，所述个人简档将存储在内容分析器25的存储器29中。仅举几个例子来讲，所述个人简档例如可以包括诸如用户个人兴趣(例如，运动、新闻、历史、闲谈等等)、感兴趣的人物(例如，名人、政客等等)或者名胜古迹(例如，外国城市、著名场所等等)之类的信息。同样，正如下面所述的那样，优选地，所述内容分析器25存储一个知识库，从该知识库中提取已知的数据关系，比如像G.W.Bush是美国总统。例如，其它关系可以是：名字对已知脸部、名字对已知声音、各种有关信息对名字、职业对已知名字、或者角色对演员名的映射。

参照图3，将结合对视频信号的分析来描述内容分析器的功能。在步骤302中，正如下面结合图4所述的那样，所述内容分析器25利用视听处理和抄本处理来执行视频内容301分析，以便利用例如用户简档303和/或知识库和外部数据305源中的名人或政客名字、声音或图像的列表来执行人物定位及识别。在实时应用中，在内容分析阶段期间，在处于中央站点20上的存储设备30或者处于远程站点100上的本地存储设备130中，对新来的内容流(例如，现场的有线电视)进行缓冲。在其它的非实时应用中，刚一接收到请求或其它预先安排的事件(如下所述)，所述内容分析器25就访问可用的存储设备30或130，并执行内容分析。

人物跟踪系统10的内容分析器25接收观众对与节目中显示的某个名人相关的信息的请求，并利用该请求返回一条响应，这条响应能够帮助观众更好地搜索或管理感兴趣的TV节目。这里举四个例子：

1.用户正在观看板球比赛。一名新选手前来击球。该用户根据这场比赛以及本年度的先前几场比赛，向系统10请求关于这名选手的详细统计。

2.用户在屏幕上看到感兴趣的演员，并想要对他有更多了解。所述系统10从因特网上找出关于这个演员的一些简档信息，或者从近日出版发行的报道中检索有关这个演员的新闻。

3.用户在屏幕上看到眼熟的女演员，但是该用户记不得这个女演员的名字。系统10用这个女演员曾经演过的节目以及她的名字作为响应。

4.对有关名人的最新消息非常感兴趣的用户，对她的个人录像机进行设置，以便录制下所有有关该名人的新闻。所述系统10扫描新闻频道、以及名人和访谈节目，以例如查找该名人和所有匹配节目的频道的记录。

因为大部分的电缆和卫星电视信号都承载了成百上千个频道，所以最好只瞄准那些很可能产生相关报道的频道。为了这一目的，可以利用知识库450或领域数据库来编程内容分析器25，以便在针对用户请求判断“领域类型”时帮助处理器27。例如，可以将领域数据库中的名字Dan Marino映射到领域“体育(sport)”。同样，可以将术语“恐怖活动(terrorism)”映射到领域“新闻(news)”。在任一种场合下，一旦确定了领域类型，所述内容分析器于是就会仅仅扫描那些与所述领域相关的频道(例如，对应领域“新闻(news)的新闻频道)”。尽管内容分析过程的操作不需要这些分门别类(categorization)时，但是利用用户请求来确定领域类型会更加高效，并且会导致更快捷的报道提取。另外，应当注意的是：特定术语到领域的映射是一个设计选择的问题，并且可以以许多方式加以实现。

接下来，在步骤304中，进一步分析视频信号以便从新来的视频中提取报道。同样，下面结合图5来描述优选的处理过程。应当注意的是，作为替代方案，还可以与报道提取一起并行地执行人物定位和识别。

现在将要描述对视频信号执行内容分析的示范性方法，所述视频信号诸如像电视机NTSC信号等，它对于人物定位和报道提取这两种功能是基础。如下所述，一旦视频信号被缓冲，所述内容分析器25的处理器27就优选地利用贝叶斯定理或融合软件引擎来分析视频信号。例如，可以分析视频信号的每一帧，以便供视频数据分段使用。

参照图4，将描述执行人物定位和识别的优选过程。在层次410上，如上所述，基本上对视频输入401执行脸部检测411、语音检测412和抄本(transcript)提取413。接下来，在层次420上，内容分析器25通过将已提取出的脸部和语音匹配到存储在知识库中的已知脸部模型和声音模型，来执行脸部模型提取421和声音模型提取422。同样，还对已提取出的抄本进行扫描，以便匹配存储在知识库中的已知名字。在层次430上，通过利用模型提取和名字匹配，由内容分析器定位或者识别一个人物。继而，如图5所示，结合报道提取功能一起来使用这个信息。

仅举例来说，用户可能对中东的政治事件感兴趣，但是将去偏远的东南亚岛上度假；因此，无法获得最新的消息。利用输入设备120，用户能够输入与请求相关联的关键词。例如，用户可以输入Israel、Palestine、Iraq、Iran、Ariel Sharon、Saddam Hussein等等。这些关键术语被存储在内容分析器25的存储器29上的用户简档中。正如上面所论述的那样，频繁使用的术语或人物的数据库被存储在内容分析器25的知识库中。所述内容分析器25查找输入的关键术语，并且用存储在数据库中的术语来匹配输入的关键术语。例如，将名字Ariel Sharon匹配到以色列总理，将以色列匹配到中东，依此类推。在这种情况下，可以将这些术语链接于新闻领域类型。在另一个示例中，体育人物的名称可以返回一个运动领域结果。

利用该领域结果，所述内容分析器25访问最可能的信息源区域以便找到相关的内容。例如，所述信息检索系统可以访问新闻频道或新闻相关Web站点，以便查找与请求的术语相关的信息。

现在参照图5，将描述和示出报道提取的示范性方法。首先，在步骤502、504和506中，如下所述那样，优选的是分析视频/音频源，以便将内容分段成可视的、音频的和文本成分。接下来，在步骤508和510中，所述内容分析器25执行信息融合和内部分段及注解。最后，在步骤512中，利用人物识别结果，推理被分段后的报道并用定位的主题来求解名字。

视频分段的这种方法包括但不限于：剪辑(cut)检测、脸部检测、文本检测、动作评估/分段/检测、摄影运动等等。此外，可以分析视频信号的音频成分。例如，音频分段包括但不限于：语音到文本转换、音频效果和事件检测、发音人识别、节目识别、音乐分类、以及根据发音人识别的对话检测。一般而言，音频分段包含使用诸如音频数据输入的带宽、能量和声调(pitch)之类的低级音频特征。接着，可以将音频数据输入进一步分成各种成分，比如像音乐和语音。再者，视频信号可以附有抄本(transcript)数据(用于封闭式字幕系统)，该抄本数据还可以由处理器27加以分析。正如将在下面进一步描述的那样，在操作中，刚一接收到来自于用户的检索请求，所述处理器27就根据请求的纯语言(plain language)来计算报道在视频信号中出现的概率，并且能够提取出所请求的报道。

在执行分段之前，所述处理器27先接收视频信号，该视频信号在内容分析器25的存储器29中被缓冲，并且所述内容分析器访问该视频信号。所述处理器27对所述视频信号进行解多路复用，以便将信号分成其视频和音频成分，而在有些情况下将其分成文本成分。作为选择，所述处理器27尝试检测音频流是否包含语音。下面描述检测音频流中的语音的示范性方法。如果检测到语音，那么处理器27就将该语音转换成文本以便创建该视频信号的时戳抄本(transcript)。接着，所述处理器27将文本抄本作为将要分析的附加流加以添加。

不论检测到语音与否，所述处理器27继而都尝试确定分段边界，也就是可分类事件的开始或末尾。在一个优选实施例中，当处理器27检测到一组画面的连续I个帧之间的显著差异时，该处理器首先通过提取一个新的关键帧来执行显著场景变化检测。如上所述，还可以在预先确定的时间间隔执行帧抓取和关键帧提取。优选地，所述处理器27采用基于DCT的实现方案来使用累积的宏块差异测量区别帧。利用一字节的帧标记图来滤出(filter out)单色关键帧或者看上去类似于早先提取的关键帧的那些帧。所述处理器27利用连续I个帧之间的差异，来把这一概率作为超过阈值的相对量的基础。

在下面简要描述在Dimitrova等人申请的美国专利6,125,229中描述的一种帧过滤的方法，将该篇专利文献的全部内容在此引入以供参考。一般而言，处理器接收内容并将视频信号格式化成表示像素数据的帧(帧抓取)。应当注意的是，优选地，对于每个记录设备，以预定时间间隔来执行抓取和分析帧的过程。例如，当处理器开始分析视频信号时，每30秒就能够抓取关键帧。

一旦抓取了这些帧，就分析每个选定的关键帧。视频分段是现有技术中已知的，并且总体上在下列出版物中作了说明：于2000年在圣约瑟召开的关于图像和视频数据库的SPIE会议上，N.Dimitrova、T.McGee、L.Agnihotri、S.Dagtas和R.Jasinschi所著的、名为“OnSelective Video Content Analysis and Filtering(关于选择性的视频内容分析和过滤)”的出版物；以及于1995年秋季在AAAI的关于用于整合语言和视觉1995的计算模型的研讨会上、A.Hauptmann和M.Smith所著的名为“Text、Speech，and Vision For VideoSegmentation：The Infomedia Project(用于视频分段的文本、语音和视觉：Infomedia设计)”，将上述两篇出版物的全部内容引入于此以供参考。包含与录制设备所捕获的人物相关的可视信息(例如，脸部)和/或文本信息的录制数据的视频部分的任何分段将表明：该数据涉及特定个体且由此可以根据这种分段加以索引。正如本领域所公知的那样，视频分段包括但不限于：

显著场景变化检测：其中比较连续的图像帧以便识别突然的场景变化(硬色调的剪切)或柔和的转变(溶解、淡入和淡出)。在N.Dimitrova、T.McGee、H.Elenbaas所著的、名为“Video KeyframeExtraction and Filtering：A Keyframe is Not a Keyframe toEveryone(视频关键帧提取和过滤：关键帧不是对于每个人物的关键帧)”的出版物(有关知识和信息管理方面的Proc.ACM Cone，第113-120页，1997年)中给出了显著场景变化检测的说明，将该篇文献的全部内容引入于此以供参考。

脸部检测：其中识别每一个图像帧的区域，所述这些区域包含了皮肤-色调并且对应于类椭圆形。在优选实施例中，一旦识别出脸部图像，就将该图像与存储在存储器中的已知脸部图像的数据库相比，以便判断图像帧中所显示的脸部图像是否对应于用户的观察偏好。在Gang Wei和Ishwar K.Sethi于1999年11月出版的、名为“FaceDetection for Image Annotation(用于图像注解的脸部检测)”(第20卷第11号)的模式识别写印刷体出版物中，给出了对脸部检测的说明，将该篇文献的全部内容引入于此以供参考。

动作评估/分段/检测：其中按视频顺序来确定活动对象并且分析该活动对象的轨道。为了按视频顺序来判断对象的移动，优选地使用已知的操作，比如像光学流动评估、动作补偿和动作分段。在计算机视觉(Computer Vision)的国际性刊物当中，Patrick Bouthemy和Francois Edouard所著的、名为“Motion Segmentation andQualitative Dynamic Scene Analysis from an Image Sequence(根据图像顺序的动作分段和定性动态景物分析)”(1993年4月第10卷、第2号、第157-182页)给出了动作评估/分段/检测的说明，将该篇文献的全部内容引入于此以供参考。

对于与用户请求有关的单词/声音的出现，还可以分析和监控视频信号的音频成分。音频分段包括对以下几种类型视频节目的分析，这几种类型为：语音到文本转换、音频效应和事件检测、发音人识别、节目识别、音乐分类以及根据发音人识别的对话检测。

音频分段和分类包括：将音频信号分段成语音部分和非语音部分。音频分段中的第一步包含使用诸如带宽、能量和声调之类的低级音频特征的段分类。采用频道分离来将同时出现的音频成分彼此分离开(比如像音乐和语音)，以便每一个音频成分都能被独立地分析。此后，以不同的方法来处理视频(或音频)输入的音频部分，比如语音到文本转换、音频效应和事件检测和发音人识别。音频分段和分类是本领域中所公知的，并且总体上在D.Li、I.K.Sethi、N.Dimitrova和T.Mcgee所著的、名为“Classification of general audio datafor content-based retrieval(用于基于内容的检索的普通音频数据的分类)”的模式识别写印刷体出版物(2001年4月第22卷、第5号、第533-544页)中作了说明，将该篇文献的全部内容引入于此以供参考。

一旦识别出或从背景噪声或音乐中离析出视频信号的音频部分的语音分段，就可以使用语音到文本转换(本领域所公知的，例如参见P.Beyerlein、X.Aubert、R.Haeb-Umbach、D.Klakow、M.Ulrich、A.Wendemuth和P.Wilcox所著的、名为“Automatic Transcriptionof English Broadcast News(英语广播新闻的自动抄本)”，DARPA广播新闻录音和理解工作室，VA，1998年2月8-11日，将该篇文献的全部内容引入于此以供参考)。对于诸如像相对于事件检索的关键词定位这类的应用，能够使用语音到文本转换。

为了检测事件能够使用音频效应(这是本领域所公知的，例如参见T.Blum、D.Keislar、J.Wheaton和E.Wold所著的、名为“AudioDatabases with Content-Based Retrieval(利用基于内容的检索的音频数据库)”，智能多媒体信息检索，AAAI Press，加利福尼亚州MenloPark，第113-135页，1997年，将该篇文献的全部内容引入于此以供参考)。可以通过识别可能与特定的人物或报道类型相关联的声音来检测报道。例如，可以检测狮子吼声，然后将该分段特性化为一个关于动物的报道。

发音人识别(这是本领域中所公知的，例如参见Nilesh V.Patel和Ishwar K.Sethi所著的、名为“Video Classification UsingSpeaker Identification(利用发音人识别的视频分类)”，IS & TSPIE Proceedings：Storage and Retrieval for Image and VideoDatabases V，第218-225页，加利福尼亚州、圣何瑟，1997年2月，将该篇文献的全部内容引入于此以供参考)包含分析音频信号中出现的语音的声音标记，以便判断发音人的身份。例如，可以利用发音人识别来搜索特定的名人或政客。

音乐分类包含分析音频信号的非语音部分，以便判断当前的音乐的类型(经典、摇滚、爵士乐等等)。这是通过例如分析音频信号的非语音部分的频率、声调、音质、音色和旋律并且将分析结果与特定音乐类型的已知特征相比较的来完成的。音乐分类是本领域中所公知的，并且总体上在Eric D.Scheirer所著的、名为“Towards MusicUnderstanding Without Separation：Segmenting Music WithCorrelogram Comodulation”的出版物(关于信号处理到音频和声学的应用方面的1999 IEEE研讨班，纽约New Paltz，1999年10月17-20日)中作了说明。

优选地，利用贝叶斯定理多模式整合或融合方法来执行视频/文本/音频的多模式处理。仅举例来说，在示范性实施例中，多模式处理的参数包括但不限于：可视特征，比如像色彩、边缘和形状；声音参数，比如像平均能量、带宽、声调、mel频率cepstral系数、线性预测编码系数和零交叉。使用这类参数，所述处理器27创建中级特征，这些中级特征与全部帧或帧的集合相关联，而不同于与像素或短暂时间间隔相关联的低级参数。关键帧(拍照的第一帧或是一个被断定为重要的帧)、脸部和图文电视都是中级可视特征的例子；无声、噪音、语音、音乐、语音加噪音、语音加语音以及语音加音乐都是中级音频特征的例子；而抄本的关键词以及相关联的类别构成了中级抄本(transcript)特征。高级特征描述了通过跨越不同区域的中级特征整合而获得的语义视频内容。换言之，高级特征根据用户或厂商定义简档来表示分段的分类，这在下面作了进一步描述。

接着，根据对应各种报道类型的已知线索的高级表来分析视频、音频和抄本文本(transcript text)的各种成分。优选地，报道的每个类别都具有知识树，该知识树是关键词与类别的关联表。用户可以把这些线索放在用户简档中或由厂商预先确定。例如，“MinnesotaVikings”树可以包括诸如运动、足球、NFL等之类的关键词。在另一个示例中，“总统的(presidential)”报道可以与诸如总统印章、George W.Bush的预存脸部数据的可视分段、比如像欢呼分段的音频和比方说措词“总统(president)”和“布什(Bush)”的文本分段相关联。在统计处理之后，正如下面详细描述的那样，所述处理器27使用类别投票柱状图(vote histogram)来执行分类。举例来说，如果文本文件中的词匹配知识库关键词，那么相对应的类别就获得一票。每个类别的概率是由每个关键词的投票总数与文本分段的投票总数之间的比率给出的。

在一个优选实施例中，将分段后的音频、视频和文本分段的各种成分整合起来，以便从视频信号中提取一个报道或定位一个脸部。优选地，分段后的音频、视频和文本信号的整合是为了复杂提取的。例如，如果用户希望检索前总统所发出的语音，不仅需要脸部识别(以辨认演员)，而且还需要发音人识别(以确保屏幕上的演员正在发言)、语音到文本转换(以确保演员讲出适当的词)以及动作判断-分段-检测(以识别演员特定动作)。因此，索引的整合方法是优选的，并且产生了较好的结果。

相对于因特网而言，所述内容分析器25扫描Web站点以寻找比赛报道。如果找到了比赛报道，那么就将该比赛报道存储在内容分析器25的存储器29中。所述内容分析器25还可以从请求中提取术语，并形成对主要搜索引擎的搜索查询，以便找出决胜赛报道。为了提高准确度，可以匹配已检索过的报道，以便找到“交叉”报道。交叉报道是那些作为Web站点扫描和搜索查询两者的结果而检索到的报道。在Angel Janevski所著的“University IE：Information ExtractionFrom University Web Pages(大学IE：从大学Web页面中的信息提取)”(肯塔基州大学，2000年6月28日，UKY-COCS-2000-D-003)中给出了发现来自于Web站点的目标信息以便找到交叉报道的说明，将该篇文献的全部内容引入于此以供参考。

在接收自信息源50的电视的情况下，所述内容分析器25把很可能具有相关内容的频道作为目标，比如像已知的新闻或体育频道。然后，在内容分析器25的存储器中缓冲目标频道的、新来的视频信号，从而使该内容分析器25执行视频内容分析和抄本处理，以便从所述视频信号中提取相关的报道，如下面详细描述的那样。

再次参照图3，在步骤306中，内容分析器25接着对所提取的报道执行“推理与名字求解”。例如，内容分析器25编程运用了本体论。换言之，G.W.Bush是“美国总统”和“Laura Bush的丈夫”。因此，如果在一个上下文环境中，用户简档中出现名字G.W.Bush，那么就还展开这个事实，以便还可以发现以上的全部参考，并且当它们指向同一个人时求解该名字/角色。

在步骤308中，一旦在电视的情况下提取了足够数目的相关报道、而在因特网的情况下找到了足够数目的相关报道，就优选地根据各种关系来对所述报道进行排序。参照图6，优选地，按照名字、主题和关键词(602)来给报道601编制索引，而且也可以根据因果关系提取(604)来给所述报道编制索引。因果关系的一个例子就是：人物首先必须被指控谋杀，然后才可能有关于审判的新闻条目。同样，运用时间关系(606)来对报道排序，编组和分等级，例如，把最新的报道排到旧报道的前面。接下来，优选地，根据所提取的报道的各种特征来导出和计算出报道等级(608)，所述各种特征比如是：出现在报道中的名字及脸部、报道的持续时间、以及报道在主要新闻频道上重播的次数(也就是，报道正在播出的次数对应于它的重要性/紧急度)。使用这些关系，可以按优先次序列出所述报道(610)。接下来，根据来自于用户简档的信息以及通过用户的相关性反馈(611)，来存储超链接信息的索引和结构(612)。最后，该信息检索系统执行管理和垃圾删除(614)。例如，该系统将删除同样报道、旧报道的多个拷贝，所述旧报道是比七(7)天或任何其它预定时间间隔更早的报道。

应当理解的是，能够以至少四种不同的方式来实现对相关于目标人物(例如，名人)的请求或特定条件的响应。第一，内容分析器25可以具有用于检索本地存储的相关信息所必需的所有资源。第二，内容分析器25可以识别出它正缺乏着某些资源(例如，它无法识别名人的声音)，并且能够将声音模式的样本发送至外部服务器，该外部服务器做出辨认。第三，类似于上面两个例子，内容分析器25无法识别出一个特征，并且从可以进行匹配的外部服务器请求样本。第四，内容分析器25搜索来自于诸如因特网这类二次源的附加信息，以便检索相关的资源，所述相关的资源包括但不限于视频、音频和图像。照此，所述内容分析器25具备了将准确信息返回给用户的更大概率且能够扩展它的知识库。

所述内容分析器25还可以支持呈现和交互功能(步骤310)，这两种功能允许用户在提取的相关性及准确度方面给内容分析器25反馈。内容分析器25的简档管理功能使用这一反馈(步骤312)来更新用户简档并确保依据用户的变化的趣味来作出适当的推理。

该用户能够存储关于人物跟踪系统多长时间一次将会访问信息源50的偏好，以便更新在存储设备30、130中编制了索引的报道。举例来说，所述系统可以被设置成能每小时一次、每天一次、每周一次或甚至是每月一次地访问并提取相关报道。

根据另一个示范性实施例，可以将人物跟踪系统10用作为预订者服务。这能够以两种优选方式的其中一种加以实现。当如图1中所示的实施例时，用户能够通过他们的电视网供应商进行预订，即他们的电缆或卫星供应商，或者能够通过第三方供应商进行预订，所述第三方供应商将安放并操作中央存储器系统30和内容分析器25。在用户的远程站点100处，用户将利用输入设备120来输入请求信息，以便与连接于他们的显示设备115的机顶盒110进行通信。然后，将这个信息传送到集中式检索系统20，并由内容分析器25来对其进行处理。所述内容分析器25于是将访问中央存储器数据库30，如上所述那样，以便检索并提取出与用户请求相关的报道。

一旦提取了报道并对其加上了适当的索引，涉及用户将如何访问所提取的报道的信息被传送到位于用户远程站点的机顶盒110。利用输入设备120，用户继而能够选择哪一个报道是他或她希望从集中式内容分析系统20中检索的。这个信息可以采用具有超链接的HTML web页面或者像现今通常在许多电缆和卫星电视系统中常见的菜单系统的形式加以传送。一旦选中了特定的报道，该报道继而就会被传送至用户的机顶盒110，并且显示在显示设备115上。所述用户还可以选择将所选定的报道转发到许多朋友、亲属或有同样兴趣接收这类报道的其它人那里。

作为选择，本发明的人物跟踪系统10可以被嵌入在诸如数字记录器之类的产品中。所述数字记录器可以包括内容分析器25处理、以及足够大的存储容量以便存储必要的内容。当然，本领域技术人员将会认识到的是，存储设备30、130可以位于数字记录器和内容分析器25的外部。另外，不必在单个包装中安放数字记录系统和内容分析器25，也可以单独地对内容分析器25进行包装。在这个示例中，用户将利用输入设备120来把请求术语输入到内容分析器25中。所述内容分析器25会直接地连接于一个或多个信息源50。如上所述，由于在电视的情况下视频信号被缓冲在内容分析器的存储器中，因此可以对视频信号执行内容分析以便提取出相关的报道。

在该服务环境中，可以把请求术语数据与各种用户简档汇集在一起，并且把信息作为针对用户的目标。这个信息可以采取服务提供商根据用户简档以及早先的请求而认为会让他/她的感兴趣的广告、宣传或目标报道的形式。在另一个行销方案中，在把目标广告或宣传作为针对用户的目标的商务中，可以把汇集好的信息卖给他们的当事方。

虽然已经结合优选实施例描述了本发明，但是将要理解的是，在上面所概括的原理的范围内的修改将对于本领域的技术人员而言是显而易见的，因此本发明不限于所述优选实施例，而是旨在涵盖这种修改。

Claims

1.一种用于检索关于目标人物的信息的系统，包括：

内容分析器，它包括存储器和处理器，该内容分析器可通信地连接于用于接收内容的第一外部源，并且该处理器利用编程来进行操作，以便根据一个标准来分析所述内容；

知识库，它存储在内容分析器的存储器中，该知识库包括多个已知的关系；和

其中，根据所述标准，内容分析器的处理器搜索所述内容以便识别目标人物，并且利用知识库中的已知关系来检索与该目标人物相关的信息。

2.根据权利要求1所述的系统，进一步包括：被存储在内容分析器的存储器中的用户简档，所述用户简档包括关于系统用户的兴趣的信息，并且其中所述标准包括用户简档中的信息。

3.根据权利要求2所述的系统，其中，所述用户简档是通过将请求中的信息与用户简档中的现有信息整合在一起来进行更新的。

4.根据权利要求2所述的系统，进一步包括输入设备，该输入设备可通信地连接于内容分析器，以用来允许用户将信息输入到用户简档中或向内容分析器发送请求。

5.根据权利要求1所述的系统，其中，所述知识库是相关信息的本体论。

6.根据权利要求1所述的系统，其中，所述内容是视频信号。

7.根据权利要求1所述的系统，其中，所述内容是图形和文本数据。

8.根据权利要求1所述的系统，其中，所述内容分析器可通信地连接于第二外部源，并且其中根据所述标准来搜索所述第二外部源，以便检索与目标人物相关的附加信息。

9.根据权利要求1所述的系统，其中，所述内容分析器进一步利用人物定位功能来进行操作，以便从所述内容中提取脸部、语音和文本。

10.根据权利要求所述的系统9，其中，所述人物定位功能执行以下操作：

进行已知脸部对已提取脸部的第一次匹配；

进行已知声音对已提取声音的第二次匹配；

扫描已提取的文本以进行对已知名字的第三次匹配；以及

根据第一、第二和第三次匹配来计算特定人物出现在内容中的概率。

11.根据权利要求1所述的系统，进一步包括连接于内容分析器的显示设备，以用来允许用户与内容分析器进行交互。

12.根据权利要求1所述的系统，其中，所述内容分析器向一个外部服务器发送请求，所述服务器利用该请求搜索一个外部服务器，以便向内容分析器返回一个在确定识别目标人物的过程中可用的线索。

13.一种检索与目标人物相关的信息的方法，该方法包括：

(a)把一个视频源从第一外部源接收到内容分析器的存储器中；

(b)接收来自于用户的请求，以便检索与目标人物相关的信息；

(c)分析所述视频源以便在一个节目中定位目标人物；

(d)扫描视频源的附加频道来查找与目标人物相关的信息；

(e)搜索第二外部源以便检索与目标主题相关的进一步信息；

(f)检索所发现的、作为步骤(d)和(e)的结果的信息；以及

(g)在可通信地连接于内容分析器的显示设备上显示结果。

14.根据权利要求13所述的方法，其中，步骤(c)包括从视频源中提取脸部、语音和文本，进行已知脸部对已提取脸部的第一次匹配，进行已知声音对已提取声音的第二次匹配，扫描已提取的文本以进行对已知名字的第三次匹配，以及根据第一、第二和第三次匹配来计算目标人物在视频源中出现的概率。

15.根据权利要求13所述的方法，进一步包括利用本体论来求解关系和推理名字。

16.根据权利要求14所述的方法，进一步包括使用已知的关系来计算概率。

17.一种人物跟踪检索系统，包括：

位于中心的内容分析器，它与存储设备进行通信，所述内容分析器可由多个用户和信息源通过通信网络加以访问，并且所述内容分析器使用一组机器可读指令加以编程，以便于：

将第一内容数据接收到内容分析器中；

接收来自于至少一个用户的请求；

响应于请求的接收，分析第一内容数据以提取与该请求有关的信息；以及

提供对所述信息的访问。