CN101351838B

CN101351838B - 后处理多媒体流使之可搜索的方法和系统

Info

Publication number: CN101351838B
Application number: CN2006800501600A
Authority: CN
Inventors: 哈德格里姆·萨根; 吉尔·艾尔内·山德贝肯; 尼克莱·焦杜姆; 诺玛·拉乌郝金; 亚斯本·克里斯坦森
Original assignee: Tandberg Telecom AS
Current assignee: Tandberg Telecom AS
Priority date: 2005-12-30
Filing date: 2006-11-22
Publication date: 2011-08-03
Anticipated expiration: 2026-11-22
Also published as: JP2009522845A; US8103507B2; WO2007078200A1; US20070156843A1; CN101351838A; EP1969592B1; EP1969592A4; EP1969592A1; NO325191B1; NO20056255L

Abstract

本发明提供一种系统和方法，使得被存档的会议或演示在存储到存档数据库之后可被搜索。根据本发明，依照H.323或SIP编码的一个或多个媒体流被传送给转换引擎，用来把多媒体内容转换成标准流格式，这可以是文件的聚簇，各表示特定的媒体(音频、视频、数据)，和/或是把不同媒体同步和关联在一起的结构文件。当执行转换时，复制所述的结构文件并传递给后处理服务器。后处理服务器例如包括语音识别引擎，用于产生表示音频文件中所有被识别词的字母数字字符的文本文件。然后所述文本文件被加入文件聚簇，在结构文件中，把每个识别的词与时序标签相关联。在这种后处理之后，通过传统的搜索引擎可以很容易地执行在媒体流中查找关键词和相关联的时间点。

Description

后处理多媒体流使之可搜索的方法和系统

技术领域

本发明涉及视频会议和流送/存档系统。

背景技术

为了在位于不同地域的参会者之间举行会议，可使用若干种技术系统。这些系统可包括视频会议、web会议或音频会议。

真实会议的最现实的替代是高端视频会议系统。传统的视频会议系统包括若干端点，用于通过WAN、LAN和/或电路交换网络传送实时视频、音频和/或数据流。所述端点包括一个或多个监视器、摄像机、麦克风和/或数据获取装置以及分别用来编码和解码呼出流和呼入流的编解码器。另外，还需要集中式的源，熟知的如多点控制单元(MCU)，用来把多个端点链接在一起。MCU通过利用点对点连接从端点终端接收多媒体信号(音频、视频和/或数据)来执行这种链接，处理所接收的信号，并且把经处理的信号再传送给会议中选定的端点终端。

通过利用视频会议系统，例如PowerPoint演示或任何其他PC-演示可以被呈现，同时依然可以看到和听到所有其他参会者。

另外的呈现多媒体内容的常用方式是通过web接口把数据流送(stream)至计算机。这种数据流可以是实时传送的，或是通过发布装置的存档内容的重放。传统的流式数据适用于存储和发布，并且因此较之视频会议，可用不同格式来表示多媒体内容。这样，为了能够流送和存档传统的视频会议，需要一种转换多媒体数据的系统。下面就描述这种系统的一个例子。

发布装置优选配备有：用来把该装置连接至计算机网络的网络接口；用于接收会议内容的音频/视频和演示数据接口；用于为了发布而把演示内容转换成标准图像格式的文件转换引擎；以及用于为发布而把内容编码成流格式的流编码器。发布装置还进一步配备有：流服务器，用于传送编码的音频/视频内容；以及web服务器，用于把web页面和转换的演示内容传送给位于网络各节点的终端。所述发布装置还适用于建立由编码的流数据构成的、驻于本地存储介质或服务器/数据库的存档文件，使得在以后可通过计算机网络进行对位于远程终端的请求者的点播式(on-demand)发布。

根据操作的典型方式，通过把发布装置作为参会者包括在会议中来发起会议。在远程终端的观察者可通过把传统的web浏览器指向与所述发布装置相关联的URL(统一资源定位符)来接入会议。在完成该观察者和发布装置之间的验证数据交换之后，该观察者能够观看个人交换，如在会议主持场点的参会者之间发生的会话和相关联的行为，以及能够观察在该会议场点呈现的演示内容。通过观察者的web浏览器在多窗口用户界面观看多媒体内容，通过流媒体播放器呈现音频/视频内容，并且在单独的窗口显示演示内容。当会议主席或会议管理系统请求，编码的流数据被存储在服务器作为可识别文件。

流送和会议技术的结合给出了新的可能性，可用来存储和归档会议、演示、讲演和其他形式的会话和发言。但是，如果不能在存档的流数据内容中搜索，价值就非常有限。已知的在存档流数据中搜索的唯一方法是以手工方式把元数据和存储文件相关联。但是，这需要大量的人工劳动，并且也不能保证元数据正确对应到流数据。

发明内容

本发明的一个目的是提供一种系统和方法，用于解决现有技术中的上述问题。特别，本发明提供一种在流送和存档系统中用于后处理多媒体流的方法，使得所述多媒体流可搜索，所述多媒体流是从传统会议格式编码数据流转换的，该方法包括步骤：在H.323/SIP兼容的转换引擎中监视是否接收到H.323或SIP编码的数据流，并且如果接收到，则按定义的多媒体流格式把所述传统会议格式编码数据流转换成多媒体流，包括与所述多媒体流的相应片断相关的时序信息，产生每个相应声音片断或声音片断序列的模型并把每个相应声音片断或声音片断序列的所述相应模型与存储在数据库中的已知词或音素的发音的参考模型做比较，由此利用语音识别引擎来分析来自所述多媒体流的音频部分的声音片断，并且，最后，当所述语音识别引擎发现某个声音片断或声音片断序列的模型与所述数据库中的已知词的发音的参考模型相匹配，则分配时序信息用来指示所述声音片断或声音片断序列，并且在文本文件中相关联地存储所述时序信息和所述词。

本发明还提供与上述方法对应的系统。

附图说明

为了使本发明更易于理解，下面的讨论将参照下列附图：

图1示出了马尔可夫建模的状态图；

图2示出ASF流格式的数据结构；

图3是ASF流格式数据结构的两个特定部分的更详细图示；

图4示出本发明一个实施例的全部步骤的流程图。

具体实施方式

在下面，通过描述优选的实施例并参照附图来讨论本发明。但是，在本申请的独立权利要求定义的本发明的范围之内，本领域技术人员可以实现其他的应用和改型。

尽管视频会议是可视的，视频会议中许多外在的信息是按参会者之间的话语交流形式来呈现的。因此，会议的音频部分是在其中进行搜索的最适当媒体。

本发明提供一种系统和方法，使得存档的会议或演示被存储在存档服务器之后能够被搜索。根据本发明，一个或多个根据H.323或SIP编码的媒体流被传送给转换引擎，用来把多媒体内容转换成标准的流格式，这可以是文件的聚簇，各表示特定的媒体(音频、视频、数据)，和/或是把不同媒体同步和关联在一起的结构文件。当执行转换时，复制所述的结构文件并传送给后处理服务器。后处理服务器例如包括语音识别引擎，用于产生表示音频文件中所有被识别词的字母数字字符的文本文件。然后所述文本文件被加入文件聚簇，在结构文件中，把每个识别的词与时序标签相关联。在这种后处理之后，通过传统的搜索引擎可以很容易地执行在媒体流中查找关键词和相关联的时间点。

上述的结构文件的例子在美国专利US6041345中公开，其中定义了活动流格式(Active Stream Format，ASF)，用于多媒体流的存储和传输。ASF格式的概要在图2中示出。

为了实现本发明，需要用于语音识别引擎的鲁棒而有效的语音识别方法。按照最简单的定义，语音识别是识别口语词汇即语音、并且随后把该语音转换成字处理程序或某些其他应用所使用的文本或传递给操作系统的命令解释器的自动化过程。这种识别过程包括把数字化的音频数据分解成有意义的片断。然后对照已知音素的数据库来映射这些片断，并且对照已知的词汇表或词典来映射这种语音序列。

在语音识别中，常常使用隐马尔可夫模型(HMMs)。当建立HMM语音识别系统，可识别词汇表中的每个词被定义成声音的序列或语音片断，类似于该词的发声。建立用于每个语音片断的马尔可夫模型。然后把用于每个声音的马尔可夫模型的串接在一起以形成马尔可夫模型的序列，用于描述词汇表中该词的声学定义。

例如，如图1所示，用于词“TEN”的语音词100被示为三个语音马尔可夫模型构成的序列101～103。一个语音马尔可夫模型表示语音元素“T”(101)，具有两个转移弧101A和101B。第二个语音马尔可夫模型表示语音元素“EH”，示为模型102，具有转移弧102A和102B。第三个语音马尔可夫模型103表示语音元素“N”，具有转移弧103A和103B。

图1中三个马尔可夫模型的每个都具有开头状态和结尾状态。“T”模型101以状态104开头并以状态105结尾。“EH”模型102以状态105开头并以状态106结尾。“N”模型103以状态106开头并以状态107结尾。尽管没有示出，实际上，每个模型在它们各自的开头状态和结尾状态之间还具有状态，与所示的弧101A耦接状态104和105的方式一样。多个弧延伸并连接各状态。在识别期间，某个发声(utterance)与语音马尔可夫模型序列做比较，从最左状态(如状态104)开始，依照经各中间状态至最右状态(如状态107)的箭头行进，其中模型100按照本领域公知的方式终结。从最左状态104至最右状态107的转移时间反映了该词的持续时长。因此，为了从最左状态向最右状态转移，必须在“T”状态、“EH”状态和“N”状态花费时间以产生所述发声是词“TEN”的结果。这样，用于某个词的隐马尔可夫模型包括一系列模型，对应于在该词发声时所发出的不同声音。

为了建立如图1所示的马尔可夫模型，常常使用发音词典来指出各组成声音。存在各种词典并可以使用。这些词典的信息源通常是语言学者。按词典中描述的属于某个词的组成声音要基于专家和语言学者的判断。

还有其他实现语音识别的方法，如通过单独使用神经网络或与马尔可夫模型相结合，这可以与本发明一起使用。

根据本发明，每个被识别的词相继地与时序标签(timing tag)相关联，时序标签用于指示音频文件中的特定位置。作为例子，上述图2中示出的ASF格式在数据节211中存储媒体样本。与该数据节相关联，有几个时间和同步数据的指示。ASF流例如包括marker_object 206，用于保存指向数据节211中特定时间的指针。marker_object使得用户可快速向前或向后跳至由marker_object 206中保存的标记所指定的特定时间点(如音轨)。

图3A详细示出了marker_object 206。marker_object 206包括：object_id字段301，用于保存统一唯一标识符(UUID)；以及size字段302，用于按字节数规定marker_object的长度。marker_id字段303包含UUID，用于识别标记数据策略，并且num_entries字段304规定marker_object 206中标记项的数目。entry_alignment字段305标示标记数据的字节对齐，并且name_len字段306规定在name字段307中保存多少Unicode字符，name字段保存marker_object 206的名称。最后，marker_data字段308保存表中的各标记。每个标记在表中具有相关联的项。

图3B示出了诸如在marker_data字段308中找到的marker_entry 309的格式。Offset字段310保存从data_object 212中分组起始点的按字节的偏移量，用于指示marker_entry 309的位置。Time字段311规定用于marker_entry 309的时间戳。entry_len字段312规定entry_data字段313的长度，entry_data字段313是用于保存标记项数据的数组。

在本发明的一个实施例中，与待由马尔可夫模型分析的声音片断的起始相关联的时间(time)字段311和/或偏移(offset)字段310存储在临时存储区。如果语音识别引擎在声音片断中识别了某个词，time字段311和/或offset字段310被定义成所识别词的时序标签，并且在所识别词的文本文件中与该词相关联地存储在一起。作为替换，时序标签还可以包括ASF结构中的某些其他字段，用于表示数据的时序信息。在本发明的另外实施例中，表示被识别词声音片断结尾的时序信息与该词相关联，这样减少了临时存储区的需要。

下面根据图4的流程图描述本发明示例性实施例。如同传统H.323/SIP端点可用来接收H.323/SIP呼叫的转换引擎监视是否接收到H.323/SIP呼叫。当接收到H.323/SIP呼叫，它通过本领域公知的传统转换码技术把接收的编码H.323/SIP数据转换成上述的ASF格式。当该呼叫结束，或当接收到终结录音的请求，把ASF流存储在存档服务器。实际上，随着多媒体数据被转换，相继地存储所述流。

然后，如果请求语音识别，把ASF流复制到后处理服务器。后处理服务器开始分解数据，以根据上述的马尔可夫模型分析声音片断。当找到声音片断的马尔可夫模型和发音词典中的特定词或字符的马尔可夫模型之间的匹配，把该特定词或字符连同时序标签存储在文本文件中。该时序标签是从例如marker_object 206获取的，marker_object 206用来表示ASF流中与该声音片断相关联的数据的时间位置，从该位置识别所述词或字符。ASF格式的多媒体同步特征隐含了用于音频内容的时序标签也表示用于该ASF流中视频内容中对应时间位置的时序标签。

当对可识别词分解了所有音频内容，所述文本文件包括若干与各自时间标签相关联的词和字符。该文件与相应的ASF存储流相关联地存储在存档服务器中。

当存储了带有相关联时序标签的转换的多媒体会议或呼叫中的被识别词的文件，则可以通过关键词来搜索该呼叫/会议，并且命中结果与该多媒体流中的特定时间相联系。

一种使用的例子是向用户提供一种搜索引擎，不同于传统的用来在简单文本中搜索的搜索引擎。可以给用户在一个或若干存储和转换的呼叫/会议中搜索的选择。搜索的结果可被表示成命中结果的列表，带有如会议标识、会议中时间等信息。另外，用户可以从会议中找到关键词的时间重新播放媒体流，例如通过命中结果之后的播放按钮。当用户按下播放按钮，可以重放媒体流的媒体播放器被启动，并且与命中结果相关联的时序标签用于指出媒体播放器应该从媒体流中何处开始播放。为了方便起见，媒体播放器应该在实际命中结果的时间略前一点开始播放。因此，可从时序标签减去预定义的偏移。

作为例子，在转换的会议中，利用语音识别方法，通过音频内容中的口语词汇的马尔可夫模型与发音词典中的“agreement”的马尔可夫模型之间的匹配，来识别词“agreement”。在会议之后，用户有兴趣调查参会者是否在会议期间达成协议(agreement)。用户在他的多媒体搜索引擎中选择感兴趣的会议，并键入词“agreement”。这样，两个命中结果表现为在时间上相对靠近。用户按第一个命中结果的播放按钮，并且可看到讨论协议的会议部分，并且他可以明白该讨论仅限于该会议的被识别部分。

注意，尽管这里只提及用于多媒体流的ASF格式，但本发明也可与其他用于诸如QuickTime、RealPlayer等各种播放器的当前和未来的相应多媒体格式相结合使用。

在本发明的替换实施例中，识别的音素被存储、分组，但并不试图按任何特定语言把它们转换成词。然后根据这些组的选择来建立索引，例如使用来自几种语言的分类体系和一组词典，或通过频率或强调。然后，还可以登记音素的音量或重音或语调，用于待索引的组的选择。

在另外的替换实施例中，某个参会者或秘书可标记用来构成索引基础的词或音素组，或输入一组判据，例如使用语音。

在另外的替换实施例中，索引基于在几种语言中可用的共同分类体系。

Claims

1.一种在流送和存档系统中用于后处理多媒体流的方法，使得所述多媒体流可搜索，所述多媒体流是从传统会议格式编码数据流转换的，其特征在于：

在H.323/SIP兼容的转换引擎中监视是否接收到H.323或SIP编码的数据流，并且如果接收到，则：

按定义的多媒体流格式把所述传统会议格式编码数据流转换成多媒体流，包括与所述多媒体流的相应片断相关的时序信息，

通过下述步骤用语音识别引擎来分析来自所述多媒体流的音频部分的声音片断：

产生每个相应声音片断或声音片断序列的模型，

把每个相应声音片断或声音片断序列的相应模型与存储在数据库中的已知词或音素的发音的参考模型做比较，

当所述语音识别引擎发现某个声音片断或声音片断序列的模型与所述数据库中的已知词的发音的参考模型相匹配，则分配时序信息用来指示所述声音片断或声音片断序列，并且在文本文件中相关联地存储所述时序信息和所述词。

2.如权利要求1所述的方法，其特征在于所述分析步骤进一步包括步骤：

提取并临时存储用来指出当前声音片断在所述多媒体流中的时间位置的信息，

如果在包括当前声音的当前声音片断或声音片断序列的模型与所述数据库中已知词的发音的参考模型之间找到匹配，则使用所述时间位置作为所述时序信息，该时序信息在所述文本文件中与所述词相关联地存储在一起。

3.如权利要求1或2所述的方法，其特征在于：

当分析了来自所述多媒体流的所述音频部分的所有声音片断，在所述流送和存档系统存储所述文本文件，使得所述文本文件可用于以后在所述多媒体流中的搜索。

4.如权利要求1或2所述的方法，其特征在于所述模型和参考模型包括马尔可夫模型。

5.如权利要求1或2所述的方法，其特征在于所述定义的多媒体流格式是活动流格式ASF。

6.如权利要求5所述的方法，其特征在于所述时序信息是与所匹配的声音片断或声音片断序列的开头或结尾相关联的ASF的时间字段和/或偏移字段。

7.如权利要求1或2所述的方法，其特征在于传统会议格式编码数据流是H.323或SIP编码的数据流。

8.一种用于后处理多媒体流的系统，使得所述多媒体流可搜索，所述多媒体流是从传统会议格式编码数据流转换的，其特征在于：

转换引擎，被构造成用于接收H.323或SIP编码的数据流，并且按定义的多媒体流格式把传统会议格式编码数据流转换成多媒体流，包括与所述多媒体流相应片断相关的时序信息，

后处理服务器，被构造成用于接收所述多媒体流的副本，

语音识别引擎，包含在或连接至所述后处理服务器，被构造成用于分析来自所述多媒体流的音频部分的声音片断，并且把每个相应声音片断或声音片断序列的模型与存储在数据库中的已知词或音素的发音的参考模型做比较，

时间分配装置，被构造成用于当所述语音识别引擎发现某个声音片断或声音片断序列的模型与所述数据库中的已知词的发音的参考模型相匹配，则关联时序信息用来指示所述声音片断或声音片断序列，并且在文本文件中相关联地存储所述时序信息和所述词。