CN1462561A

CN1462561A - 用于多视图合成的方法

Info

Publication number: CN1462561A
Application number: CN02801575A
Authority: CN
Inventors: M·-S·李; T·布罗德斯基; D·温沙尔; M·特拉科维克
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Funai Electric Co Ltd
Priority date: 2001-05-08
Filing date: 2002-04-24
Publication date: 2003-12-17
Anticipated expiration: 2022-04-24
Also published as: US20020167512A1; KR100950169B1; WO2002091754A1; EP1393581A1; KR20030019559A; CN1241419C; JP2004526266A; DE60209365D1; US6965379B2; EP1393581B1; DE60209365T2; ATE318483T1

Abstract

单透镜的输入图象被变换，以便通过创建至少两个输出图象而给出增强的三维呈现。前景对象和背景对象在输入图象中被分割，和互相不同地被变换，这样，前景对象呈现为从背景中突出。给定一系列输入图象后，在输出图象中前景对象将呈现为与背景对象不同地移动。

Description

用于多视图合成的方法

本发明涉及合成视频资料的领域，具体地，以改善该视频资料的三维呈现为目的。

合成由摄影机从任何视角摄取的3-D(三维)情景的图象是熟知的研究课题，并且已提出了几种不同的方法。给定完全的3-D模型后，有可能呈现从任何视角的情景。呈现(rendering)技术在计算机图形学领域中是熟知的(正如在J.D.Foley，A.Van Damm，S.K.Feiner，andJ.F.Hughes，”Computer Graphics-Principles and Practice(计算机图形学-原理和实践)”，Addison Wesley，Second Edition，1992，Chapter 14中描述的)。然而，模型的产生是麻烦的、易于产生错误的、和工作量极大的任务。

另一方面，某些研究者试图直接从图象推断3-D信息。已开发了各种方法，以用于从图象序列中恢复对象的形状和摄影机的运动(例如，O.Faugeras，”Three-Dimensional Computer Vision：aGeometric Viewpoint(三维计算机图象：几何观点)”，MITpress，1993)。这些方法一般地在计算上是很复杂的。而且，在许多情形下，输入的图象序列是通过一种全景-倾斜-变焦摄影机而获取的，从而避免恢复情景的3D模型。

另一个方法是执行基于图象的呈现(如在L.MacMillan：”AnImage Based Approach to Three-Dimensional ComputerGraphics(三维计算机图形的基于图象的方法)”，Ph.D.dissertation，北卡罗林那大学，1997)，在这种情形下，不需要对象和环境的清晰的3-D模型。这些方法通过使用透视约束条件和不变量而避免进行3-D推断。

本发明的目的是从单透镜的(monocular)视频序列开始合成一个情景的多个视图。

这是通过对于每个输入图象产生情景的两个或多个新的视图而达到的。这样的视图适合于在3D-电视设备或任何其他适当的观看设备上显示。输入图象被分割成活动对象和静止背景。该背景还可被分割成多个区域。通过对每个区域施加适当的变换，从而产生新的视图。有利地，即使当不能从图象序列中提供必要的信息时，也可以利用简单的域的知识来创建对于视图的良好的近似。

下面将给出其他目的和优点。

现在参照以下的附图，作为非限制性例子描述本发明。

图1显示一个可以在其中使用本发明的系统。

图2显示本发明的流程图。

图3显示按照本发明来进行处理的图象的示意图。

图4显示对活动对象的分割。

图5显示涉及到使用域知识和把静止背景进一步分割成多个区域的流程图。

图6显示有关如何得出新的摄影机位置的方面。

图7显示如何计算对分割对象的变换。

图8显示如何创建新的视图。

图9-13显示在优选实施例的描述中使用的某些公式。

图1显示典型的3-D图象观看设备，有时也称为虚拟真实(virtualreality)设备。该设备包括处理器101、存储器103、以及可任选的各种外设，诸如显示器102、网络连接104、或未示出的其他类型的外设，诸如打印机、键盘、鼠标、话筒、扬声器，摄影机、和/或遥控器。连接可以是有线的或无线的。处理器可以是包括被嵌入在PC、电视机、机顶盒中的任何类型的处理器。该设备可以通过网络连接104(它可以是任何适当的网络连接，诸如互联网、有线电视、和/或局域网(LAN))而接入附加的处理或存储器能力。通常，3-D效果是通过使用可以创建立体图象的观看设备105达到的，通过对观看者的两个眼睛中的每个眼睛所显示的图象之间的差别而给出三维的视觉。

图2显示按照本发明的方法的流程图。该方法可以由处理器101执行，或者在通过网络连接104而接入的远程处理器中执行。虽然优选实施例是作为软件而被显示的，但它同样也可以由本领域技术人员用硬件来实施。

本发明也参照图3的示意的图象来描述。图3显示网球比赛。两个网球选手303和304在观众座位席301的前景的场地304上打球。场地304和座位席301是在相应于网球比赛的知识域内的已知类型的对象。

输入是在网球比赛期间摄取的图象序列I₁，I₂，I₃，...。图2显示所施加的、用来产生情景的两个立体视图的步骤。字母“L”被使用来表示涉及到立体视图输出的左视图的图象和变换，而字母“R”被使用来指涉及到右视图的图象和变换。

在201，活动对象从静止背景中被分割出来。在这种情形下，网球选手302和303将被分割。分割方法的细节将参照图4进行讨论。然后，在202，域知识被使用来进一步把背景分割成各个区域。关于方框202的更多的细节将参照图5进行讨论。

在203，新的视图被选择。细节将参照图6进行说明。方框202和203的操作可以并行地执行。在204，对于每个区域m，计算变换TLm和TRm。图7显示该方法。

然后，在205，分割的区域通过使用变换TLm而被变形，以便创建左视图。该区域也通过使用变换TRm而被变形，以便创建右视图。细节将参照图8进行讨论。

活动对象的分割：

图4是显示在方框201中所执行的步骤的流程图。在方框402、405、和409中，符号“·”被使用来表示对于图象施加的单对应性(homography)。

4a.在401，对于每个输入图象I_k，估计单对应性变换H_k，这样，当H_k被施加到帧I_k时，使得在变换的帧中的网球场地的图象对准第一帧I₁中的网球场地的图象。

单对应性由3×3矩阵H代表，它把图象中的点(x，y)变换成由图9的公式(1)代表的点，其中h_ij单对应性参量是来自单对应性矩阵H的数值。这在技术上是熟知的，例如，可以参考上面引用的O.Faugeras，Three-Dimensional Computer Vision(三维计算机图象)。

输入图象的对准是通过计算图象序列的空间-时间导数、估计正常的流程、以及线性地估值所述单对应性参量而实现的。实现这一点的一个方法可在以下论文中找到：R.Pless等的“DetectingIndependent Motion：The Statistics of Temporal Continuity(检测独立的活动：时间连续性的统计学)”，Trans.IEEE PAMI，vol.22，No.8，2000年8月。

替换地，特征点(诸如顶角)和/或线可以在输入图象之间被定位和被匹配，并可从匹配的特征中估计单对应性，正如在授权给Burt等人的美国专利No.5,629,988中显示的。

在402，J_k表示把变换H_k施加到图象I_k上得到的结果。

4b.从域知识获知，在大多数网球序列中，允许摄影机摄全景、倾斜，和变焦，但不能围绕场地移动。对于摄全景-倾斜-变焦摄影机，在方框401中计算的所述变换不单对准网球场地，而且也对准情景中任何其他静止特征。只有活动的网球选手不被对准。

在403，来自步骤1的变换的图象J_k可被组合起来以便创建情景的镶嵌结构。对于镶嵌结构中的每个象素，有来自图象J_k的一个或多个象素。为了滤除活动对象(网球选手)，把中间滤波施加到每个象素的多个数值，以及把中间数值放置在镶嵌结构M中。

中间数值被如下地计算。假设对于某个象素有数值x₁，x₂，...，x_K。这些数值被加以归类，以及归类的数值被表示为y₁，y₂，...，y_K，其中y₁＜＝y₂＜＝...＜＝y_K。中间数值则是y_K/2。

创建镶嵌的另一个方法可以在美国专利No.5,629,988中找到。

4c.当逆变换(H_k ^-1)被施加到镶嵌结构M上以及结果被适当地剪切时，在405，可得到背景图象B_k。背景图象是与输入图象I_k相同的，除了活动对象已经被去除和被来自背景的象素代替外，这些象素是在其他视图上可看见的。

4d.然后，在406，输入图象I_k与相应的背景图象B_k进行比较，以便创建掩蔽图象M_k，它的象素数值在I_k和B_k之间的查找大于门限值时等于1，否则是0。然后，在407，从图象I_k中提取在掩模图象M_k中被设置为1的那些图象，以及其余象素被设置为黑色。所产生的结果是活动对象的图象F_k。

静止图象的分割：

图5显示方框202的扩展。域识别可以在501从电子节目指南数据中得到，或通过分析在广播视频中附着的字幕数据而得到。即使没有域识别可提供使用，仍有可能通过检测区别特征而测试输入的视频是否来自正确的域(方框502)。如果预期的特征被检测，即使没有域识别，仍可采用该方法。

域知识也可以通过在数字电视广播中可提供的MPEG流元数据(meta-data)而被提供。如果只有域识别要被发送，则域知识必须事先被存储在存储器103中。

在图3的例子中，域知识包括场地305的形状、中心网304是垂直的事实、以及关于座位席301的形状的某些假设。

在方框502，域的区别特征被检测。在网球比赛的情形下，区别特征可以是场地305的线。附加的特征是关于网球场地的颜色是均匀的知识。这些特征按照以下方式被检测：

5a.定位图象中的线。具有许多用于检测图象中的线的方法。

5b.定位均匀颜色的大的区域，以及在这样的大的区域内只选择在步骤5a中找到的那些线。

5c.把被检测的线与在存储的模型中线段进行匹配。这是通过随机地选择两个或多个被检测的线段以及把它们与模型中的所有的线段进行匹配而完成的。每次匹配可以确定在图象与模型之间的变换(这个变换是单对应性的，因为场地是平面)。

5d.对于在步骤5c得到的每个单对应性，把变换施加到输入图象，以及找出在变换的图象中有多少线段与模型中的线段相匹配以及这样的线段对准得有多好。

5e.重复进行步骤5c和5d，以及选择最后的变换。在最后的变换下，大多数线段被匹配，以及在变换的输入与模型之间具有最好的对准。

在503，背景还被分割成网球场地和其他的区域。在网球比赛的情形下，这些特征可包括网、裁判员座位和观众座位301。所述区域根据域知识被分割。例如，网处在相对于场地的线的已知的位置。裁判员座位已知是在场地上，它的颜色是不同于场地的颜色的，这样，它可通过根据颜色被分割。有关这里必须的分割的类型的细节可以在Vishviit S.Nalwa，“A Guided Tour of Computer Vision(计算机图象导游)”(Addison-Wesley)Section 3.3，”ImageSegmentation(图象分割)”中找到。

根据这个步骤，使每个区域得到一个掩模图象(类似于在406得到的掩模图象)。对于每个区域，对应于该区域中的象素的那些掩模象素被设置为1，以及其他象素被设置为0。

确定网球场地的变换：

在图6上，确定要被施加到网球场地的图象的变换。对于网球场地，这里只是指地面。对于其他分割的背景区域的变换将在下一节“确定其他区域的变换”中被确定。由于场地是平的，所以该变换是单对应性的。具有两种用于确定HL和HR的可选方法。

6a.如果在模型与输入图象之间的匹配是可提供的(601，从方框502)，则内部的和外来的校正参量(相对于场地)可被确定602。对于做到这一点可以采用已知的技术，例如，可参考EmanueleTrucco，Alessandro Verri：“Introductory techniques for 3-DComputer Vision(用于3D计算机图象的技术导引)”，PrenticeHall，1998。

6b.在完全校正的情形下，任何新的想要的摄影机位置可被选择603。例如，新的摄影机可被放置在接近于场地的位置，以便增强3D感觉。单对应性HL和HR可以根据老的和新的摄影机参量以接近的方式被确定604。在以上引用的T和V的著作中描述了如何做到这一点。

6c.如果系统没有被完全地校正(校正是不想要的)，则直观推断605可被使用来确定HL和HR。在本具体的例子中，假设网和远的底线在输入图象上近似为水平的。对于网的底部边缘，Y坐标用y₁表示，以及图象中的宽度用w₁表示。对于远的底线，Y坐标用y₂表示，以及宽度用w₂表示。

因为这两个线段在3D世界中具有相同的长度，按照公式(13)，w₁/w₂的比值是与两条线的不一致度的比率相同的。

类似地，底部扫描线的Y坐标在图象上用y_B表示。对于每个观看设备，不一致度应当小于用d_MAX表示的某个最大值。最大值d_MAX例如可以是20象素。

利用公式(4)，可以得出s_L，s_R，d_L，和d_R的数值。当然，这只是一个可能的解集。在606，通过选择s_R＝0和d_R＝0，右视图可被做成与输入视图相同。为了得到s_L和d_L，(14)的两个线性方程被求解，其中的一个是从(13)得到的，以及另一个是从最大不一致度约束条件得到的。

数值y₁，y₂，w₁，w₂和y_B是在输入图象中的测量值，以及d_MAX是观看系统的一个已知的参量，这样，s_L和d_L是在以上方程中的仅有的未知量。

因此，图9的公式(2)和(3)的单对应性可被使用607。

这两个单对应性不改变Y坐标，因此创建出校正的立体视图，其中相应的特征位于两个图象上的同一个扫描线上。

上述的直观推断只是一个例子。如果可以检测到场地上其他已知的特征，则类似的方法可被使用来确定适当的单对应性HL和HR。

确定其他区域的变换：

除了网球场地以外，所述情景包含活动对象(在407中被分割的)和背景的分割的部分(来自503)。参照图7，现在将说明对于这些区域可以如何得到变换TLm和TRm。程序过程是对于分割的网球选手区域说明的。但相同的(或十分类似的)程序过程可被应用到其他区域。

如果新的视图类似于原先的视图(通常是这种情形)，则网球选手近似为在前-平行面(fronto-parallel plane)上。考虑到在网球选手与摄影机之间的距离，这是一种正确的近似。TLm变换是相对于围绕着包含前台对象303的区域的束缚矩形701而被确定的。左下角被表示为A，右下角被表示为B，以及在A与B之间的中点被表示为C。假设网球选手303站在场地上，所以，束缚矩形701的下面的线假设位于地面上。单对应性HL对网球场地进行变换。具体地，单对应性HL把点A，B，C分别变换成在新的视图上的A’，B’，C’。

TLm必须与HL兼容：点C应当被变换成C’，以及在变换的点A、B之间的水平距离应当等于在点A’、B’之间的水平距离。最后，束缚方框的宽高比(宽度除以高度)应当保持为常数。因此，得出公式(5)。

图9的公式(6)，(7)，(8)，(9)，(10)，和(11)是对于图10的公式(12)的变量的定义。在公式(6)-(11)中的每个公式中，x和y坐标是对于图7的点和它们的变换进行定义的。

每个公式(18)对于右视图TRm的变换可以类似地得到。出现在TR的公式中的变量在公式(19)中被定义。这些变量又是从以下假设中得出的，即，单对应性HR把点A，B，C变换成A”，B”，C”，其中这些点分别在公式(15)，(16)，和(17)被定义。

对象(例如，网球选手)呈现得很“突出”，因为他们与网球场地(地面)被不同地变换。通过建立网球场地的变换(HL和HR单对应性)，这样，使得在图象上较高的点呈现为离观众较远。另一方面，网球选手的所有的点呈现在离观众近似相同的距离上。

变换TLm和TRm不同于变换HL和HR，它们被加到网球场地的地面部分。因此，网球选手呈现为从背景中“突出”。更具体地，HL和HR变换一般地被这样地构建，从而使得在场地远侧的点具有较小的不一致度，并且因而呈现为离观众较远。这创建场地的正确的、倾斜的外貌。另一方面，TLm和TRm变换使得网球选手的所有的点出现在近似相同的距离上。

网球选手的脚近似地具有与场地的附近的点相同的不一致度。另外，网球选手的头的不一致度近似为相同的。然而，显现在接近选手的头部的场地上的点，具有较小的不一致度，这使得选手从背景中“突出”。其他的特征(诸如裁判员座位)类似于网球选手那样地被变换，因此也呈现为从背景中“突出”。

创建新的视图：

最后，新的视图被创建，如在图8上描述的那样。在先前的步骤中，输入图象被分割成多个区域，以及对于每个区域进行变换计算。在图8上，具有两条路径。左路径相应于产生左视图，以及右路径相应于产生右视图。两条路径被显示为被并行地执行；然而，它们可以同样很好地按顺序地执行。

在801，各个左视图变换TLm被施加到图象区域Ik并且也施加到每个掩模Mk，从而产生变换的图象区域ILm和变换的掩模MLm。HL也被施加到在方框405中创建的背景镶嵌结构Bk。对于网球场地的地面部分，变换TLm是单对应性HL。在802，变换的区域被组合起来，从而创建新的左视图。无论何时在变换的掩模MLm中的象素是1时，在ILm中的相应的象素被复制到输出图象中。

在803，由重叠对象造成的冲突被解决。

如果对于某些a、b，对象重叠，即，ML_a(象素)＝1和ML_a(象素)＝1，则L_k(象素)应当被设置成来自最接近的对象的象素IL(象素)，并且对象排序被如下地进行规定。

对象排序：

对于每个对象，应当取底部边缘以便产生它在参考面上的位置。较接近的对象于是具有在输入图象的较低处的底部边缘。参考面(网球场地)作为最远的对象而被排序。

另外，在804，可任选地，对孔进行填充，在这里，孔是没有被分割的对象覆盖的象素。如果黑色象素是在边界上，座位它们应当被保持不接触，因为它们最可能相应于在情景上永不看见的位置。另一方面，来自背景镶嵌结构的适当的数值可以填充图象内的孔，如果这样的数值是可提供的话。

方框801’、802’、803’、和804’分别类似于801-804，只是用R(即，右视图)代替L(即，左视图)。

图4-8的例子是对于一个使用立体声图象创建3-D效果的装置而作出的。然而，该方法可扩展到具有任意数目的视图的实施方案。右视图的计算(也就是HR，TRm等的计算)是与左视图(HL，TLm等)的计算完全独立的。因此，通过重复执行算法N次，可直截了当地产生情景的N个不同地视图。典型地，N个视图是按照特定的显示设备的要求而产生的。

对背景象素的变换的替换的实施例

一个用于处理背景区域的替换的实施例可以通过使用同一个情景的第二图象而得出。假设活动对象已从图象中被分割出来，下面的操作可被使用来按照以下步骤估计不在参考平面(网球场地)上的静止对象的呈现。

1.首先人工地或自动地建立在两个图象上的象素之间的对应关系，参阅“第六章立体视觉”，三维计算机视觉Olivier Faugeras，MIT Press，1993.

2.第一图象被登录，直到进行仿射变换：

a.按照公式(20)和(21)来识别在一个平面上相应的两个对平行线。共对(copairs)的线被表示为PL1＝[L11，L12]和PL2＝[L21，L12]，其中L11，L12，L21，L22是由端点L_ij＝[(sx_ij，sy_ij)，(ex_ij，ey_ij)]规定的线。

b.对于每对平行线的消失的点(按单一坐标)按照公式(20)和(22)进行计算，其中在公式(22)中显示a和b的叉积(crossproduct)的符号。

c.把vp₁＝[x₁ y₁ w_i]和vp₂＝[x₂ y₂ w₂]移动到无穷大的变换H_a可以按照公式(23)进行计算。

d.把H_a施加到整个图象，即，按照公式(24)的象素可以根据公式(25)移动。

3.找出在第一图象上的一个平面上的4个或多个点以及在第二图象上它们的相应的点。按照公式(26)来计算变换H_b。这个变换移动第二图象中的这些点q₁，q₂，q₃，q₄，...以便对准第一图象上(在施加H_a后)的那些点p₁’，p₂’，p₃’，p₄’，...。

此后，把H_b施加到整个图象，即，按照公式(2)的象素按照公式(28)进行移动。

4.通过使用两对相应的点即第一图象的p_a’，p_b’，和第二图象的q_a’，q_b’，可以计算在变换的输入图象与输出图象之间的表极点(epipole)，如果e12表示在输入图象之间的表极点，e12’表示在变换的第一图象与输出图象之间的表极点，e22’表示在变换的第二图象与输出图象之间的表极点，则在单一坐标中，得到公式(29)和(30)，它们相应于在真实坐标中的公式(31)，其中w是比值。

5.对于每个相应的点，在变换的第一图象中的p_i，和在变换的第二图象中的q_i，按照公式(32)对于在新的视图中的点计算在单一坐标中的位置r_i’。

6.所有的点r_i’按照公式(33)被移动到点r_i其中e₁₂’＝[ex₁₂’，ey₁₂’]，以及d是常数。

因此，当两个图象被使用时，对于静止背景的每个象素实际上具有分开的变换，而在第一个描述的实施例中，背景被一个或多个变换变换覆盖，其中每个变换涉及到多个象素。

在登录的图象中的不一致度只取决于在两个摄影机的中心之间的换算。在常数新的视图时，可以相对于新的摄影机的中心的位置而改变不一致度，以便与换算一致。这样的变换已在以下论文中描述：M.Irani，P.Anandan，D.Weinshall，”From Reference Frames toReference Planes：A New Framework for 3D Scene Analysis(用于3D情景分析的新的框架)”，Proceedings：Fifth EuropeanConference on Computer Vision，Freiburg，June 1998.

通过阅读本揭示内容，其他修正方案对于本领域技术人员是明显的。这样的修正可包括在虚拟现实类型的系统的设计、制造和使用中已知的其他特征，以及它可代替或附加于这里已描述的特征。虽然在本申请中权利要求是对于特定的特征组合定出的，但应当看到，本发明的揭示内容的范围还包括这里明显地或隐含地揭示的任何新颖的特征或特征的新颖的组合或它们的任何的推广，无论如何，它们能够解决任何或所有的与本发明解决的相同的技术问题。本申请人由此提出，在本申请履行或由此得出的任何进一步的申请的履行期间，可以对于这样的特征提出新的权利要求。具体地，虽然在这里权利要求是对于方法提出的，本申请人保留在将来增加设备和软件的权利要求的权利。

这里所使用的单字“comprising(包括)”，“comprise(包括)”，或“comprises(包括)”不应当看作为排除附加的单元。在这里所使用的单一冠词“a(一个)”或“an(一个)”不应当看作为排除多个单元。

Claims

1.在数据处理设备中使用的图象处理方法，该方法包括：

-接收至少一个单透镜视频输入图象；

-把来自输入图象的至少一个前景对象进行分割；

-对于多个输出图象中的每一个，对每个分割的对象和对背景施加至少一个相应的变换；以及

-从各个变换的结果导出多个输出图象。

2.权利要求1的方法，还包括把来自输入图象的至少一个背景对象进行第二分割，以及对于多个输出图象中的每一个，对每个分割的背景对象施加一个相应的变换。

3.权利要求1的方法，其中有两个输出图象，以及把两个相应的变换施加到每个分割的对象，和把两个变换施加到背景，以便创建两个输出图象。

4.权利要求1的方法，还包括在组合的设备上显示多个输出图象，从而使得多个输出图象可被用户感觉为具有增强的三维呈现的单个图象。

5.权利要求1的方法，其中施加到前景对象的各个变换使得前景对象从背景中突出。

6.权利要求5的方法，其中：

-所述接收包括接收多个单透镜输入图象；

-所述导出包括对于每个单透镜输入图象导出相应的多个输出图象；以及

-所述方法还包括在组合的设备上显示相应的多个输出图象，从而使得相应的多个输出图象可被用户感觉为给出活动的幻觉的和具有增强的三维呈现的单个图象序列，其中至少一个前景对象是从至少一个背景对象中分开地移动的。

7.权利要求6的方法，其中至少一个前景对象在输出图象上呈现为移动的，而图象其余部分中的至少一个部分呈现为不移动的。

8.权利要求1的方法，其中所述分割和施加涉及到使用域知识来识别在单透镜输入图象中预期对象的位置，以及导出在输出图象中对象的位置。

9.权利要求1的方法，其中对于背景象素的各个变换是通过比较单个情景中的至少两个单透镜输入图象而得出的。

10.权利要求1的方法，还包括：在施加变换之前，把每个分割的对象的位置近似为呈现在前面平行平面上。

11.数据处理设备，包括：

-至少一个存储器，用于存储数据和指令；

-至少一个处理器，用来执行用于实施权利要求1-10的任一项的方法的操作；

-至少一个显示设备，用于提供由该方法产生的图象。

12.用于导致执行权利要求1-10的任一项的操作的软件。