CN1522073A

CN1522073A - 视频编码器和使用视频编码器的压缩视频信号的方法

Info

Publication number: CN1522073A
Application number: CNA031278256A
Authority: CN
Inventors: ��Џ�; 李承徹; 慎大揆
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2003-02-10
Filing date: 2003-08-11
Publication date: 2004-08-18
Anticipated expiration: 2023-08-11
Also published as: US20040158719A1; KR20040072259A; KR100539923B1; CN1225914C; EP1453321A3; EP1453321A2; JP2004248285A

Abstract

一种视频编码器，在可视通话期间编码说话者的图像。该视频编码器包括：运动估计器，用于从输入视频信号估计个体的运动，并计算个体的运动矢量；说话者区域检测器，用于从运动矢量检测代表说话者轮廓的说话者区域；DCT部件，用于通过对从运动估计器输出的视频信号进行DCT变换，来计算DCT系数；脸部区域检测器，用于基于DCT系数，从说话者区域中检测出说话者的脸部区域，并通过区分检测出的脸部区域和非脸部区域，来产生差分量化表；自适应比特率控制器，基于说话者区域，来差分设置用于量化的量化步长；和量化器，用于根据量化步长和差分量化表，来量化DCT系数。

Description

视频编码器和使用视频编码器的压缩视频信号的方法

技术领域

本发明一般涉及一种用于图像通信的视频编码器和使用该视频编码器的图像压缩方法，特别涉及一种能够将不同的图像质量应用于说话者(或用户)的脸部区域和其他区域的、用于图像通信的视频编码器和使用该视频编码器的图像压缩方法。

背景技术

通信技术的发展已经带来图像压缩技术和多媒体传输技术的快速进步。而且，随着图像获取器件(例如数字照相机)的普及，产生了对能够在图像获取器件及其外部器件之间交换图像数据的技术的需求。此外，当通过移动电话交谈时，移动电话的用户更愿意享受图像通信，而不是语音通信。

为满足用户的需要，已经提出了MPEG1(Moving Picture Expert Group 1，运动图像专家组1)、MPEG2、MPEG4和H.263等图像压缩技术，已经实现基于这些图像压缩技术的使用移动电话的图像通信，并使其商品化。

MPEG4是指研究运动图像及相关音频信号的压缩和解压缩的标准化组织，该组织以SC29(Sub-Committee 29，小组委员会29)的WG11(Working Group11，工作组11)的名义工作，它是制定多媒体编码技术的国际标准规范的组织，由ISO(International Standardization Organization，国际标准化组织)和IEC(International Electrotechnical Commission，国际电工技术委员会)联合组建的JTC(Joint Technical Committee，联合技术委员会)赞助。MPEG1和MPEG2是将运动图像和语音信号压缩成比特流并传送比特流的技术，运动图像和语音信号是根据预定数据吞吐量以特定长度接收的。接收经过MPEG2压缩的比特流的接收者，对接收到的比特流进行解码，并通过其显示器或扬声器部件输出解码比特流。

H.263是由ITU-T(International Telecommunications Union-Telecommuni-cation Standardization Sector，国际电信联盟-电信标准化部)提出的运动图像压缩技术，用于通过具有低于64Kbps的低传输率的通信线路进行的视频会议或可视通话。

包含在移动电话中的H.263/MPEG4视频编码器从安装在移动电话上的照相机接收图像，利用有效的压缩技术对接收到的图像进行压缩，并将压缩图像传送到传输协议层，上述移动电话能够支持通过未来的CDMA(CodeDivision Multiple Access，码分多址)的EVDO(Evolution Data Only仅进化数据)和UMTS(Universal Mobile Telecommunications System，全球移动电信系统)网络进行的双向可视通话。H.263/MPEG4视频编码器被优化成适合于具有有限资源和计算能力的移动电话，能够对于低于128Kbps的窄带通信环境，适当地调整图像质量和比特流的长度。

图1是说明传统的用于压缩数字视频信号的视频编码器(例如MPEG2图像编码系统)的方框图。参照图1，将输入视频信号帧提供给第一帧存储器10。将帧信号作为像素数据的连续块存储在第一帧存储器10中，以便一块接一块地处理帧。一个帧块通常具有8×8或16×16的像素大小。

DCT(Discrete Cosine Transform，离散余弦变换)部件12对视频信号进行DCT变换，并产生DCT系数，其中视频信号作为块从第一帧存储器10中读出。比特率控制器30给量化器14提供用于确定量化表的量化步长信息，该量化表由量化器14用于量化以匹配目标传输比特率。量化器14基于量化步长信息确定量化表，并根据所确定的量化表量化DCT系数。

以之字形模式(zigzag pattern)扫描量化DCT系数，并将其提供给可变长度编码器16。可变长度编码器16将扫描的DCT系数变换成可变长度编码数据。比特流发生器(未示出)将可变长度编码的DCT系数变换成连续比特流。根据输入信号将比特流存储在缓冲器18中一预定时间，并将其输出。缓冲器18将缓冲器状态信息提供给比特率控制器30，缓冲器状态信息表示它能够存储多少比特流。接着，比特率控制器30基于缓冲器状态信息确定量化步长，并将所确定的量化步长信息提供给量化器14和可变长度编码器16。结果，量化器16基于量化步长信息来量化DCT系数，可变长度编码器16基于量化步长信息对量化DCT系数进行可变编码。

去量化器20对由量化器14所量化的DCT系数进行去量化。IDCT(InverseDiscrete Cosine Transform，离散余弦反变换)部件22将由去量化器14所去量化的DCT系数IDCT变换成(IDCT-transformed)块单元的像素数据。将块单元的像素数据存储在第二帧存储器24中。将一个视频帧的所有块连续恢复并存储在第二帧存储器24中。运动估计器26将存储在第二帧存储器24中的恢复图像帧用作参考帧，用于从恢复图像中估计运动对象。

在图1的视频编码器对第一视频帧的所有块编码之后，将第二视频帧提供给视频编码器。运动估计器26在存储于第二帧存储器24中的参考帧的搜索区域中，搜索与第二帧的第一宏块(Macro Block，MB)最相似的区域。通常，搜索区域由多个候选宏块组成。运动估计器26在像素对像素(pixel-to-pixel)的基础上比较宏块和参考区域，同时将具有与宏块相同像素大小的参考区域在搜索区域内上下和左右移动。通常，宏块的大小为8×8或16×16。对于运动估计，可以使用一般的搜索算法或块匹配技术，例如全搜索块匹配算法(FullSearching Block Matching Algorithm，FBMA)、三步搜索(Three Step Search，TSS)、菱形搜索(Diamond Search)和分级运动估计。通过该比较过程确定运动矢量(Motion Vector，MV)，该运动矢量表示参考帧的最相似参考区域和第二图像帧的宏块之间的位置关系，这种位置关系由运动估计器26比较得出。

加法器28将第二帧的第一宏块和参考帧的最相似参考区域相加，计算出第二帧的第一宏块和参考帧的最相似参考区域之间的差值。通过DCT部件12、量化器14和可变长度编码器16将该差值与运动矢量MV一起编码。虽然这里假设由分离的模块通过分离的过程来计算该差值和运动矢量，也应该注意可以由单个模块来计算该差值和运动矢量。将差值提供给去量化器20和IDCT部件22，并将其作为恢复的像素数据存储在第二帧存储器24中，用于对下一帧的运动估计。继续将上述过程应用于第二帧的全部块。

用于运动估计的参考帧不是原始图像帧，而是通过解码前一个编码即量化DCT系数而恢复的帧。这样通过执行与在接收由视频编码器编码的图像数据和解码接收到的图像数据时执行的相同的过程，来最小化视频编码器和视频解码器之间的差错。

在使用移动电话的图像通信的视频编解码器的情况下，考虑延迟时间和操作量而仅使用图像内(Intra-Picture，I图像)帧和预测图像(Predictive-Picture，P图像)帧，其中上述视频编码器和解码器被应用到所述移动电话。为了使其带宽与图像带宽相匹配，视频编码器产生具有预定长度的比特流，同时通过根据图像的内容动态使用量化值，来控制图像质量。

I图像代表编码的图像内图像或编码的帧内图像。I图像用于确保图像组(Group Of Picture，GOP)的独立性，并对屏幕上的一切内容进行编码。以与原始图像相同的次序编码I图像。P图像代表编码的帧间正向预测图像。在某些情况下，P图像包含在屏幕上的子块部分中编码内图像。以与原始图像相同的次序编码P图像。

因此，在图像具有较高运动性或屏幕复杂的情况下，会增加比特数。比特数的增加会引起量化值的增加，量化值的增加会降低图像的质量，而增加压缩率。相反，在图像具有较低运动性和屏幕简单的情况下，即使使用减小的量化值也能够维持原始图像的质量。

通常，在进行可视通话的情况下，在整个图像中除背景之外的个体(或人群)数是有限的，其中部分个体对说话者(或用户)具有非常重要的意义。也就是说，在可视通话期间，背景具有最低的优先级(或重要性)，说话者周围的个体或说话者附近的个体具有次低优先级，而说话者他或她自己具有最高优先级。具体地说，在可视通话期间，说话者的脸部区域在其他区域中具有最高优先级。

然而，现有的用于图像通信的视频编码器不考虑个体而对整幅图像进行压缩。也就是说，传统的用于图像通信的视频编码器对整幅图像使用相同的压缩率。

图2A和2B说明了在对整幅图像使用相同的压缩率或量化步长时，图像质量如何改变。正如所说明的，如果对整幅图像使用相同的量化步长，显示在屏幕上的压缩图像的质量整体下降。也就是说，传统的用于图像通信的视频编码器不能从整幅图像中区分需要维持高图像质量的部分和不需要维持高图像质量的部分。

目前，MPEG提出了一种分别编码个体的技术。然而，准确区分个体的目的是在各种背景中使用相应的个体。因此，很难在实时和移动通信环境中实现这种技术。也就是说，由3PGG/3GPP2提出的用于图像通信的标准视频编解码器不考虑区分个体。

发明内容

因此，本发明的一个目的是提供一种用于图像通信的视频编码器和使用该视频编码器的图像压缩方法，该视频编码器能够自适应地对被认为是说话者脸部的区域维持相对其他区域较高的图像质量。

本发明的另一个目的是提供一种用于图像通信的视频编码器和使用该视频编码器的图像压缩方法，该视频编码器能够容易地应用用于图像通信的标准视频编码器，来自适应地对被认为是说话者脸部的区域维持相对其他区域较高的图像质量。

本发明地另一个目的是提供一种用于图像通信的视频编码器和使用该视频编码器的图像压缩方法，当使用运动图像的运动矢量信息和说话者脸部区域的颜色信息检测出脸部颜色区域时，该视频编码器能够以相对其他区域较高的图像质量，来显示说话者的脸部区域。

为了实现上述和其他目的，提供一种通过离散余弦变换(DCT)和运动估计来编码视频信号的视频编码器。视频编码器包括：运动估计器，用于从输入视频信号中估计个体的运动，并计算个体的运动矢量；说话者区域检测器，用于根据运动矢量检测出代表说话者轮廓的说话者区域；DCT部件，用于通过对运动估计器输出的视频信号进行DCT变换，来计算DCT系数；脸部区域检测器，用于基于DCT系数、从说话者区域中检测出说话者的脸部区域，并通过区分检测的脸部区域和非脸部区域，来产生差分量化表；自适应比特率控制器，用于基于说话者区域，差分设置用于量化的量化步长；和量化器，用于根据量化步长和差分量化表，来量化DCT系数。

最好是，自适应比特率控制器基于说话者区域和脸部区域中特定的一个，来差分设置量化步长。而且，运动估计器通过比较视频信号的当前帧和参考帧来估计个体的运动，从而检测出最相似的像素，并计算与估计出的个体运动相对应的运动矢量，该参考帧是通过编码视频信号的前一帧、接着在像素对像素的基础上以数个像素的间隔来补偿前一个编码帧的运动而获取的。

而且，说话者区域检测器根据运动矢量的大小和方向的一致性、从运动矢量中计算出背景图像矢量和前景图像矢量，并根据背景图像矢量和前景图像矢量检测出说话者区域。

脸部区域检测器根据DCT部件所产生的DCT系数中的、与说话者区域检测器所检测出的说话者区域相对应的DCT系数，来比较相同区域的红色分量的DC(Direct Current，直流)值和蓝色分量的DC值。如果红色分量大于蓝色分量，并且大于预定阈值，脸部区域检测器就将说话者区域中与比较出的DCT系数相对应的区域确定为说话者的脸部区域。

视频编码器还包括可变长度编码器，用于对量化器所差分量化的DCT系数执行可变长度编码。此外，视频编码器还包括：去量化器，用于对量化器所差分量化的DCT系数执行去量化；离散余弦反变换(IDCT)部件，用于对去量化的DCT系数执行IDCT；以及运动补偿器，通过比较经IDCT变换的前一个输入视频信号和该经IDCT变换的输入视频信号，来补偿个体的运动。运动补偿器基于从运动补偿器获取的经运动补偿的视频信号，来计算输入视频信号的运动矢量。

为了实现上述和其他目的，提供一种使用视频编码器的用于图像通信的视频信号压缩方法，该视频编码器通过离散余弦变换(DCT)和运动估计来编码视频信号，该方法包括如下步骤：(a)根据输入视频信号来估计个体的运动，并计算个体的运动矢量；(b)根据运动矢量来检测代表说话者轮廓的说话者区域；(c)通过对视频信号进行DCT变换来计算DCT系数；(d)基于DCT系数，从说话者区域中检测出说话者的脸部区域，并通过区分检测的脸部区域和非脸部区域来产生差分量化表；(e)基于说话者区域，差分设置量化步长；以及(f)根据量化步长和差分量化表来量化DCT系数。

最好步骤(e)包括如下步骤：基于说话者区域和脸部区域中的特定一个，差分设置量化步长。而且，步骤(a)包括如下步骤：通过比较视频信号的当前帧和参考帧来估计个体的运动，从而检测出最相似像素，并且计算与估计出的个体运动相对应的运动矢量，其中该参考帧是通过编码视频信号的前一帧、接着在像素对像素的基础上以数个像素的间隔来补偿前一个编码帧的运动而获取的。

步骤(b)包括如下步骤：根据运动矢量的大小和方向的一致性，从运动矢量中计算背景图像矢量和前景图像矢量，并根据背景图像矢量和前景图像矢量检测出说话者区域。步骤(d)包括如下步骤：根据DCT系数中与说话者区域相对应的DCT系数，来比较相同区域的红色分量的DC(Direct Current，直流)值和蓝色分量的DC值，如果红色分量大于蓝色分量，并且大于预定阈值，就将说话者区域中与比较出的DCT系数相对应的区域确定为说话者的脸部区域。

本发明区分说话者的脸部区域和非脸部区域，并以小量化步长来差分量化脸部区域，且以大量化步长来差分量化非脸部区域，从而防止可视通话期间视频编码器的过载和脸部区域的图像质量下降。结果，红色块和运动脸部区域比其他块的图像质量下降得少。

附图说明

通过下面结合附图进行的详细说明，本发明的上述和其他目的、特性和优点将会变得更加清楚，其中：

图1是说明传统的用于压缩数字视频信号的视频编码器的方框图；

图2A和2B说明了当对整幅图像应用相同的压缩率或量化步长时，图像质量如何下降；

图3是说明根据本发明的优选实施例，用于在可视通话期间差分编码说话者图像的视频编码器的方框图；

图4A至4D说明了根据图3的视频编码器接收到的视频信号，差分量化脸部区域和非脸部区域的过程；

图5A和5B说明了显示在屏幕上的图像示例，对于该图像，图3的量化器将不同的量化步长应用到整幅图像的脸部区域和非脸部区域；以及

图6说明了根据本发明的优选实施例，通过视频编码器压缩视频信号的方法。

具体实施方式

以下，将参照附图来详细说明本发明的几个实施例。附图中，尽管相同或相似的部件在不同的附图中说明，但是使用相同的标号表示相同或相似的部件。在以下的说明中，为简明起见，省略对本文包含的已知功能和结构的详细说明。

图3是说明根据本发明的优选实施例，用于在可视通话期间差分编码说话者图像的视频编码器的方框图。如图所示，所提出的视频编码器包含：运动估计器100，说话者区域检测器120，DCT(离散余弦变换)部件140，脸部区域检测器160，自适应比特率控制器180，量化器200，可变长度编码器220，去量化器240，IDCT(离散余弦反变换)部件260和运动补偿器280。

运动估计器100比较输入视频信号的当前帧和参考帧，从而检测出最相似像素，该参考帧是通过编码输入视频信号的前一帧，接着在像素对像素的基础上以数个像素的间隔对前一个编码帧执行运动补偿而获取的。运动估计器100确定运动矢量(MV)，该运动矢量表示检测出的参考帧的最相似参考区域和当前帧的宏块之间的位置关系。

说话者区域检测器120在运动估计器100所确定的运动矢量中，从视频信号的中心对除特定区域之外的周围区域检测运动矢量的大小和方向的一致性。说话者区域检测器120对周围区域计算检测的运动矢量大小的平均值。特别是，说话者区域检测器120对计算出的平均值中包含在设定偏差值范围内的平均值，来计算平均值。将计算出的平均值的平均值定义为背景图像矢量。说话者区域检测器120通过从运动估计器100所确定的运动矢量中减去背景运动矢量，来对视频信号的除周围区域之外的中心区域，计算前景图像矢量。而且，说话者区域检测器120通过在前景图像矢量中搜集大小和方向包含在预定范围内的前景图像矢量，来确定说话者区域的边界。说话者区域检测器120通过对所确定的说话者区域执行水平和垂直方向的扫描，来检测矩形说话者区域。

DCT部件140对运动估计器100提供的视频信号进行DCT变换，并产生DCT系数。脸部区域检测器160根据DCT部件140所产生的DCT系数中的、与说话者区域检测器120所检测出的说话者区域相对应的DCT系数，来比较相同区域的红色分量DC(直流)值和蓝色分量DC值。作为比较的结果，如果红色分量大于蓝色分量，并且大于预定阈值，则脸部区域检测器160就将说话者区域中与比较出的DCT系数相对应的区域确定为说话者的脸部区域。该阈值可由用户任意设置，或者可被定义为根据经验获取的最优值。脸部区域检测器160基于从说话者区域区分脸部区域的结果，来产生差分量化表，即表示是否差分量化DCT系数的信息。

自适应比特率控制器180根据说话者区域检测器120所检测出的说话者区域信息和脸部区域检测器160所检测出的脸部区域信息，产生用于控制量化步长的加权表。最好是，如果相应视频信号的特定区域是说话者区域中的脸部区域，自适应比特率控制器180将量化步长设置成小于参考值，否则，将量化步长设置成大于参考值。

量化器200根据脸部区域检测器160所产生的差分量化表和自适应比特率控制器180所输出的量化步长，对DCT部件140输出的DCT系数进行差分量化。可变长度编码器220将量化DCT系数变换成编码的可变长度数据。由比特流发生器(未示出)将编码的可变长度DCT系数变换成比特流。

去量化器240对量化器200量化的DCT系数进行去量化。IDCT部件260通过IDCT以块为单位将去量化的DCT系数变换成恢复的像素数据。运动补偿器280对IDCT部件260恢复的像素数据的运动进行补偿。经过运动补偿器280进行运动补偿的像素数据，作为用于从由运动估计器100恢复的图像中估计运动对象的参考帧。

总之，所提出的视频编码器区分说话者的脸部区域和非脸部区域，并根据不同的量化步长来量化脸部区域和非脸部区域，而不是对输入视频信号应用相同的量化步长。结果，红色块和运动脸部区域的图像质量的下降少于其他块。

所提出的视频编码器通过区分红色分量和蓝色分量，接着比较红色分量值和蓝色分量值，来确定脸部区域，并且量化所确定的脸部区域，从而防止脸部区域的图像质量下降。可替换地，该视频编码器可以通过用户接口来获取脸部区域的大致特征，并根据该大致特征将红色分量范围定义为阈值。

图4A至4D说明了根据图3的视频编码器接收到的视频信号，对脸部区域和非脸部区域进行差分量化的过程。具体地说，图4A示出屏幕上显示的运动估计器100接收到的原始视频信号的图像质量。图4B示出由说话者区域检测器120检测出的说话者区域120a位于屏幕的中心区域的情形。图4C示出在屏幕上单独显示由脸部区域检测器160检测出的脸部区域160a的情形。图4D示出显示出的视频信号的图像，该图像经过量化器200对脸部区域160a和非脸部区域进行差分量化。

图5A和5B说明了显示在屏幕上的图像示例，对于该图像，图3的量化器将不同的量化步长应用到整幅图像的脸部区域和非脸部区域。如图所示，为了对特定区域进行量化，量化器200对整幅图像的脸部区域应用小于参考值的量化步长，对非脸部区域应用大于参考值的量化步长，从而确保脸部区域维持高于参考值的图像质量。

图6说明根据本发明的优选实施例，由视频编码器压缩视频信号的方法。参照图6，运动估计器100比较输入视频信号的当前帧和参考帧，从而检测出最相似像素，并且计算表示最相似像素和当前帧的宏块之间的位置关系的运动矢量(MV)，该参考帧是通过编码输入视频信号的前一帧、接着在像素对像素的基础上以数个像素的间隔对前一个编码帧执行运动补偿而确定的(步骤S100)。说话者区域检测器120在运动估计器100所确定的运动矢量中，从视频信号的中心对除特定区域之外的周围区域检测运动矢量的大小和方向的一致性，从而检测出视频信号的说话者区域(步骤S120)。DCT部件140对运动估计器100提供的视频信号进行DCT变换，并产生DCT系数(步骤S140)。

脸部区域检测器160基于DCT部件140所产生的DCT系数中的、与说话者区域检测器120所检测出的说话者区域相对应的DCT系数，检测出说话者的脸部区域(步骤S160)。最好是，脸部区域检测器160根据DCT部件140所产生的DCT系数中的、与说话者区域检测器120所检测出的说话者区域相对应的DCT系数，来比较相同区域的红色分量DC值和蓝色分量DC值。作为比较的结果，如果红色分量大于蓝色分量，并且大于预定阈值，脸部区域检测器160就将说话者区域中与比较出的DCT系数相对应的区域确定为说话者的脸部区域。该阈值可由用户任意设置，或者可被定义为根据经验获取的最优值。脸部区域检测器160基于从说话者区域区分脸部区域的结果，来产生差分量化表，即表示是否差分量化DCT系数的信息。

自适应比特率控制器180基于说话者区域检测器120所检测出的说话者区域信息和脸部区域检测器160所检测出的脸部区域信息，差分设置量化步长(步骤S180)。最好是，如果相应视频信号的特定区域是说话者区域中的脸部区域，自适应比特率控制器180将量化步长设置成小于参考值，否则，将量化步长设置成大于参考值。

量化器200根据脸部区域检测器160所产生的差分量化表和自适应比特率控制器180所输出的量化步长，对DCT部件140输出的DCT系数进行差分量化(步骤S200)。可变长度编码器220将对脸部区域和非脸部区域分别差分量化的DCT系数，变换成编码的可变长度数据(步骤S220)。由比特流发生器(未示出)将编码的可变长度DCT系数变换成比特流。

总之，所提出的方法区分说话者的脸部区域和非脸部区域，并根据不同的量化步长来量化脸部区域和非脸部区域，而不是对输入视频信号应用相同的量化步长。这样，就能够维持脸部区域的参考分辨率。从而，红色块和运动脸部区域比其他块的图像质量下降得少。

所提出的方法通过区分红色分量和蓝色分量、接着比较红色分量值和蓝色分量值，来确定脸部区域，并差分量化所确定的脸部区域，从而防止脸部区域的图像质量下降。可替换地，该方法可以通过用户接口来荻取脸部区域的大致特征，并根据该大致特征将红色分量范围定义为阈值。

正如通过上述说明所能够理解的，本发明区分说话者的脸部区域和非脸部区域，并以小量化步长来差分量化脸部区域，以大量化步长来差分量化非脸部区域，从而防止可视通话期间视频编码器的过载和脸部区域的图像质量下降。结果，红色块和运动的脸部区域比其他块的图像质量下降得少。

虽然已经参照本发明的特定优选实施例，示出和说明了本发明。本领域技术人员应该理解，在不脱离所附权利要求所限定的本发明的精神和范围的情况下，可以进行形式和细节的各种改变。

Claims

1.一种视频编码器，用于通过离散余弦变换和运动估计编码视频信号，所述视频编码器包括：

运动估计器，用于从输入视频信号估计个体的运动，并计算所述个体的运动矢量；

说话者区域检测器，用于从所述运动矢量检测代表说话者轮廓的说话者区域；

DCT部件，用于通过对所述运动估计器输出的视频信号进行DCT变换，来计算DCT系数；

脸部区域检测器，用于基于所述DCT系数，从所述说话者区域中检测出说话者的脸部区域，并通过区分所述检测的脸部区域和非脸部区域，来产生差分量化表；

自适应比特率控制器，基于所述说话者区域，来差分设置用于量化的量化步长；和

量化器，用于根据所述量化步长和所述差分量化表，来量化所述DCT系数。

2.根据权利要求1的视频编码器，其中，所述自适应比特率控制器基于所述说话者区域和所述脸部区域之一，差分设置所述量化步长。

3.根据权利要求2的视频编码器，其中，所述运动估计器通过比较所述视频信号的当前帧和参考帧，来估计所述个体的运动，从而检测出最相似像素，并且计算与所述估计出的个体的运动相对应的运动矢量，所述参考帧是通过编码所述视频信号的前一帧、接着在像素对像素的基础上以数个像素的间隔对所述前一个编码帧执行运动补偿而获取的。

4.根据权利要求3的视频编码器，其中，所述说话者区域检测器根据所述运动矢量的大小和方向，从所述运动矢量中计算出背景图像矢量和前景图像矢量，并根据所述背景图像矢量和所述前景图像矢量检测出说话者区域。

5.根据权利要求4的视频编码器，其中，所述脸部区域检测器根据所述DCT部件所产生的DCT系数中的、与所述说话者区域检测器所检测出的所述说话者区域相对应的DCT系数，比较相同区域的红色分量DC值和蓝色分量DC值，其中，如果所述红色分量大于所述蓝色分量，并且大于预定阈值，所述脸部区域检测器就将所述说话者区域中与所述比较出的DCT系数相对应的区域确定为说话者的脸部区域。

6.根据权利要求5的视频编码器，还包括可变长度编码器，用于对由所述量化器差分量化的所述DCT系数执行可变长度编码。

7.根据权利要求6的视频编码器，还包括：

去量化器，用于对由所述量化器差分编码的所述DCT系数执行去量化；

离散余弦反变换部件，用于对所述去量化的DCT系数执行IDCT；和

运动补偿器，用于通过比较经IDCT变换的前一个输入视频信号和经IDCT变换的输入视频信号，来补偿所述个体的运动。

8.根据权利要求7的视频编码器，其中，所述运动补偿器基于来自所述运动补偿器的经过运动补偿的视频信号，计算输入视频信号的所述运动矢量。

9.一种使用视频编码器的用于图像通信的视频信号压缩方法，所述视频编码器通过离散余弦变换和运动估计来编码视频信号，所述方法包括如下步骤：

(a)从输入视频信号估计个体的运动，并计算所述个体的运动矢量；

(b)从所述运动矢量检测代表说话者轮廓的说话者区域；

(c)通过对所述视频信号进行DCT变换来计算DCT系数；

(d)基于所述DCT系数，从所述说话者区域中检测出所述说话者的脸部区域，并通过区分所述检测的脸部区域和非脸部区域来产生差分量化表；

(e)基于所述说话者区域来差分设置用于量化的量化步长；以及

(f)根据所述量化步长和所述差分量化表来量化所述DCT系数。

10.根据权利要求9的视频信号压缩方法，其中，所述步骤(e)包括如下步骤：基于所述说话者区域和脸部区域之一，差分设置所述量化步长。

11.根据权利要求10的视频信号压缩方法，其中，所述步骤(a)包括如下步骤：通过比较所述视频信号的当前帧和参考帧估计个体的运动，从而检测出最相似像素，并且计算与所述估计出的所述个体的运动相对应的运动矢量，所述参考帧是通过编码所述视频信号的前一帧、接着在像素对像素的基础上以数个像素的间隔对所述前一个编码帧执行运动补偿而获取的。

12.根据权利要求11的视频信号压缩方法，其中，所述步骤(b)包括如下步骤：根据所述运动矢量的大小和方向，从所述运动矢量中计算出背景图像矢量和前景图像矢量，并从所述背景图像矢量和所述前景图像矢量，检测出说话者区域。

13.根据权利要求12的视频信号压缩方法，其中，所述步骤(d)包括如下步骤：根据所述DCT系数中的、与所述说话者区域相对应的DCT系数，比较相同区域的红色分量DC值和蓝色分量DC值，如果所述红色分量大于所述蓝色分量，并且大于预定阈值，就将所述说话者区域中与所述比较出的DCT系数相对应的区域确定为所述说话者的脸部区域。

14.根据权利要求13的视频信号压缩方法，还包括如下步骤：对在步骤(f)中被差分编码的所述DCT系数执行可变长度编码。

15.根据权利要求14的视频信号压缩方法，还包括如下步骤：

对在步骤(f)中被差分编码的所述DCT系数执行去量化；

对所述量化的DCT系数执行离散余弦反变换；以及

通过比较经过IDCT变换的输入视频信号和经过IDCT变换的输入视频信号，来补偿所述个体的运动。

16.根据权利要求15的视频信号压缩方法，其中，所述步骤(a)包括如下步骤：基于在所述运动补偿步骤中经过运动补偿的输入视频信号，来计算所述输入视频信号的所述运动矢量。