CN1522073A - 视频编码器和使用视频编码器的压缩视频信号的方法 - Google Patents

视频编码器和使用视频编码器的压缩视频信号的方法 Download PDF

Info

Publication number
CN1522073A
CN1522073A CNA031278256A CN03127825A CN1522073A CN 1522073 A CN1522073 A CN 1522073A CN A031278256 A CNA031278256 A CN A031278256A CN 03127825 A CN03127825 A CN 03127825A CN 1522073 A CN1522073 A CN 1522073A
Authority
CN
China
Prior art keywords
speaker
motion
face area
video signal
dct coefficient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA031278256A
Other languages
English (en)
Other versions
CN1225914C (zh
Inventor
��Џ�
李承徹
慎大揆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN1522073A publication Critical patent/CN1522073A/zh
Application granted granted Critical
Publication of CN1225914C publication Critical patent/CN1225914C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/167Position within a video image, e.g. region of interest [ROI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems

Abstract

一种视频编码器,在可视通话期间编码说话者的图像。该视频编码器包括:运动估计器,用于从输入视频信号估计个体的运动,并计算个体的运动矢量;说话者区域检测器,用于从运动矢量检测代表说话者轮廓的说话者区域;DCT部件,用于通过对从运动估计器输出的视频信号进行DCT变换,来计算DCT系数;脸部区域检测器,用于基于DCT系数,从说话者区域中检测出说话者的脸部区域,并通过区分检测出的脸部区域和非脸部区域,来产生差分量化表;自适应比特率控制器,基于说话者区域,来差分设置用于量化的量化步长;和量化器,用于根据量化步长和差分量化表,来量化DCT系数。

Description

视频编码器和使用视频编码器的压缩视频信号的方法
技术领域
本发明一般涉及一种用于图像通信的视频编码器和使用该视频编码器的图像压缩方法,特别涉及一种能够将不同的图像质量应用于说话者(或用户)的脸部区域和其他区域的、用于图像通信的视频编码器和使用该视频编码器的图像压缩方法。
背景技术
通信技术的发展已经带来图像压缩技术和多媒体传输技术的快速进步。而且,随着图像获取器件(例如数字照相机)的普及,产生了对能够在图像获取器件及其外部器件之间交换图像数据的技术的需求。此外,当通过移动电话交谈时,移动电话的用户更愿意享受图像通信,而不是语音通信。
为满足用户的需要,已经提出了MPEG1(Moving Picture Expert Group 1,运动图像专家组1)、MPEG2、MPEG4和H.263等图像压缩技术,已经实现基于这些图像压缩技术的使用移动电话的图像通信,并使其商品化。
MPEG4是指研究运动图像及相关音频信号的压缩和解压缩的标准化组织,该组织以SC29(Sub-Committee 29,小组委员会29)的WG11(Working Group11,工作组11)的名义工作,它是制定多媒体编码技术的国际标准规范的组织,由ISO(International Standardization Organization,国际标准化组织)和IEC(International Electrotechnical Commission,国际电工技术委员会)联合组建的JTC(Joint Technical Committee,联合技术委员会)赞助。MPEG1和MPEG2是将运动图像和语音信号压缩成比特流并传送比特流的技术,运动图像和语音信号是根据预定数据吞吐量以特定长度接收的。接收经过MPEG2压缩的比特流的接收者,对接收到的比特流进行解码,并通过其显示器或扬声器部件输出解码比特流。
H.263是由ITU-T(International Telecommunications Union-Telecommuni-cation Standardization Sector,国际电信联盟-电信标准化部)提出的运动图像压缩技术,用于通过具有低于64Kbps的低传输率的通信线路进行的视频会议或可视通话。
包含在移动电话中的H.263/MPEG4视频编码器从安装在移动电话上的照相机接收图像,利用有效的压缩技术对接收到的图像进行压缩,并将压缩图像传送到传输协议层,上述移动电话能够支持通过未来的CDMA(CodeDivision Multiple Access,码分多址)的EVDO(Evolution Data Only仅进化数据)和UMTS(Universal Mobile Telecommunications System,全球移动电信系统)网络进行的双向可视通话。H.263/MPEG4视频编码器被优化成适合于具有有限资源和计算能力的移动电话,能够对于低于128Kbps的窄带通信环境,适当地调整图像质量和比特流的长度。
图1是说明传统的用于压缩数字视频信号的视频编码器(例如MPEG2图像编码系统)的方框图。参照图1,将输入视频信号帧提供给第一帧存储器10。将帧信号作为像素数据的连续块存储在第一帧存储器10中,以便一块接一块地处理帧。一个帧块通常具有8×8或16×16的像素大小。
DCT(Discrete Cosine Transform,离散余弦变换)部件12对视频信号进行DCT变换,并产生DCT系数,其中视频信号作为块从第一帧存储器10中读出。比特率控制器30给量化器14提供用于确定量化表的量化步长信息,该量化表由量化器14用于量化以匹配目标传输比特率。量化器14基于量化步长信息确定量化表,并根据所确定的量化表量化DCT系数。
以之字形模式(zigzag pattern)扫描量化DCT系数,并将其提供给可变长度编码器16。可变长度编码器16将扫描的DCT系数变换成可变长度编码数据。比特流发生器(未示出)将可变长度编码的DCT系数变换成连续比特流。根据输入信号将比特流存储在缓冲器18中一预定时间,并将其输出。缓冲器18将缓冲器状态信息提供给比特率控制器30,缓冲器状态信息表示它能够存储多少比特流。接着,比特率控制器30基于缓冲器状态信息确定量化步长,并将所确定的量化步长信息提供给量化器14和可变长度编码器16。结果,量化器16基于量化步长信息来量化DCT系数,可变长度编码器16基于量化步长信息对量化DCT系数进行可变编码。
去量化器20对由量化器14所量化的DCT系数进行去量化。IDCT(InverseDiscrete Cosine Transform,离散余弦反变换)部件22将由去量化器14所去量化的DCT系数IDCT变换成(IDCT-transformed)块单元的像素数据。将块单元的像素数据存储在第二帧存储器24中。将一个视频帧的所有块连续恢复并存储在第二帧存储器24中。运动估计器26将存储在第二帧存储器24中的恢复图像帧用作参考帧,用于从恢复图像中估计运动对象。
在图1的视频编码器对第一视频帧的所有块编码之后,将第二视频帧提供给视频编码器。运动估计器26在存储于第二帧存储器24中的参考帧的搜索区域中,搜索与第二帧的第一宏块(Macro Block,MB)最相似的区域。通常,搜索区域由多个候选宏块组成。运动估计器26在像素对像素(pixel-to-pixel)的基础上比较宏块和参考区域,同时将具有与宏块相同像素大小的参考区域在搜索区域内上下和左右移动。通常,宏块的大小为8×8或16×16。对于运动估计,可以使用一般的搜索算法或块匹配技术,例如全搜索块匹配算法(FullSearching Block Matching Algorithm,FBMA)、三步搜索(Three Step Search,TSS)、菱形搜索(Diamond Search)和分级运动估计。通过该比较过程确定运动矢量(Motion Vector,MV),该运动矢量表示参考帧的最相似参考区域和第二图像帧的宏块之间的位置关系,这种位置关系由运动估计器26比较得出。
加法器28将第二帧的第一宏块和参考帧的最相似参考区域相加,计算出第二帧的第一宏块和参考帧的最相似参考区域之间的差值。通过DCT部件12、量化器14和可变长度编码器16将该差值与运动矢量MV一起编码。虽然这里假设由分离的模块通过分离的过程来计算该差值和运动矢量,也应该注意可以由单个模块来计算该差值和运动矢量。将差值提供给去量化器20和IDCT部件22,并将其作为恢复的像素数据存储在第二帧存储器24中,用于对下一帧的运动估计。继续将上述过程应用于第二帧的全部块。
用于运动估计的参考帧不是原始图像帧,而是通过解码前一个编码即量化DCT系数而恢复的帧。这样通过执行与在接收由视频编码器编码的图像数据和解码接收到的图像数据时执行的相同的过程,来最小化视频编码器和视频解码器之间的差错。
在使用移动电话的图像通信的视频编解码器的情况下,考虑延迟时间和操作量而仅使用图像内(Intra-Picture,I图像)帧和预测图像(Predictive-Picture,P图像)帧,其中上述视频编码器和解码器被应用到所述移动电话。为了使其带宽与图像带宽相匹配,视频编码器产生具有预定长度的比特流,同时通过根据图像的内容动态使用量化值,来控制图像质量。
I图像代表编码的图像内图像或编码的帧内图像。I图像用于确保图像组(Group Of Picture,GOP)的独立性,并对屏幕上的一切内容进行编码。以与原始图像相同的次序编码I图像。P图像代表编码的帧间正向预测图像。在某些情况下,P图像包含在屏幕上的子块部分中编码内图像。以与原始图像相同的次序编码P图像。
因此,在图像具有较高运动性或屏幕复杂的情况下,会增加比特数。比特数的增加会引起量化值的增加,量化值的增加会降低图像的质量,而增加压缩率。相反,在图像具有较低运动性和屏幕简单的情况下,即使使用减小的量化值也能够维持原始图像的质量。
通常,在进行可视通话的情况下,在整个图像中除背景之外的个体(或人群)数是有限的,其中部分个体对说话者(或用户)具有非常重要的意义。也就是说,在可视通话期间,背景具有最低的优先级(或重要性),说话者周围的个体或说话者附近的个体具有次低优先级,而说话者他或她自己具有最高优先级。具体地说,在可视通话期间,说话者的脸部区域在其他区域中具有最高优先级。
然而,现有的用于图像通信的视频编码器不考虑个体而对整幅图像进行压缩。也就是说,传统的用于图像通信的视频编码器对整幅图像使用相同的压缩率。
图2A和2B说明了在对整幅图像使用相同的压缩率或量化步长时,图像质量如何改变。正如所说明的,如果对整幅图像使用相同的量化步长,显示在屏幕上的压缩图像的质量整体下降。也就是说,传统的用于图像通信的视频编码器不能从整幅图像中区分需要维持高图像质量的部分和不需要维持高图像质量的部分。
目前,MPEG提出了一种分别编码个体的技术。然而,准确区分个体的目的是在各种背景中使用相应的个体。因此,很难在实时和移动通信环境中实现这种技术。也就是说,由3PGG/3GPP2提出的用于图像通信的标准视频编解码器不考虑区分个体。
发明内容
因此,本发明的一个目的是提供一种用于图像通信的视频编码器和使用该视频编码器的图像压缩方法,该视频编码器能够自适应地对被认为是说话者脸部的区域维持相对其他区域较高的图像质量。
本发明的另一个目的是提供一种用于图像通信的视频编码器和使用该视频编码器的图像压缩方法,该视频编码器能够容易地应用用于图像通信的标准视频编码器,来自适应地对被认为是说话者脸部的区域维持相对其他区域较高的图像质量。
本发明地另一个目的是提供一种用于图像通信的视频编码器和使用该视频编码器的图像压缩方法,当使用运动图像的运动矢量信息和说话者脸部区域的颜色信息检测出脸部颜色区域时,该视频编码器能够以相对其他区域较高的图像质量,来显示说话者的脸部区域。
为了实现上述和其他目的,提供一种通过离散余弦变换(DCT)和运动估计来编码视频信号的视频编码器。视频编码器包括:运动估计器,用于从输入视频信号中估计个体的运动,并计算个体的运动矢量;说话者区域检测器,用于根据运动矢量检测出代表说话者轮廓的说话者区域;DCT部件,用于通过对运动估计器输出的视频信号进行DCT变换,来计算DCT系数;脸部区域检测器,用于基于DCT系数、从说话者区域中检测出说话者的脸部区域,并通过区分检测的脸部区域和非脸部区域,来产生差分量化表;自适应比特率控制器,用于基于说话者区域,差分设置用于量化的量化步长;和量化器,用于根据量化步长和差分量化表,来量化DCT系数。
最好是,自适应比特率控制器基于说话者区域和脸部区域中特定的一个,来差分设置量化步长。而且,运动估计器通过比较视频信号的当前帧和参考帧来估计个体的运动,从而检测出最相似的像素,并计算与估计出的个体运动相对应的运动矢量,该参考帧是通过编码视频信号的前一帧、接着在像素对像素的基础上以数个像素的间隔来补偿前一个编码帧的运动而获取的。
而且,说话者区域检测器根据运动矢量的大小和方向的一致性、从运动矢量中计算出背景图像矢量和前景图像矢量,并根据背景图像矢量和前景图像矢量检测出说话者区域。
脸部区域检测器根据DCT部件所产生的DCT系数中的、与说话者区域检测器所检测出的说话者区域相对应的DCT系数,来比较相同区域的红色分量的DC(Direct Current,直流)值和蓝色分量的DC值。如果红色分量大于蓝色分量,并且大于预定阈值,脸部区域检测器就将说话者区域中与比较出的DCT系数相对应的区域确定为说话者的脸部区域。
视频编码器还包括可变长度编码器,用于对量化器所差分量化的DCT系数执行可变长度编码。此外,视频编码器还包括:去量化器,用于对量化器所差分量化的DCT系数执行去量化;离散余弦反变换(IDCT)部件,用于对去量化的DCT系数执行IDCT;以及运动补偿器,通过比较经IDCT变换的前一个输入视频信号和该经IDCT变换的输入视频信号,来补偿个体的运动。运动补偿器基于从运动补偿器获取的经运动补偿的视频信号,来计算输入视频信号的运动矢量。
为了实现上述和其他目的,提供一种使用视频编码器的用于图像通信的视频信号压缩方法,该视频编码器通过离散余弦变换(DCT)和运动估计来编码视频信号,该方法包括如下步骤:(a)根据输入视频信号来估计个体的运动,并计算个体的运动矢量;(b)根据运动矢量来检测代表说话者轮廓的说话者区域;(c)通过对视频信号进行DCT变换来计算DCT系数;(d)基于DCT系数,从说话者区域中检测出说话者的脸部区域,并通过区分检测的脸部区域和非脸部区域来产生差分量化表;(e)基于说话者区域,差分设置量化步长;以及(f)根据量化步长和差分量化表来量化DCT系数。
最好步骤(e)包括如下步骤:基于说话者区域和脸部区域中的特定一个,差分设置量化步长。而且,步骤(a)包括如下步骤:通过比较视频信号的当前帧和参考帧来估计个体的运动,从而检测出最相似像素,并且计算与估计出的个体运动相对应的运动矢量,其中该参考帧是通过编码视频信号的前一帧、接着在像素对像素的基础上以数个像素的间隔来补偿前一个编码帧的运动而获取的。
步骤(b)包括如下步骤:根据运动矢量的大小和方向的一致性,从运动矢量中计算背景图像矢量和前景图像矢量,并根据背景图像矢量和前景图像矢量检测出说话者区域。步骤(d)包括如下步骤:根据DCT系数中与说话者区域相对应的DCT系数,来比较相同区域的红色分量的DC(Direct Current,直流)值和蓝色分量的DC值,如果红色分量大于蓝色分量,并且大于预定阈值,就将说话者区域中与比较出的DCT系数相对应的区域确定为说话者的脸部区域。
本发明区分说话者的脸部区域和非脸部区域,并以小量化步长来差分量化脸部区域,且以大量化步长来差分量化非脸部区域,从而防止可视通话期间视频编码器的过载和脸部区域的图像质量下降。结果,红色块和运动脸部区域比其他块的图像质量下降得少。
附图说明
通过下面结合附图进行的详细说明,本发明的上述和其他目的、特性和优点将会变得更加清楚,其中:
图1是说明传统的用于压缩数字视频信号的视频编码器的方框图;
图2A和2B说明了当对整幅图像应用相同的压缩率或量化步长时,图像质量如何下降;
图3是说明根据本发明的优选实施例,用于在可视通话期间差分编码说话者图像的视频编码器的方框图;
图4A至4D说明了根据图3的视频编码器接收到的视频信号,差分量化脸部区域和非脸部区域的过程;
图5A和5B说明了显示在屏幕上的图像示例,对于该图像,图3的量化器将不同的量化步长应用到整幅图像的脸部区域和非脸部区域;以及
图6说明了根据本发明的优选实施例,通过视频编码器压缩视频信号的方法。
具体实施方式
以下,将参照附图来详细说明本发明的几个实施例。附图中,尽管相同或相似的部件在不同的附图中说明,但是使用相同的标号表示相同或相似的部件。在以下的说明中,为简明起见,省略对本文包含的已知功能和结构的详细说明。
图3是说明根据本发明的优选实施例,用于在可视通话期间差分编码说话者图像的视频编码器的方框图。如图所示,所提出的视频编码器包含:运动估计器100,说话者区域检测器120,DCT(离散余弦变换)部件140,脸部区域检测器160,自适应比特率控制器180,量化器200,可变长度编码器220,去量化器240,IDCT(离散余弦反变换)部件260和运动补偿器280。
运动估计器100比较输入视频信号的当前帧和参考帧,从而检测出最相似像素,该参考帧是通过编码输入视频信号的前一帧,接着在像素对像素的基础上以数个像素的间隔对前一个编码帧执行运动补偿而获取的。运动估计器100确定运动矢量(MV),该运动矢量表示检测出的参考帧的最相似参考区域和当前帧的宏块之间的位置关系。
说话者区域检测器120在运动估计器100所确定的运动矢量中,从视频信号的中心对除特定区域之外的周围区域检测运动矢量的大小和方向的一致性。说话者区域检测器120对周围区域计算检测的运动矢量大小的平均值。特别是,说话者区域检测器120对计算出的平均值中包含在设定偏差值范围内的平均值,来计算平均值。将计算出的平均值的平均值定义为背景图像矢量。说话者区域检测器120通过从运动估计器100所确定的运动矢量中减去背景运动矢量,来对视频信号的除周围区域之外的中心区域,计算前景图像矢量。而且,说话者区域检测器120通过在前景图像矢量中搜集大小和方向包含在预定范围内的前景图像矢量,来确定说话者区域的边界。说话者区域检测器120通过对所确定的说话者区域执行水平和垂直方向的扫描,来检测矩形说话者区域。
DCT部件140对运动估计器100提供的视频信号进行DCT变换,并产生DCT系数。脸部区域检测器160根据DCT部件140所产生的DCT系数中的、与说话者区域检测器120所检测出的说话者区域相对应的DCT系数,来比较相同区域的红色分量DC(直流)值和蓝色分量DC值。作为比较的结果,如果红色分量大于蓝色分量,并且大于预定阈值,则脸部区域检测器160就将说话者区域中与比较出的DCT系数相对应的区域确定为说话者的脸部区域。该阈值可由用户任意设置,或者可被定义为根据经验获取的最优值。脸部区域检测器160基于从说话者区域区分脸部区域的结果,来产生差分量化表,即表示是否差分量化DCT系数的信息。
自适应比特率控制器180根据说话者区域检测器120所检测出的说话者区域信息和脸部区域检测器160所检测出的脸部区域信息,产生用于控制量化步长的加权表。最好是,如果相应视频信号的特定区域是说话者区域中的脸部区域,自适应比特率控制器180将量化步长设置成小于参考值,否则,将量化步长设置成大于参考值。
量化器200根据脸部区域检测器160所产生的差分量化表和自适应比特率控制器180所输出的量化步长,对DCT部件140输出的DCT系数进行差分量化。可变长度编码器220将量化DCT系数变换成编码的可变长度数据。由比特流发生器(未示出)将编码的可变长度DCT系数变换成比特流。
去量化器240对量化器200量化的DCT系数进行去量化。IDCT部件260通过IDCT以块为单位将去量化的DCT系数变换成恢复的像素数据。运动补偿器280对IDCT部件260恢复的像素数据的运动进行补偿。经过运动补偿器280进行运动补偿的像素数据,作为用于从由运动估计器100恢复的图像中估计运动对象的参考帧。
总之,所提出的视频编码器区分说话者的脸部区域和非脸部区域,并根据不同的量化步长来量化脸部区域和非脸部区域,而不是对输入视频信号应用相同的量化步长。结果,红色块和运动脸部区域的图像质量的下降少于其他块。
所提出的视频编码器通过区分红色分量和蓝色分量,接着比较红色分量值和蓝色分量值,来确定脸部区域,并且量化所确定的脸部区域,从而防止脸部区域的图像质量下降。可替换地,该视频编码器可以通过用户接口来获取脸部区域的大致特征,并根据该大致特征将红色分量范围定义为阈值。
图4A至4D说明了根据图3的视频编码器接收到的视频信号,对脸部区域和非脸部区域进行差分量化的过程。具体地说,图4A示出屏幕上显示的运动估计器100接收到的原始视频信号的图像质量。图4B示出由说话者区域检测器120检测出的说话者区域120a位于屏幕的中心区域的情形。图4C示出在屏幕上单独显示由脸部区域检测器160检测出的脸部区域160a的情形。图4D示出显示出的视频信号的图像,该图像经过量化器200对脸部区域160a和非脸部区域进行差分量化。
图5A和5B说明了显示在屏幕上的图像示例,对于该图像,图3的量化器将不同的量化步长应用到整幅图像的脸部区域和非脸部区域。如图所示,为了对特定区域进行量化,量化器200对整幅图像的脸部区域应用小于参考值的量化步长,对非脸部区域应用大于参考值的量化步长,从而确保脸部区域维持高于参考值的图像质量。
图6说明根据本发明的优选实施例,由视频编码器压缩视频信号的方法。参照图6,运动估计器100比较输入视频信号的当前帧和参考帧,从而检测出最相似像素,并且计算表示最相似像素和当前帧的宏块之间的位置关系的运动矢量(MV),该参考帧是通过编码输入视频信号的前一帧、接着在像素对像素的基础上以数个像素的间隔对前一个编码帧执行运动补偿而确定的(步骤S100)。说话者区域检测器120在运动估计器100所确定的运动矢量中,从视频信号的中心对除特定区域之外的周围区域检测运动矢量的大小和方向的一致性,从而检测出视频信号的说话者区域(步骤S120)。DCT部件140对运动估计器100提供的视频信号进行DCT变换,并产生DCT系数(步骤S140)。
脸部区域检测器160基于DCT部件140所产生的DCT系数中的、与说话者区域检测器120所检测出的说话者区域相对应的DCT系数,检测出说话者的脸部区域(步骤S160)。最好是,脸部区域检测器160根据DCT部件140所产生的DCT系数中的、与说话者区域检测器120所检测出的说话者区域相对应的DCT系数,来比较相同区域的红色分量DC值和蓝色分量DC值。作为比较的结果,如果红色分量大于蓝色分量,并且大于预定阈值,脸部区域检测器160就将说话者区域中与比较出的DCT系数相对应的区域确定为说话者的脸部区域。该阈值可由用户任意设置,或者可被定义为根据经验获取的最优值。脸部区域检测器160基于从说话者区域区分脸部区域的结果,来产生差分量化表,即表示是否差分量化DCT系数的信息。
自适应比特率控制器180基于说话者区域检测器120所检测出的说话者区域信息和脸部区域检测器160所检测出的脸部区域信息,差分设置量化步长(步骤S180)。最好是,如果相应视频信号的特定区域是说话者区域中的脸部区域,自适应比特率控制器180将量化步长设置成小于参考值,否则,将量化步长设置成大于参考值。
量化器200根据脸部区域检测器160所产生的差分量化表和自适应比特率控制器180所输出的量化步长,对DCT部件140输出的DCT系数进行差分量化(步骤S200)。可变长度编码器220将对脸部区域和非脸部区域分别差分量化的DCT系数,变换成编码的可变长度数据(步骤S220)。由比特流发生器(未示出)将编码的可变长度DCT系数变换成比特流。
总之,所提出的方法区分说话者的脸部区域和非脸部区域,并根据不同的量化步长来量化脸部区域和非脸部区域,而不是对输入视频信号应用相同的量化步长。这样,就能够维持脸部区域的参考分辨率。从而,红色块和运动脸部区域比其他块的图像质量下降得少。
所提出的方法通过区分红色分量和蓝色分量、接着比较红色分量值和蓝色分量值,来确定脸部区域,并差分量化所确定的脸部区域,从而防止脸部区域的图像质量下降。可替换地,该方法可以通过用户接口来荻取脸部区域的大致特征,并根据该大致特征将红色分量范围定义为阈值。
正如通过上述说明所能够理解的,本发明区分说话者的脸部区域和非脸部区域,并以小量化步长来差分量化脸部区域,以大量化步长来差分量化非脸部区域,从而防止可视通话期间视频编码器的过载和脸部区域的图像质量下降。结果,红色块和运动的脸部区域比其他块的图像质量下降得少。
虽然已经参照本发明的特定优选实施例,示出和说明了本发明。本领域技术人员应该理解,在不脱离所附权利要求所限定的本发明的精神和范围的情况下,可以进行形式和细节的各种改变。

Claims (16)

1.一种视频编码器,用于通过离散余弦变换和运动估计编码视频信号,所述视频编码器包括:
运动估计器,用于从输入视频信号估计个体的运动,并计算所述个体的运动矢量;
说话者区域检测器,用于从所述运动矢量检测代表说话者轮廓的说话者区域;
DCT部件,用于通过对所述运动估计器输出的视频信号进行DCT变换,来计算DCT系数;
脸部区域检测器,用于基于所述DCT系数,从所述说话者区域中检测出说话者的脸部区域,并通过区分所述检测的脸部区域和非脸部区域,来产生差分量化表;
自适应比特率控制器,基于所述说话者区域,来差分设置用于量化的量化步长;和
量化器,用于根据所述量化步长和所述差分量化表,来量化所述DCT系数。
2.根据权利要求1的视频编码器,其中,所述自适应比特率控制器基于所述说话者区域和所述脸部区域之一,差分设置所述量化步长。
3.根据权利要求2的视频编码器,其中,所述运动估计器通过比较所述视频信号的当前帧和参考帧,来估计所述个体的运动,从而检测出最相似像素,并且计算与所述估计出的个体的运动相对应的运动矢量,所述参考帧是通过编码所述视频信号的前一帧、接着在像素对像素的基础上以数个像素的间隔对所述前一个编码帧执行运动补偿而获取的。
4.根据权利要求3的视频编码器,其中,所述说话者区域检测器根据所述运动矢量的大小和方向,从所述运动矢量中计算出背景图像矢量和前景图像矢量,并根据所述背景图像矢量和所述前景图像矢量检测出说话者区域。
5.根据权利要求4的视频编码器,其中,所述脸部区域检测器根据所述DCT部件所产生的DCT系数中的、与所述说话者区域检测器所检测出的所述说话者区域相对应的DCT系数,比较相同区域的红色分量DC值和蓝色分量DC值,其中,如果所述红色分量大于所述蓝色分量,并且大于预定阈值,所述脸部区域检测器就将所述说话者区域中与所述比较出的DCT系数相对应的区域确定为说话者的脸部区域。
6.根据权利要求5的视频编码器,还包括可变长度编码器,用于对由所述量化器差分量化的所述DCT系数执行可变长度编码。
7.根据权利要求6的视频编码器,还包括:
去量化器,用于对由所述量化器差分编码的所述DCT系数执行去量化;
离散余弦反变换部件,用于对所述去量化的DCT系数执行IDCT;和
运动补偿器,用于通过比较经IDCT变换的前一个输入视频信号和经IDCT变换的输入视频信号,来补偿所述个体的运动。
8.根据权利要求7的视频编码器,其中,所述运动补偿器基于来自所述运动补偿器的经过运动补偿的视频信号,计算输入视频信号的所述运动矢量。
9.一种使用视频编码器的用于图像通信的视频信号压缩方法,所述视频编码器通过离散余弦变换和运动估计来编码视频信号,所述方法包括如下步骤:
(a)从输入视频信号估计个体的运动,并计算所述个体的运动矢量;
(b)从所述运动矢量检测代表说话者轮廓的说话者区域;
(c)通过对所述视频信号进行DCT变换来计算DCT系数;
(d)基于所述DCT系数,从所述说话者区域中检测出所述说话者的脸部区域,并通过区分所述检测的脸部区域和非脸部区域来产生差分量化表;
(e)基于所述说话者区域来差分设置用于量化的量化步长;以及
(f)根据所述量化步长和所述差分量化表来量化所述DCT系数。
10.根据权利要求9的视频信号压缩方法,其中,所述步骤(e)包括如下步骤:基于所述说话者区域和脸部区域之一,差分设置所述量化步长。
11.根据权利要求10的视频信号压缩方法,其中,所述步骤(a)包括如下步骤:通过比较所述视频信号的当前帧和参考帧估计个体的运动,从而检测出最相似像素,并且计算与所述估计出的所述个体的运动相对应的运动矢量,所述参考帧是通过编码所述视频信号的前一帧、接着在像素对像素的基础上以数个像素的间隔对所述前一个编码帧执行运动补偿而获取的。
12.根据权利要求11的视频信号压缩方法,其中,所述步骤(b)包括如下步骤:根据所述运动矢量的大小和方向,从所述运动矢量中计算出背景图像矢量和前景图像矢量,并从所述背景图像矢量和所述前景图像矢量,检测出说话者区域。
13.根据权利要求12的视频信号压缩方法,其中,所述步骤(d)包括如下步骤:根据所述DCT系数中的、与所述说话者区域相对应的DCT系数,比较相同区域的红色分量DC值和蓝色分量DC值,如果所述红色分量大于所述蓝色分量,并且大于预定阈值,就将所述说话者区域中与所述比较出的DCT系数相对应的区域确定为所述说话者的脸部区域。
14.根据权利要求13的视频信号压缩方法,还包括如下步骤:对在步骤(f)中被差分编码的所述DCT系数执行可变长度编码。
15.根据权利要求14的视频信号压缩方法,还包括如下步骤:
对在步骤(f)中被差分编码的所述DCT系数执行去量化;
对所述量化的DCT系数执行离散余弦反变换;以及
通过比较经过IDCT变换的输入视频信号和经过IDCT变换的输入视频信号,来补偿所述个体的运动。
16.根据权利要求15的视频信号压缩方法,其中,所述步骤(a)包括如下步骤:基于在所述运动补偿步骤中经过运动补偿的输入视频信号,来计算所述输入视频信号的所述运动矢量。
CNB031278256A 2003-02-10 2003-08-11 视频编码器和使用视频编码器的压缩视频信号的方法 Expired - Fee Related CN1225914C (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR8255/03 2003-02-10
KR10-2003-0008255A KR100539923B1 (ko) 2003-02-10 2003-02-10 화상통화시 화자의 영상을 구분하여 차등적 부호화할 수있는 비디오 엔코더 및 이를 이용한 비디오신호의 압축방법
KR8255/2003 2003-02-10

Publications (2)

Publication Number Publication Date
CN1522073A true CN1522073A (zh) 2004-08-18
CN1225914C CN1225914C (zh) 2005-11-02

Family

ID=32768601

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB031278256A Expired - Fee Related CN1225914C (zh) 2003-02-10 2003-08-11 视频编码器和使用视频编码器的压缩视频信号的方法

Country Status (5)

Country Link
US (1) US20040158719A1 (zh)
EP (1) EP1453321A3 (zh)
JP (1) JP2004248285A (zh)
KR (1) KR100539923B1 (zh)
CN (1) CN1225914C (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101621684A (zh) * 2008-07-02 2010-01-06 Vixs系统公司 模式检测模块、视频编码系统及其使用的方法
CN101374220B (zh) * 2007-08-23 2010-06-16 凌阳科技股份有限公司 视频画面传送方法与系统
CN101494718B (zh) * 2009-01-23 2011-02-09 逐点半导体(上海)有限公司 图像编码方法和装置
CN101427581B (zh) * 2006-04-19 2011-03-30 微软公司 基于视觉的压缩
CN101867799B (zh) * 2009-04-17 2011-11-16 北京大学 一种视频帧处理方法和视频编码器
CN101472131B (zh) * 2007-12-28 2012-07-04 希姆通信息技术(上海)有限公司 带有运动感知功能的视频电话的图像质量增强方法
CN101931815B (zh) * 2006-04-07 2013-01-09 微软公司 基于纹理水平的量化调整
US8548049B2 (en) 2007-07-02 2013-10-01 Vixs Systems, Inc Pattern detection module, video encoding system and method for use therewith
US9313504B2 (en) 2007-07-02 2016-04-12 Vixs Systems, Inc. Pattern detection module with region detection, video encoding system and method for use therewith
CN109324778A (zh) * 2018-12-04 2019-02-12 深圳市华星光电半导体显示技术有限公司 补偿表压缩方法

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8422546B2 (en) * 2005-05-25 2013-04-16 Microsoft Corporation Adaptive video encoding using a perceptual model
KR100792247B1 (ko) * 2006-02-28 2008-01-07 주식회사 팬택앤큐리텔 이미지 데이터 처리 시스템 및 그 방법
US8599841B1 (en) 2006-03-28 2013-12-03 Nvidia Corporation Multi-format bitstream decoding engine
US8593469B2 (en) * 2006-03-29 2013-11-26 Nvidia Corporation Method and circuit for efficient caching of reference video data
US7974340B2 (en) 2006-04-07 2011-07-05 Microsoft Corporation Adaptive B-picture quantization control
US8059721B2 (en) 2006-04-07 2011-11-15 Microsoft Corporation Estimating sample-domain distortion in the transform domain with rounding compensation
US8130828B2 (en) * 2006-04-07 2012-03-06 Microsoft Corporation Adjusting quantization to preserve non-zero AC coefficients
US8503536B2 (en) 2006-04-07 2013-08-06 Microsoft Corporation Quantization adjustments for DC shift artifacts
US8711925B2 (en) 2006-05-05 2014-04-29 Microsoft Corporation Flexible quantization
KR100786413B1 (ko) * 2006-06-13 2007-12-17 주식회사 팬택앤큐리텔 이미지 데이터 처리 시스템
US7653130B2 (en) * 2006-12-27 2010-01-26 General Instrument Corporation Method and apparatus for bit rate reduction in video telephony
US8238424B2 (en) 2007-02-09 2012-08-07 Microsoft Corporation Complexity-based adaptive preprocessing for multiple-pass video compression
US8498335B2 (en) 2007-03-26 2013-07-30 Microsoft Corporation Adaptive deadzone size adjustment in quantization
US8243797B2 (en) 2007-03-30 2012-08-14 Microsoft Corporation Regions of interest for quality adjustments
KR100843257B1 (ko) * 2007-04-11 2008-07-02 인하대학교 산학협력단 윤곽선 복원을 이용한 얼굴검출 장치 및 방법
US8442337B2 (en) 2007-04-18 2013-05-14 Microsoft Corporation Encoding adjustments for animation content
US8331438B2 (en) 2007-06-05 2012-12-11 Microsoft Corporation Adaptive selection of picture-level quantization parameters for predicted video pictures
US8477852B2 (en) * 2007-06-20 2013-07-02 Nvidia Corporation Uniform video decoding and display
US8502709B2 (en) * 2007-09-17 2013-08-06 Nvidia Corporation Decoding variable length codes in media applications
US8849051B2 (en) * 2007-09-17 2014-09-30 Nvidia Corporation Decoding variable length codes in JPEG applications
US8189933B2 (en) 2008-03-31 2012-05-29 Microsoft Corporation Classifying and controlling encoding quality for textured, dark smooth and smooth video content
US8897359B2 (en) 2008-06-03 2014-11-25 Microsoft Corporation Adaptive quantization for enhancement layer video coding
US9307267B2 (en) * 2008-12-11 2016-04-05 Nvidia Corporation Techniques for scalable dynamic data encoding and decoding
US20100295957A1 (en) * 2009-05-19 2010-11-25 Sony Ericsson Mobile Communications Ab Method of capturing digital images and image capturing apparatus
US10375287B2 (en) * 2009-10-21 2019-08-06 Disney Enterprises, Inc. Object trail-based analysis and control of video
US20110158310A1 (en) * 2009-12-30 2011-06-30 Nvidia Corporation Decoding data using lookup tables
CN102118617A (zh) * 2011-03-22 2011-07-06 成都市华为赛门铁克科技有限公司 运动搜索方法和装置
EP2831811A4 (en) * 2012-03-28 2016-02-17 Intel Corp SELECTIVE ADJUSTMENT BASED ON THE CONTENT OF A MOVEMENT ESTIMATE
WO2014094216A1 (en) * 2012-12-18 2014-06-26 Intel Corporation Multiple region video conference encoding
GB2514540B (en) * 2013-04-10 2020-01-08 Microsoft Technology Licensing Llc Resource for encoding a video signal
GB201312382D0 (en) 2013-07-10 2013-08-21 Microsoft Corp Region-of-interest aware video coding
JP2017103744A (ja) * 2015-12-04 2017-06-08 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 画像復号方法、画像符号化方法、画像復号装置、画像符号化装置、及び画像符号化復号装置
WO2018012366A1 (ja) * 2016-07-13 2018-01-18 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 復号装置、符号化装置、復号方法及び符号化方法
US11166080B2 (en) 2017-12-21 2021-11-02 Facebook, Inc. Systems and methods for presenting content
US20220279191A1 (en) * 2019-08-16 2022-09-01 Google Llc Face-based frame packing for video calls

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR940011605B1 (ko) * 1991-12-20 1994-12-22 삼성전자 주식회사 고정비트율 설정에 의한 영상압축방식
US5852669A (en) * 1994-04-06 1998-12-22 Lucent Technologies Inc. Automatic face and facial feature location detection for low bit rate model-assisted H.261 compatible coding of video
US6456655B1 (en) * 1994-09-30 2002-09-24 Canon Kabushiki Kaisha Image encoding using activity discrimination and color detection to control quantizing characteristics
JP3258840B2 (ja) * 1994-12-27 2002-02-18 シャープ株式会社 動画像符号化装置および領域抽出装置
US5764803A (en) * 1996-04-03 1998-06-09 Lucent Technologies Inc. Motion-adaptive modelling of scene content for very low bit rate model-assisted coding of video sequences
WO1999023600A1 (en) * 1997-11-04 1999-05-14 The Trustees Of Columbia University In The City Of New York Video signal face region detection
US6496607B1 (en) * 1998-06-26 2002-12-17 Sarnoff Corporation Method and apparatus for region-based allocation of processing resources and control of input image formation
US6330533B2 (en) * 1998-08-24 2001-12-11 Conexant Systems, Inc. Speech encoder adaptively applying pitch preprocessing with warping of target signal
JP4208315B2 (ja) * 1998-12-25 2009-01-14 キヤノン株式会社 データ通信制御装置及びその制御方法、データ通信システム、記録媒体
CN100511273C (zh) * 2000-09-27 2009-07-08 大卫·N·雷文 用于建立不随传感器状态的系统性变换而变化的激励表示的自参照方法和装置
US6944346B2 (en) * 2002-05-28 2005-09-13 Koninklijke Philips Electronics N.V. Efficiency FGST framework employing higher quality reference frames

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101931815B (zh) * 2006-04-07 2013-01-09 微软公司 基于纹理水平的量化调整
CN101427581B (zh) * 2006-04-19 2011-03-30 微软公司 基于视觉的压缩
US8548049B2 (en) 2007-07-02 2013-10-01 Vixs Systems, Inc Pattern detection module, video encoding system and method for use therewith
US9313504B2 (en) 2007-07-02 2016-04-12 Vixs Systems, Inc. Pattern detection module with region detection, video encoding system and method for use therewith
CN101374220B (zh) * 2007-08-23 2010-06-16 凌阳科技股份有限公司 视频画面传送方法与系统
CN101472131B (zh) * 2007-12-28 2012-07-04 希姆通信息技术(上海)有限公司 带有运动感知功能的视频电话的图像质量增强方法
CN101621684A (zh) * 2008-07-02 2010-01-06 Vixs系统公司 模式检测模块、视频编码系统及其使用的方法
CN101621684B (zh) * 2008-07-02 2013-05-29 Vixs系统公司 模式检测模块、视频编码系统及其使用的方法
CN101494718B (zh) * 2009-01-23 2011-02-09 逐点半导体(上海)有限公司 图像编码方法和装置
CN101867799B (zh) * 2009-04-17 2011-11-16 北京大学 一种视频帧处理方法和视频编码器
CN109324778A (zh) * 2018-12-04 2019-02-12 深圳市华星光电半导体显示技术有限公司 补偿表压缩方法
CN109324778B (zh) * 2018-12-04 2020-03-27 深圳市华星光电半导体显示技术有限公司 补偿表压缩方法

Also Published As

Publication number Publication date
US20040158719A1 (en) 2004-08-12
KR20040072259A (ko) 2004-08-18
KR100539923B1 (ko) 2005-12-28
CN1225914C (zh) 2005-11-02
EP1453321A3 (en) 2006-12-06
EP1453321A2 (en) 2004-09-01
JP2004248285A (ja) 2004-09-02

Similar Documents

Publication Publication Date Title
CN1225914C (zh) 视频编码器和使用视频编码器的压缩视频信号的方法
US6438165B2 (en) Method and apparatus for advanced encoder system
US6496607B1 (en) Method and apparatus for region-based allocation of processing resources and control of input image formation
WO1999034331A1 (en) Apparatus and method for performing scalable hierarchical motion estimation
CN1829326A (zh) 色彩空间可伸缩性视频编码和解码方法及其设备
JP2002519914A (ja) ブロック分類と適用ビット割当て方法および装置
KR100211916B1 (ko) 물체 모양정보 부호화에서의 부호화타입과 모드의 결정방법
US7502415B2 (en) Range reduction
KR100961760B1 (ko) 이산코사인변환 계수를 참조하는 움직임 추정 방법 및 장치
EP1227684A2 (en) Encoding of video signals
WO2006074043A2 (en) Method and apparatus for providing motion estimation with weight prediction
KR20040039705A (ko) 에너지에 기반한 적응적인 이산코사인 변환/역이산코사인변환 장치 및 방법
Ye et al. Improved side information generation with iterative decoding and frame interpolation for distributed video coding
CN1235413C (zh) 基于运动估计的小波视频编解码方法
KR100260702B1 (ko) 인간의 시각특성을 이용한 영상신호 압축 부호화 방법 및 그 장치
WO2002032143A2 (en) Compression of motion vectors
AU2001293994A1 (en) Compression of motion vectors
KR100584422B1 (ko) 영상데이터의 압축 장치 및 방법
KR100351568B1 (ko) 움직임 보상 예측 블록의 경계 방향성을 고려한 고압축장치 및 그 방법
JPH06233292A (ja) 画像信号伝送装置
KR100386194B1 (ko) 영상 압축에서 양자화 오차의 디시값 추가 보상을 통한이미지의 화질 개선장치 및 그 방법
KR20090004362A (ko) 웨이블릿 변환을 이용한 영상 압축 장치
JPH07236138A (ja) 動画像符号化装置
KR20040039809A (ko) 동영상 부호화기 및 이를 이용한 부호화 방법
Kweh Improved quality block-based low bit rate video coding

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20051102