CN101335000B

CN101335000B - 编码的方法及装置

Info

Publication number: CN101335000B
Application number: CN2008100840776A
Authority: CN
Inventors: 艾雅·舒默特; 张立斌; 代金良
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2008-03-26
Filing date: 2008-03-26
Publication date: 2010-04-21
Anticipated expiration: 2028-03-26
Also published as: US20100324917A1; EP2224428A1; EP2224428B1; US20100280823A1; KR20100105733A; RU2010130664A; RU2461898C2; KR101147878B1; US8370135B2; EP2224428A4; US7912712B2; WO2009117967A1; BRPI0906521A2; CN101335000A

Abstract

本发明实施例公开了一种编码方法，包括：提取拖尾时间内的背景噪声特征参数；对所述拖尾时间后的第一个超帧，根据提取的所述背景噪声特征参数进行背景噪声编码；对第一个超帧后的超帧，对每一帧都进行背景噪声特征参数提取和DTX判决；对第一个超帧后的超帧，根据提取的当前超帧的背景噪声特征参数和当前超帧之前若干帧的背景噪声特征参数，以及最终DTX判决结果，进行背景噪声编码。还公开了一种编码的装置。利用本发明实施例，能够在保证信号质量的情况下，明显降低占用的带宽。

Description

编码的方法及装置

技术领域

本发明涉及通信技术领域，特别是涉及编码、解码的方法及装置。

背景技术

在语音通信中，对于背景噪声的编解码是按ITU(Intemational TelecomUnion，国际电信联盟)制定的G.729B中规定的噪声处理方案进行的。

在语音编码器中引入了静音压缩技术，其信号处理原理框图如图1所示。

静音压缩技术主要包括三大模块：VAD(Voice Activity Detection，语音激活检测)、DTX(Discontinuous Transmission，非连续传输)和CNG(ComfortNoise Generator，舒适噪声生成)，其中VAD、DTX是编码器中的模块，CNG是解码端中的模块。图1为一个简单的静音压缩系统原理框图，其基本流程为：

首先在发送端(编码端)，对每一输入信号帧，VAD模块对当前的输入信号进行分析和检测，检测当前信号中是否包含语音信号，如果包含，则将当前帧设为语音帧，否则设为非语音帧。

其次，编码器根据VAD检测结果对当前信号进行编码，如果VAD检测结果为语音帧，则信号进入语音编码器进行语音编码，输出为语音帧；如果VAD检测结果为非语音帧，则信号进入DTX模块用非语音编码器进行背景噪声处理，并输出非语音帧。

最后，在接收端(解码端)对接收到的信号帧(包括语音帧和非语音帧)进行解码。如果接收到的信号帧为语音帧，则用语音解码器对其解码，否则进入CNG模块，在CNG模块根据非语音帧传过来的参数对背景噪声进行解码，产生舒适背景噪声或静音，使解码后的信号听起来更为自然和连续。

在编码器中引入这种变速率的编码方式，通过对静音阶段的信号进行适当的编码，静音压缩技术有效的解决了背景噪声不连续的问题，提高了信号合成质量，因此，解码端的背景噪声也可称为舒适噪声。另外，由于背景噪声的编码速率要远远小于语音编码速率，因此系统的平均编码速率也大大降低，从而有效的节省了带宽。

G.729B处理信号时对信号采用分帧处理，帧长为10ms。为了节省带宽，G.729.1还定义了静音压缩系统的需求，要求其在背景噪声的情况下在不降低信号整体编码质量的前提下采用低速率的编码方式对背景噪声进行编码传输，即定义了DTX和CNG的需求，更重要的一点是要求其DTX/CNG系统要能够兼容G.729B。虽然可以将G.729B的DTX/CNG系统简单移植到G.729.1中，但有两个问题需要解决：一是这两个编码器的处理帧长不同，直接移植会带来一些问题，而且729B的DTX/CNG系统有些简单，尤其是参数提取部分，为了满足G.729.1DTX/CNG系统的需求需要对729B的DTX/CNG系统进行扩展。二是G.729.1处理的信号带宽为宽带，而G.729B处理的带宽为窄带，在G.729.1的DTX/CNG系统还要加入背景噪声信号高频带部分(4000Hz～7000Hz)的处理方式，使其成为一个完整的系统。

现有技术中至少存在如下问题：现有的G.729B系统由于处理的带宽为窄带背景噪声，在移植到G.729.1系统中时，不能保证编码信号的质量。

发明内容

有鉴于此，本发明一个或多个实施例的目的在于提供一种编码、解码的方法及装置，以实现在将G.729B进行扩展后，能够符合G.729.1技术标准的要求，实现了在保证编码质量的情况下，显著降低信号的通信带宽。

为解决上述问题，本发明实施例提供了一种编码的方法，包括：

提取拖尾时间内的背景噪声特征参数；

对所述拖尾时间后的第一个超帧，根据提取的所述拖尾时间内的背景噪声特征参数和所述第一个超帧的背景噪声特征参数，进行背景噪声编码；

对第一个超帧后的超帧，对每一帧都进行背景噪声特征参数提取和DTX判决；

对第一个超帧后的超帧，根据提取的当前超帧的背景噪声特征参数和所述当前超帧之前若干超帧的背景噪声特征参数，以及最终DTX判决结果，进行背景噪声编码。

还提供了一种编码装置，包括：

第一提取单元，用于：提取拖尾时间内的背景噪声特征参数；

第二编码单元，用于：对所述拖尾时间后的第一个超帧，根据提取的所述拖尾时间内的背景噪声特征参数和所述第一个超帧的背景噪声特征参数，进行背景噪声编码；

第二提取单元，用于：对所述第一个超帧后的超帧，对每一帧都进行背景噪声特征参数提取；

DTX判决单元，用于：对所述第一个超帧后的超帧，对每一帧都进行DTX判决；

第三编码单元，用于：对所述第一个超帧后的超帧，根据提取的当前超帧的背景噪声特征参数和所述当前超帧之前若干超帧的背景噪声特征参数，以及最终DTX判决结果，进行背景噪声编码。

与现有技术相比，本发明实施例具有以下优点：

本发明实施例通过提取拖尾时间内的背景噪声特征参数；对所述拖尾时间后的第一个超帧，根据提取的所述背景噪声特征参数和所述第一个超帧的背景噪声特征参数，进行背景噪声编码；对第一个超帧后的超帧，对每一帧都进行背景噪声特征参数提取和DTX判决；对第一个超帧后的超帧，根据提取的当前超帧的背景噪声特征参数和所述当前超帧之前若干超帧的背景噪声特征参数，以及最终DTX判决结果，进行背景噪声编码。实现了：

首先，在保证编码质量的情况下，显著降低信号的通信带宽。

其次，通过对于G.729B系统的扩展，符合了G.729.1系统指标的要求。

再次，通过灵活准确的背景噪声特征参数的提取，使得背景噪声的编码更加精确。

附图说明

图1所示，为一个简单的静音压缩系统原理框图；

图2所示，是G.729.1编码器功能框图；

图3所示，是G.729.1解码器系统框图；

图4所示，是本发明的编码的方法的实施例一的流程图；

图5所示，是对第一个超帧编码的流程示意图；

图6所示，是窄带部分参数提取及DTX判决的流程图；

图7所示，是当前超帧中的窄带部分背景噪声参数提取及DTX判决流程图；

图8所示，是本发明的解码方法的实施例一的流程图；

图9所示，是本发明的编码装置的实施例一的框图；

图10所示，是本发明的解码装置的实施例一的框图。

具体实施方式

下面结合附图对本发明具体实施方式做进一步的详细阐述。

首先，介绍G.729B系统的有关原理。

1.1.2.语音编码码流和背景噪声编码码流中编码参数的异同

在当前的语音编码器中，背景噪声的合成原理与语音的合成原理相同，采用的模型均是CELP(Code Excited Linear Prediction，码激励线性预测)模型。语音的合成原理是：语音s(n)可以看成是一个激励信号e(n)激励一个合成滤波器v(n)所产生的输出，即s(n)＝e(n)*v(n)，这就是语音产生的数学模型。在合成背景噪声时用的也是这个模型，所以背景噪声编码码流中所传输的描述背景噪声和静音特性的特征参数内容与语音编码码流中的特征参数基本相同，为信号合成时的合成滤波器参数和激励参数。

在语音编码码流中，合成滤波器参数主要为线谱频率LSF量化参数，而激励信号参数包括：基音延迟参数、基音增益参数、固定码本参数和固定码本增益参数。不同的语音编码器，这些参数的量化比特数和量化形式有所不同；相同的编码器，如果其包含多个速率，在不同速率下，由于描述信号特性的侧重点不同，编码参数的量化比特数和量化形式也有所不同。

与语音编码参数不同，背景噪声编码参数描述的是背景噪声特性，由于背景噪声的激励信号可以认为是简单的噪声随机序列，而这些序列在编解码端均可以简单的用随机噪声产生模块产生，然后用能量参数控制这些序列的幅度，就可产生最终的激励信号，因此激励信号特征参数可以简单的用能量参数来表示，而不需要用其它的一些特征参数来进一步描述，所以在背景噪声编码码流中，其激励参数为当前背景噪声帧的能量参数，这与语音帧不同；与语音帧相同的是，背景噪声编码码流中的合成滤波器参数也为线谱频率LSF量化参数，只是具体的量化方法有所差别。通过以上分析，可以认为对背景噪声的编码方式本质上就是一种简单的“语音”编码方式。

G.729B的噪声处理方案(引用729B协议)

1.2.1DTX/CNG总体技术介绍

G.729B的静音压缩方案是较早的一种静音压缩技术，其背景噪声编解码技术基于的算法模型是CELP，因此其所传输的背景噪声参数也是基于CELP模型来提取的，是描述背景噪声的合成滤波器参数与激励参数，其中激励参数是描述背景噪声能量的能量参数，没有描述语音激励的自适应和固定码本参数，滤波器参数与语音编码参数基本一致，是LSF参数。在编码端，对每帧输入的语音信号，若VAD的判决结果为“0”，表示当前的信号为背景噪声，那么编码器将信号送入DTX模块，在DTX模块对背景噪声参数进行提取，然后根据每帧参数变化情况来对背景噪声编码：若当前帧提取的的滤波器参数和能量参数与前几帧的变化较大，那么表示当前的背景噪声特性与之前的背景噪声特性相比有较大的差别，则在噪声编码模块将当前帧提取的背景噪声参数进行编码，组装成SID帧(Si1ence Insertion Descriptor，静音描述帧)发送到解码端，否则发送NODATA帧(无数据)到解码端。SID帧和NODATA帧称为非语音帧。在解码端，若进入背景噪声阶段，则在CNG模块中根据接收的非语音帧合成出描述编码端背景噪声特性的舒适噪声。

G.729B处理信号时对信号采用分帧处理，帧长为10ms。下面分三节分别描述729B的DTX、噪声编码和CNG模块。

1.2.2DTX模块

DTX模块主要用来做背景噪声参数的估计与量化以及SID帧的发送。在非话音阶段，DTX模块需要将背景噪声信息发送到解码端，背景噪声信息被封装在SID帧中发送，若当前的背景噪声不平稳那么发送SID帧，否则不发送SID帧，而发送没有任何数据的NODATA帧。另外两个相邻SID帧间的间隔是有限制的，限制为两帧，若背景噪声不平稳，需要连续的发送SID帧，那么后一个SID帧的发送会延迟。

在编码端，DTX模块会从编码器中接收VAD模块的输出，自相关系数以及过去的激励样点，在每一帧，DTX模块会用三个值0、1、2来分别描述非发送帧，语音帧和SID帧，它们的帧类型分别为Ftyp＝0、Ftyp＝1和Ftyp＝2。

背景噪声估计的内容是背景噪声的能量电平和频谱包络，这个和语音编码参数在本质上是一致的，因此频谱包络的计算和语音编码参数的计算基本一致，用到的参数包括了前两帧的参数；而能量参数也是前几帧能量的一个平均值。

DTX模块的主要操作：

a、每帧自相关系数的存储

对每一输入的信号帧，包括语音帧的和非语音帧，将当前帧t的自相关系数保留在缓存中，这些自相关系数表示为：r′_t(j)，j＝0...10。其中j为每帧自相关函数的序号。

b、估计当前的帧类型

如果当前是一个语音帧，即VAD＝1，那么将当前的帧类型设为1，若为非语音帧，则依据前一帧和本帧的自相关系数计算一个当前的LPC滤波器A_t(z)，在计算A_t(z)之前会首先计算相邻两帧自相关系数的平均值：

R^{t} (j) = Σ_{i = t - N_{cur} + 1}^{t} r_{i}^{'} (j), j = 0 . . . 10

其中N_cur＝2，计算出R^t(j)后依据Levinson-Durbin算法计算出A_t(z)。另外Levinson-Durbin算法也会计算出残差能量E_t，并以此做帧激励能量的简单估计。

当前帧的帧类型会用以下的方式进行估计：

(1)、如果当前的帧是第一个非活动帧，那么将此帧设为SID帧，并令表征信号能量的变量E等于E_t，表征帧数目的参数k_E会设成1：

({Vad}_{t - 1} = 1) &DoubleRightArrow; \{\begin{matrix} Ftyp = 2 \\ \overset{&OverBar;}{E} = E_{t} \\ k_{E} = 1 \end{matrix}

(2)、对于其它的非语音帧，算法将之前的SID帧参数与当前相应的参数进行对比，如果当前的滤波器与之前的滤波器差别较大或者当前的激励能量与之前的激励能量较大，那么令标志flag_change等于1，否则标志的值不变。

(3)、当前的计数器count_fr表示了当前帧与上一个SID之间的帧的数目。如果其值大于N_min，那么发送SID帧；另外如果flag_change等于1，SID帧也会发送，其它情况下，不发送当前帧：

\begin{matrix} count_fr &GreaterEqual; N_{\min} \\ flag_chang = 1 \end{matrix}\} &DoubleRightArrow; {Ftyp}_{t} = 2

Otherwise：Ftyp_t＝0

在SID帧的情况下，计数器count_fr和标志flag_change重新初始化成0。

c、LPC滤波器系数：

设上一个SID的LPC滤波器A_sid(z)的系数为a_sid(j)，j＝0...10，如果当前帧和上一帧的SID-LPC滤波器的Itakura距离超过了一定的门限，就认为二者有很大的不同：

Σ_{j = 0}^{10} R_{a} (i) \times R^{t} (i) &GreaterEqual; E_{t} \times thr 1

其中，R_a(j)，j＝0...10是SID滤波器系数的自相关系数：

\{\begin{matrix} R_{a} (j) = 2 Σ_{k = 0}^{10 - j} a_{sid} (k) \times a_{sid} (k + j) & if (j &NotEqual; 0) \\ R_{a} (0) = Σ_{k = 0}^{10} a_{sid} {(k)}^{2} \end{matrix}

d、帧能量：

计算帧能量的和：

\overset{&OverBar;}{E} = Σ_{i = t - k_{E} + 1}^{t} E_{i}

然后对E用5比特的对数量化器量化。解码之后的对数能量E_q会与上一个解码后的SID对数能量E_q ^sid进行比较，如果二者的差超过了2dB，那么认为二者的能量差别较大。

1.2.3噪声编码及SID帧

SID帧中的参数就是LPC滤波器系数(频谱包络)和能量的量化参数。

在对SID-LPC滤波器计算时考虑了相邻噪声帧之间的稳定情况：

首先，计算当前SID帧之前N_p帧的平均LPC滤波器A_p(z)，这要用到自相关函数和R_p(j)，然后将R_p(j)送入Levinson-Durbin算法中得到A_p(z)，而R_p(j)表示为：

{\overset{&OverBar;}{R}}_{p} (j) = Σ_{k = t^{'} - N_{p}}^{t^{'}} r_{k}^{'} (j), j = 0 . . . 10

其中N_p的值定为6。帧数目t′的范围是[t-1，t-N_cur]。这样，SID-LPC滤波器表示为：

A_{sid} (z) = \{\begin{matrix} A_{t} (z) & if & dis \tan ce (A_{t} (z), {\overset{&OverBar;}{A}}_{p} (z)) &GreaterEqual; thr 3 \\ {\overset{&OverBar;}{A}}_{p} (z) & otherwise \end{matrix}

即算法会计算前几帧的平均LPC滤波器系数A_p(z)，然后用其与当前的LPC滤波器系数A_t(z)进行比较，若二者差值较小，那么当前帧在量化LPC系数时选择的就是前几帧的平均值A_p(z)，否则就是当前帧的A_t(z)。选择好LPC滤波器系数之后，算法将这些LPC滤波器系数转化到LSF域，然后进行量化编码，而量化编码选择的方式与语音编码的量化编码方式是一样的。

能量参数的量化在对数域完成，采用的是线性的量化，然后用5bit进行编码。这样对背景噪声的编码就已完成，然后将这些编码比特封装在SID帧中。如表A所示：

表A

TABLE B.2/G.729

Parameter description	Bits
Parameter description	Bits	Switched predictor index of LSF quantizer	1
First stage vector of LSF quantizer	5	Switched predictor index of LSF quantizer	1
First stage vector of LSF quantizer	5	Second stage vector of LSF quantizer	4
Gain(Energy)	5	Second stage vector of LSF quantizer	4

SID帧中的参数由四个码本索引构成，其中一个用来指示能量量化索引(5比特)，另三个指示频谱量化的索引(10比特)。

1.2.4CNG模块

在解码端，算法用一个电平可控的伪白噪声激励一个经内插得到的LPC合成滤波器得到舒适的背景噪声，这在本质上与语音的合成方式一样。其中激励电平和LPC滤波器系数分别从上一个SID帧中得到。子帧的LPC滤波器系数通过SID帧中的LSP参数的内插来得到，而内插方法与语音编码器中的内插方式是一致的。

伪白噪声激励ex(n)是语音激励ex1(n)和高斯白噪声激励ex2(n)的一个混合。ex1(n)的增益较小，而采用ex1(n)的目的是为了让语音和非语音间的过渡更为自然。

这样得到激励信号后用其激励合成滤波器即可得到舒适的背景噪声。

由于编解码双方的非语音编解码要保持同步，所以在双方都要为SID帧和不发送帧产生激励信号。

首先，定义目标激励增益

令其作为当前帧激励平均能量的平方根，由下面的平滑算法得到，其中

是解码后的SID帧的增益：

{\tilde{G}}_{t} = \{\begin{matrix} {\tilde{G}}_{sid} & if ({Vad}_{t - 1} = 1) \\ \frac{7}{8} {\tilde{G}}_{t - 1} + \frac{1}{8} {\tilde{G}}_{sid} & otherwise \end{matrix}

80个采样点被分成两个子帧，对每个子帧，CNG模块的激励信号会用如下的方式来合成：

(1)、在[40，103]范围内随机选择基音延迟；

(2)、子帧的固定码本矢量中非零脉冲的位置和符号随机选择(这些非零脉冲的位置和符号的结构与G.729是一致的)；

(3)、选择一个带增益的自适应码本激励信号，将其标记为e_a(n)，n＝0...39，而选择的固定码本激励信号标记为e_f(n)，n＝0...39。然后以子帧能量为依据计算自适应增益G_a和固定码本增益G_f：

\frac{1}{40} Σ_{n = 0}^{39} {(G_{a} \times e_{a} (n) + G_{f} \times e_{f} (n))}^{2} = {\tilde{G}}_{t}^{2}

需要注意的是G_f可以选择负值。

定义：

而由ACELP的激励结构可知

如果将自适应码本增益G_a固定，那么表现

的方程就变成了一个关于G_f的二阶方程：

{G_{f}}^{2} + \frac{G_{a} \times I}{2} G_{f} + \frac{E_{a} \times {G_{a}}^{2} - K}{4} = 0

G_a的值会被限定以确保上面的方程有解，更近一步，可以对一些大的自适应码本增益值的应用进行限制，这样，自适应码本增益G_a可以在如下的范围内随机的选择：

with A＝E_a-I²/4

将方程

的根中绝对值最小的作为G_f的值。

最后，用下式构建G.729的激励信号：

ex₁(n)＝G_a×_a(n)+G_f×e_f[n]，n＝0...39

合成激励ex(n)可由如下方法合成：

设E₁是ex₁(n)的能量，E₂是ex₂(n)的能量，E₃是ex₁(n)和ex₂(n)的点积：

E_{1} = Σ {ex}_{1}^{2} (n)

E_{2} = Σ {ex}_{2}^{2} (n)

E₃＝∑ex₁(n)·ex₂(n)

而计算的点数超过自身的大小。

令α和β分别是混合激励中ex₁(n)和ex₂(n)的比例系数，其中α设为0.6，而

β依照下面的二次方程确定：

β²E₂+2αβE₃+(α²-1)E₁＝0，with β＞0

如果β没有解，那么β将被设成0，而α设成1。最终的CNG模块的激励变为ex(n)：

ex(n)＝αex₁(n)+βex₂(n)

以上即为729.B编码器的DTX/CNG模块的基本原理。

1.3G.729.1编解码器的基本流程

G.729.1是ITU最新发布的新一代语音编解码标准(见参考文献[1])，其是ITU-TG.729在8-32kbit/s可分级宽带(50-7000Hz)上的扩展。默认情况下，编码器输入和解码器输出端采样频率为16000Hz。编码器产生的码流具有可分级性，包含12个嵌入式层，分别被称作第1～12层。第1层为核心层，对应比特率为8kbit/s。该层与G.729码流一致，从而使得G.729EV与G.729具有互操作性。第2层为窄带增强层，增加了4kbit/s，而第3～12层是宽带增强层，以每层2kbit/s速度共增加20kbit/s。

G.729.1编解码器基于三阶段结构：嵌入式码激励线性估计(CELP)编解码，时域带宽扩展(TDBWE)以及被称为时域混叠消除(TDAC)的估计转换编解码。嵌入式CELP阶段产生第1和第2层，生成8kbit/s和12kbit/s窄带合成信号(50-4000Hz)。TDBWE阶段产生第3层，生成14kbit/s宽带输出信号(50-7000Hz)。TDAC阶段工作在改进离散余弦变换(MDCT)域，生成第4～12层，将信号质量从14kbit/s提高到32kbit/s。TDAC编解码同时代表50-4000Hz频带加权CELP编解码误码信号和4000-7000Hz频带输入信号。

参考图2所示，给出了G.729.1编码器功能框图。编码器工作于20ms输入超帧。默认情况下，输入信号s_WB(n)在16000Hz进行采样。因此，输入超帧具有320个采样点长度。

首先，输入信号s_WB(n)经过QMF滤波(H₁(z)，H₂(z))分成两个子带，低子带信号s_LB ^qmf(n)经过50Hz截止频率的高通滤波器进行预处理，输出信号s_LB(n)使用8kb/s～12kb/s的窄带嵌入式CELP编码器进行编码，s_LB(n)和12Kb/s码率下CELP编码器的本地合成信号

之间的差值信号为d_LB(n)，将其经过知觉加权滤波(W_LB(z))后得到信号d_LB ^w(n)，将d_LB ^w(n)通过MDCT变换到频域。加权滤波器W_LB(z)包含了增益补偿，用来保持滤波器输出d_LB ^w(n)与高子带输入信号s_HB(n)之间的谱连续性。

高子带分量乘上(-1)ⁿ进行谱折叠之后获得信号s_HB ^fold(n)，将s_HB ^fold(n)通过截止频率为3000HZ的低通滤波器进行预处理，滤波后的信号s_HB(n)使用TDBWE编码器进行编码。信号s_HB(n)也通过MDCT变换为频域信号。

两组MDCT系数D_LB ^w(k)和S_HB(k)最后使用TDAC编码器进行编码。

另外，还有一些参数用FEC(丢帧错误隐蔽)编码器进行传输，用以改进在传输中出现丢帧时造成的错误。

解码器系统框图如图3所示，解码器的实际工作模式由接收到的码流层数决定，也等价于由接收到的码率决定。

(1)、如果接收到的码率为8kb/s或12kb/s(即仅接收到第一层或者前两层)：第一层或者前两层的码流由嵌入式CELP解码器进行解码，得到解码后的信号

再进行后滤波得到

并经高通滤波获得输出信号由QMF合成滤波器组产生，其中高频合成信号

被置零。

(2)、如果接收到的码率为14kb/s(即接收到前三层)：除了CELP解码器解码出窄带分量以外，TDBWE解码器也解码出高带信号分量

对

进行MDCT变换，把高子带分量谱中3000Hz以上(对应于16kHz采样率中7000Hz以上)频率分量置0，然后进行逆MDCT变换，迭加之后并进行谱翻转，然后在QMF滤波器组中将重建的高频带信号

与CELP解码器解出的低带分量一起合成16kHz的宽带信号(不进行高通滤波)。

(3)、如果接收到14kb/s以上速率的码流(对应于前四层或者更多层)：除了CELP解码器解码出低子带分量

TDBWE解码器解码出高子带分量以外，TDAC解码器还负责重建MDCT系数

知

二者分别对应于低频带(0-4000Hz)重建加权差值和高频带(4000-7000Hz)重建信号(注意到在高频带中，非接收子带和TDAC零码分配子带被替换为电平调整子带信号

及

通过反向MDCT和重叠相加变换为时域信号。然后，低频带信号

经由感知加权滤波器进行处理。为减少变化编码带来的影响，对低频带和高频带信号和进行前向/后向回声监测和压缩。低频带合成信号

经由后滤波处理，而高频带合成信号

经由(-1)n频谱折叠处理。然后，QMF合成滤波器组对信号

知

进行组合和上采样，得到最终的16kHz的宽带信号。

1.4G.729.1DTX/CNG系统的需求

为了节省带宽，G.729.1还定义了静音压缩系统的需求，要求其在背景噪声的情况下在不降低信号整体编码质量的前提下采用低速率的编码方式对背景噪声进行编码传输，即定义了DTX和CNG的需求，更重要的一点是要求其DTX/CNG系统要能够兼容G.729B。虽然可以将G.729B的DTX/CNG系统简单移植到G.729.1中，但有两个问题需要解决：一是这两个编码器的处理帧长不同，直接移植会带来一些问题，而且729B的DTX/CNG系统有些简单，尤其是参数提取部分，为了满足G.729.1DTX/CNG系统的需求需要对729B的DTX/CNG系统进行扩展。二是G.729.1处理的信号带宽为宽带，而G.729B处理的带宽为窄带，在G.729.1的DTX/CNG系统还要加入背景噪声信号高频带部分(4000Hz～7000Hz)的处理方式，使其成为一个完整的系统。

在G.729.1中，可以将背景噪声的高频带和低频带分别进行处理。其中高频带的处理方式比较简单，其背景噪声特征参数的编码方式可参考语音编码器的TDBWE编码方式，判决部分简单比较频域包络和时域包络的稳定性即可。本发明的技术方案及要解决的问题是在低频带，也即窄带。以下所指的G.729.1DTX/CNG系统，是指应用于对窄带DTX/CNG部分的有关处理过程。

参考图4所示，是本发明的编码的方法的实施例一，包括步骤：

步骤401、提取拖尾时间内的背景噪声特征参数；

步骤402、对所述拖尾时间后的第一个超帧，根据提取的所述拖尾时间内的背景噪声特征参数和所述第一个超帧的背景噪声特征参数，进行背景噪声编码，得到第一个SID帧；

步骤403、对第一个超帧后的超帧，对每一帧都进行背景噪声特征参数提取和DTX判决；

步骤404、对第一个超帧后的超帧，根据提取的当前超帧的背景噪声特征参数和所述当前超帧之前若干超帧的背景噪声特征参数，以及最终DTX判决结果，进行背景噪声编码。

利用本发明实施例，通过提取拖尾时间内的背景噪声特征参数；对所述拖尾时间后的第一个超帧，根据提取的所述拖尾时间内的背景噪声特征参数和所述第一个超帧的背景噪声特征参数，进行背景噪声编码；

对第一个超帧后的超帧，根据提取的当前超帧的背景噪声特征参数和所述当前超帧之前若干超帧的背景噪声特征参数，以及最终DTX判决结果，进行背景噪声编码。实现了：

在本发明的各个实施例中，如果为了适应G.729.1相关技术标准的要求，可以通过将每个超帧设置为20毫秒，将每个超帧所包含的帧设置为10毫秒。利用本发明的各个实施例，均可以实现对于G.729B的扩展，满足G.729.1的技术指标。同时，对于所属领域的技术人员而言，可以明白，对于非G.729.1系统，应用本发明的各个实施例所提供的技术方案，同样可以达到对背景噪声以较低的频带占用，带来较高的通信质量。即本发明的应用范围不仅仅局限于G.729.1系统之内。

下面结合附图，详细介绍本发明的编码的方法的实施例二：

由于G729.1和G729B的编码帧长不同，其中，前者是20ms一帧，后者是10ms一帧。也就是说，G729.1的一帧与G729B的两帧的长度相对应。为描述方便，这里将G729.1的一帧为超帧(superframe)，G729B的一帧为帧(frame)，本发明主要针对这种差别来描述G729.1的DTX/CNG系统，即通过对G729B DTX/CNG系统进行升级和扩展，以适应ITU729.1的系统特点。

一、噪声的学习：

首先，用语音编码速率对背景噪声的前120ms进行编码；

为了准确的对背景噪声的特征参数进行提取，在语音帧结束(根据VAD结果的指示，表明当前帧已经从活动的语音变为非活动的背景噪声)之后一段时间内，并不马上进入背景噪声处理阶段，而是继续用语音编码速率对背景噪声进行编码。这一拖尾的时间一般为6个超帧，即120ms(可参考AMR及AMRWB)。

其次，在这一拖尾时间内，对每一个超帧的每一10ms帧，均对背景噪声的自相关系数R′_t，k(j)，j＝010进行缓存，其中t为超帧序号，k＝1，2为每个超帧中第1个和第2个10ms帧的序号。由于这些自相关系数表征了拖尾阶段背景噪声的特性，因此在对背景噪声进行编码时就可以依据这些自相关系数，准确的提取出背景噪声的特征参数，从而使得对背景噪声的编码更加精确。在实际运用中，噪声学习所持续的时间长度，可以根据实际需要进行设定，不限于120ms；可以根据需要将拖尾时间设置为其他的数值。

二、对拖尾阶段后第一个超帧进行编码

在拖尾阶段结束之后，采用背景噪声的处理方式对背景噪声进行处理。参考图5所示，是对第一个超帧编码的流程示意图，包括步骤：

在拖尾阶段结束后的第一个超帧，对噪声学习阶段以及当前超帧提取出来的背景噪声特征参数进行编码，得到第一个SID超帧，由于在拖尾阶段之后的第一个超帧要进行背景噪声参数的编码传输，因此这一超帧一般称为第一个SID超帧；编码后生成的第一个SID超帧在发送到解码端后进行解码。由于一个超帧对应两个10ms帧，为了准确获得编码参数，会在第2个10ms帧提取出背景噪声的特征参数A_t(z)和E_t：

LPC滤波器A_t(z)和残差能量E_t的计算方式如下：

步骤501、计算缓存中所有自相关系数的平均值：

R^{t} (j) = \frac{1}{2 * N_{cur}} Σ_{i = t - N_{cur} + 1}^{t} Σ_{k = 1}^{2} r_{i, k}^{'} (j), j = 0 . . . 10

其中N_cur＝5，也就是缓存的大小为10个10ms帧。

步骤502、由自相关系数的平均值R^t(j)，根据Levinson-Durbin算法计算出LPC滤波器A_t(z)，其系数为a_t(j)，j＝0，...，10，同时Levinson-Durbin算法也会计算出残差能量E_t，并以此作为当前超帧能量参数的简单估计。

其中，在实际运用中，为了获得更加稳定的超帧能量参数估计，还可以对估计出的残差能量E_t进行了长时的平滑，并将平滑后的能量估计E_LT作为当前超帧能量参数的最终估计重新赋给E_t，平滑操作如下：

E_LT＝αE_LT+(1-α)E_t

E_t＝E_LT

其中，α取值范围为：0＜α＜1，作为优选实施例中，α取值可以为0.9。也可以根据需要设置为其他值。

步骤503、算法将LPC滤波器系数A_t(z)转化到LSF域，然后进行量化编码；

步骤504、残差能量参数E_t的量化在对数域完成，采用的是线性的量化。

在背景噪声窄带部分的编码完成之后，将这些编码比特封闭在SID帧中传送到解码端，这样就完成了第一个SID帧窄带部分的编码。

在本发明的实施例中，对于第一个SID帧窄带部分的编码充分考虑了拖尾阶段背景噪声的特性，将背景噪声在拖尾阶段的特性反映在了编码参数中，从而使得这些编码参数最大限度地表征了当前背景噪声的特性。因此，本发明的实施例中的参数提取相对于G.729B更加准确合理。

三、DTX的判决

为了清楚描述的需要，设提取的参数的表现形式是PARA_t，k，其中t为超帧序号，“k＝1，2”为每个超帧中第1个和第2个10ms帧的序号。那么对于除了第一个超帧之外的其他非语音超帧，需要对每一10ms帧的参数进行提取和DTX判决。

参考图6所示，是窄带部分参数提取及DTX判决的流程图，包括步骤：

首先，进行第一个超帧后的第一个10毫秒帧的背景噪声参数提取及DTX判决；

对于所述第一个10毫秒帧，背景噪声的谱参数A_t，1(z)和激励能量参数E_t，1的计算方式如下：

步骤601、根据最近四个相邻10ms帧自相关系数r′_t，1(j)、r′_(t-1)，2(j)、r′_(t-1)，1(j)和r′_(t-2)，2(j)的值，计算当前自相关系数的稳态平均值R^t，1(j)：

R^t，1(j)＝0.5*r_min 1(j)+0.5*r_min 2(j)，j＝0...10

其中，r_min 1(j)和r_min 2(j)表示r′_t，1(j)、r′_(t-1)，2(j)、r′_(t-1)，1(j)和r′_(t-2)，2(j)中具有次最小和次次最小自相关系数范数值的自相关系数，也就是除去具有最大和最小自相关系数范数值所剩下的具有中间自相关系数范数值的两个10ms帧的自相关系数：

r′_t，1(j)、r′_(t-1)，2(j)、r′_(t-1)，1(j)和r′_(t-2)，2(j)的自相关系数范数分别为：

{norm}_{t, 1} = Σ_{j = 0}^{10} {r_{t, 1}^{'}}^{2} (j)

{norm}_{(t - 1), 2} = Σ_{j = 0}^{10} {r_{(t - 1), 2}^{'}}^{2} (j)

{norm}_{(t - 1), 1} = Σ_{j = 0}^{10} {r_{(t - 1), 1}^{'}}^{2} (j)

{norm}_{(t - 2), 2} = Σ_{j = 0}^{10} {r_{(t - 2), 2}^{'}}^{2} (j)

将这四个自相关系数范数值进行排序，则r_min 1(j)和r_min 2(j)对应于具有中间自相关系数范数值大小的两个10ms帧的自相关系数。

步骤602、由当前自相关系数的稳态平均值R^t，1(j)，根据Levinson-Durbin算法计算出背景噪声的LPC滤波器A_t，1(z)，其系数为a_t(j)，j＝0，...，10，同时Levinson-Durbin算法也会计算出残差能量E_t，1；

其中，在实际运用中，算法为了获得更加稳定的帧能量估计，对估计出的E_t，1，还可以进行长时的平滑，并将平滑后的能量估计E_LT作为当前帧激励能量估计重新赋值给E_t，1操作如下：

E_LT1＝αE_LT+(1-α)E_t，1

E_t，1＝E_LT1

α取值为0.9。

步骤603、参数提取之后，进行当前10ms帧的DTX判决；DTX判决的具体内容是：

算法将之前的SID超帧(SID超帧就是经DTX判决后最终要编码发送的背景噪声超帧，如果DTX判决结果，该超帧不发送，则不称之为SID超帧)中窄带部分编码参数与当前10毫秒帧相应的编码参数进行对比，如果当前的LPC滤波器系数与之前SID超帧中的LPC滤波器系数差别较大，或者当前的能量参数与之前SID超帧中的能量参数差别较大(见下面的公式)，则将当前10ms帧的参数变化标志flag_change_first置1，否则清零。本步骤中的具体的确定方法与G.729B类似：

首先，设上一个SID超帧中的LPC滤波器A_sid(z)的系数为a_sid(j)，j＝0...10，如果当前10ms帧和上一SID超帧的LPC滤波器的Itakura距离超过了一定的门限，就令flag_change_first置1，否则置零：

\begin{matrix} if & (Σ_{j = 0}^{10} R_{a} (i) \times R^{t, 1} (i) > E_{t, 1} \times thr) \end{matrix}

flag_change_first＝1

else

flag_change_first＝0

其中，thr是具体的门限值，一般在1.0到1.5之间，本实施例中为1.342676475，R_a(j)，j＝0...10是上一SID超帧LPC滤波器系数的自相关系数：

\{\begin{matrix} R_{a} (j) = 2 Σ_{k = 0}^{10 - j} a_{sid} (k) \times a_{sid} (k + j) & if (j &NotEqual; 0) \\ R_{a} (0) = Σ_{k = 0}^{10} a_{sid} {(k)}^{2} \end{matrix}

其次，计算当前10ms帧和最近三个10ms帧共四个10ms帧残差能量的平均值：

E_t，1＝(E_t，1+E_t-1，2+E_t-1，1+E_t-2，2)/4

需要注意的是，如果当前超帧是噪声编码阶段的第二个超帧(即前一个超帧是第一个超帧)，那么E_t-2，2的值为0。对E_t，1用对数量化器量化。将解码之后的对数能量E_q，1与上一SID超帧解码后的对数能量E_q ^sid进行比较，如果二者的差超过3dB，就令flag_change_first置一，否则置零：

\begin{matrix} if & abs (E_{q}^{sid} - E_{q, 1}) > 3 \end{matrix}

flag_change_first＝1

else

flag_change_first＝0

对于所属领域的技术人员而言，可以根据实际需要将两个激励能量的差设置为其他的值，这没有超出本发明的保护范围。

在进行了第一个10ms帧的背景噪声参数提取及DTX判决之后，就进行第二个10ms帧的背景噪声参数提取及DTX判决。

第二个10ms帧的背景噪声参数提取及DTX判决流程与第一个10ms帧一致，其中第二个10ms帧的相关参数为：相邻四个10ms帧自相关系数的稳态平均值R^t，2(j)，相邻四个10ms帧帧能量的平均值E_t，2以及第二个10ms帧的DTX标志flag_change_second。

四、当前超帧中的窄带部分背景噪声参数提取及DTX判决。

参考图7所示，是当前超帧中的窄带部分背景噪声参数提取及DTX判决流程图，包括步骤：

步骤701、确定当前超帧窄带部分的最终DTX标志flag_change，其确定方式如下：

flag_change＝flag_change_first||flag_change_sec ond

即只要有一个10ms帧的DTX判决结果为1，则当前超帧窄带部分的最终判决结果为1。

步骤702、确定当前超帧的最终DTX判决结果；包括当前超帧高频带部分在内的当前超帧的最终DTX判决结果，则还要考虑高频带部分的特性，由窄带部分和高频带部分综合决定当前超帧的最终DTX判决结果。如果当前超帧的最终DTX判决结果为1，则进入步骤703；如果当前超帧的DTX判决结果为0，则不进行编码，只向解码端发送没有任何数据的NODATA帧。

步骤703、如果当前超帧的最终DTX判决结果为1，则对当前超帧的背景噪声特征参数进行提取；提取当前超帧的背景噪声特征参数的来源是当前两个10ms帧的参数，即将当前两个10ms帧的参数进行平滑得到当前超帧的背景噪声编码参数。提取背景噪声特征参数并进行背景噪声特征参数平滑的过程如下：

首先，确定平滑因子smooth_rate：

if(flag_change_first＝＝0&&flag_change_second＝＝1)

smooth_rate＝0.1

else

smooth_rate＝0.5

即：如果第一个10ms帧的DTX判决结果为0，而第二个10ms帧的DTX判决结果为1，则在平滑时，第一个10ms帧背景噪声特征参数的平滑权重为0.1，第二个10ms帧背景噪声特征参数的平均权重为0.9，否则两个10ms帧背景噪声特征参数的平滑权重都为0.5。

然后，对两个10ms帧的背景噪声特征参数进行平滑，得到当前超帧的LPC滤波器系数和计算两个10ms帧帧能量的平均值，其过程包括：

首先，计算两个10ms帧自相关系数稳态平均值的滑动平均值R^t(j)：

R^t(j)＝smooth_rateR^t，1(j)+(1-smooth_rate)R^t，2(j)

得到自相关系数的滑动平均值R^t(j)之后，根据Levinson-Durbin算法，得到LPC滤波器A_i(z)，其系数为a_t(j)，j＝0，...，10；

其次，计算两个10ms帧帧能量的平均值E_t：

E_t＝smooth_rateE_t，1+(1-smooth_rate)E_t，2

这样就得到当前超帧的窄带部分的编码参数：LPC滤波器系数和帧能量平均值。背景噪声特征参数提取以及DTX控制充分靠了了当前超帧每一10ms帧的特性，因此算法较为严谨。

五、SID帧的编码

与G.729B一样，在对SID帧的谱参数最终编码时，考虑了相邻噪声帧之间的稳定情况，具体的操作与G.729B一致：

首先，计算当前超帧之前N_p个超帧的平均LPC滤波器A_p(z)，这要用到自相关函数平均值R_p(j)，然后将R_p(j)送入Levinson-Durbin算法中得到A_p(z)，而R_p(j)表示为：

{\overset{&OverBar;}{R}}_{p} (j) = \frac{1}{2 * N_{p}} Σ_{i = t - 1 - N_{p}}^{t - 1} Σ_{k = 1}^{2} r_{i, k}^{'} (j), j = 0 . . . 10

其中N_p的值定为5。这样，SID-LPC滤波器表示为：

A_{sid} (z) = \{\begin{matrix} A_{t} (z) & if & dis \tan ce (A_{t} (z), {\overset{&OverBar;}{A}}_{p} (z)) &GreaterEqual; thr 3 \\ {\overset{&OverBar;}{A}}_{p} (z) & otherwise \end{matrix}

即算法会计算前几个超帧的平均LPC滤波器系数A_p(z)然后，用其与当前的LPC滤波器系数A_t(z)进行比较，若二者差别较小，那么当前超帧在量化LPC系数时选择的就是前几个超帧的平均值A_p(z)，否则就是当前超帧的A_t(z)，具体的比较方法与步骤602中10ms帧DTX判决的方法一样，其中thr3是具体的门限值，一般在1.0到1.5之间，本实施例中为1.0966466。所述领域的技术人员可以根据实际需要，取其他的值，这没有超出本发明的保护范围。

选择好LPC滤波器系数之后，算法将这些LPC滤波器系数转化到LSF域，然后进行量化编码，而量化编码选择的方式与G.729B的量化编码方式类似。

能量参数的量化在对数域完成，采用的是线性的量化，然后进行编码。这样对背景噪声的编码就已完成，然后将这些编码比特封装在SID帧中。

六、CNG的方式

在基于CELP模型的编码中，为了获得最佳的编码参数，在编码端也包含了解码的过程，对于CNG系统也不例外，即在G.729.1中编码端也要包含CNG模块。对于G.729.1中的CNG来说，其处理的流程基于G.729B，虽然其帧长为20ms，但还是以10ms为基本的数据处理长度来处理背景噪声。但是，从上一节可知，第一个SID超帧的编码参数在第2个10ms帧才会对进行编码，但这时系统需要在第一个SID超帧的第一个10ms帧就产生CNG的参数。显然，第一个SID超帧的第一个10ms帧的CNG参数不能从SID超帧的编码参数中得到，而只能从之前语音编码超帧中得到。由于存在这种特殊情况，因此G.729.1的第一个SID超帧的第一个10ms帧的CNG方式与G.729B有所不同，相对前述有关内容介绍的G.729B的CNG方式，这种不同表现在：

(1)目标激励增益

由长时平滑的语音编码超帧量化的固定码本增益LT_G_f定义：

{\tilde{G}}_{t} = LT_{\overset{&OverBar;}{G}}_{f} * γ

其中，0＜γ＜1，本实施例中可以选择γ＝0.4。

(2)LPC滤波器系数A_sid(z)由长时平滑的语音编码超帧量化的LPC滤波器系数LT_A(z)定义：

A_sid(z)＝LT_A(z)

其他的操作与729B一致。

设语音编码帧量化的固定码本增益和LPC滤波器系数分别为gain_code和A_q(z)，则这些长时平滑的参数分别计算如下：

LT_G_f＝βLT_G_f+(1-β)gain_code

LT_A(z)＝βLT_A(z)+(1-β)A_q(z)

以上操作在语音超帧的每一子帧都进行平滑，其中平滑因子β的取值范围为0＜β＜1，本实施例中为0.5。

另外，除了第一个SID超帧的第一个10ms帧与729B略有不同外，其他所有10ms帧的CNG方式均与G.729B一致。

其中，在上述实施例中，所述拖尾时间为120毫秒或140毫秒。

其中，在上述实施例中，所述提取拖尾时间内的背景噪声特征参数具体为：

在所述拖尾时间内，对每一个超帧的每一帧，保存每帧背景噪声的自相关系数。

其中，在上述实施例中，对所述拖尾时间后的第一个超帧，所述根据提取的所述拖尾时间内的背景噪声特征参数和所述第一个超帧的背景噪声特征参数，进行背景噪声编码包括：

在第一帧和第二帧保存每个帧背景噪声的自相关系数；

在第二帧，根据所述提取出的所述两帧的自相关系数和所述拖尾时间内的背景噪声特征参数，提取出所述第一个超帧的LPC滤波器系数和残差能量，进行背景噪声编码。

其中，在上述实施例中，所述提取所述LPC滤波器系数具体为：

计算所述第一个超帧和所述第一个超帧之前的所述拖尾时间内的四个超帧的自相关系数的平均值；

由所述自相关系数的平均值，根据Levinson-Durbin算法计算出LPC滤波器系数；

所述提取所述残差能量E_t具体为：

根据Levinson-Durbin算法计算出残差能量；

所述在第二帧进行背景噪声编码具体为：

将所述LPC滤波器系数转化到LSF域，进行量化编码；

将所述残差能量在对数域进行线性量化编码。

其中，在上述实施例中，在计算出所述残差能量后，进行量化编码之前，还包括：

对所述残差能量进行长时的平滑；

平滑公式为：E_LT＝αE_LT+(1-α)E_t，α取值范围为：0＜α＜1；

将平滑后的能量估计E_LT的值作为残差能量的值。

其中，在上述实施例中，所述对第一个超帧后的超帧，对每一帧都进行背景噪声特征参数提取具体为：

根据最近四个相邻帧自相关系数的值，计算当前自相关系数的稳态平均值，所述自相关系数的稳态平均值是所述最近四个相邻帧中具有中间自相关系数范数值的两帧的自相关系数的平均值；

对所述稳态平均值，根据Levinson-durbin算法计算背景噪声LPC滤波器系数和残差能量。

其中，在上述实施例中，在计算所述残差能量后，还包括：

对所述残差能量进行长时平滑，得到当前帧能量估计；平滑方式为：

E_LT＝αE_LT1+(1-α)E_t，k；

α取值为：0＜α＜1；

将平滑后的当前帧能量估计赋值给所述残差能量；赋值方式为：

E_t，k＝E_LT。

其中k＝1，2，分别表示第一帧和第二帧。

其中，各个实施例中：α＝0.9。

其中，在上述实施例中，所述对第一个超帧后的超帧，对每一帧都进行DTX判决具体为：

如果当前帧LPC滤波器系数和上一SID超帧LPC滤波器系数的值超过预设的门限值，或者当前帧的能量估计与上一SID超帧中的能量估计相比差别较大，则将当前帧的参数变化标志设为1；

如果当前10毫秒帧LPC滤波器系数和上一SID超帧LPC滤波器系数的值没有超过预设的门限值，或者当前10毫秒帧的能量估计与上一SID超帧中的能量估计相比差别不大，则将当前10毫秒帧的参数变化标志设为0。

其中，在上述实施例中，所述当前帧的能量估计与前一SID超帧中的能量估计相比差别较大具体为：

计算当前10毫秒帧和之前最近3个帧共4个帧的残差能量的平均值作为当前帧的能量估计；

将所述残差能量的平均值使用对数量化器量化；

如果解码后的对数能量与上一SID超帧解码后的对数能量的差超过预设值，则确定所述当前帧的能量估计与前一SID超帧中的能量估计相比差别较大。

其中，在上述实施例中，所述对每一个帧都进行DTX判决具体为：

如果当前超帧中有一个帧的DTX判决结果为1，则当前超帧窄带部分的DTX判决结果为1。

其中，在上述实施例中，述当前超帧的所述最终DTX判决结果为1，则所述：“对第一个超帧后的超帧，根据提取的当前超帧的背景噪声特征参数和所述当前超帧之前若干超帧的背景噪声特征参数，以及最终DTX判决结果，进行背景噪声编码”过程包括：

对于所述当前超帧，确定平滑因子，包括：

如果当前超帧第一帧的DTX为零，第二帧的DTX为1，则所述平滑因子为0.1，否则所述平滑因子为0.5；

对所述当前超帧的两个帧进行参数平滑，将参数平滑后的参数作为对所述当前超帧的进行背景噪声编码的特征参数，所述参数平滑包括：

计算所述两个帧自相关系数稳态平均值的滑动平均值R^t(j)：

R^t(j)＝smooth_rateR^t，1(j)+(1-smooth_rate)R^t，2(j)，所述smooth_rate为所述平滑因子，R^t，1(j)为第一帧的自相关系数稳态平均值，R^t，2(j)为第二帧的自相关系数稳态平均值；

对所述两个帧自相关系数稳态平均值的滑动平均值R′(j)，根据Levinson-Durbin算法，得到LPC滤波器系数，

计算所述两个帧帧能量估计的滑动平均值E_t：

E_t＝smooth_rateE_t，1+(1-smooth_rate)E_t，2，所述E_t，1为第一帧的能量估计，E_t，2为第二帧的能量估计。

其中，在上述实施例中，所述“根据提取的当前超帧的背景噪声特征参数和所述当前超帧之前若干超帧的背景噪声特征参数，以及最终DTX判决结果，进行背景噪声编码”具体为：

计算当前超帧之前若干超帧的自相关系数的平均值；

根据所述自相关系数的平均值，计算当前超帧之前若干个超帧的平均LPC滤波器系数；

如果所述平均LPC滤波器系数与当前超帧的LPC滤波器系数差值小于或等于预设值，则将所述平均LPC滤波器系数转化到LSF域，进行量化编码；

如果所述平均LPC滤波器系数与当前超帧的LPC滤波器系数差值大于预设值，则将所述当前超帧的LPC滤波器系数转化到LSF域，进行量化编码；

对能量参数，在对数域进行线性量化编码。

其中，在上述实施例中，所述若干帧的数量为5。所属领域的技术人员也可以根据需要选择其他数量的帧数。

其中，在上述实施例中，在所述提取拖尾时间内的背景噪声特征参数步骤之前，还包括：

用语音编码速率对所述拖尾时间内的背景噪声进行编码。

参考图8所示，是本发明的解码方法的实施例一，包括步骤：

步骤801、从第一个超帧的第一帧之前的语音编码帧，获得第一个超帧的第一帧的CNG参数；

步骤802、根据所述CNG参数，对第一个超帧的第一帧进行背景噪声解码，所述CNG参数包括：

目标激励增益，所述目标激励增益由长时平滑的语音编码帧参数量化的固定码本增益确定；

其中，在实际运用中，所述确定目标增益可以具体为：目标激励增益＝γ*固定码本增益，0＜γ＜1；

滤波器系数，所述滤波器系数由长时平滑的语音编码帧参数量化的滤波器系数定义；

其中，在实际运用中，所述定义所述滤波器系数可以具体为：

滤波器系数＝长时平滑的语音编码帧量化的滤波器系数。

其中，上述实施例中，所述长时平滑因子取值范围为：大于0且小于1。

其中，上述实施例中，所述长时平滑因子可以为0.5。

其中，上述实施例中，所述γ＝0.4。

其中，上述实施例中，所述对第一个超帧的第一帧进行背景噪声解码过程之后，还可以包括：

对除所述第一个超帧的第一帧之外的所有帧，从上一个SID超帧获取CNG参数后，根据获取的所述CNG参数进行背景噪声解码。

参考图9所示，是本发明的编码装置的实施例一，包括：

第一提取单元901，用于：提取拖尾时间内的背景噪声特征参数；

第二编码单元902，用于：对所述拖尾时间后的第一个超帧，根据提取的所述拖尾时间内的背景噪声特征参数和所述第一个超帧的背景噪声特征参数，进行背景噪声编码；

第二提取单元903，用于：对第一个超帧后的超帧，对每一帧都进行背景噪声特征参数提取；

DTX判决单元904，用于：对第一个超帧后的超帧，对每一帧都进行DTX判决；

第三编码单元905，用于：对第一个超帧后的超帧，根据提取的当前超帧的背景噪声特征参数和所述当前超帧之前若干超帧的背景噪声特征参数，以及最终DTX判决结果，进行背景噪声编码。

其中，上述实施例中，所述拖尾时间为120毫秒或140毫秒。

其中，上述实施例中，所述第一提取单元具体为：

缓存模块，用于：在所述拖尾时间内，对每一个超帧的每一帧，保存每帧背景噪声的自相关系数。

其中，上述实施例中，所述第二编码单元具体为：

提取模块，用于：在第一帧和第二帧保存每帧背景噪声的自相关系数；

编码模块，用于：在第二帧，根据所述提取出的所述两个帧的自相关系数和所述拖尾时间内的背景噪声特征参数，提取出所述第一个超帧的LPC滤波器系数和残差能量，进行背景噪声编码。

其中，上述实施例中，所述第二编码单元还可以包括：

残差能量平滑模块，用于：对所述残差能量进行长时的平滑；

平滑公式为：E_LT＝αE_LT+(1-α)E_t，α取值范围为：0＜α＜1；

将平滑后的能量估计E_LT的值作为所述残差能量的值。

其中，上述实施例中，所述第二提取单元具体为：

第一计算模块，用于：根据最近四个相邻帧自相关系数的值，计算当前自相关系数的稳态平均值，所述自相关系数的稳态平均值是所述最近四个相邻帧中具有中间自相关系数范数值的两个帧的自相关系数的平均值；

第二计算模块，用于：对所述稳态平均值，根据Levinson-durbin算法计算背景噪声LPC滤波器系数和残差能量。

其中，上述实施例中，所述第二提取单元还可以包括：

第二残差能量平滑模块，用于：对所述残差能量进行长时平滑，得到当前帧能量估计；平滑方式为：

E_LT＝αE_LT1+(1-α)E_t，k；

α取值为：0＜α＜1；

E_t，k＝E_LT。

其中k＝1，2，分别表示第一帧和第二帧。

其中，上述实施例中，所述DTX判决单元具体为：

门限比较模块，用于：如果当前帧LPC滤波器系数和上一SID超帧LPC滤波器系数的值超过预设的门限值，则生成判决指令；

能量比较模块，用于：计算当前帧和之前最近3个帧共4个帧的残差能量的平均值作为当前帧的能量估计，将所述残差能量的平均值使用对数量化器量化，如果解码后的对数能量与上一SID超帧解码后的对数能量的差超过预设值，则生成判决指令；

第一判决模块，用于：根据所述判决指令，将当前帧的参数变化标志设为1。

其中，上述实施例中，还可以包括：

第二判决单元，用于：如果当前超帧中有一个帧的DTX判决结果为1，则当前超帧窄带部分的DTX判决结果为1；

所述第三编码单元具体为：

平滑指示模块，用于：如果当前超帧的所述最终DTX判决结果为1，则生成平滑指令；；

平滑因子确定模块，用于：收到所述平滑指令后，确定所述当前超帧的平滑因子：

参数平滑模块，用于：对所述当前超帧的两个帧进行参数平滑，将平滑后的参数作为对所述当前超帧的进行背景噪声编码的特征参数，包括：

计算所述两个帧自相关系数稳态平均值的滑动平均值R^t(j)：

对所述两个帧自相关系数稳态平均值的滑动平均值R^t(j)，根据Levinson-Durbin算法，得到LPC滤波器系数，

计算所述两个帧帧能量估计的滑动平均值E_t：

其中，上述实施例中，所述第三编码单元具体为：

第三计算模块，用于：根据计算得到的当前超帧之前若干超帧的自相关系数的平均值，计算当前超帧之前若干个超帧的平均LPC滤波器系数；

第一编码模块，用于：如果所述平均LPC滤波器系数与当前超帧的LPC滤波器系数差值小于或等于预设值，则将所述平均LPC滤波器系数转化到LSF域，进行量化编码；

第二编码模块，用于：如果所述平均LPC滤波器系数与当前超帧的LPC滤波器系数差值大于预设值，则将所述当前超帧的LPC滤波器系数转化到LSF域，进行量化编码；

第三编码模块，用于：对能量参数，在对数域进行线性量化编码。

其中，上述实施例中，α＝0.9。

其中，上述实施例中，还可以包括：

第一编码单元，用于：用语音编码速率对拖尾时间内的背景噪声进行编码；

本发明的编码装置具体与本发明的编码方法相适应的工作过程，相应地，也具有与相应的方法实施例同样的技术效果。

参考图10所示，是本发明的解码装置的实施例一，包括：

CNG参数获得单元1001，用于：从第一个超帧的第一帧之前的语音编码帧，获得第一个超帧的第一帧的CNG参数；

第一解码单元1002，用于：根据所述CNG参数，对第一个超帧的第一帧进行背景噪声解码，所述CNG参数包括：

目标激励增益，所述目标激励增益由长时平滑的语音编码帧量化的固定码本增益确定，其中，在实际运用中，所述目标激励增益确定具体为：

目标激励增益＝γ*固定码本增益，所述γ的取值范围是：0＜γ＜1；

LPC滤波器系数，所述LPC滤波器系数由长时平滑的语音编码帧量化的LPC滤波器系数定义，其中，在实际运用中，所述定义LPC滤波器系数可以具体为：

LPC滤波器系数＝长时平滑的语音编码帧量化的LPC滤波器系数。

其中，在上述实施例中，所述长时平滑因子取值范围为：大于0且小于1。

在优选的情况下，所述长时平滑因子可以为0.5。

其中，在上述实施例中，还可以包括：

第二解码单元，用于：对除所述第一个超帧之外的所有帧，从上一个SID超帧获取CNG参数后，根据获取的所述CNG进行背景噪声编码。

其中，在上述实施例中，所述γ＝0.4。

本发明的解码装置具体与本发明的解码方法相适应的工作过程，相应地，也具有与相应的解码方法实施例同样的技术效果。

以上所述的本发明实施方式，并不构成对本发明保护范围的限定。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种编码方法，其特征在于，包括：

提取拖尾时间内的背景噪声特征参数；

2.如权利要求1所述的方法，其特征在于，所述拖尾时间为120毫秒或140毫秒。

3.如权利要求1所述的方法，其特征在于，所述提取拖尾时间内的背景噪声特征参数具体为：

4.如权利要求1所述的方法，其特征在于，对所述拖尾时间后的第一个超帧，所述根据提取的所述拖尾时间内的所述背景噪声特征参数和所述第一个超帧的背景噪声特征参数，进行背景噪声编码包括：

在所述拖尾时间后的第一个超帧的第一帧和所述拖尾时间后的第一个超帧的第二帧保存每个帧背景噪声的自相关系数；

在所述拖尾时间后的第一个超帧的第二帧，根据所述提取出的所述两帧的自相关系数和所述拖尾时间内的背景噪声特征参数，提取出所述第一个超帧的LPC滤波器系数和残差能量，进行背景噪声编码。

5.如权利要求4所述的方法，其特征在于，所述提取所述LPC滤波器系数具体为：

计算所述第一个超帧和所述第一个超帧之前的所述拖尾时间内的最后四个超帧的自相关系数的算术平均值；

由所述自相关系数的算术平均值，根据Levinson-Durbin算法计算出LPC滤波器系数；

所述提取所述残差能量E_t具体为：

根据Levinson-Durbin算法计算出残差能量；

所述在第二帧进行背景噪声编码具体为：

将所述LPC滤波器系数转化到LSF域，进行量化编码；

将所述残差能量在对数域进行线性量化编码。

6.如权利要求1所述的方法，其特征在于，所述对第一个超帧后的超帧，对每一帧都进行背景噪声特征参数提取具体为：

根据最近四个相邻帧自相关系数的值，计算当前自相关系数的稳态平均值，所述自相关系数的稳态平均值是所述最近四个相邻帧中具有中间自相关系数范数值的两个帧的自相关系数的算术平均值；

7.如权利要求1所述的方法，其特征在于，所述对每一帧都进行DTX判决具体为：

8.如权利要求7所述的方法，其特征在于，如果所述当前超帧的所述最终DTX判决结果为1，则所述：“对第一个超帧后的超帧，根据提取的当前超帧的背景噪声特征参数和所述当前超帧之前若干超帧的背景噪声特征参数，以及最终DTX判决结果，进行背景噪声编码”过程包括：

对于所述当前超帧，确定平滑因子，包括：

计算所述两个帧自相关系数稳态平均值的滑动平均值R^t(j)：

计算所述两个帧帧能量估计的滑动平均值E_t：

9.如权利要求1所述的方法，其特征在于，所述“根据提取的当前超帧的背景噪声特征参数和所述当前超帧之前若干超帧的背景噪声特征参数，以及最终DTX判决结果，进行背景噪声编码”具体为：

计算当前超帧之前若干超帧的自相关系数的算术平均值；

根据所述自相关系数的算术平均值，计算当前超帧之前若干个超帧的平均LPC滤波器系数；

对能量参数，在对数域进行线性量化编码。

10.如权利要求9所述的方法，其特征在于，所述若干超帧的数量为5。

11.如权利要求1所述的方法，其特征在于，在所述提取拖尾时间内的背景噪声特征参数步骤之前，还包括：

用语音编码速率对所述拖尾时间内的背景噪声进行编码。

12.一种编码装置，其特征在于，包括：

13.如权利要求12所述的装置，其特征在于，所述拖尾时间为120毫秒或140毫秒。

14.如权利要求14所述的装置，其特征在于，所述第一提取单元具体为：

15.如权利要求12所述的装置，其特征在于，所述第二编码单元具体为：

提取模块，用于：在所述拖尾时间后的第一个超帧的第一帧和所述拖尾时间后的第一个超帧的第二帧保存每个帧背景噪声的自相关系数；

编码模块，用于：在所述拖尾时间后的第一个超帧的第二帧，根据所述提取出的所述两帧的自相关系数和所述拖尾时间内的背景噪声特征参数，提取出所述第一个超帧的LPC滤波器系数和残差能量，进行背景噪声编码。

16.如权利要求12所述的装置，其特征在于，所述第二提取单元具体为：

第一计算模块，用于：根据最近四个相邻帧自相关系数的值，计算当前自相关系数的稳态平均值，所述自相关系数的稳态平均值是所述最近四个相邻帧中具有中间自相关系数范数值的两帧的自相关系数的算术平均值；

17.如权利要求12所述的装置，其特征在于，所述第三编码单元具体为：

第三计算模块，用于：根据计算得到的当前超帧之前若干超帧的自相关系数的算术平均值，计算当前超帧之前若干个超帧的平均LPC滤波器系数；

18.如权利要求12所述的装置，其特征在于，还包括：

第一编码单元，用于：用语音编码速率对所述拖尾时间内的背景噪声进行编码。