CN1291324A

CN1291324A - 检测录制声音的系统和方法

Info

Publication number: CN1291324A
Application number: CN98800320A
Authority: CN
Inventors: M·沙尔马; R·J·马莫纳
Original assignee: T- Neitikesi Co
Current assignee: T- Neitikesi Co; T Netix Inc
Priority date: 1997-01-31
Filing date: 1998-01-29
Publication date: 2001-04-11
Also published as: WO1998034216A3; EP0896712A2; EP0896712A4; WO1998034216A2; AU6049298A; JP2002514318A; US6480825B1

Abstract

本发明是一个用于检测录制的声音的可靠的系统和方法。它可以单独地使用或者提供保护以防止欺诈性地使用录音来使自动讲者识别系统失效。几种方法和系统或者独立地或者组合地被采用,以验证所检测的音频样本是现场的而不是录音的。音频样本的时间语音特性被分析以判定正在受检验的样本与先前的样本是否相似到指明一个录音的程度。通信信道特性被考察以判定样本是否是在与预定的通信信道不相同的信道上被录制的。模式分类器被训练以区分现场的和录音的语音。最后“音频水印”被用来判定所检测的音频样本是否为授权用户早先通信的一个录音。此外,本发明的各种方法可以串联地或并联地被采用,具有各种不同的作出决定的方案以提供增强的性能。

Description

检测录制声音的系统和方法

相关参考有关的申请

本申请要求来自申请人的临时申请60／036，773，1997年1月31日提出申请，题目为“录音装置检测”的优先权。

发明背景

本发明是针对检测录制的声音的系统和方法，该系统和方法能够用来确定一个人是否正在采用录音设备企图欺骗自动讲者识别(“ASR”)系统。

1．发明领域

本发明涉及数字语音处理和讲者识别的领域。

2．相关技术说明

声音鉴定和验证系统，有时称作自动讲者识别(“ASR”)系统，试图将正在经受身份鉴别或验证的人的声音与在系统中注册了的已知用户的声音进行匹配。在最近几年，ASR系统在识别由注册用户产生的语音样本方面已经变得十分可靠。因此，ASR系统有可能在各种各样的应用中被采用。

例如，许多银行允许顾客通过电话从他们的帐户上划款。银行通常提供给顾客一个数字密码，它必须在顾客进入他／她的帐号之前经由按钮拨号电话被输入。但是，倘若此密码被偷窃，一个冒名顶替者能够得以访问顾客的帐户。因此，银行通过采用ASR系统便能增加一个安全检测，其中顾客的声音在顾客得以访问他／她的帐户之前必须被验证。ASR系统也可能用于其它方面：保护个人录音，通过控制入门的方法提供可靠的建筑物的安全；以及核查遭受在家拘留的犯人的在场。

ASR系统一般能被分为两类：文本有关的和文本无关的。文本有关的ASR系统要求用户讲一句特定的口令或短语(“密码”)以获得进入。此口令在注册期间由系统或由用户决定，并且系统产生和存储取自说他／她的特殊口令的用户的样品的“声迹”。声迹是由在注册过程中展示的某个用户的语音特征产生的一个数字模型。在每次后继的验证努力过程中，提示用户再次讲该口令。系统从验证样本中提取相同的语音特征并将它们与注册过程中产生的声迹相比较。

在文本无关的ASR系统中，系统建立一个在注册时用户的声音特征的更一般的模型。这通常要求用户在注册时讲几句话而不是简单的口令，以便产生完整的一组音素，该模型可以其为基础。在文本无关的系统中，验证能够包含主动的提示或被动监测。在主动提示的系统中，提示用户陈述指定的词或短语，这有别于在注册时说过的词和短语。此类系统首先核查确认所提示的话被讲，其次确定授权的用户是否讲这些话。在被动监测的系统中，期望用户在进入后会话式地讲话，且系统被动地监测会话直到它能够确认用户是否被授权为止。两种情况中无论哪一种，验证通常要求用户讲八到十秒钟的话，这与在文本有关的系统中所需的一至二秒形成对比。

尽管有宽广利用的潜力，ASR系统迄今为止只受到有限的应用。一个理由是骗子可以通过播放授权用户声音的录音欺骗ASR系统。如果录音的质量足够高，ASR系统承认该录音的声音为授权用户的声音并准予进入。各种各样的录音设备能被用来欺骗ASR系统，包括从电话线上窃取的设备和磁带录音设备。例如，非授权用户用安装在电话亭附近或者安装在电话接收机中的磁带录音设备窃听公用电话，此外，授权用户的数字声音或语音文件和数字音带可能被骗子偷窃并被用来达到非授权地进入由ASR技术保护的系统。

某些文本无关系统可能固有地避开这个问题。在主动提示的文本无关系统中，骗子将不会事先得知验证时需要说的短语，因此未必可能有合适的录音的短语。再者，在被动监测的文本无关系统中，为达到进入，骗子需要有录音的授权用户的完整的会话。

但是，正如所讨论的，文本无关系统有着使其不适于许多应用的欠缺之处，例如，主动提示的文本无关系统比起文本有关系统来可能是与用户不太友好。银行顾客很可能抱怨不得不说长长的短语以获准进入他／她的帐户。此外，在许多应用中，不希望用户在进入后讲话，因此使得被动监测的文本无关系统不太实用。

1996年8月20日为Naik等人发布的，题目为“固定文本的讲者验证方法和装置”的美国专利NO．5，548，647提供一种减少对文本有关系统的欺诈性进入的方法。在该所揭示的方法中，受权用户使用若干个口令注册，比如1至9个。在验证时，提示用户讲随机的一个或几个口令。没有为进入所需的指定口令的提前的通知，欺诈者较少可能有即时的机会达到合适的录音的口令。

不过，Naik所传授的方法有一些缺点。例如，从电话线上窃听受权用户电话的骗子可能最终能够收集到每种随机地提示口令的录音以及在验证期间足够快地重放正确口令以便获准进入。进一步讲，在某些设置下，受权用户可能有意地企图用他／她自己声音的录音欺骗ASR系统。例如一个罪犯正经受在家拘留，他／她可能用他／她自己的声音录下所有的随机的口令。然后，当ASR系统在规定的时间打电话确认罪犯是在家中时，一个同谋可播放正确的口令并欺骗系统。

多么需要一个可靠的方法和系统来探测通信信道上录音的声音的使用。

多么需要一个可靠的系统和方法来防止使用受权用户的录音的声音欺诈的进入ASR保安系统。

发明概要

本发明的方法和装置提供对现有技术的重大的改进。本发明采用许多技术，单独或合并地，提供一种探测在通信信道上录音的声音的使用的可靠的系统。进一步讲，本发明能被用来改进文本有关的和文本无关的两种ASR系统以检测录音声音的欺诈性使用。本发明通过单独地或合并地采用如下的技术和组件提供对现有技术的性能改进。执行如下：

(1)分析用户语音的时间特征；(2)分析用户的声音在其上传输的信道的特性；(3)训练模式分类器以识别现场的声音和录音的声音之间的差别；以及(4)采用一种“音频水印”来探测早先的注册或验证尝试的录音的使用。

1．时间的特性-概要

大多数人不能以完全相同的方式自然地重复一句话。虽然当一个人重复一句特定的话时人类的耳朵可能听不出差别，在个人的语音中轻微的改变是不可避免的。在一个实施例中，申请的发明确定在验证尝时所捕获的声音样本的某个时间特性是否与在注册时或者在早先验证尝试时所获得的声音样本的特性严格相符合。如果是，录音的使用被探测到。

例如，每个语音样本有一个特定的“音调轮廓”(随时间音调的改变)。如果音调轮廓与来自以前存储的验证尝试的音调轮廓符合得太紧密，则系统探测到录音的使用并否定验证。不能被自然地重复的因此可能在这个实施例中被采用的其他特性包括：等响线，零交叉，实际语言内容的持续时间，和来自ASR系统的验证得分。

2．信道检测-概述。

每个通信信道有独特的，可检测的特性。例如，在两个固定的电话之间的重复的电话呼叫在一定的公差内应该总是展现相同的信道特性。相反，来自蜂窝式电话的呼叫展现不同的信道特性。如果一个骗子通过通信信道录下授权用户的声音(例如通过电话线窃听器窃听)，他／她也录下了那个通信的信道特征。本发明在几种不同的应用中利用信道特性来探测录音的使用。

首先，在系统希望信道特性对于每次验证均是相同(例如在家拘留系统)的应用中，本发明探测一种凡现场呼叫的信道特性与注册所存储的特征不严格符合的可能的欺诈行为。

其次，在提示用户说几句随机的口令的应用场合，本发明探测从一个口令到另一个口令信道特性明显地改变时的录音，这表示该口令是在不同时间，在不同的信道上被录音的。

最后，在初始的口令验证跟随着或者是用户的讲话或者是用户输入按钮拨号的应用中，如果在口令验证时所检测的信道特性与过去验证的信道特性不一致，则本发明探测到一个录音。这表明在口令验证时欺诈者使用了录音。

3．训练模式分类器

本发明的另一个实施例采用了模式分类器来确定语音样本是现场的还是录音的。现场的和录音的语音样本被数字化并被转换为特定格式，比如谱特性矢量。格式化的数据然后被送至模式分类器，比如神经树网络(“NTN”)，其发展了现场的语音与录音的语音的函数关系的模型。模式分类器于是能够被用来决定一个特定的语音样本是现场的还是录音的。

4．音频水印-概述

“音频水印”是加印一个可靠性的透明的印记的方法，此印记不能被骗子轻易地复制。本发明的再一个实施例由授权用户加盖关于每次注册和验证尝试的“音频水印”。例如，在一个实施例中，在注册和验证尝试时在提示用户讲一口令以后一系列的双音多频(DTMF)音频被立即传送给用户电话。如果注册或验证尝试被录音，该音频水印连同授权用户的声音一起被录音。采用那个录音的一个非授权用户然后播放该音频水印，其被探测出来，该非授权用户被拒绝进入。

虽然不同的实施例可以独立地被采用，但是，他们也可以被串联地或并联地组合起来。利用这样的组合，通过按多数决定(例如用户必须在预定数目的方法上失败才拒绝验证)；或者通过按“置信度计分”的平均值来作决定(例如每秒方法产生一个置信度计分，这些置信度计分的平均值被用来作出关于验证的决定)，两者都能严格地作出是否拒绝验证的决定(例如，如果用户在一种方法下失败，验证被拒绝)。

因此，本发明的目的是提供一种可靠的系统和方法来探测在通讯信道上录音的声音的使用。本发明的又一个目的是提供一种可靠的防止利用授权用户的录音的声音欺诈地进入ASR防护系统的系统和方法。

附图的简要说明

图1A表示在本发明的几个实施例中所采用的系统配置。

图1B表示本发明的其它实施例中所采用的系统配置。

图2表示本发明的利用时间的语音特性来检测录音的声音的一个实施例的方块图。

图3示出一个语音样本的图，其对于说明图2中所示的实施例所采用的语音特性是有用的。

图3A显示用于产生一个描绘如图3所示的信号的正峰点的轮廓的伪代码。

图4是本发明的使用信道特性来检测录音的声音的一个实施例的方块图。

图4A是本发明的一个优选实施例的方块图，该实施例在不希望信道特性在注册和验证之间改变的场合下利用信道特性来检测录音的声音。

图4B是本发明的优选实施例的方块图，该实施例在单次验证会话期间提示用户讲多重口令的场合利用信道特性来检测录音的声音。

图4C是本发明的优选实施例的方块图，该实施例在提示用户讲第一个口令并且希望用户在口令验证后参与附加的通信的场合下利用信道特性来检测录音声音。

图5是用来生成一个滤波器以提取如图4，4A，4B和4C所示的信道特性的伪代码。

图6是使用训练的分类器以区分现场的和录音的声音样本的本发明的一个实施例的方块图。

图6A是本发明的一个优选实施例的方块图，该实施例利用训练的分类器来区分现场的和录音的声音样本以及一个ASR系统来确定用户是被授权的。

图7是利用音频水印来检测录音的声音的本发明的一个实施例的方块图。

图8是以串联组合方式利用图2、4、6和7中所示技术的本发明的一个优选实施例的方块图。

图8A是以并联组合方式利用图2、4、6和7中所示技术的本发明的一个优选实施例的方块图。

优选实施例的说明

本发明可以独立地被用来检测录音的音频信号的使用；然而本发明通过与一个ASR系统共同工作的优选实施例来说明。此外，考虑到ASR系统能被采用来鉴别用户的声音或验证一个具体的用户是被授权进入防护系统的；然而本发明是通过利用ASR系统来验证授权用户的优选实施例来说明的。

所有的为本发明的实施例所必需的处理均能够用通用的计算机的处理单元(“CPU”)完成。在优选实施例中，用于录音设备检测系统的计算机处理器单元是英特尔奔腾(Inter Pentium)平台的，至少100MHz的通用CPU，它有大约10MB连带的RAM存储器和一个硬的或固定的驱动器作为存储器。另外的实施例能采用Dialogic Antares卡或数字信号处理器比如Texas Instruments的TMS 320C系列，Analog Device的ADSP 2106X系列，或摩托罗拉(Motorola)的DSP 96000。此外，录音设备检测系统能够用与它们相关的ASR系统同样的CPU来实现。

图1A描绘了本发明的几个实施例的系统配置。一个装备有话筒10和扬声器11的用户企图进入防护系统30，用户的话筒10和扬声器11应包括一个电话听筒，对讲电话系统，个人计算机多媒体系统，或者任何其他的允许发送和接收音频通信的系统。ASR系统20，连同相关的录音设备检测系统25，提供一个安全级给防护系统30，一个推荐的ASR系统在美国专利申请N0．08／976，280“声迹系统和方法”中被描述，该专利于1997年11月21日由Manish Sharma，Xiaoyu Zhang和RichardManrmone发布，此外将其全部包含进来作为参考。

防护系统30可以包括计算机网络或文件存储器，电话银行业系统，用于建筑物人身进入控制系统，或用户通过他／她的声音能够被识别的任何其它的系统。ASR系统20和录音设备检测系统25只是在授权用户的声音被验证并且确定该用户的声音不是录音的播放后才允许进入防护系统30。

图1B描绘本发明的其它实施例的系统配置，其中ASR系统20和录音设备检测系统25被用来验证一个特定的人正在使用话筒／扬声器10，11。例如，ASR系统20和录音设备检测系统25能被用于在规定的时间确定正在遭受在家拘留的犯人是否在家。ASR系统20验证犯人的声音是从他／她的家中的电话被接收的，并且录音设备检测系统25验证声音是现场的并不是录音。

时间的特性-详细说明

图2画的本发明的优选实施例采用了录音设备检测组件25A，其利用语音的时间特性来探测非授权进入企图。此技术在图1A和1B中所示的系统配置中都可以被采用。在图2中所描绘的实施例包括一个注册部份和一个验证部分。在这里所说明的所有那些采用了注册部分的实施例中，注册部分使用提示产生和存储与授权用户的声音有关的信息的系统。这些信息然后被归档并与从正在进行验证的样本产生的信息相比较以确定它是否是录音。

ASR系统20提示用户对话筒10讲第一个口令40。口令可以是系统命令的或者是由用户选择的。这里所用的术语“口令”可以包含单个词，短语，句子或任意可听见的言词。然后如果必要的话，用户的语音从模拟量被转换成数字量50。模-数转换可以用标准的电话板，例如由dialogic公司生产的这类板来完成。语音编码方法例如国际电信联盟(“ITU”)G 711标准μ和A规则能被用于编码语音样本。采样速率为8000Hz最好。另一种方法，可以以数字的格式得到语音，比如从综合业务数字网(ISDN)传输得到。在这种情况中，电话板被用来处理电讯(Telcon)信号协议。

然后，数字的注册语音被预处理60。预处理60可以包括一个或多个下面的方法：

1如果必要，从非线性格式，比如μ规则或A规则，转换为标准的整数或浮点表示；

2移动DC偏压以消除由模-数硬件或其它组件所引入DC偏压，信号的平均值对全部声音样本进行计算，然后将其从声音样本中减去；

3利用数字滤波进行预加强。在本例中，数字滤波器H(z)=1-αz^-1被使用，式中α设定于0．9和1．0之间。

4带通滤波以除去低频(比如60Hz电源交流声)和高频噪声；

5利用能量和过零统计消除无声。这个方法的成功主要是建立在找寻一个保证是背景无声的短的时间间隔(一般讲，在发声开始时，扬声器实际开始录制前的几个毫秒)的基础上。利用无声间隔的统计设置阈值，以便区分语言帧和无声帧；

6根据能量直方图消除无声。在此方法中，一幅帧能量直方图被产生。根据在较低能量区间直方图的最大峰值应该对应于背景无声帧能量的假设确定阈值能量值。此阈值能量值被用来完成语音对无声的鉴别。

在本优选实施例中，下面的预处理被实施：从非线性格式向标准整数或浮点格式的转换，信号平均消除以除去DC偏压，使用滤波器α=．95进行信号预加强，以及使用能量直方图方法消除无声(在直方图中有20个箱格)。在无声消除时，帧能量用汉明窗口分析帧(Hamming Windowedanalysis frams)来计算，其分析帧为30毫秒且相邻帧之间有10毫秒的位移。

在预处理之后，语音样本被送至ASR系统20的注册模块21，用户最好使用相同的口令几次来注册。这允许ASR系统20的注册模块21建立一个此口令的用户声音的统计模型(声迹)。换言之，声迹是由ASR系统20的注册模块21通过分析在用户重复地说单一口令时其语音特性中的偏差而建立的。产生声迹的特殊方法在美国专利申请NO．08／976，280“声迹的方法和装置”中更充分地被解释。该专利先前在本文中引用过作为参考。

由用户的声音建立的声迹被存储进声迹数据库75，该数据库以用户和所用的具体的口令进行检索。数据库75可以是随机存取存储器(RAM)，只读存储器(ROM)，电可编程只读存储器(EPROM)，电可擦可编程只读存储器(EEPROM)，硬盘，光盘只读存储器(CDROM)，可写入CDROM，小型磁盘，文件服务器，或其它存储器件。数据库的最小存储容量由系统用户和所存储的声迹的数目所决定。

参考图2的注册部分，第一组时间语音特性。比如等响线，音调轮廓，零交叉轮廓，以及实际语音内容的持续时间，对每个由用户产生的语音样本被提取80。提取的方法依据特性而变化。例如，实际语音内容的持续时间是一个标量值，它能够在消除背景无声及暂停后被直接测量，这最好在预处理期间进行。

“等响线”更难于确定。图3近似地描绘了0．3秒的语音样本。这部分语音的等响线210是一条曲线，它沿着一条类似于随时间跟踪信号幅度峰点的轨迹而行。这能够通过在一个称作“处理帧”的短时间窗中数字地分析语音波形来计算。最好是该处理帧复盖30ms。相邻的帧重叠大约20ms以保证从帧到帧的平滑过度。

在每个帧内，在波形中呈现的信号能量可以通过下列方法中的任一种被计算：

1．平均均方值：

E_{k} = 1 / N^{*} Σ_{i = 1}^{i = N} S_{i}^{2}

式中N为处理帧中的总样本数，S是信号值，K是沿着语言信号移动的处理帧的帧号码，以及i是在一个处理帧内的样本号码。

2．上面获得的平均能量取对数

L_k=log₁₀(E_k)

3．平均信号模值

M_{k} = 1 / N^{*} Σ_{i = 1}^{i = N} | S_{i} |

式中| |表示该数的绝对值。

最好是用平均均方值的方法来确定在每个处理帧中的信号能量。等响线特性210通过将每帧的信号能量值作为一个矢量中的元素存储来计算。然后依据时间轴描绘信号能量值以便产生一条等高线210，它表示用户的声音沿着他／她的语音的进程的响度。

另一种方法，等响线能通过跟踪语音信号的正的部分从语音样本数据中直接导出。这能够按图3A中所示的伪码完成。变量被初始化212并且语音样本用移动的处理帧被分析214，该分析找出语音数据中的局部峰值并描出图3所示的轮廓210。通过跟踪语音信号的负的部分能得到一条类似的轮廓，在此事件中，正的轮廓和负的轮廓可以独立地被利用或者组合生成一个二维的轮廓。

音调轮廓被类似地确定。语音是由声带的振动产生，而音调指的是该振动的基本频率。音调在语音信号中产生一个周期性，并且它是用来表现语音中的音调和重音的主要的声音的品质因素。音调既可从时域中的周期性来决定，也可从频域中规则地间隔的谐波来决定。

对于每个处理帧计算平均音调值。为得到音调的数值已经发展了几种方法，在W．Hess的“语音信号的音调测定：算法和设备”(Springer-Verlag，Berlin，1983)中介绍了几种这样的方法。优选的方法是由R．P．Ramachandran和P．kabal在“语音编码中的音调预测滤波器”(IEEE-Transactions on Acoustic，Speech and SignalProcessing，Vol，ASSP-37，1989，Pg．467-78)中介绍的，此文被本文引用作为参考。一旦平均音调值已经对每个处理帧被测定，其值也是作为一个矢量的元素被存储并且相对于时间轴画曲线产生音调轮廓。

类似地，过零速率测量能在本实施例中被用作比较特性，正如在图3中能看出的，每当声迹波形横过时间轴(即改变代数的符号)时，“过零”发生。过零速率测量能够从数学上定义为：

T_k=1／N^*0．5|sign(s_i)-sign(s_i-1)|式中，T为过零度量，而“sign”是算术符号算子。例如，如果S大于或等于零，则Sign(s)=1，如果S小于零，则sign(s)=-1。每个处理帧的过零速率测量也作为一个矢量的元再次被存储，且其值被相对于时间轴画成曲线以产生一个轮廓。

最好是时间特性被分别地提取。但是，在处理帧内导出的每一个特性(例如等响线，音调轮廓等)，能够作为对应于此处理帧的特性的多维矢量的一部分被提取。此特性被分别地提取时所产生的多重的单维轮廓相反，这种方法产生一个多维轮廓，如果多维轮廓被产生，则重复的是每个矢量的特性元素根据它们的标准偏差被归一化以防止来自具有大的值的元素的偏差。

音调或响度或过零对语音样本的过程的简单平均也能被用作在这种方法下的特性。但是，最好是用这些特性的轮廓，因为他们给出用户语音的更精确和唯一的表示。此外，大家懂得，可使用其它特性作更严格的比较。例如，可采用语音自相关系数或语音的其它谱特性矢量。

在提取所期望的时间语音特性以后，他们被存储90。正如将被精通本专业的人士公认的，时间的语音特性可以用单独的文件或数据库记录来存储。但是，最好是这些特性被存储在数据库中75并且被索引到库中所存储的声迹和在注册时所用的特定口令。再进一步，所用的存储器体系结构可以是在商品化或专利的数据库或任何其它的存储工具中的平面文件和数据记录。

重要的是，虽然对于特定用户的每个口令只存储一个声迹，但最好是对于口令的每次发声都产生和存储一个时间特性组。换句话讲，为了产生单一声迹，可能提示用户分四次说单一口令，最好对那个口令和声迹产生和存储四个时间特性组。

另一种方法，对于每个口令的时间特性组可以被平均和存储。因为对应于口令的多次发声的特性组不可能有相同的长度。标准的平均方法不能用。在能够完成平均之前，必需对特性轮廓的时间长度进行归一化。动态的时间反卷(“DTW”)是一种允许这种时间长度的归一化的方法。利用DTW平均变化长度的图样的过程在美国专利申请No．08／976，280，“Voice Print System and Methad”中被详细地解释，该专利已在前面被引用过作为参考。DTW算法在H．Sakoe和S．Chiba，“DynamicProgramming Algorithm Optimization for Spoken Word Recognition”IEEE Transactions on Acoutics Speech and SignalProcessing，Vol．ASSP-26，Hov．1，1978以及C．Myers，L．R．Rabiner和E．E Rosenberg，“Performance Tradeoffs in Dynamic Time WarpingAlgorithms for Isolatod Word Recognition” IEEE Transactions onAcoutics，Speech and Signal Processing，Vol．ASSP-28，Nov，b 1980中被解释过，这些文章也被本文作为引用参考。

在该优选实施例中，ASR系统然后提示用户讲第二个口令，且重新开始注册过程。这导致第二声迹连同用于产生该声迹的每次声音样本的时间特性组一起被存储。最好是用户使用几个口令来注册，对每个口令产生一个声迹和时间特性组。对于在这里所述的所有的采用了注册部分的实施例，都如此处理。

注册以后，系统由用户准备作验证尝试，本发明的验证部分开始于提示40用户说一个口令。在优选实施例，提示用户随机地说他／她用来在系统中注册的几个口令中的一个。图2描绘了用户所作的验证尝V1，此处V1是一个整数，每次通过用户说他／她的第一个注册的口令成功的验证尝试以后，V1加1。如果需要，用户的语音再次由模拟转换成数字50并且按照早先关于注册所述的任一个方法进行预处理60。预处理之后，当前的声音样本被与注册时对于那个口令所存储的声迹相比较130。此比较是按照所采用的特定的ASR系统20进行的。

于是由ASR系统20作出决定140当前的样本是否与声迹密切地符合到足以证明授权用户的声音已经被检测到。如果不是，验证被拒绝150。依赖于应用，验证的拒绝150能够有不同的后果。如果用在图1A的系统配置中，用户被拒绝进入防护系统30。相反，系统可以简单地探测一个处于在家拘留位置上的犯人例如图1B的系统配置。在其它应用中，用户可能被给予获得验证的“第二次机会”。

如果授权用户的声音被证明，时间的语音特性被从当前样本中提取80，以产生特性组号码(V1+E1)此处E1是在注册时他／她的第一个口令由用户重复的次数。正如前面所指出的，在注册时期对一个特定口令的每次发声都产生一个时间的语音特性组，而对每个口令只生成一个声迹。

编号(V1+E1)的时间特性组于是被与编号(＜(E1+V1))的所有特性组相比较160，后面的这些组都是被索引到第一个口令的。换言之，当前特征组被与(V1+E1-1)个特征组相比较，后面的这些组是在E1注册阶段和对于用户的第一个口令的(V1-1)次成功的先前的验证尝试期间所得出的。例如，如果用户曾用他的第一个口令注册四遍并且如果待验证的当前尝试是用他的第一口令的第七次，则E1=4，V1=7。从当前样本提取的特性组则被与先前的10个(7+4-1)特性组相比较。

作为标量已经被导出的特性，比如语音内容持续时间，能够被直接比较。但是作为矢量导出的语音特性，一个径迹或者轮廓可能不适合于直接比较，从一个发声到另一次，语音的持续时间可能由于说话人的语气，重音和声调，或背景噪声而变化。即使对于同一个口令这导致不同数目的处理帧，结果，对于某个口令的语音特性的径迹和轮廓的长度可能改变。

为进行适当的比较，将特性轮廓的时间长度归一化是必要的。前面已讨论过的DTW允许这种时间长度的归一化和比较。在计算两个轮廓间的失真度之前，DTW将它们的时间长度差归一化。该失真度的大小决定着轮廓间符合的程度。在美国专利申请No．08／976，280，“Voice PrintSystem and Method”中，DTW被详细地说明。该专利已在前被引用过作为参考。另一种方法，两个轮廓的时间长度之间的线性变换能被用于时间长度的归一化和比较。

最好是，在作为关于录音使用的决定170之前所有的时间的特性(例如音调轮廓，等响线等)都要与存储的值进行比较。在优选实施例中，只要所采用的特性的大多数符合在一定的公差之内，特性组之间的整体的符合就被测定。正如讨论过的，不能期望人类能非常精确地重复语音的时间特性，因此，当前的和先前的语音特性组的精密的符合表明使用了录音设备。除了时间特性外，由ASR系统20产生的“验证计分”能被用作另一个测试特性，因为一般地，对于成功的验证尝试，此分类不能被期望保持不变。建议如果验证计分没有被用作一个可比较的特性的话，将时间语音特性的比较放在当前样本与由ASR系统20所存储的声迹的比较之前。

建议关于每种特性符合的公差对每个口令分别地设置。最好在注册时设定公差。在对于DTW比较在从一个特定口令的多遍注册发声中提取的特性组的所有可能的配对组合之间被进行。对于每个特性的DTW计分的平均值和标准偏差被对那个口令进行计算。然后根据每个特性的DTW计分的标准偏差设定关于每个特性的阈值。另外，在注册配对比较期间所计算的最大值的DTW变形尺度能被用作阈值。精密阈值(例如一个标准偏差，最大值DTW的变形尺度等)依赖于所需的和关于特殊应用的安全级以及用户容忍录制声音的失败探测的诚意。本专业的技术人员将会认可许多别的设置公差的方法能被采用，包括试凑法和实验地导出公差。

如果整体特性符合被检测，验证被拒绝150，另一方面，语音特性组(V1+E1)可能在验证被拒绝150之前被存储以允许进一步地检测相同的录音。如果没有录音被检验到，语音特性组(V1+E1)被存储190并且连同来自早先的注册阶段和成功的验证尝试所存储的特性一起被牵引到关于此口令的注册声迹。而且，验证被给予200，在图1A的系统配置中，验证准予200允许用户获准进入防护系统30。另一方面，在图1B所描绘的实施例的系统配置中，用户接受系统对他／她的身份的确认。

当用户作更多的验证尝试时，对于特定的口令语音特性组的数据库增大。最好是，数据库75存储用户对于特定口令所作的至少最后十次验证尝试的时间语音特性。这样一来，如果诈骗者新近录制了授权用户的验证尝试，该录音的使用被探测。建议对于特定口令的注册发声决不要替换。其信息被存储的验证尝试的次数随系统的存储容量和用户使用系统的频率而变。

2信道检测-详细说明

图4描述采用录音设备检测模块253的本发明的另一个实施例的一般工作，该实施例使用信道特性来检测声音样本是否是一个录音。第一个音频样本被探测218。音频样本能够由任意的音频信号组成。例如由按钮拨号式电话的用户产生的音调是充分的；但是语音信号最好。其次，第一音频信号在其上被检测的信道的独特的特性从样本中被提取220。一般讲，为了提取信道特性或“测定信道”，在信道上出现的畸变被分析。

信道特性最好按如下所述使用同态反卷积的概念提取。频谱为S(ω)的音频信号被一个频率响应为X(ω)的传输信道使之畸变，畸变的语音的频谱S(ω)被给出如下：

\hat{S} (ω) = S (ω) X (ω)

如果对方程的两边的模取对数和反付氏变换(F^-1)，导出下面的方程

F^{- 1} \log (| \hat{S} (ω) |) = F^{- 1} \log (| S (ω) |) + F^{- 1} \log (| X (ω) |)

则前式在倒频谱域(Cepstral domain)中能等价地表示为：

\hat{c} (n) = c (n) + x (n)

因为倒频谱被定义为短时间谱的模的对数的反付利叶变换。时间恒定卷积畸变X(ω)可通过在倒频谱域中平均倒频谱矢量进行计算。在倒频谱域中的X(ω)的信道的计算值等于C(n)的平均值，假定倒频谱方程中的语音部分C(n)的平均值为零。

但是，事实上倒频谱平均值可能包含除时间恒定卷积畸变外的其它信息，比如语音本身的原始谱分布，极点滤波企图在倒频谱平均值中将语音信息与信道信息去耦合，由于倒频谱能够当作线性预测“LP”极点或谱分量的加权组合，单个分量对倒频谱平均值的影响被考查，可以发现，假定在反向滤波器中的窄带宽分量更多地受语音特性的影响，宽带宽分量展示出与信道畸变中的倾斜(“roll-off”)相对应的较平滑的频率特性。因此，窄带宽的LP极点通过展宽其带宽并保持其频率不变而被有选择地缩小。所以，对于每帧语音，极点滤波的倒频谱系数(“PFCC”)连同LP导出的倒频谱系数(“LPCC”)一起被计算。

极点滤波的详细说明在：D．K．Naik和R．J．Mommone，“ChannelNormalization Using Pole Filtered Cepstral Mean Substraction，”Proceedings of SPIE，Vl．2277，1994中被提供，该文在这里引用作为参考。

为了利用极点滤波的倒频谱测定信道特性，图5的流程图所描画的程序是优选的。参考图5，伪码的第一方块224设定极点带宽阈值。下一个方块求得LP-极点Zi和相应的滤波的极点Zi以及计算LPCC和PFCC226。这使得PFCC矢量的平均值能够被计算228，该平均值可以在数据库75中作为另一组信道特性被保存230。PFCC平均值可以被用来生成一个LPC(线性预测倒频谱)滤波器。

倒回去参考图4，第二个音频样本在提取和存储第一组信道特性之后被检测218。于是如上面详述的那样，从第二个音频样本中提取第二组信道特性220。然后第一组和第二组信道特性被比较240。因为信道特性最好在倒频谱域中被导出，它们也最好在此域中被比较。两个矢量X和Y之间在倒频谱域中的比较可用标准的矢量范数，比如L2范数或L1范数来完成。L2范数是矢量元中差的均方根值：

sqrt (Σ_{i = 1}^{i = N} {(x_{i} - y_{i})}^{2})

式中N=矢量长度L1范数是矢量元中差的绝对值之和：

Σ_{i = 1}^{i = N} (| x_{i} - y_{i} |)

式中N=矢量长度如果第一组和第二组信道特性符合在预定的公差之内250，则系统准予验证200。所有信道特性实施例的公差可以根据试凑法，信道的状态、所采用的硬件、所希望的安全级，以及用户容忍验证失败拒绝的意愿试验性地设定。如果两组信道特性不是充分地符合，系统拒绝验证150。

图4A表示本发明的一个更特殊的实施例。其中信道特性结合ASR系统20被用来测定一个特定的用户是否通过一个已知的信道传送现场的语音。这个实施例非常适合用于在家拘留定位或任何其它希望在注册和验证时使用相同电话的应用中。同样使用注册部分和验证部分。

注册分量以提示用户40说一个特定的口令开始。如果必要的话，用户的应答被从模拟转换成数字50。如前面说明过的那样，数字信号于是被预处理60。声音样本被传送至ASR系统20的注册模块21。如果像推荐的那样，用户用每个口令重复地注册，ASR系统20的注册模块21产生一个关于那个口令的声迹并将其存入数据库75中。

平行地，代表用户在其上传送他／她的声音的信道的第一组信道特性最好按上面所说明过的方法。对特定口令的每次发声来提取220。不同于与图2有关的实施例。最好是将代表对特定口令的每次发音所得出的信道特性的倒频谱矢量取平均并且只将平均值存储230进数据库75中。换言之，对每个口令只有一组信道特性被存储。此外，数据库75能够包括任意的存储装置，信道特性能够被保存在单独的存储装置中而不是声迹。然而最好是他们被存入相同的数据库中并且编入彼此的，用户和口令的索引。

本实施例的验证部分以ASR系统20提示用户说一个口令40开始，最好是在注册时期几个口令被处理并且在验证期间的提示是随机的。然后，如果必要的话，用户的应答被从模拟量转换成数字量50。并且被预处理60。第二组信道特性则从当前的数字样本中提取220。第二组信道特性于是被与保存在数据库75中并索引到当前口令的另一组相比较240。如果系统确定250两组特性不是符合在预置的公差之内，验证被拒绝150。

如果符合被确定，ASR系统20被通知比较130当前样本和关于那个口令所存储的声迹。如果ASR系统20确定140该样本与声迹相符合，则验证被准予200。否则，验证被拒绝150。

在家中拘留应用中，注册是用被限制人的家中的电话完成的。验证的拒绝则表明一个录制的声音被用于验证或者被限制人是从不同于注册时所用的电话(例如他／她的家庭电话是朝向另外的位置)。根据验证的拒绝，系统可能装备一个调制解调器并且自动地将该违法行为通知有关的政府当局。

图4B表示本发明的另一个优选实施例，适用于只有在分析了几个口令样本之后才准予验证的ASR系统20。不同于图4A所示的实施例，本实施例适合于用户不受限于在注册和验证尝试期间使用相同的话筒10和扬声器11的应用。本实施例采用具有至少两个阶段的注册部份的验证部分。注册开始于ASR系统20提示用户说一个口令。如果必要，用户的应答被从模拟量转换50成数字量。数字信号则如前面所述被预处理60。然后，该样本被传送给ASR系统20的注册模块21。在用户提供关于一个特定口令的几次声音样本后，ASR20的注册模块21生成一个关于那个口令的声迹并将其存入数据库75。

本实施例的第一个验证阶段开始于ASR系统20提示用户讲第一个口令。在本实施例中要求在注册阶段时期处理几个口令并且最好在验证部份时的提示是随机的。如果必要，用户的应答于是被从模拟转换50为数字并且被预处理60。ASR系统20然后比较130当前样本和注册时关于当前口令所存储的声迹。ASR系统20测定140该样本是否与声迹符合至预定阈值之内。如果该样本与声迹不符合，则验证被拒绝150。

如果符合被决定，关于当前声音样本的信道特性如前面实施例中所述的那样被提取220。这个第一组信道特性于是被存入230数据库75，并且用户被允许290继续下一个验证阶段。在本实施例中，信道特性只需被存储230在暂存器，例如RAM中，因为信道特性之间的相关比较是在同样的验证尝试期内进行的。

第二个验证阶段开始于ASR系统20提示用户300关于第二个随机地选取的口令。同样，用户的应答被从模拟量转换成数字量50并且被预处理60。第二组信道特性然后通过从当前样本中提取220信道特性被产生。这个第二组信道特性被与在第一个验证阶段期间获得的第一组信道特性相比较240。在一个验证阶段与另一个比较时所检测到的不同的信道特性表明用户曾经在不同的时间，在不同的信道上录音了口令。因此，如果两组信道特性没有符合250到预置的阈值内，验证被拒绝150。

如果两组信道特性严密地符合，第二组信道特性被存储230在数据库75中。ASR系统被通知将当前样本与在对当前口令注册时所生成的声迹相比较130。如果ASR系统确定140该样本与声迹不符合，验证被拒绝150。如果该样本与声迹相符合，用户被允许继续下一个验证阶段。另一方面，如果ASR系统只采用两个验证阶段，验证被准予292。验证阶段的数目根据所采用的ASR系统的特性和所希望的安全级而变化。

图4B表示一个采用V个验证阶段的实施例。在第V次和最后一个验证阶段，提示用户说第V个随机选取的口令。用户的应答被从模拟量转换为数字量50并被预处理60。通过从当前样本提取220信道特性来产生第V组信道特性。然后这个第V组信道特性被与在当前验证尝试期间的较早的验证阶段时期所获得的早先存储的各组信道特性相比较240。如果第V组信道特性与所有早先存储的组没有符合到预定阈值以内，验证被拒绝150。

如果第V组信道特性严密地与所有早先存储的组相符合，ASR系统20被通知将当前声音样本与在对当前口令注册时所生成的声迹相比较130。如果ASR系统20确定140该样本与声迹不符合，验证被拒绝150。如果声迹的符合被测定，验证被准予200。

图4C表示本发明的另一个优选实施例，该实施例适合于利用图1A中的系统配置的应用场合，在该应用中用户在初始的口令验证之后被要求与防护系统30进行若干次通讯。例如该实施例可能在电话银行业务的应用中是有用的，在那里用户的声音首先被用口令验证。在获得进入银行业务系统后，可能提示用户说几句在注册时没有用过的话和短语或者从他／她的电话发送“按钮拨号”。该实施例监测通讯信道以确定信道特性在用户的声音被口令验证后是否发生改变。如果信道特性方面的改变发生。则认为用户在口令验证时采用了录音，对防护系统30的进入被取消。

该实施例的注册部分与在图4B的相关部分中表示和说明的注册部分相同。在实施例的验证部分开始于ASR系统20提示用户讲一个口令40。用户的应答被从模拟量转换50成数字量并如前面所述的那样被预处理60。然后ASR系统20将当前样本与对当前口令所存储的声迹进行比较130，如果ASR系统测定140该样本不符合声迹，验证被拒绝150。如果符合被确定，第一组信道特性则被从该口令样本中提取220，这个第一组信道特性然后被存储230在数据库75中。用户则被准予进入202使用防护系统30。

本发明其后被动地监测310用户与防护系统30的通信。用户与防护系统30的通信可以采取会话，应答提示的语言，从用户电话的按钮拨号，或者具有足够长度和字符以允许确定和提取信道特性的任何音频通信的形式。

第二组信道特性则从初始的口令验证后用户与防护系统30的通信中提取225。如果在初始的验证后用户与防护系统30的通信包括语音，早先所描述的关于信道特性提取的方法是优选的。但是，如果用户与防护系统的通信采取来自他／她的电话的按钮拨号的方式，一个不同的方法被推荐。最好对每次按钮拨号进行快速付氏变换，这对于每次按钮拨号在两个频率上产生信道的一个频率响应。在不同频率上按钮拨号的一个信号群于是被用来测定总的信道特性。

信道特性能受到经过信道正在传送着的音频信号中的差别的影响。所以，当着信道特性组来源于不同的音频样本时，比较它们就更为困难。但是，当着用于探测信道特性的音频信号的时间周期增加时，那些差别的影响就会减小。因此，为导出第二组信道特性，最好是至少十秒的语音被分析。另一方面，最好是表示一个宽频谱的按钮拨号被分析。

然后，第二组信道特性被与第一组信道特性相比较240。如果确定250信道特性不是严格地符合，对防护系统的进入被取消320。如果符合被测量，允许用户继续他／她对防护系统的进入330。

3．训练过的模式分类器-详细说明

图6表示本发明的另一个实施例的一般操作。该实施例采用录音设备探测模块25c，该模块利用模式分类器来区分“现场”的和录制的语音。在此实施例中，一个模式分类器被用现场的和录制的语音进行训练然后被用来作验证。

训练部份由取得400一个训练的语音样本开始。最好是，这通过人在电话上说大量的词，短语和句子来完成，另一种方法，能够采用来自用户在相关的ASR系统中注册的语音样本。现场的语音样本于是被传送给模式分类器450。该语音样本也被传送给至少一个录音设备，在设备中它被录制420，并被播放430。重放的样本也被传送给模式分类器450。

现场的和录制的语音样本于是被用来训练440模式分类器450。一般讲，模式分类器通过利用来自各种类型的已知数据类的样品数据来受训练。在本实施例中，相关的数据类是(1)现场的语音和(2)录制的语音，对于每个在训练期间输入到模式分类器450的样本标志为现场的或录制的；最好是，训练部分被广泛地重复以利用不同的扬声器，词汇，条件等提供各种各样的样本给模式分类器450。模式分类器于是能够“了解”所有的数据类的突出的特性并且能归纳出数据类之间的区别。

验证以语音样本被输入460进模式分类器450开始，分类器已经提前被按上面所说明的方法训练过。在它的训练的基础上，模式分类器450对当前的语音样本进行分类器470。如果模式分类器450测定480语音是现场的，验证被准予200。如果样本被分类为录音的，验证被拒绝150。

图6A表示本发明的一个优选实施例。训练部分由获得一个训练的语音样本开始400。另外，最好是每个训练语音样本提供一个好的音素样品组并且大量的语音样本被得到以提供可能给模式分类器450的最完全的训练数据组。

先进的作法是，同样记录现场的和录制的语音样本而不是让受验者重复一特定的短语。同时记录提供给模式分类器450比较用的更准确的数据组。因此，现场的训练语音样本的传送410与它的录音420和播放430并行地进行。最好同时用尽可能多的录音设备(A-N)平行地录制420A-N和播放430A-N训练样本。这给模式分类器450提供一个与现场的语音作比较用的更完整的训练数据组。

大多数模式分类器不能直接用语音样本进行训练。因此，在本优选实施例中，现场的语音样本和所有重放录音的语音样本都从模拟量转换50或数字量且被预处理60。然后，预处理过的语音被转化435成谱特性矢量，用的是标准特性提取技术，比如：以倒频谱系数为基础的唛耳频率分析；基于快速付利叶变换的倒频谱系数；线性预测导出倒频谱系数；以及极点滤波器倒频谱系数。

建议采用如图5(方块224和226)所推导出的极点滤波的倒频谱系数。但是，任何其它将会由于录音和播放过程而改变的原始的信号特性均能被用来训练模式分类器450。录音和播放产生非线性失真和非谐波频率。因此，任何会捕获非线性信号失真内容或非谐波频率内容的特性都能被利用。

任何标准的模式分类器450都可以用在本发明中。模式分类器的例子包括：矢量量化，高斯混合模型，汉登-马可夫模型和神经树网络。矢量量化、高斯混合模型，和汉登马可夫模型技术分别在“Fundamentalsof Speech Recongnition”．Chp．3．L Rabiner and B-H Juang，PrenticeHall，Englewood Cliffs，NJ，1993，美国专利申请No．08／976，280“Voice Print System and Method”；以及“A Tutorial on Hidden MarkovModels and Selected Aplications in Speech Recongnition”，Proceedings of IEEE vol．777(2)，pp．257-86中被说明，这些文章的每一篇在此被引用作为参考。

在此实施例中优选的模式分类器450是神经树网络(NTN)。NTN是一种层次分类器，它采用树体系结构来实现一个序列的线性策略。更具体地讲，用于NTN的训练数据包括来自现场的语音样本的数据，标记为“1”，以及来自录制的和重放的样本的数据，标记为“零”。在训练440期间，NTN学会将属于现场的语音的特征空间的区域与那些更可能属于录制的语音的特征空间的区域区分开来。这些特征空间的区域对应于NTH的叶，这种对应包含着概率。这些概率代表产生了落入特征空间的那个区域的数据的现场的语音的似然性。

在此优选实施例中，利用下面的向前修剪数据(forward Pruningcriteria)来完成NTN模型化：(a)最大深度为4；(b)修剪去包含少于10％的根上的数据矢量的分支。“现场的”和“录制的”语音数据分开来处理并且它们的特征矢量被存储在分别的文件中。NTN网络关于扬声器识别的功能在下列的文献中被揭示：K．R．Farrell，R．J．Mammone，and K．T．Assaleh，“Speaker Recongnition using Neural Networks andConventional Classifiers”，IEEE Trans，Speech and AudioProcessing，2(1)，Part2(1994)；美国专利申请08／159，397，1993，11，29公布，题目为“Rapidly Trainable Neural Tree Network”；美国专利申请系列号No．08／479，012，“Spearer Verification System”；美国专利申请系列号No．08／976，280，“Voice Print System andMethod”；美国专利申请No．08／827，562“Blind Clustering of DataWith Aplication to Speech Processing Systems”，1997，4，1公布以及它的相应的美国临时申请No．60／014，537“Blind SpeechSegmentation”，1996，4，2公布，这些文献的每一篇在此整体被引用作为参考。在另一个优选实施例中，神经树网络和高斯混合模型的组合能被应用，就像在美国专利申请No．08／976，280，“Voice Print Systemand Methd”中所描述的那样，该专利申请已在前面引用过作为参考。

在图6A中所表示的验证部分包括参考文本有关ASR系统。人们将会理解，此实施例可以被单独地使用或者与文本有关的或文本无关的ASR系统20两者中任一个结合使用，因为分类不依赖于讲任何特定口令的用户。它也可以在图1A和1B中所描绘的系统配置中的任一种里被采用。此实施例具体讲最适用于在家拘留系统，因为它可以被用来对付合伙欺诈比如受限制的人蓄意地录制口令以便让同伙重放。

图6A所表示的实施例的验证部分开始于ASR系统20提示40用户说一个口令。最好是，用户已经如在图4B的注册部分中所描述的那样用此口令在ASR系统中注过册。用户的应答被从模拟量转换成数字量50并且被预处理60。数字化的样本则被转换成谱特征矢量435。模式分类器450将输入矢量分类为“现场”的(1类)或“录音的”(0类)。此比较最好部分地以该样本中的非线性失真和非谐波频率含量的比较为基础的。

如果利用NTN分类器，则对于单个的特征适量的NTH计分利用NTN计分算法在全部语音样本中被累计。如果分类器450测定480语音是录制的，验证被拒绝150。在分类器内，用来测定一个特定的样本是否应被分类为录制的阈值能够依赖所期望的安全级和用户容忍失败的验证的拒绝的意愿而变化。如果语音被分类为现场的，ASR系统20将当前样本的特性与注册时获得的声迹作比较130。如果AST系统20确定140存在着符合，验证被准予200。如果发现不符合，验证被拒绝150。

图6表示一个使用单一模式分类器450的优选实施例。它设想使用一个“判别”分类器，能用两类数据进行训练并能学会在两类数据之间进行判别。大量还承认，虽然不推荐，也可以使用两个“非判别”分类器。一个分类器用“现场的”语音样本训练而另一个用录制的语音样本训练，然后根据两个分类器对一特定样本所给的“计分”的比较作出验证决定。高斯混合模型，隐式马可夫模型，以及矢量量化是非判别模式分类器的全部例子。

4．音频水印-详细说明

图7表示一个采用录音设备检测模块250的本发明的另一个实施例，该实施例使用“音频水印”来检测语音样本是否是录音的。在此实施例中，在每次用户注册和验证尝试期间一个音频序列，或“水印”，被产生并且被传送给用户的扬声器11。音频序列则对用户提供的每个语音样本作上“标记”。音频水印被用来测定先前的注册或验证尝试的录音是否正在被采用。对于在图1A和1B中所示的两种系统配置都可以采用此实施例。

此实施例的注册部份开始于提示40用户说一个口令。音频序列于是被传送500给用户的扬声器11。音频系列可包括任何声音信号，包括多频(MF)信号，频率扫描，“啁啾声音”(“chirp tone”其频率从低频向高频变化)，双音多频信号(DTMF)。最好是使用双音多频信号。

重要的是，每个音频系列都是非常唯一的。虽然对精通本专业的人士而言许多方法都将是显而易见的，但是这可以通过产生一系列的与当前时间的分，秒，和毫秒的最后一位数字相对应的DTMF音调来实现。例如，假如在时：分：秒：毫秒的格式下当前时间是10：15：27：200，则与数5，7，0相对应的DTMF音调系列被产生。在系列上加另一个位数就将序列的唯一性增大10倍。与每个数相对应的DTMF信号可以参考下列的标准表来产生：

标准的DTMF频率表

码	音对频率(Hz)	码	音对频率(Hz)	码	音对频率(Hz)
1	697．1209	5	770．1336	9	852．1477
2	697．1336	6	770．1477	0	941．1336
3	697．1447	7	852．1209	*	941．1209
4	770．1209	8	852．1336	#	941．1477

音频系列最好还是在提示用户说他／她的口令后直接被传送。具体讲，ASR系统20用蜂鸣声或音调提示用户关于他／她的口令，如果在用户能够反应并开始讲话前的200到300毫秒期间内音频系列被发送，则当它通过用户的话筒被反馈回来时，很容易探测到该音频系列。另一种方法是，在用户正在说话时可以传送音频系列。这有着更大的似然性的优点，音频系列将和口令一起被录音：但是，这使得滤除来自声音信号的反馈更为困难。

在大多数话筒／扬声器的组合中，在话筒和扬声器之间有一些声音的反馈。例如在电话送受话器的话筒和扬声器之间发生某些声学反馈。假如音频系列以足够高的电平被传送，则它将通过用户的话筒10反馈并能够通过录音设备探测模块250连同用户的语音样本一起被检测510。然而，音频系列不应如此响亮以致于烦恼用户或者使骗子警觉它的存在。

一旦来自音频系列的反馈和用户的语音样本被检测510，如果必要的话，它们即被从模拟量转换成数字量50，和被预处理60，就像本文前面所说明的那样。该样本然后被传送给ASR系统20的注册模块21。另一方面，最好是用户对所采用的每个口令提供几个注册样本。ASR系统20的注册模块21从用户关于每个口令的语音样本中产生一个声迹并且将其存入数据库75。

此实施例的验证部份开始于提示40用户说一个口令。如上所述，一个音频系列被传送500给用户的扬声器11。来自音频系列的反馈和用户的应答被检测510，从模拟转换成数字50。

来自音频信号的反馈于是被与在当前验证尝试期间所传送的音频系列相比较520。如果像推荐的那样，一个DTMF音频信号在用户被提示之后被直接发送，则所探测的样本在该样本的前导部份包含来自音频信号的反馈，实际的声音口令跟随其后。该样本的前导部份于是被分析以检测所期望的音调系列。首先，音调系列通过检测两个音调之间的停顿区域(低或无能量)被分成单个的音调。然后，每个音调利用标准的频率分析方法如快速付氏变换(FFT)被进行检测并且将频率内容与DTMF频率内容表(上面描述过)符合。

所期望的是，如果非授权用户对授权用户早先的注册或验证尝试录了音，他／她也录下其中的音频水印。当他／她在应答有关口令的提示40时回放该录音时，他／她也播放那个较早的音频系列，它被叠加在为当前验证尝试所发送的音频系列上面。所以，如果测定530发送的音频系列不是严格地与接收的音频系列相符合，录音被怀疑且验证被拒绝150。

关于“符合”的阈值可以根据所采用的通信信道，所期望的安全级，以及用户对验证的错误的拒绝的容忍而改变。例如，在一些应用中检测到四分之三的发送的音调就形成符合。在另外的应用中，检测到全部的发送的音调可能是必要的。此外，不同的阈值设置可能是需要的如果所用的音频系列不是由分离的音频组成的话。

如果符合被测定，则当前样本被预处理。ASR系统20则比较130当前样本的特性与注册时对于当前口令所存储的声迹。如果ASR系统确定140当前样本特性符合于所存储的声迹，验证被准予200。否则，验证被拒绝150。

这将被精通本专业的人士所公认，本发明的前面的实施例的一些和全部既可以串联使用也可以并联地合并使用。此外，当前面的实施例被合并使用时，是否拒绝验证的总的决定可以用几种不同的方法来作出。例如，作出决定的一种严格的方案因此可能被采用，如果用户在任何一种方法下的验证被拒绝，总的验证被拒绝。另一种方法，只要在预定数目的方法下录音被检测到就可以拒绝总体的验证。此外，由每种方法得以产生的“置信度得分”的平均值可以被采用来作业是否拒绝验证的总的决定。

图8表示本发明的一个实施例，因而本发明前面的四个实施例以串联组合的方法被使用，作决定用的是严格方案。

当所有四个实施例的串联方式被连接时，为精通本专业的人士所欣赏的是任何二个或三个实施例可以用这种方法合并起来。图8所表示的实施例假定关于图2，4，4A-C，6和7所讨论的注册和试验均已被完成。

来自一个未知源的语音样本被输入600，该样本被馈送给录音设备检测模块25A，该模拟从样本中提取时间的特性组，就像关于图2所讨论的那样。如果所提取的特性组与早先所存储任何特性组严格地符合，则验证被拒绝150，如果没有符合被检验到，该样本被传送给下一个录音设备检测模块25B。

录音设备检测模块25B从该样本中提取信道特性组并将其与早先所存储的组相比较，如同关于图4所讨论的那样。录音设备检测模块25B能够由在图4A，4B和4C中所表示的优选实施例中的任何一种组成。如果模块25B没能检测到一个与早先所存储的信道特性组的符合，则验证被拒绝150。否则，该样本被传送给录音设备检测模块25C。

模块25C采用关于图6和6A讨论过的模式分类器。如果该样本被分类为“录音的”，则验证被拒绝150。如果该样本被分类为“现场的”，则它被传送给录音设备检测模块25D。

在此实施例中，音频水印必须在提示用户产生一个语音样本后已经被发送。模块25D将发送的音频系列与来自该系列的反馈相比较，如关于图7讨论过的那样。如果发送的音频系列与反馈的信号不符合，则验证被拒绝。如果符合被测定，则该样本被传送给用于验证用户声音的ASR系统20。

应该认识到，不同的录音设备检测模块的工作顺序不是决定性的。采用ASR系统20或者如果采用，ASR系统跟随在录音设备检测模块25A-D之后都不是必要的。

图8A表示本发明的另一个实施例，其中录音设备检测模块25A-D被并联使用并采取另一种作决定的方案。此外，图8A所表示的实施例假定关于图2，4，4A-4C，6和7讨论过的注册和试验都已经被完成。

一个语音样本被输入600至所有四个录音设备检测模块25A-D。每个模块25A-D分析该语音样本并产生一个决定。按照关于图2，4，4A-C，6和7讨论过的各个实施例，该输入的语音样本是否是一个录音。从每个模块的输出可以为二元判定的形式(即是或否)。另一种方法，每个模块可产生一个关于样本是否为一个录音的“置信度计分”。

置信度计分是一个额定值，在零和1之间，例如，它代表样本是一个录音的似然性。每个模块互不相同地计算置信度计分。例如，假定置信度计分为1指示百分之百确定样本是一个录音和置信度计分为0表示确定样本不是录音。

在时间的特性的实施例中，进行比较的优选DTW方法的失真度输出“d”能够通过简单的置信度计分的指数运算“c”=e^-d转换成置信度计分。用这种方法，当失真度减小时，表明时间特性组之间有更大的相似性，样本是录音的置信度增大。类似地，在信道特性实施例中，优选的比较测量，L2范数长度“d”，能够通过方程式c=e^-d进行转换。最好采用的e-^α+d型通用函数，因为α(alpha)因子能被用来控制失真d的动态范围压缩。

模式分类器，比如优选的NTN，固有地产生一个在0和1之间的置信度计分并且根据预定的阈值作出二元判定2。进一步讲，对于音频水印实施例的一个简单的比率足够作为置信度计分。例如，如果四个双音多频(DTMF)音调被发送作为音频水印而只有三个在反馈信号中被检测到，则四分之一的不符合音调的置信度计分，或0．25被产生。前面的关于计算置信度计分的方法仅仅是一个示范性的方法，因为本专业的一个普通的技术人员将会举一反三。任何产生与样本是一个录音的概率有关的置信度计分的算法都是充分的。

从每个模块25A-D的输出被送至判定组合器610。判定组合器610可以被编程以根据任何所期望的判据作出判定。例如，如果录音设备检测模块25A-D输出二元判定，判定组合器610可能只要求一定数目的模块(例如四个中的二个)输出样本是录音的判定。另一种方法，如果模块25A-D输出置信度计分，判定组合器610可能根据这些置信度计分的平均值以及一个预定的置信度阈值来作出判定。此外，如果在具体的应用中，模块25A-D中的一个被认为比其它的更重要和更可信，可以采用置信度计分的加权平均。

如果判定组合器判定620录音已被检测到，则验证被拒绝150。否则，该样本被传送给ASR系统20。此外，应该承认，不一定要采用ASR系统20，或者如果采用的话，也不一定要让ASR系统跟随在录音设备检测模块25A-D之后。

在由图8和8A所表示的两个实施例中，所有四个录音设备检测模块25A-D并非一定要被使用。这些模块的二个、三个、或四个的任何组合都是充分的。此外，也可以采用相同的实施例的几个模块。例如，分开的模块25A可以被用来分析等响线和音调轮廓。进一步讲，图4A-C中所表示的实施例的任何一个都可以被加入组合。

虽然在图8和8A所描绘的每种模块25A-D接收相同的输入的语音样本，就像关于图2，4，4A-C，6和7所说明的那样，但每种模块的注册和／或训练部份不一样。为清楚起见，模块25A要求提取和存储在早先的注册或验证期间的时间的特性组。模块25B则根据具体的实施例要求至少一个从注册样本和／或早先的验证样本中提取和存储的信道特性组。模拟25C则要求样式分类器被用现场的和录制的语音样本训练过。最后，模块25D要求在提示用户说一个口令以后，一个音频系列被传送。

本专业的普通技术人员将会理解的是，本发明能够被应用于除了此处所述的优选实施例之外的应用场合中。例如本发明能被用来检测是否有一个录音在通信信道中被使用而不管ASR系统是否也被采用。还有，在这里所描述的任何一个实施例中，如果用户被拒绝验证，则能够提示用户在作出关于基本的验证的最后决定之前多次地重复尝试验证。此外，应该承认，在用户通过录音设备检测系统25的测试之前，ASR系统20可以被采用。进一步讲，在任何录音设备检测系统与ASR系统20结合使用的实施例中，它们即可以串联地也可以并行地被采用。

因此，与上面内容相当的，并在有关专业的技术和知识范围内的变化和修改是本发明范围的一部分。这意味着、附加的权利要求被看作是包括变化的实施例到法律所允许的程度。

Claims

1．验证所检测的语音样本是现场的和不是一个录音的方法包括的步骤有：

检测来自已知的人的第一语音样本；

从第一语音样本提取时间特性以产生第一特性组；

检测第二语音样本；

从第二语音样本提取时间特性以产生第二特性组；

比较第一和第二特性组；以及

如果第一和第二特性组符合在预置的容差以内，拒绝验证，其中验证的拒绝表明第二语音样本是一个录音。

2．权利要求1的方法，包括的附加的步骤有：

从第一样本产生一个声迹；

将第二样本与声迹比较；以及

如果第二样本与声迹符合在预定的容差内，确定该已知的人产生了第二样本。

3．权利要求2的方法，包括的附加的步骤有：

检测第三个语音样本；

从第三语音样本提取时间特性以产生第三特性组；

将第三特性组与第一和第二特性组的每一个进行比较；以及

如果第三特性组与或者第一或者第二特性组符合在预定容差内则拒绝验证，其中验证的拒绝表明第三语音样本是一个录音。

4．权利要求3的方法，包括的附加的步骤有：

将第三语音样本与声迹比较；以及

如果第三语音样本与声迹符合到预定公差内，确定第三语音样本是由该已知的人产生的。

5．权利要求1的方法，包括的附加的步骤有：

检测第三语音样本；

从第三语音样本由提取时间特性以产生第三特性组；

将第三特性组与第一和第二特性组的每一个进行比较；以及

如果第三特性组与或者第一或者第二特性组符合在预定容差内，则拒绝验证，其中验证的拒绝表明第三语音样本是一个录音。

6．权利要求1的方法，其中时间特性组包括一个音调轮廓。

7．权利要求1的方法，其中时间特性组包括一个等响线。

8．权利要求1的方法，其中时间特性组包括过零。

9．权利要求1的方法，其中时间特性组包括一个语音内容持续时间。

10．权利要求1的方法，其中已知的人是一个受到在家拘留的人并且包括的附加的步骤有：

如果验证被拒绝，通知政府当局。

11．权利要求1的方法，包括的附加的步骤有：

如果验证被拒绝，拒绝进入防护系统。

12．权利要求3的方法，包括有附加的步骤：

在将第二样本与声迹进行比较的步骤期间产生第一个比较计分；

在将第三个样本与声迹相比较的步骤期间产生第二比较计分；

比较第一和第二比较计分；以及

如果第一和第二比较得分符合在预定容差以内，则拒绝验证，其中验证的拒绝表明第三声音样本是一个录音。

13．用于验证所检测的语音样本是现场的和不是一个录音的系统包括：

适合于检测已知人的第一语音样本和第二语音样本的一个检测器；

一个提取模块，工作上与检测器相连接，适用于从第一语音样本提取第一组时间特性和从第二语音样本提取第二组时间特性；以及

一个计算机处理器，工作上与提取模块相连接，适用于比较第一和第二组时间特性并且假若第一和第二组特性符合在预定容差内，则拒绝验证，其中验证的拒绝表明第二语音样本是个录音。

14．权利要求13的系统，进一步包括：

一个自动讲者识别系统，工作上与计算机处理器连接，用于从第一语音样本产生一个声迹，将第二语音样本与声迹比较，且如果第二样本与声迹符合至预定容差内，则确定该已知的人产生了第二语音样本。

15．权利要求13的系统，其中

检测器适用于提取第三语音样本；

提取模块适用于从第三语音样本中提取第三组时间语音特性；以及

计算机处理器适用于将第三组时间特性与第一和第二组时间特性相比较并且如果第三组特性与或者第一或者第二组特性符合至预定容差以内则拒绝验证，其中验证的拒绝表示第三语音样本是一个录音。

16．验证所检测的语音样本是现场的和不是录音的系统包括：

用于检测来自已知的人的第一语音样本和第二语音样本的设备；

工作上与检测设备相连接的，用于从第一和第二语音样本提取时间特性以产生第一和第二特性组的设备；

工作上与提取设备连接的，用于比较第一和第二特性组的设备；以及

工作上与比较设备相连接的，用于如果第一和第二特性组符合到预定的容差内则拒绝验证，其中拒绝验证表示第二语音样本是个录音。

17．验证所检测的音频样本是现场的和不是录音的方法包括的步骤有：

检测第一音频样本，

从第一音频样本中提取信道特性以产生第一特性组；

检测第二音频样本；

从第二样本中提取信道特性以产生第二特性组；以及

如果第一和第二特性组没有符合到预定的容差内，则拒绝验证，其中验证的拒绝表示第二音频样本是一个录音。

18．权利要求17的方法，其中第一和第二音频样本包括语音样本。

19．权利要求17的方法，其中第二音频样本包括来自电话机的按钮信号音。

20．权利要求17的方法，其中第一样本是在一个接受在家拘留的人家里的电话与自动讲者识别系统之间的通信信道上被检测的。

21．权利要求17的方法，其中检测第一音频样本的步骤包括在第一通信时间段内在所规定的信道上检测第一音频样本和检测第二音频样本的步骤包括在第二通信时间内检测音频样本。

22．权利要求17的方法，其中第一样本包括由已知的人产生的语音样本，包括的附加步骤有：

从第一样本产生一个声迹；

将第二样本与声迹相比较；以及

如果第二样本与声迹符合在预定容差以内，则确定该已知的人产生了第二样本。

23．权利要求17的方法，其中检测第一和第二音频样本的步骤是在单个通讯的时间段内完成的。

24．权利要求23的方法，其中检测第一和第二音频样本的步骤是在单个通讯时间段内完成的。

25．权利要求17的方法，包括的附加的步骤有：

检测第三音频样本；

从第三音频样本中提取信道特性以产生第三特性组；

将第三特性组与第一和第二特性组的每一个进行比较；

如果第三特性组与第一和第二特性组两者都不符合到预定容差内，则拒绝验证。

26．权利要求25的方法，其中检测第一，第二，和第三音频样本的步骤是在单个通信时间段内完成的。

27．权利要求23的方法，其中第一音频样本包括在提示用户说一口令后从用户获得的第一语音样本而第二音频样本包括没有提示时获得的语音样本。

28．权利要求23的方法，其中第一音频样本包括在提示用户说一口令后从用户得到的第一语音样本且第二音频样本包括来自电话机的按钮信号音的样本。

29．验证所检测的音频样本是现场的而不是一个录音的系统包括：

检测来自已知源的第一音频样本和第二音频样本的一个检测器；

一个提取模块，工作上与检测器相连接，适用于从第一音频样本提取第一组信道特性和从第二音频样本提取第二组信道特性；以及

一个计算机处理器，工作上与提取模块相连接，适用于比较第一和第二组信道特性并且如果第一和第二组信道特性不是符合到预定的容差以内则拒绝验证，其中验证的拒绝表示第二音频样本是一个录音。

30．权利要求29的系统，进一步包括：

一个自动讲者识别系统，工作上与计算机处理器相连接，用于从第一音频样本产生一个声迹，将第二音频样本与声迹比较，以及如果第二样本与声迹符合在预定的容差内，则确定是该已知的人产生了第二样本。

31．权利要求29的系统，其中：

检测器适合于检测第三音频样本；

提取模块适用于从第三音频样本中提取第三组信道特性；以及

计算机处理器适用于将第三组信道特性与第一和第二组信道特性的每一个进行比较并且如果第三组特性组与或者第一或者第二组特性未能符合到预定容差以内，则拒绝验证，其中验证的拒绝表示第三音频样本是一个录音。

32．权利要求29的系统，其中的检测器适合于在第一通信时间段期间检测第一音频信号以及在第二通信时间段期间检测第二音频信号。

33．权利要求29的系统，其中检测器适用于在单一通信时间段内检测第一和第二音频信号。

34．权利要求29的系统，其中第一音频样本包括在提示用户说一个口令后从用户得到的第一语音样本而第二音频样本包括无提示时所得到的第二语音样本。

35．权利要求29的系统，其中第一音频样本包括在提示用户说一个口令后从用户得到的第一语音样本而第二音频样本包括来自电话机的按钮信号音的样本。

36．用来验证所检测的音频样本是现场的而不是录音的系统包括：

用来检测第一音频样本和第二音频样本的设备；

工作上与检测设备相连接，用作从第一和第二样本提取信道特性以产生第一和第二特性组的设备；

工作上与提取设备相连接，用来比较第一和第二特性组的设备；以及

工作上与比较设备相连接，用于如果第一和第二特性组没有符合到预定容差之内则拒绝验证，其中验证的拒绝表示第二音频样本是一个录音。

37．用来验证所检测的语音样本是现场的而不是录音的方法包括的步骤有：

训练一个模式分类器以区别现场的与录制的语音；

检测一个验证语音样本；

用模式分类器判定该验证语音样本是否是现场的或录制的；以及

如果模式分类器判定该语音样本是录制的则拒绝验证。

38．权利要求37的方法，其中模式分类器是一个神经树网络。

39．权利要求37的方法，其中模式分类器是一个隐藏的马可夫模型。

40．权利要求37的方法，其中的模式分类器是一个高斯混合模型。

41．权利要求37的方法，其中的模式分类器是一个矢量量化模型。

42．权利要求37的方法，其中的模式分类器是一个神经树网络和隐藏的马可夫模型的组合。

43．权利要求37的方法，其中训练模式分类器的步骤包括下列步骤：

得到第一训练的语音样本；

传送第一训练的语音样本给模式分类器；

至少在一台录音设备上录制第一训练的语音样本；

至少在一台录音设备上重放第一训练语音采样；以及

传送该录制的和重放的第一训练语音样本给模式分类器。

44．权利要求43的方法，其中录音和重放的子步骤包括在许多不同的录音设备上录音和重放第一训练语音样本。

45．权利要求43的方法，包括的附加的步骤有：

将第一语音样本在其传送给模式分类器之前转换成频谱特征矢量。

46．权利要求37的方法，包括的附加的步骤有：

检测一个来自一个已知人的第一注册的语音样本；

从第一注册语音样本产生一个声迹；

将验证样本与声迹比较；以及

如果验证样本与声迹符合到预定容差内则确定该已知的人产生了验证样本。

47．权利要求43的方法，包括的附加的步骤有：

检测来自一个已知的人的第一注册语音样本；

从该第一注册语音样本产生一个声迹；

将验证样本与声迹比较；以及

48．用来验证所检测的语音样本是现场的而不是录音的系统包括：

用于检测语音样本的一个检测器；

一个录音设备，工作上与检测器相连接，用来产生语音样本的录音；

一个播放设备，工作上与录音设备相连接，用来播放录音；

一个模式分类器，工作上与检验器和播放设备相连接。

借此，模式分类器被用由检测器所检测的语音样本和由播放设备播放的录音训练，并且该分类器适用于将检测的验证语音样本分类为现场的或录音的以及如果所检测的样本被分类为录音的则拒绝验证。

49．权利要求48的系统，进一步包括一个自动讲者识别系统，工作上与检测器相连接，用于比较所检测的语音样本和所存储的声迹以决定是否是已知的人产生的语音样本。

50．用于验证所检测的语音样本是现场的而不是录音的系统包括：

用于以现场的和录制的语音样本训练模式分类器的设备；

工作上与模式分类器连接的，用于检测验证语音样本的设备；

工作上与检测设备相连接的，用于用模式分类器判定验证语音样本是现场的还是录音的设备；以及

工作上与判定设备相连接的，用于如果模式分类器判定该语音样本是录音则拒绝验证的设备。

51．用来验证所检测的音频样本是现场的而不是录音的方法包括的步骤有：

提示一个人经由扬声器产生并通过话筒发送第一音频样本；

通过扬声器发送第一音频系列以通过话筒产生反馈信号；

检测来自第一音频系列的反馈信号；

将反馈信号与第一音频系列进行比较；以及

如果反馈信号与第一音频系列不是符合到预定的公差内则拒绝验证，其中验证的拒绝表示音频样本是一个录音。

52．权利要求51的方法，其中第一音频系列包括一系列的双音多频音调。

53．权利要求51的方法，包括的附加步骤有：

提示一个人经由扬声器产生并且通过话筒传送第二音频样本；

通过扬声器发送第二音频系列以通过话筒产生第二反馈信号；

检测来自第二音频系列的第二反馈信号；

将第二反馈信号与第二音频系列比较；以及

如果第二反馈信号与第二音频系列不是符合在预定的方差之内则拒绝验证，其中拒绝验证表示第二音频样本是一个录音。

54．权利要求51的方法，包括的附加步骤有：

从所说的第一音频样本中产生一声迹；

将第二音频样本与声迹比较以判定第二音频样本是否为已知的人所产生的。

55．用来验证所检测的音频样本是现场的而不是录音的系统包括：

一个提示模块适用于提示一个人通过工作上相连接的扬声器产生并且通过话筒发送第一音频样本；

一个发送器，工作上与提示模块相连接，适用于通过扬声器发送第一音频系列以通过话筒产生一个反馈信号；

一个检测器，工作上与话筒相连接，适用于检测反馈信号；

一个比较器，工作上与探测器相连接，适用于比较第一音频系列与反馈信号；以及

一个计算机处理器，工作上与比较器相连接，适用于如果第一音频系列与反馈信号不是符合到预定容差内则拒绝验证，其中拒绝验证表示第一音频样本是一个录音。

56．权利要求55的系统，其中提示模块包括自动讲者验证系统，该系统也适用于从第一音频样本产生声迹，提示一个人产生第二音频样本，比较声迹和第二音频样本以确定第一和第二音频样本是否为同一个人所产生。

57．用来验证所探测的音频样本是现场的而不是录音的系统包括：

用来提示一个人经由工作上相连接的扬声器产生并且通过话筒发送第一音频样本的设备；

工作上与提示设备相连接的，用来通过扬声器发送第一音频系列以通过话筒产生反馈信号的设备；

工作上与话筒相连接的，用来检测来自第一音频系列的反馈信号的设备；

工作上与检测设备相连接的，用来比较反馈信号和第一音频系列的；

工作上与比较设备相连接的，用于如果反馈信号与第一音频系列没有符合到预定容差之内则拒绝验证的设备，其中拒绝验证表示第一音频样本是一个录音。