CN1321296A

CN1321296A - 通过会话虚拟机进行会话式计算

Info

Publication number: CN1321296A
Application number: CN99811618A
Authority: CN
Inventors: 丹尼尔·考夫曼; 利安·D·康莫福德; 史蒂文·V·德贞纳罗; 爱德华·A·爱波斯坦; 波纳尼·格帕克里什南; 斯蒂芬尼·H·梅斯; 戴维·纳哈莫
Original assignee: International Business Machines Corp
Current assignee: IPG501 Health Care Co., Ltd.
Priority date: 1998-10-02
Filing date: 1999-10-01
Publication date: 2001-11-07
Anticipated expiration: 2019-10-01
Also published as: CN100472500C; DE69937962D1; US8082153B2; EP1133734A2; WO2000021075A1; EP1125279A4; CA2345661A1; CN1321295A; KR100459299B1; US7418382B1; CA2345665C; EP1125277A4; CA2345660A1; US7137126B1; WO2000021073A1; CA2345662A1; IL142364A0; KR20010073105A; CN1171200C; EP1125277A1

Abstract

一个会话式计算系统,该系统在多个了解会话的应用(11)(即使用会话协议“谈话”的应用)和常规应用(12)之间提供了一个统一协调的多态会话用户界面(CUI)(10)。了解会话的应用(11)通过会话应用API(13)与一个会话内核(14)通信。会话内核(14)根据其登记的会话能力和要求控制应用和设备(本地和联网)之间的对话并且提供统一的会话用户界面,会话服务和行为。会话式计算系统可以建立在一个常规操作系统,API(15)和常规设备硬件(16)的顶端。会话内核(14)处理所有的I/O处理并且控制会话引擎(18)。会话内核(14)使用会话引擎(18)和会话参数(17)把语音请求转换成查询并且把输出和结果转换成口语消息。会话应用API(13)传达会话内核(14)的全部信息以便把查询转换成应用调用,反之在输出被提供到用户之前把输出转换成语音并且加以适当的分类。

Description

通过会话虚拟机进行会话式计算

本申请基于1998年10月2日提交的美国临时专利申请60/102,957号和1999年1月27日提交的美国临时专利申请60/117,595号。

本申请涉及会话式计算系统和方法。更具体地，本发明涉及一个CVM(会话虚拟机)，其中CVM可以被实现成独立的OS(操作系统)或在能够针对常规平台和应用提供向后兼容的常规OS或RTOS(实时操作系统)的顶端运行的平台或内核。这里所描述的CVM向应用开发者公开了会话API(应用程序接口)，会话协议和会话基础类，提供了一个通过管理对话与上下文，会话引擎与资源实现会话式计算的内核层，并且提供了跨越具有不同会话能力的平台和设备的会话协议/通信以便实现统一的CUI(会话用户界面)。

当前，由于主流体系结构，平台和OS根本上都是基于GUI或围绕GUI内核而建立的，基于GUI(图形用户界面)的OS(操作系统)在PC(个人计算机)和工作站领域占有绝对优势。当然，除了诸如IVR(交互式语音响应)，UI主要是语音和DTMF(双音多频)I/O(输入/输出)的电话应用之外，最普遍的信息访问和管理应用均是围绕GUI模式而建立的。另外，结合诸如主机或非常专用的系统的旧体系结构使用其他非GUI的UI。通常，对于GUI模式，用户和机器之间的用户界面是图形方式的(例如Microsoft窗口或Unix X Windows)并且通过把各个进程显示成单独的窗口来提供多任务，其中可以通过键盘，鼠标，和/或诸如笔的其他指点设备输入到各个窗口(尽管在不直接与用户“交互/接口”时可以隐藏某些进程)。

GUI推动并促进了从分时主机到单个机器及其他诸如服务器，后端接收器和体系结构的同层设备的模式切换。基于GUI的OS已经被广泛地应用于常规PC客户服务器模型中以便访问和管理信息。所访问的信息可以是设备的本地信息，因特网或专用企业内部网的远程信息，个人所有并且位于多个个人PC，设备和服务器上的信息。这种信息包含内容资料，事务管理和生产工具。然而，我们正看到一个偏离常规PC客户/服务器模型的新趋势，这种趋势是访问和管理针对数十亿彼此互连、普及运算客户(PvC客户)的信息，从而允许用户从任何地方，在任意时刻并且通过任何设备访问和管理信息。并且这种对信息的访问使得信息接口同样独立于所使用的设备或应用。这个趋势与设备的小型化成对出现并且其能力和复杂性出现惊人增长。同时，由于电话仍然是最普遍的用于访问信息的通信设备，对于通过电话广泛访问和管理信息的期望也变得更加强烈。

不幸的是，对这种信息的访问受到可用设备或接口的限制，并且不同设备的基础逻辑完全不同。当然，满足嵌入式领域的种类和约束与其它对等领域，即PC，工作站和后台服务器没有可比性，嵌入式领域向UI提出了真实的挑战。此外，增加PvC客户端复杂性并且连接更加强制的输入和输出接口会显著减少GUI的效果。当然，PvC客户端更经常地被配置在移动环境中，其中用户希望进行免提或免看式的交互。即使是对于提供某些强制显示能力的嵌入式设备，GUI也会使小型显示器过载，独占有限处理能力和CPU资源。另外，这种GUI消耗并分散了努力使用这种强制性接口的用户的精力。此外，更多近来提出的对在任意时刻从任何地方通过任何设备访问和管理信息的普适接口的需求揭示出GUI的局限性。

最近，在使用计算机的各种应用中出现了语音命令和控制(语音C&C)UI。的确，近来语音识别作为电话IVR(交互式语音响应)接口的一部分在紧包装零售产品及其逐步介绍方面的成功表明语音识别会成为关键的用户界面单元。例如，电话公司，呼叫中心和IVR已经实现了自动完成某些任务，减少其操作员要求和操作费用并且加速呼叫处理的语音接口。然而，目前IVR应用开发者只是提供其自己专用的语音引擎和API(应用程序接口)。对话开发需要复杂的脚本编制和内行的程序员，并且这些专门的应用通常不能在提供商之间移植(即，各个应用制作辛苦并且针对特定的业务逻辑)。

另外，使用能市场供应的、针对听写与命令和控制的连续语音识别应用已经实现了针对基于GUI的OS的语音接口。然而这些语音应用本质上只是对基于GUI的OS的增补，在某种意义上这种应用允许对键盘和鼠标进行细微的替换并且允许用户改变控制焦点，加载新任务并且向拥有控制焦点的任务提供语音命令。当然，所有当前提供这种语音接口的提供商和技术开发者均依靠引入语音或NLU(自然语言理解)作为命令行输入来直接取代键盘或指点设备以便激活并选择GUI菜单。在这种应用中，语音被认为是一个新的附加I/O形态而不是人机交互的根本变革方向。

把语音，NLU或任何其他输入/输出接口实现成一个会话系统不应当仅限于集成到操作系统中。也不应当仅限于通过嵌入式设备进行的普通查看和感知。应当从根本上改变基础操作系统和计算功能的设计。此外，输入和输出介质在操作系统中产生最根本改变时要求的灵活性不一定需要语音输入/输出，而是还可以通过更常规的键盘，鼠标或笔输入和显示输出来加以实现。

因此，非常期望有一个通过统一会话用户界面跨越多个平台，设备和应用提供会话式计算，并且不仅仅是向现有应用增加语音I/O或会话能力，在常规操作系统中建立常规会话应用或单纯集成“语音”的系统。

本发明涉及一个基于通过统一会话用户界面(CUI)提供会话式计算的会话式计算模式的系统和方法。会话式计算模式规定与一个用户进行对话的系统负责对查询及其执行结果的完成，歧义消除，总结或校正。这些系统根据上下文，应用，历史资料和用户参数选择与生物测量抽象并处理查询，上下文和生成的信息。这些核心原则不需要有语音I/O接口，它们更倾向渗透到基础计算核心底层。当然，基于本发明的会话式计算模式适用于没有语音的情况，并且描述了围绕对话和会话建立计算的必要性，即使是通过例如键盘的设备进行这种对话。会话式计算模式允许用户以无缝的方式控制多窗口应用，例如，即使通过一个诸如VT100或Palm Pilot屏幕的哑终端显示器进行操作也可以按照并行方式运行。

在本发明的一个方面，一个提供基于会话模式的会话式计算的系统是一个CVM(会话虚拟机)，其中CVM可以被实现成独立的OS(操作系统)或者是能够针对常规平台和应用提供向后兼容的常规OS或RTOS(实时操作系统)的顶端运行的平台或内核。CVM向应用开发者公开了会话API(应用程序接口)，会话协议和会话基础类，提供了那个通过管理对话与上下文，会话引擎与资源实现会话式计算的内核层，并且提供了跨越具有不同会话能力的平台和设备的会话协议/通信以便实现统一的CUI(会话用户界面)。CVM内核根据其登记的会话能力和要求控制应用和设备之间的对话的核心层。CVM还提供了一个统一会话用户界面，该界面不单纯是增加语音以作为提供会话系统行为特性的I/O形态。CVM能够以类似于会话的、具有谈话，上下文，混合主动和抽象能力的方式管理任务。

在本发明的一个方面，CVM使用包含语音识别，发声者识别，文本-语音，自然语言理解和自然对话产生引擎的会话子系统(可以是本地或分布式的)理解并产生用户和机器之间的对话。通过CVM访问这些子系统。通过会话应用API对应用隐藏各个引擎。CVM可以通过会话引擎API控制这种引擎。另外，会话应用API可以包含会话引擎API。通常，CVM包含向应用开发者直接公开这些引擎API。通过使会话引擎API被包含在会话应用API中或通过在会话应用API层次上仿真类似的调用和功能可以实现上述要求。

在另一方面，CVM内核层(或CVM控制器)包括一个元信息管理器，一个资源管理器，一个上下文堆栈，一个全局历史记录，一个对话管理器和一个任务调度器以便管理对话并且选择活跃的对话，上下文和应用。上下文堆栈累积每个活跃进程的上下文(全部查询参数和状态/模式-即已经导入的查询参数，任何I/O事件和一个应用产生的事件)，其中上述进程具有一个活跃的会话以及理解输入所需的任何数据(例如，活跃的FSG，主题，词汇或一个语音输入的可能查询)。CVM内核协同被分散在本地和联网常规与会话资源上的不同任务和进程。CVM内核层跟踪这些资源，向适当的会话子系统发送输入并且在设备，状态和应用之间作出仲裁。CVM内核层还根据活跃的会话与会话历史记录，延迟返回结果，网络资源授权，任务授权和记录协同输出产生和划分优先权。

在本发明的另一方面，CVM系统提供了一个高层抽象并且通过与诸如对象，数据流句柄，网络，外设，硬件与本地和网络文件系统的单元相关的元信息抽象出类别。一个基于本发明一个方面的抽象元信息系统包含由资源所有者/开发者或资源的以往用户/应用定义的多个类别。可以通过抽象快捷方式和混合主动请求访问这些单元。提供一个登记在连接或经过一个元信息服务器(类似于DNS服务器或名称空间管理器)自动产生与新对象相关的新类别，其中上述元信息服务器更新与一个对象或其内容相关的抽象类别目录并且充当一个登记各个资源的能力的抽象列表。可以使用相同协议在本地登记被下载或传递的对象。抽象元信息可用于快捷方式，自动提取或网络的处理单元。

在另一方面，CVM提供了使自然语言对话在多个任务，进程和谈话(具有多个语境)上进行NLU,NLG，上下文和混合主动分类的能力。提供一个会话输入接口，其中一组多模式输入流被分别转换成ASCII命令或查询(即，属性-数值或n元组列表)。各个输入实体(命令，NLU查询字段或参数单位(隔离字母，字，等等))与时间-标记关联并且相应被附加到一个混合输入流中。根据以前产生各个输入流的时间或各个应用/输入流依据上下文历史记录接收的优先权划分两个或更多具有相同时间标记的输入流的优先权。参照可能的FSG和词典检查混合输入并且可以有选择地把输入反馈到用户。各个资源交换其会话能力并且输入流被裁剪成只交换相应的信息。

在另一个方面，提供会话输出调度和接口协议，其中多个任务的输出排队等候基于单通道输出的上下文堆栈和任务调度器的处理。提供一个重定向或修改被分配给各个输入流的资源的机制，即使在多路复用的情况下也是如此。各个资源交换其会话能力并且输出流被裁剪成只交换有关的信息，其中包含输出语音字体的选择和会话呈现的格式化。

在另一方面，使用编程/脚本语言以便允许把任何可用资源用作输入或输出流。通过使用会话子系统，各个输入被转换成可以被程序设计语言当做内置对象直接处理的二进制或ASCII输入(属性-数值对或n元组列表)。自动包含调用，标志和标签以便在对象之间发送，并且处理与不同对象正确接口所需的会话元信息。实际上，具有任何形态的任何输入被CVM内核层的对话管理器捕捉成一个被加到相关上下文或上下文堆栈中的事件。例如，一个后跟“我想打开这个”命令的鼠标点击或指针/输入笔标点动作被解析成一组属性值对：命令：打开，对象：最后一次鼠标点击选择的窗口或任务。可以根据应用或用户的需要专门对输出进行格式化。现在可以使用新的编程工具容易地建立多态会话处理。另外，这种编程语言和脚本包括会话应用和CVM之间的会话API以及CML(会话标记语言)。

在另一个方面，扩充常规逻辑语句状态和操作符以适应会话查询的多样性，其中可以根据其ASCII/二进制内容或其经过NLU转换的查询/属性值n元组列表对查询进行逻辑比较。实现逻辑操作符以便测试或修改这种系统。

在另一方面，提供允许多个会话设备或应用登记其会话能力的会话网络连接协议，其中包含只需可理解会话的静音部件。提供会话协议以便协同与多个CVM和静音部件的会话，使得在通过会话连接和协同多个CVM设备时能够通过一个单独的接口(例如通过一个单独的扩音器)同时对其进行控制。在彼此发现并且登记其标识之后，各个系统或设备交换有关其会话能力的信息以便把数据传输限制到有关信息上。静音会话部件以类似方式工作并且可以通过一个会话代理服务器或作为CVM的会话客户端进行交互。多个CVM之间的协同可以导致动态主-从交互和端到端交互，从而提供一个经过协同的、由多个会话连接设备/对象呈现的统一会话接口。另外，可以考虑其他拓扑，其中包含多个在其间以端到端方式彼此交互的本地主设备(经过优化或判定以减少总体网络通信量和对话流程延迟)。对象集合通过集中或分布式上下文堆栈为用户提供了一个单独的协同接口。

在另一个方面，提供开发工具以便开发者针对CVM建立，模拟和调试可理解会话的应用。开发工具提供对API调用，协议调用，使用这些API和协议并且链接相关库的应用，拓展CVM提供的服务和行为特性的应用的直接实现。这些开发工具允许根据多个诸如语音字体的个性化特征构造高级会话接口，从而允许选择提供输出的语音类型。提供建立会话呈现的、诸如Postcript和AFL(音频格式化语言)的会话格式化语言。实现这些应用的代码可以是说明性或过程性的代码。其中包括经过解释和编译的、具有库链接，会话逻辑，引擎调用和会话基础类的脚本和程序。会话基础类是独立于形态或形态组合，概括了所有对话的特征的基本构件或会话原语(gestures)。

在另一个方面，通过使用关于本地或远程文件，尤其是可执行文件的作者和/或修改人的元信息防止未授权访问来提供会话安全。资源对受限制资源进行一次查询时，CVM便根据有关该资源的安全元信息对用户进行自动认证。直接对查询之前刚获取的请求或非过期信息执行认证。

在另一方面，CVM提供会话定制。每当对资源进行一次查询时便自动识别一个用户。直接对查询之前刚获取的请求或非过期信息执行认证。可以根据请求方的优先顺序单独定制各个任务或资源访问。根据活跃用户的顺序划分任务和上下文的优先权，并且每当用户顺序发生改变时重新划分优先权。可以在不需要重新设置整个环境的情况下根据用户身份的变化在运行时刻修改环境变量。使用用户身份在各个上下文或上下文堆栈的层次上消除歧义。

在另一个方面，不仅根据文件的名称，修改或ASCII内容，还根据操作系统，应用或用户定义的抽象类别和操作系统在线或离线提取的主题来提供会话搜寻能力，或者在访问对象时通过会话协议获得上述能力。另外，提供上下文搜寻能力以完成活跃的查询或提取类似的查询/上下文。

在另一方面，在资源管理器层次或依赖元信息，抽象和会话查询/混合主动/校正的任何应用内部提供会话选择能力。这种会话选择能力避免出现较长的基本选择序列并且提供了自然的快捷方式和选择校正。另外，提供通过层次结构访问并且立即呈现对象框架的机制。

在另一个方面，使用本地和远程资源，用户和代理的使用历史记录并且通过一个完全协同的会话接口提供会话帮助，指南和支持，从而完成请求，过程指导，信息搜寻和新应用的升级与安装。另外，通过使用访问帮助信息的NLU查询或根据与当前用户(历史记录)相关的元信息和遗漏或通过混合主动方式修改的参数可以访问帮助信息。调整各个应用提供的对话使之适应用户的参数选择或技能水平。

基于本发明的CVM提供的其他特性包含简单、直观、自然并且具有最短学习周期的接口，对语音的使用大大改善工作效率、新功能或使用的强制会话应用，能够理解自然语言查询的智能机器/设备，通过免提和/或免看模式有效完成任务的能力，补充常规用户I/O并且在必要时(没有显示器或显示器较小，没有键盘、输入笔或定点设备，远程计算等等)可以替代的强制多模式高效用户界面，独立于被用来访问的设备(PC,PDA，电话等等)并且独立于事务处理服务/应用的统一用户界面，和跨越多个会话设备、允许一个设备控制多个其它设备、对现有OS，应用，设备和服务向后兼容的协同接口。

通过下列对最优实施例的详细描述将要描述并且从中可以理解本发明的这些及其他方面，特性和优点，其中需要结合附图阅读该描述。

图1是基于本发明一个实施例的一个会话式计算系统的模块图；

图2是图解基于本发明一个实施例的一个会话式计算系统的抽象层次的图例；

图3是图解在基于本发明一个方面的会话式计算系统中实现的会话协议的模块图；

图4是基于本发明一个实施例的一个会话式计算系统的构件的模块图；

图5是一个图解基于本发明一个方面的任务调度进程的图例；

图6是一个图解基于本发明一个方面的通用会话用户界面和输入/输出进程的图例；

图7是一个图解基于本发明一个方面的分布式会话式计算系统的图例；

图8是图解基于本发明一个最优实施例的一个通用会话设备的图例；

图9是一个图解基于本发明一个方面的会话管理进程的图例；

图10是一个图解基于本发明另一个方面的会话管理进程的图例；

图11是一个图解基于本发明另一个方面的会话管理进程的图例；和

图12是一个图解基于本发明的会话网络的图例。

本发明涉及引用会话系统和多态接口的所有方面的会话式计算系统和方法。提供基于这里描述的会话式计算模式的会话式计算的关键构件是CVM(会话虚拟机)。在一个实施例中，CVM是一个运行在常规OS或RTOS顶端的会话平台或内核。还可以用PvC(普及运算)客户端和服务器实现CVM平台。通常，CVM在会话子系统(例如语音识别引擎，文本-语音等等。)和会话和/或常规应用之间提供会话API和协议。CVM也可以通过有更多限制的接口为现有应用提供向后兼容。如下所述，CVM提供了会话服务和行为特性以及会话协议以便与多个同样配备了一个CVM层或至少可以理解会话的应用和设备进行交互。

应当理解，这里描述的不同单元和协议/API是根据其执行的功能或交换的信息来定义的。其实际组织或实现可以发生变化，例如，通过相同或不同的实体来实现，被实现成较大构件的一个构件，或者作为一个独立实例化的对象或一组这样的对象或类。

一个基于这里根据本发明描述的会话式计算模式的CVM(或操作系统)允许计算机或任何其他交互设备与用户进行交谈。无论一台机器是否有显示器或GUI能力，也无论其是否有任何键盘，输入笔或指点设备，CVM还允许用户在该机器上运行多个任务。实际上，用户可以管理这些类似一个会话的任务并且最终完成一个任务或多个同时执行的任务。为了管理类似一个会话的任务，基于本发明的CVM提供根据混合主动方式，上下文和高级抽象层次执行其各种功能的能力。混合主动方式允许用户通过与系统进行对话自然地完成，修改或校正一个请求。混合主动方式还意味着CVM可以积极帮助(主动帮助)并且指导用户完成任务，在语音应用中尤其如此，其中混合主动能力是补充显示能力较弱的系统或具有有限显示能力的系统的自然方式。通常，CVM被用来补充常规接口和用户输入/输出而不是替代它们。这就是“多态”的概念，其中以和鼠标，键盘及其他诸如输入笔的输入设备并行的方式使用语音。当设备局限性对某些接口的实现有限制时可以取代常规接口。另外，在设备，对等层次和服务之间形成的接口的普适性和统一性是一个附加的强制特征。应当理解，CVM系统可以用于大量具有常规输入和/或输出介质的功能。实际上，利用基于本发明的CVM可以使具有典型键盘输入和结合常规监视器显示的指点设备的计算机显著受益。在1999年4月7日申请，标题为“多态命令解释程序”的美国临时专利申请第60/128,081号中描述了一个例子，其中该专利申请与本发明有共同转让并且在此对其加以参考引用(该申请描述一个构造在GUI形态和语音形态之间紧密同步的真实多态应用的方法)。换句话说，甚至不希望与其计算机交谈的用户也可以使其与CVM机器的交互得到显著的改进。

现在参照图1，一个模块图图解了基于本发明一个实施例的一个会话式计算系统(或CVM系统)，其中在一个客户端设备或服务器上实现该系统。通常，CVM提供一个统一协同的多态会话用户界面(CUI)10。CUI的“多态”特性意味着诸如语音，键盘，输入笔，和指点设备(鼠标)，触摸屏的各种I/O资源可被用于CVM平台。CUI10的“通用”特性意味着无论通过一个桌面计算机，具有有限显示能力的PDA还是没有显示能力的电话来实现CVM，CVM系统均为用户提供相同的UI。换句话说，通用性意味着CVM系统可以适当地处理具有从纯语音到语音，从语音到多态，即语音+GUI并且再到纯GUI的能力的设备的UI。所以，无论访问形态如何，通用CUI为所有用户交互提供相同的UI。

此外，通用CUI的概念扩展到协同CUI的概念。具体地，假定多个设备(在多个计算机对等层次内部或之间)提供相同的CUI，可以通过一个单独的会话-即协同接口管理这些设备。即，当多个设备以会话方式相连(即，彼此理解)时，可以通过其中一个设备的一个接口(例如单个扩音器)同时控制这些设备。例如，语音可以通过一个统一协同的CUI自动控制以会话方式相连的一个智能电话，一个寻呼机，一个PDA，网络计算机和IVR，以及一个车载计算机。下面会更详细地解释这些CUI概念。

CVM系统还包括多个应用，其中包含可理解会话的应用11(即用会话协议“交谈”的应用)和常规应用12。可理解会话的应用11是被专门编程以便通过会话应用API13与一个CVM核心层(或内核)进行操作的应用。通常，CVM内核14根据其登记的CVM能力和要求控制应用和设备之间的对话并且提供统一的CVM用户界面，该界面不单纯是把语音添加成提供会话系统行为特性的I/O形态。CVM系统可以建立在一个常规OS，API15和常规设备硬件16的顶端并且位于一个服务器或任何客户端设备(PC,PDA,PvC)上面。由CVM内核层14管理常规应用12，其中CVM内核层14负责通过OSAPI，GUI菜单和常规应用的命令以及基础OS命令进行访问。CVM自动操作所有的输入/输出发起方，其中包含会话子系统18(即，会话引擎)和常规OS15的常规子系统(例如，文件系统和常规驱动器)。通常，会话子系统18负责使用适当的数据文件17(例如，上下文，有限状态语法，词汇表，语言模型，符号查询映射等等。)把语音请求转换成查询并且把输出和结果转换成口语消息。会话应用API13传达CVM14的全部信息以便把查询转换成应用调用，反之在输出被提供到用户之前把输出转换成语音并且加以适当的分类。

现在参照图2，一个图例图解了基于本发明一个实施例的一个会话式计算系统(或CVM)的抽象编程层次。CVM的抽象层包括可理解会话的应用200和常规应用201。如上所述，可理解会话的应用200通过会话应用API层203与CVM内核层202交互。会话应用API层203包括会话编程语言/脚本和库(会话基础类)以便提供CVM内核202开放的各种功能(下面讨论)。例如，会话编程语言/脚本提供允许应用开发者挂到(或开发)可理解会话的应用200的会话API。它们也提供允许开发者把会话功能融入一个应用使之“可理解会话”的会话API层203，会话协议204和系统调用。实现应用的代码，API调用和协议调用包含经过解释和编译的、具有库链接，会话逻辑(如下所述)引擎调用和会话基础类的脚本和程序。

更具体地说，会话应用API层203包括多个会话基础类205(或基础对话构件)，通过可以被用来建立基于本发明的CUI或可理解会话的应用200的库函数把这些基础类提供给应用开发者。会话基础类205独立于形态或形态组合(可以通过过程性或说明性的方式实现)、概括所有对话的特征的基本构件或会话原语(如T.V.Raman在“听觉用户界面，关于会说话的计算机”，Kluwer学术出版社，Boston1997中描述的)。会话基础类205包括CUI建立模块与会话平台库，对话模块与构件，和对话脚本与小程序。会话基础类205可以在本地被编译成会话对象206。更具体地说，通过在用诸如Java或C++的程序设计语言调用这些库的代码中综合不同的个体类从会话基础类205(基础对话构件)编译出会话对象205(或对话构件)。如上所述，编码包括把这种基础对话构件嵌入到说明性代码中或者把它们链接到代码中。嵌套调用和嵌入会话基础类205允许为执行特定对话任务或应用而构造(按照说明性方式或通过编译/解释)会话对象206(可重用或不可重用)。例如，可以通过诸如由一个会话浏览器(或查看器)(200a)处理或加载的CML(会话标记语言)(嵌套或非嵌套)页面的说明性方式实现会话对象206，其中在IBM文档号为Y09998-392P，与本专利同时申请，标题为“会话浏览器和会话系统”的专利申请中公开了上述会话浏览器，并且该专利申请与本发明有共同转让并且在此对其加以参考引用。对话对象包括可以通过CML(会话标记语言)页面(通过会话浏览器)加载的小应用程序或对象，CVM顶端上的过程性对象(可能分布在CVM的顶端)，CML中的脚本CML标签和小服务程序构件。

根据本发明可以实现的会话原语的某些例子如下所述。一个会话原语消息被机器用来向用户传递信息类消息。原语消息通常会被表示成一个显示字符串或口语提示。被说出的消息部分可以是一个在CVM顶端运行的、关于各种应用/对话的当前状态的函数。一个“从集合中选择”会话原语被用来封装期待用户从一个离散选项集合中选择选项的对话。该原语封装了提示，缺省选择，和合法选项集合。“从范围中选择”会话原语被用来封装允许用户从一个连续数值范围中选择一个数值的对话。该原语封装了有效范围，当前选择，和一个信息性提示。另外，当输入约束更加复杂(或许不存在)时，会话原语输入被用来获得用户输入。该原语封装用户提示，关于所请求的信息项的应用级语义(TBD)，并且可能还包括测试输入有效性的谓词。然而，如上所述，会话基础类包含但已超越了会话原语的概念(即扩展到基本行为和服务以及执行会话任务的规则层次)。

如下所述，一个编程模型允许通过会话API在一个主对话管理器和引擎之间建立连接。在CVM上提供基础类的数据文件(对嵌入平台可加载)。可以扩充和加载对象的数据文件。不同对象充当同时对话管理器。某些会话基础类的例子如下所述：

低层次对话会话基础类：

(在适当的地方可用的多态功能)

(在属于分布方式时具有CVM句柄)

1．从列表中选择一项

2．根据语法填充字段

3．发声者声学登记

4．发声者声学识别

5．发声者声学验证

6．发声验证

7．加入列表

8．发声登记

9．根据NL获得输入

10．消除歧义

等等

低层次专用对话会话基础类：

(在适当的地方可用的多态功能)

(在属于分布方式时具有CVM句柄)

1．得到是/否

2．得到日期

3．得到时间

4．得到自然数

5．得到当前值

6．得到美国或国际电话号码，规则可以指定，也可以是任意可能的规则

7．得到数字串

8．得到字母数字

9．得到拼写

10．语音生物测定识别

11．打开NL

12．关闭NL

13．删除NL

14．保存NL

15．选择NL

16．标记NL

等等。

中间层次对话会话基础类：

(在适当的地方可用的多态功能)

(在属于分布方式时具有CVM句柄)

1．表格填充

2．请求确认

3．识别用户

4．通过对话登记用户

5．语音生物测定识别

6．通过对话验证用户

7．校正输入

8．语音生物测定识别

9．语音生物测定验证

10．语音生物测定登记

11．管理表格

12．填充空白字段

13．倾听TTS

14．倾听回放

15．同时填充表格

16．同时分类对话

17．总结对话

等等。

高层专用基础类

(在适当的地方可用的多态功能)

(在属于分布方式时具有CVM句柄)

1．管理银行帐户

2．管理文件夹

3．请求旅行客房预订

4．管理电子邮件

5．管理日历

6．管理地址簿/定向器

等等。

通信会话类

1．得到CVM设备目录

2．得到CVM设备能力

3．向设备发送能力信息

4．请求具有指定能力的设备

5．从CVM设备得到句柄

6．标记为主CVM

7．标记为活跃CVM

8．得到上下文

9．发送上下文

10．得到结果

11．发送结果

12．保存上下文

等等。

服务和行为会话基础类

(在属于分布方式时也可以具有CVM句柄)

1．得到元信息

2．发送元信息

3．登记类别

4．得到类别目录

5．会话搜寻(基于对话或抽象)

6．会话选择(基于对话或抽象)

7．接受结果

8．拒绝结果

9．仲裁结果

等等。

其他服务

(具有多个类)

会话安全

会话定制

会话帮助

会话划分优先权

资源管理

输出格式化和呈现

I/O抽象

引擎抽象

等等。

规则

如何根据第一名称完整地得到一个名称

如何得到一个电话号码

如何得到一个地址

如何撤消一个查询

如何校正一个查询

等等。

CVM提供的开发环境在这里被称作SPOKEN AGE^TM。SpokenAge允许开发者针对CVM建立，模拟和调试可理解会话的应用。除了提供API调用的直接实现之外，SpokenAge还提供了建立具有多种个性化特征的高级会话接口。允许用户选择提供输出的语音类型的语音字体和建立会话呈现的会话格式化语言类似Postcript和AFL(音频格式化语言)。

如上所述，会话应用API层203包括会话编程语言和脚本以便提供通用会话输入和输出，会话逻辑和会话元信息交换协议。会话编程语言/脚本以便允许把任何可用资源用作输入或输出流。如下所述，通过使用会话引擎208和会话数据文件209(由CVM202通过会话引擎API207访问)，各个输入被转换成可以被程序设计语言当做内置对象直接处理的二进制或ASCII输入。可以自动包含调用，标志和标签以便在对象之间进行发送，并且处理与不同对象正确接口所需的会话元信息。此外，可以根据应用或用户的需要专门对输出流进行格式化。这些编程工具允许容易地建立多态会话处理。此外，扩充逻辑语句状态和操作符以适应会话查询的多样性，其中可以根据其ASCII/二进制内容、其经过NLU转换的查询(常规和会话子系统的输入/输出)或基于FSG的查询(其中系统使用受限制的命令)对查询进行比较。可以实现逻辑操作符以便测试或修改这种系统。所扩充的会话逻辑数值/操作符包含：从ASCII码的角度看，有：真，假，不完整，不明确，不同/相等，从NLU的角度看，有：不同/相等，从活跃查询字段的角度看，有：不同/相等，以及未知，不兼容和不可比。

并且，会话应用API层203还包括扩展基础OS功能和行为的代码。这种扩展包含高层抽象和与任何对象相关的抽象类别，抽象类别的自登记机制，记录，总结，会话搜寻，选择，重定向，用户定制，训练能力，帮助，多用户和安全能力，以及基础类库，下面会更详细地讲述上述各个扩展。

图2的会话式计算系统还包括一个在核心引擎会话引擎208(例如语音识别，NL分析，NLU,TTS和语音压缩/解压缩引擎)之间提供接口的会话引擎API层207和使用它们的应用。引擎API层207也提供与本地或远程的核心引擎进行通信的协议。一个I/OAPI层210提供一个针对诸如键盘，鼠标，触摸屏，小键盘等等的I/O资源211的接口(提供一个多态会话UI)和一个用于捕捉语音I/O(音频入/音频出)的音频子系统。I/OAPI层210提供设备抽象，I/O抽象和UI抽象。I/O资源211会通过I/OAPI层210在CVM内核层202上登记。

核心CVM内核层202包括诸如会话应用和行为/服务管理层215，会话对话管理器(仲裁器)层219，会话资源管理器层220，任务/调度器管理器221和元信息管理器220的编程层，该层次提供CVM层202的核心功能。会话应用和行为/服务管理器层215包括管理常规和可理解会话的应用200与201的功能。这种管理功能包含跟踪哪个应用被登记(本地应用和网络分布式应用)，应用的对话接口(如果有)是什么，以及各个应用的状态如何。另外，会话应用和服务/行为管理器20启动与CVM系统提供的任何特定服务或行为相关的所有任务。会话服务和行为是用户可以期待在应用和交互中发现的会话UI的所有行为和功能以及应用开发者可以期待能够通过API访问(在不必通过应用开发来实现的情况下)的功能。CVM内核202提供的会话服务和行为的例子包含但不仅限于会话分类与元信息，会话对象，资源和文件管理，会话搜寻，会话选择，会话定制，会话安全，会话帮助，会话划分优先权，会话资源管理，输出格式化与呈现，总结，会话延迟动作/代理/记录会话逻辑，和协同接口与设备(这里都会详细加以解释)。由会话应用API层203通过API调用提供这种服务。会话应用和行为/服务管理器215负责执行所有为使UI适应设备，应用的能力与约束和/或用户参数选择所需的所有不同功能。

会话对话管理器219包括管理所有登记应用之间的对话(包括语音与诸如GUI键盘，指针，鼠标，视频输入等等的多态I/O的会话对话)的功能。具体地，会话对话管理器219确定用户具有什么信息，用户提供了什么输入，以及哪个应用应当处理用户输入。

会话资源管理器220确定登记哪个会话引擎208(本地会话208和/或网络分布式资源)，各个登记资源的能力和各个登记资源的状态。另外，会话资源管理器220划分CPU周期分配或输入/输出的优先权以便保持一个正在与活跃应用(例如，用于识别或处理一个具有优先权的当前输入或输出的引擎)进行的对话。类似地，对于分布式应用，会话资源管理器220路由并选择被用来使活跃前台处理的任何网络延迟最小化的引擎和网络路径。

任务调度器/管理器221调度并协同分散(由用户和机器)在本地与网络常规和会话资源上的不同任务和进程(下面会详细解释)。元信息管理222通过一个元信息注册表218管理与系统相关的元信息。元信息管理器218和注册表218收集通常假定在会话交互中已知但在当前会话的层次上得不到的全部信息。例子是：先验知识：文化层次，教育水平假定和固定信息：过去的请求，参考资料，关于用户，应用，新闻等等的信息。这些信息通常是需要保存并保持超过会话历史记录/上下文的存在时间长度/寿命的信息和期待成为会话的公共知识的信息，因而这些信息从不在当前和过去的会话交互其间被定义。并且如下所述，针对命令，资源和宏的快捷方式由元信息管理器222来管理并且被存储在元信息注册表218中。另外，元信息注册表21包含一个基于用户身份的用户使用记录。应当理解，当被存储在元信息注册表218中并且与应用相关时，可以根据用户的使用历史记录裁剪CVM系统提供的诸如会话帮助和支持的服务以及某些对话提示(介绍，提问，反馈等等)。如果一个用户以前已经与一个指定应用进行交互，则在假定用户已经对其熟悉的情况下可以减少解释。类似地，如果一个用户犯了许多错误，由于多个错误被解释成用户对应用或功能不确定，不熟悉或不理解/误解，所以解释可以更加复杂。

对话管理器219管理一个上下文堆栈217。上下文堆栈217包括有关一个应用的全部信息。这种信息包含所有针对在对话的上下文环境中执行的后台程序和任何在对话其间发生的外部事件的变量，状态，输入，输出和查询。如下所述，上下文堆栈与对应于各个活跃对话(或延迟对话-代理/记录)、经过组织/分类的上下文相关。一个全局历史记录216被包含在CVM系统中，其中包含被存储在各个应用的上下文之外的信息。全局历史记录存储与所有应用和在一个会话对话期间采取的动作相关的信息(即，当前对话用户和机器之间的对话的历史记录或从机器被启动开始的历史记录)。

CVM内核层202还包括一个允许通过对话管理器219(而不是略过对话管理器219)访问后台业务逻辑213的后台抽象层223。这样就允许把这种访问加到上下文堆栈217和全局历史记录216中。例如，后台抽象层223可以把来自和来自对话管理器219的输入和输出转换成数据库查询。层次223会把标准化属性值n元组转换成数据库查询并且把查询结果转换成返回给对话管理器219的属性值n元组列表或集合。另外，提供一个会话译码层224以便根据运行CVM系统的设备的I/O和引擎能力修改呈现给用户的行为，用户界面和对话。

CVM系统还包括一个作为OS212提供的基础系统服务的一部分的通信堆栈214(或通信引擎)。CVM系统使用通信堆栈通过会话协议204发送信息，其中会话协议204扩展常规通信服务以便提供会话通信。应当理解，根据本发明在会话设备之间提供会话通信交换的一个实施例并且结合众所周知的OSI(开放系统互联)协议层次可以实现通信堆栈214。如本领域中所知的，OSI包括七个层次，其中每个层次执行各自在网络连接设备的网络分布式会话应用之间提供通信的功能。这些层次(其功能是易理解的)包括一个应用层，一个表示层，一个会话层，一个传送层，一个网络层，一个数据链接层和一个物理层。通过会话协议204扩展应用层以便允许会话通信。

会话协议204通常允许远程应用和资源登记其会话能力和代理。在IBM文档号为Y0999-113P，与本专利同时申请，标题为“提供网络协同会话服务的系统和方法”的专利申请中也公开了这些会话协议204，其中该专利申请与本发明有共同转让并且在此对其加以参考引用(其中在一个不利用CVM系统的系统中使用会话协议)。具体地，额外参照图3，会话协议204(或方法)包含分布式会话协议300，发现，登记和协商协议301和语音传输协议302。分布式会话协议300允许网络会话应用200,200a和网络连接设备(本地客户端及其他诸如服务器的网络设备)交换信息以便彼此登记其当前会话状态，参数(数据文件209)和上下文。分布式会话协议300允许在网络连接设备(例如客户/服务器)之间共享本地和分布式会话引擎208,208a。分布式会话协议300也包含对话管理器(DM)协议(下面讨论)。分布式会话协议允许交换信息以便协同涉及多个设备或应用的会话，这些设备或应用包含主/从式会话网络，同层会话网络，静音部件。可以使用分布式会话协议在网络设备之间交换的信息包括数据文件(参数)指针，数据文件及其他会话参数的传递(如果需要)，输入、输出事件和识别结果通知，会话引擎API调用和结果，状态和上下文及其他系统事件通知，登记更新：登记握手，协商更新：协商握手，和丢失一个请求资源时的发现更新。

另外，分布式会话协议300允许应用和设备交换其他诸如小应用程序，ActiveX构件，及其他可执行代码的信息，其中上述可执行代码允许设备或相关应用在主/从或端到端会话网络结构和包括静音部件的网络中的这种设备之间协同一个会话。换句话说，当多个CVM或可理解会话的多个设备以会话方式相连并且协同工作时，可以通过其中一个单独的接口(即通过一个单独的扩音器)同时控制这些设备。例如，语音可以通过一个唯一协同的会话接口自动控制一个智能电话，一个寻呼机，一个PDA，网络计算机，一个IVR，和一个车载计算机。可以通过另一个会话设备的会话接口控制静音部件。静音部件是一个可理解会话以便其能够通过API/协议与一个网络连接的CVM进行交互的系统。然而除了可能已经指定的功能之外，静音部件不向用户提供任何I/O。例如，通过能够被一个CVM发现，房屋内的一盏灯就变成可理解会话的，从而能够登记其会话状态(例如，其命令是：开灯，关灯)并且能够执行从一个CVM发送的命令。在这种形式下，这里远程UCRC(通用会话远程控制)的CVM远程控制能够下载由所有被发现的可理解会话设备支持的命令。因而用户可以简单地通过与CVM远程控制对话用语音控制这些应用。

在一个实施例中，通过RMI(远程方法调用)或RPC(远程过程调用)系统调用实现分布式会话协议300，从而实现应用与网络上不同会话引擎之间的调用。如本领域中所知的，RPC是允许一个应用向网络上的另一个应用请求一个接收方的协议。类似地，RMI是一个可以用来使对象在分布式网络中进行交互的方法。RMI允许一或多个对象随请求一起传递。

会话协议204还包括会话发现(检测)，登记，和协商协议(或方法)301。登记协议允许各个网络设备或应用交换并登记有关其会话能力，状态/上下文和参数的信息，从而把设备之间的数据传递限制成只传输有关信息并且协商出主/从或同层网络关系。静音会话部件(只可理解会话)与此类似(即，登记其能力等等。)并且可以通过一个会话代理服务器进行交互或充当一个CVM的客户端(即，静音部件在CVM设备上的使用会话登记)。

登记协议允许交换下列信息：(1)能力与包含定义和最新事件的负载消息；(2)引擎资源(一个指定设备是否包含NLU,DM,NLG,TTS，发声者识别，语音识别压缩，编码，存储等等。)；(3)I/O能力；(4)CPU，存储器，和负载能力；(5)数据文件类型(特定语境，词典，语言模型，语言，等等。)；(6)网络地址和功能；(7)关于一个用户的信息(定义和最新事件)；(8)用户对设备，应用或对话的参数选择；(9)定制；(10)用户经验；(11)帮助；(12)每个应用的能力要求(和应用状态)(定义和最新事件)；(13)关于CUI服务和行为的元信息(帮助文件，类别，会话优先权，等等。)(定义和更新事件，通常通过针对列表的指针)；(14)协议握手；和/或(15)拓扑协商。

使用诸如TCP/IP,TCP/IP29,X-10或CEBus的常规通信协议和设备之间的套接字通信可以进行登记。设备使用一个分布式会话体系结构向其相关的会话引擎和一个CVM控制器传送其会话参数(例如，活跃词汇，语法和语言模型，分析和转换/标签模型，语音印模，合成规则，基表(发音规则)和语音字体)。把这种信息当做文件、数据流或URL传递到CVM控制器和会话引擎(或如上所述，在设备间的信息交换层次上的说明性或过程性信息：对象和XML结构)。在一个实现登记协议的实施例中，当进行连接时，设备可以通过交换一组标志或一个设备属性对象用预先安排的协议(例如TTS英语，任何文本，语音识别，500个字和FSG语法，无发声者识别等等。)交换关于其会话能力的信息。同样地，应用可以交换引擎要求列表。对于主/从网络结构，主对话管理器可以编译所有列表并且用会话能力满足功能和要求。另外，可以通过指示传递或指向上下文堆栈/可以被控制器访问并且加入其上下文堆栈的设备或应用的历史记录来发送上下文信息。设备也传递关于其多态I/O和UI能力(有屏幕/没有屏幕，音频入和音频出能力，键盘，等等。)的信息。会话参数允许一个对话引擎根据当前状态和上下文估计NLU引擎是否适合进行一个新查询。

会话发现协议301被设备的自然联网的会话客户端230,230a用来自动发现本地或网络可理解会话系统并且动态且自然地网络连接这种可理解会话的系统。通过发现协议交换的信息包括如下：(1)广播用于握手或侦听请求的请求；(2)交换设备标识符；(3)交换第一次登记的句柄/指针；和(4)交换第一次协商的句柄。

此外，协商协议301允许在主/从或同层网络之间进行协商，从而在动态主-从和端到端交互中的多个CVM系统之间提供适当的协同。更具体地说，在登记时多个CVM设备会增加会话登记能力，关于其控制能力、它们要访问的会话引擎、它们已经登记的应用与设备和它们所控制的应用与设备的信息。根据其UI,I/O能力和活跃的I/O，一个CVM控制器变成主控制器而其它CVM控制器充当从控制器，其中从控制器作为已登记应用与主控制器相对等价，直到发生一次新的协商。根据活跃的I/O形态或设备或根据活跃的应用可以动态切换主和从的地位。

语音传输协议302(或会话编码协议)被语音传输客户端38,38a用来向其他网络设备，系统或应用发送/从其接收压缩语音以便进行处理。语音传输客户端38,38a使用适当的压缩硬件235,235a与压缩，解压缩和重构引擎234,234a配合工作以便处理通过网络发送的语音。语音编码器234,234a提供感观上可接受或可理解的压缩语音重构和优化的会话性能(例如，字差错率)。使用声学信号处理引擎(音频子系统)232,232a和适当的音频硬件233,233a在各自的网络设备上捕捉语音(并且转换成特征)。另外，可以在设备之间发送和接收压缩语音文件格式303以便处理语音。更具体地说，语音传输协议303允许设备向网络上的其他设备和应用发送并且从其接收压缩语音或本地处理结果。如上所述，会话引擎208(图2)最好包含用于压缩语音(或结果)的压缩/解压缩引擎234以便传输和解压缩通过网络从另一个设备或应用获得的压缩语音(或结果)并且进行本地处理。在一个实施例中，当一个发送设备和一个接收设备之间的握手过程结束之后，一个数据流(基于分组)被发送到接收器。分组报头最好指定用于对语音(或结果)进行编码的编码方案和编码参数(即，如在前面引用的IBM文档号为Y0999-113P的专利申请中讨论的采样频率，功能特征，向量维数，特征变换/系列)。还可以引入纠错信息(例如，如果损失或延迟了前面的分组则引入前面分组的最后特征向量以校正差分解码器)或适当的消息传送以恢复(再发送)出损失的分组。

如图9,10和11所示，会话协议204还包含用于在网络设备的对话管理器(DM)(下面会更详细地讨论DM)之间的信息交换的协议。例如如图9所示，在一个分布式应用(分布式应用200a)中，会话管理协议被用于交换信息以确定哪个对话管理器(219或219a)会执行一个指定功能。通常，不同设备，CVM或不同应用会具有其自己的对话管理器，上下文堆栈217,217a和全局历史记录218,218a。通过对话管理器DM协议(作为分布式协议300(图3)的一部分)，不同的对话管理器会协商出一个拓扑，该拓扑具有一个主对话管理器和从对话管理器或同层对话管理器。活跃的主对话管理器(如图9中对话管理器219所示)会管理到不同管理器的I/O流以判定活跃的对话并且适当执行一个查询和更新上下文与历史记录。例如，可以交换下列信息：(1)DM体系结构登记(例如，每个DM可以是一组本地DM)；(2)针对相关元信息(用户，设备能力，应用需求，等等。)的指针；(3)DM网络拓扑(例如，主/从，端到端)的协商；(4)在可适用，即使用由一个主DM控制的引擎的情况下的数据文件(会话参数)；(5)关于诸如用户输入，输出到用户的I/O事件、被传送到引擎和/或补充上下文的通知；(6)识别事件通知；(7)从引擎向一个主DM传送经过处理的输入；(8)向已登记DM传送主DM的职责；(9)处理结果事件的DM；(10)DM异常；(11)传送置信度和歧义结果，建议的反馈和输出，建议的期望状态，建议的动作，建议的上下文改变，建议的新对话状态；(12)判决通知，上下文更新，动作更新，状态更新，等等；(13)关于完成，失败或中断动作的通知；(14)上下文改变通知；和/或(15)因动作而导致的数据文件，上下文和状态更新。另外，动作，I/O事件，后台访问是被会话资源管理器和任务调度器管理器共享的信息。

图10和11图解了一个基于本发明的，用于会话管理的系统和方法。更具体地说，图10图解了各种设备/应用(1,k和N)的多个对话管理器(即主仲裁器和从对话管理器1,k和N)之间的一个分层对话。图10图解了一个典型的主从拓扑。如上所述，通过使用DM协议交换有关信息来构成拓扑。另一方面，图11图解了另一个主/从结构，其中只有主干(仲裁器)对话管理器执行一或多个应用或设备(1,k,N)的对话管理器任务。在这个情况下，主对话管理器仲裁器是唯一提供并维护全局上下文和历史记录(或者具有专用上下文和历史记录的分类)的对话管理器。DM协议导致在各个应用，设备和核心主对话管理器之间交换属性值n元组。

应当理解，即使在涉及多个设备/应用的情况下也可以通过一个单独设备上的一个单独对话管理器串行执行如图10所示的实际对话管理处理。两种情况之间的差异是：与针对每个专用于指定任务的实体使用一个会话完成多个会话任务相反，用户有通过一个完成多个任务的实体完成一个会话的感觉。通过DM协议可以协商所有这些拓扑，也可以根据用户参数选择，应用选项或CVM缺省设置设定这些拓扑。

现在参照图4，一个图例图解了基于本发明一个实施例的会话系统的详细体系结构和CVM系统的会话内核的核心功能模块。应当理解，图4的系统和附加的描述的图解目的是提供实现例子，并且本领域的普通技术人员可以想象到用于实现一个基于本发明的宗旨的CVM的其他构件或系统体系结构。此外，应当理解，所有这些单元可以被引入一个应用内的独立模式，或者在一个现有操作系统下的平台，或者作为一个围绕这些不同的新单元建立一个核心内核的真实CVM。通过CVM可以捕捉和实现对基础操作系统的常规调用，从而允许移植。在这个情况下，CVM被配置成现有平台的一个独立平台。

参照图4，一个基于本发明一个实施例的会话系统400通常包括由一个CVM401运行和管理的常规子系统和会话子系统的一个组合。CVM401包括一个任务调度器/控制器402，一个元信息管理器403，一个对话控制器404(或前面被称作对话管理器的设备)，一个上下文堆栈405，和一个会话子系统服务管理器406。应当理解，术语“CVM控制器”在这里可以被用来统一表示任务调度器/控制器402和对话控制器404。通常，CVM401通过把会话和常规输入流转换成多个动作来进行操作并且通过会话和/或常规输出流向一个用户产生分类输出。

会话系统400还包括多个会话资源子系统(引擎)407，该子系统包含一个语音识别系统408，一个发声者识别系统409，一个自然语言理解和自然语言分析系统410和一个文本-语音合成(TTS)系统411。应当理解，会话资源407也可以包含其他诸如一个NLG(自然语言生成)引擎的系统和一个音频子系统。如上所述，可以通过对CVM401的API调用访问所有这些会话子系统407。CVM401会定位所请求的会话子系统407(通过会话子系统服务管理器406)，驱动其运行并且适当地返回结果。应当理解，这些会话子系统407可以位于本地或分布在一个网络上，而且所有会话子系统调用对应用是隐藏的(虽然在开发者想要实现引擎407的一个特定行为的情况下引擎API总是可用于应用)。

会话子系统服务管理器406管理CVM401提供的所有服务，UI和行为(如这里描述的)。常规子系统服务管理器406管理一个基础操作系统(或者在没有基础OS的情况下的常规I/O系统)提供的所有服务和UI。

CVM401的核心是上下文堆栈405，其中在对话控制器404的控制下操作和管理上下文堆栈405(应当理解，上下文堆栈405直接涉及上述全局历史记录和元信息注册表)。通常，上下文堆栈405通过一个激活的会话(即，涉及一个指定任务/进程/线程的会话交互)累积每个活跃进程的上下文(即，属性值n元组和状态/模式的全部查询参数列表)以及输入理解可能需要的不同引擎的任何数据文件413(或至少是这种会话参数的标识符)(例如，引擎用来执行其各自任务、诸如活跃FSG，主题，词汇，HMM(隐藏马尔科夫模型)，语音印模，语言模型或针对一个语音输入的可能查询的文件或参数)。换句话说，术语“上下文”是指各个会话的状态(活跃或外来)，其中上下文跟踪过去的会话历史记录，其当前状态，具体特征，对应任务的全部查询参数(例如，各个活跃任务/进程的词汇文件，语言模型，分析，标签，声波纹，TTS规则，语法，NLU等等)和输入理解所需的任何数据。应当理解，在一个分布式CVM(如下所述)中，上下文堆栈(以及其他CVM构件)可以直接与网络服务(即，分布在网络上的服务)相关(如上所述，针对上下文和全局历史记录)。

更具体地说，各个新任务，进程，或线程产生一个新堆栈入口并且和一个会话相关。各个应用可以和多个会话(例如应用管理会话和应用内容导航会话)相关。与一个指定会话相关的各个上下文包括最近对对应进程/任务/线程作出的请求以及最近的输出。一个指定会话的上下文也与任何对应于实际查询的活跃语法，词汇和符号语言相关。并且，最近的信息被存储在历史记录和上下文堆栈中。过去的历史记录，上下文和其他信息由元信息管理器403管理并且被存储成元信息的一部分。

对话控制器404通过在上下文堆栈405中为每个分散在本地或远程网络设备上的任务/进程/线程产生一个新堆栈入口来管理上下文堆栈405(其中任务管理由下述任务调度器/控制器402控制)。各个应用可以和多个会话(例如应用管理会话和应用内容导航会话)相关。如上所述，与一个指定会话相关的各个上下文包括最近对对应进程/任务/线程作出的请求以及最近的输出。此外，一个指定会话的上下文与任何对应于实际查询的活跃语法，词汇和符号语言(属性值n元组)相关。上下文堆栈405与机器状态堆栈相关，使得对于来自一个用户的任何新输入，对话控制器404可以遍历上下文堆栈405直到可以适当建立输入上下文。这在本质上相当于从最近和过去的会话中发现和选择用户和机器之间的活跃会话。

任务调度器/控制器402调度并协同分散(由用户和机器)在本地与网络常规和会话资源上的不同任务和进程。任务调度器/控制器402本质上是一个资源分配机制，其中通常通过监视所有资源的负载和可用性并且把各种任务适当分配和切换到不同资源，上述机制调度激活的任务(无论是常规任务还是会话任务)并且控制各个任务，资源等等的状态。资源分配功能涉及确定各个资源的当前负载，各个服务和应用的需求，以及通过把任务调度到可以对其进行处理的资源上来均衡/管理总体系统以便优化总体系统负载和会话流。任务调度器/控制器402依赖常规系统管理过程(通过常规任务管理器417)和不同资源(通过上述发现，登记，协商，和分布式会话协议)交换的任何信息。任务调度器/控制器402跟踪这些资源并且在上下文堆栈405上的不同任务之间共享常规子系统(例如，GUI I/O和系统，视频识别引擎，等等。)和会话子系统407。另外，任务调度器/控制器402会利用基础操作系统的服务到管理和控制可以由操作系统在常规任务管理器417的层次上控制的常规任务。并且如上所述，常规操作系统可以在会话任务调度器管理器/控制器402的指示下执行任务管理。

任务调度器/控制器402把来自常规和会话子系统服务412,406的输入(通过选择活跃上下文的对话控制器404)馈送到上下文堆栈405，把不同任务输出到不同子系统并且对其划分优先权。任务调度器/控制器402还通过上下文堆栈405插入和管理具有代理/守护程序和记录任务形式的会话助理。任务调度器/控制器402根据活跃的会话与会话历史记录，延迟返回结果，网络资源授权，任务授权，总结和记录协同输出产生和划分优先权(下面会解释这些功能)。

对话控制器404管理所有会话和常规应用(在任务调度器/控制器402上登记)之间的对话(会话=语音并且多态：GUI，键盘，指针，鼠标，视频输入等)。如上所述，应用交换(通过API调用或协商协议)关于其状态，它们如何解释一个最近的输入，和这种解释的置信级的信息。对话控制器404管理并确定活跃的上下文和应用。该控制器也管理会话协议，其中应用通过该协议交换帮助对话控制器404确定处于活跃状态的应用，或在不能确定时激活一个小对话以消除歧义。

图5图解了对话管理器404的功能。如图所示，由CVM401管理不同的任务(任务1，任务N)和资源(会话子系统A-Z)。CVM401判定哪个应用处于活跃状态以及如何修改上下文(如前面针对对话管理器和会话协议所描述的)。在分布式应用中，通过按照上述对话管理器协议发送消息来执行这个功能。应当理解，对话管理器协议被用来在本地并行应用之间交换信息。管理多个(本地或网络的)在设计时对对话管理器和引擎是未知的对话/应用上的对话和上下文的能力被称作通用NL处理，可插入对话管理器和NL应用。

应当理解，应用可以直接向CVM401(通过上述CVMAPI)或操作系统(诸如JVM(Java虚拟机)的基础系统或一个诸如MicrosoftWindows的操作系统)发出调用。当通过CVM401进行调用时，通过任务调度器/控制器402对其进行登记并且由对话控制器404管理对话(可以是多态的，甚至可以没有任何语音输入或输出)。当完成对基础操作系统的调用时，对话控制器404会仅仅间接地与应用进行交互，即，常规调用由常规任务管理器417管理并且当被传递和/或任务调度器联合/命令常规任务调度器417时被任务调度器/控制器402加以处理。后者会在对话控制器404上登记应用并且更新任务调度器/控制器402知道的任何状态变化。在通过一个C&C(命令和控制)接口(或任何其他类型的语音接口)管理常规应用的情况下，对话控制器404通过在对话控制器404上登记来登记和控制应用对话。应当理解，这些是特别的情况。但是，通常在向后兼容或非会话应用不成问题时，对话控制器404会控制所有应用的对话并通过上下文堆栈405管理上下文。应当理解，CVM401可以重新实现所有的常规功能，服务和行为特性。在这种情况下，CVM401不充当一个常规操作系统上的平台，而是充当其自己的、用来捕捉所有常规调用的操作系统。

CVM401还包括一个元信息管理器403，该管理器管理诸如文件(或其他类似的、适于设备的、诸如记录或名称空间的实体)，目录，对象，与CVM401相关的应用，以及任何其他资源或对象(本地，网络等等)，和有关用户的信息(参数选择，安全习惯，生物测定，行为等等)的单元。元信息管理器403通过用抽象类别和元信息使这种单元和系统资源与高级会话抽象层次相关来管理这些单元。扩充对象表示以包括类似与各个对象相关的内容驱动元信息(例如安全特性(用户和作者)，文件与类似图画，图例，图像等等的抽象概念的关联)的高级知识表示。所有这些单元均与多个元信息类别中的一个或多个类别相关。由操作系统，应用或用户定义这些类别。通过指向类别定义和相关功能，或者通过把它们登记到这些类可以使各个文件，目录对象和应用与一个或多个已定义的类别关联。如下所述，抽象元信息可用于提供快捷方式，或自动提取并处理文件系统的单元或任何其他对象，资源或用户。

更具体地说，元信息管理器403使用具有多个类别的抽象元信息和协议管理文件系统。可以由资源的所有者/开发者或资源的以往用户/应用定义这些类别。有利的是，与常规文件管理系统相反，CVM401依赖关联存储器概念，其中操作系统通过三种主要形式捕捉有关文件的信息：(1)文件名的扩展名；(2)文件名的开头；和(3)文件内容类型(二进制或ASCII)(虽然这里描述的抽象类别概念可以显著改善这种常规文件系统)。在一个会话系统中，增加一个附加抽象层次以概括文件的内容或作用的特征。例如，各个文件可以和一组概括文件(通常一个GIF文件与一个缺省打开或编辑文件的软件应用相关联)特征的抽象类关联。另外，多个目录/文件系统显示缺省包含或不包含根据显示信息所得到的这些扩展名。为了利用任何自动处理，任何其他图像类型文件会需要在应用层次上登记，或者最好在操作系统层次上登记。反之，不正确或歧义文件扩展名经常会导致不正确的自动任务。另一方面，文件名开头传递更详细的、关于指定文件的内容和处理要求的信息。然而，当前类似MIME头的文件名开头通常只被用于应用类，例如电子邮件或诸如HTTP和HTML的协议和语言。

根据本发明，文件与抽象元信息相关。自动使用主题或图像分类符，或者明确根据应用，用户，平台等等可以实现这种关联。例如，图像，图画，电影，绘图的概念可以定义不同的抽象类别。所以可以通过这些独立于格式，扩展名，和/或文件使用的不同术语概括文件的特征。另外，CVM提供由应用开发者(接着进行登记)或用户(定制或使用)在应用上增加类别的能力。

应当理解，这些抽象也可以被扩展到目录，对象和应用，而不仅仅是针对文件。例如，类似链接，宏，快捷方式，甚至书签的概念可以和某些类别关联。相对于所有绘图应用或所有图像文件，这些类别允许显示所有财务应用或财务文件。

元信息管理器403会将任何在CVM平台上提供或建立的对象关联到一个双链接类别目录。应当理解，可以使用实现相同功能的其他实现。CVM平台包含一个关于所有已定义类别的注册表列表，其中由元信息管理器403管理该注册表。某些类别可以是依赖用户或应用的类别。通过使用CVM平台系统调用，一个用户或应用可以产生新类别和与这些类别关联的新对象。对于文件系统尤其是如此。此外，CVM平台或用户/应用通过系统调用提供的动态信息可以被增加到各个对象中：产生日期，使用日期，使用者，使用时间，使用频率，对象产生者，对象编译者。

根据对象，应用，用户或平台提供的信息可以索引一个对象的内容。这些索引是与一个对象相关的动态信息的一部分。可以在可能的运行时刻或以批处理模式完成索引和/或主题检测。

此外，应当理解，正象元信息可以被关联到可用资源那样，元信息，抽象和抽象类别可以被关联到各个被调度的任务和进程。除了进程和负载管理之外，这提供了很特定的任务选择。例如，通过一个会话请求，用户可以倾听一个任务的输出或者重新要求把一个任务的输入(例如扩音器)压到上下文堆栈中并且把一个wave文件或一个ASCII码文件附加到输入流中。类似地，举例来说，用户可以通过提供一个单独的重定向请求重定向到打印机，其中一个文件被发送到该打印机。

应当理解，在文件系统层次上使用抽象类别的概念最好被扩展到可被CVM操作系统使用或访问的任何对象和/或资源。同样应当理解，对于联网和分布式应用，元信息管理器403可以管理多个与非本地对象或资源(例如文件，目录，磁盘，对象，外设，应用等等)相关、由资源的所有者/开发者或资源的以往用户/应用定义的元信息类别。应当理解，实际上抽象类别不受一个具体资源是本地还是网络资源的影响，并且通过访问或连接到一个资源，该资源可以登记到抽象类别，甚至可以产生新的抽象类别。更具体地，可访问但未访问的对象必须登记其元信息，其中当一个机器与其相连时可以在本地进行登记处理，也可以登记到一个类似于DNS方案或名称空间管理器的服务器，其中登记其自身，其内容或其类别。当一个应用或对象被下载或被传送到机器(例如通过ActiveX,Java脚本，Java小应用程序，Vb脚本)时也在本地使用这个协议，从而允许一个应用自动登记/激活其抽象类别。使用登记协议(如上所述)在与一个远程系统相连时、或者通过一个元信息服务器(类似于一个DNS服务器或名称空间管理器)自动产生与新的非本地对象关联的新类别，其中上述服务器更新与一个对象或其内容相关的抽象类别目录。自登记机制允许从网络下载新对象或把新对象传送到网络以便传递其相关元信息并且使用相同协议进行本地登记。双链接目录和注册表可以被附加到平台目录。每当一个资源登记新类别时，指定新类别与该资源关联。当释放该资源时，清除对应的类别。

就象与本地对象相关的元信息那样，抽象元信息可用于快捷方式，自动提取或处理网络的非本地单元。在活跃抽象类别或登记资源集合内应当记忆这些资源，至少是记忆一段时间。通过指向类别定义和相关功能，或者通过把它们登记到适当的类，各个远程可访问非本地对象或资源可以和这些不同的类别关联。

例如，“watson”资源可以是指所有属于所访问的watson.ibm.com企业内部互联网、所有打印机资源或所有财务主页。当前，对于一个常规浏览器(或查看器)，针对页面或文件的URL可以被存储并且被用户人工分类。作为该方案的结果，会根据文件名开头格式或最初在HTML内(例如在符合当前HTML规范的指定注解字段内，或在一个适当的元标签内，或者基于一个附加的会话协议握手)包含的其他元信息自动产生或预订抽象类别。所以，当书签被访问或增加时会被自动分类。

元信息管理器403和注册表收集通常假定在会话交互中已知但在当前会话的层次上得不到的全部信息。例子是：先验知识：文化层次，教育水平假定和固定信息：过去的请求，参考资料，关于用户，应用，新闻等等的信息。这些信息通常是需要保存并保持超过会话历史记录/上下文的存在时间长度/寿命的信息和期待成为会话的公共知识的信息，因而这些信息从不在当前和过去的会话交互其间被定义。

统一数据流处理是一个通过元信息简化抽象分类并且允许分类出类似抽象类别，文件，对象，应用以及本地或网络资源的重要路径。

现在会更详细地解释当处理输入和输出数据流时在CVM401的任务调度器/控制器402，对话控制器404和上下文堆栈405之间的交互。应当理解，本发明在多个任务(具有多个语境)之间提供了具有上下文和混合主动分类的NLU接口。更具体地说，本发明提供了使用NLU,NLG和混合主动方式在具有多个语境的多个应用之间进行自然语言对话的能力。在这点上，各个应用会为CVM401提供其自己的分析和转换参数。如下所述，NLU引擎410可以顺序(表格填充)或并行(例如，过程性线程或并行会话对象/过程或并行表格)标记一个查询。执行第一个通过产生一个非歧义查询完成其对话的任务，并且在用户拒绝所识别的查询的情况下存储其它应用解释的对应查询以便激活。

应当理解，会话生物测定可用于收集任何上下文和有关用户的元信息，这样做不但是为了设定或适应用户参数选择或授权一个查询，也是为了使用信息执行更可靠的识别。因此，可以累积任何信息以便识别用户。即，常用查询短语，查询短语类型，命令频率(经常使用，不经常使用)，最优应用，时间或使用率等等。使用在标题为“使用非声学和/或声学模型进行发声者验证/识别/分类的装置和方法”的美国专利5,897,616号中公开的方法可以建立会话生物测定，其中该专利与本发明有共同转让并且在此对其加以参考引用。

现在参照图6，一个图例图解了一个基于本发明一个实施例的会话输入/输出接口。如图所示，一个基于本发明一个实施例的会话输入接口可以通过包含自然语言接口的电话600，键盘601，指点设备602，手写设备603处理多态输入，即文件/数据流/资源，语音。这意味着所有形态之间的所有输入和输出事件被捕捉并且被传送到对话管理器(还将其适当地存储在上下文堆栈中)。对来自一个语音客户端(例如电话600)的口语输入进行语音识别处理604，而对其它输入(例如，键盘，鼠标点击等等)进行NLU处理605。对各个输入进行属性获取(401a)处理，从而根据输入获取属性值n元组。执行一个总结处理401b，其中属性值n元组被加到上下文中并且根据后台应用608的语法验证查询是否完整，不完整，或有歧义。对话管理器和上下文管理也跟踪后台访问。有时可以通过向后台加载某些歧义消除能力(对话管理器的一个功能)向后台分配某些“智能”。单独地，各个输入流工作如常。关键的会话特性在于输入过程，其中可以根据NLU(提供对输入查询的自然语言理解)或FSG模式(与自由式自然语言输入相反，根据规则：语法和词汇约束输入)输入命令。通过补足遗漏字段或校正不正确的字段可以完成或校正活跃任务的命令或查询。同样地，CVM引入了不符合常规OS要求的新问题：合并同时的输入流，从而产生输入歧义。例如，输入现在可以混合键盘上的输入按键，手写输入和语音输入还有来自重定向输入流的可能输入。所以，本发明提供一个消除任何歧义的机制。按照前面引用的美国专利申请60/128,081号描述的方式可以实现这种机制。

根据本发明，输入问题被看成合并多个解码器输出，ASCII转录或一列属性值n元组的问题。各个输入流被转换成其ASCII转录并且通过语音识别处理604与输入时间标记对齐。当不同输入流与相同任务相关时，转录被合并如下。首先，根据时间标记对命令和查询进行分类并且附加到一个单独数据流上。可以根据FSG规则检查命令格式并且重新分类以满足语法规则。NLU查询不必需要重新分类。对于NLU查询，针对各个输入流填充符号字段并且在最终输入流层次上混合。诸如拼写和字母数字的参数不使用语法规则或NLU消除顺序歧义。类似地，时间标记被用于建立一个唯一的输入流。然而，输入被反馈给用户以便确认，其中使用一个取决于应用的词典或FSG规则库进行可能的预先过滤。

如上所述，对于基于网络的交互，各个机器登记网络中其他设备的任务调度器/控制器并且提供关于其会话能力的信息。换句话说，一个合格桌面PC会登记所有的会话能力，其中一个电话会自己(智能电话)或使其服务器(合格电话)登记成无显示器，无键盘，无输入笔，无指针的设备，一个PDA会登记成单窗口设备等等。在系统之间只交换有关的输入。

总之，输入过程提供一组多模式输入流，每个输入流被改写成一个ASCII命令，查询或属性值n元组列表。各个输入实体(命令，NLU查询字段或参数单位(隔离字母，字，等等。)与时间-标记关联并且相应被附加到一个混合输入流中。如果两个或更多输入流具有相同的时间标记，则根据各个输入流以前被构成的时间划分其优先权。参照可能的FSG和词典检查混合输入并且可以有选择地把输入反馈到用户。各个资源交换其会话能力并且输入流被裁剪成只交换相应的信息。

对于会话输出调度和接口，CVM401产生对文件/数据流/资源，显示(单窗口或多窗口，GUI，颜色，图像，电影)，音频的输出。单独地，各个输出流工作如常。然而，根据上下文堆栈405和任务调度器/控制器402，多个处理的输出可以同时在相同的输出流上发生冲突(例如相同文本模式显示器或语音合成器)。并且在若干输出流之间可以多路复用一个任务的输出。

各个输出流可以工作如常。可选地，输出可以是一个任务的输出或对话进程(例如，直接对话或混合主动对话)产生的输出。存在不同类别的输出流。例如，对于一个单通道输出(例如，哑终端(VT100或Palm Pilot屏幕)或纯音频输出)，所有使用这个资源的输出消息使用相同的通道(有时共享一个相同通道)(例如语音输出，单窗口/屏幕和/或文本输出)。对于多通道输出，每任务(例如Windows GUI)的输出均有一个单独的通道。根据内容堆栈405和任务调度器402分配的优先权对多个任务针对单通道资源产生的输出流进行排队。当一个单通道输出被提供给用户时，事件变成活跃并且被压到上下文堆栈的顶端。多通道输出不划分优先权，但被异步更新，并且没有把任务弹到堆栈顶端。

应当理解，根据由任务分配但可以被用户修改的输出句柄，各个任务的输出可以被多路复用到多个输出流。对于基于网络的交互，各个机器会登记网络中其它连接设备的任务调度器/控制器以便提供有关会话能力的信息。例如，如上所述，一个合格桌面PC会登记全部会话能力。一个电话会自己(智能电话)或使其服务器(合格电话)登记成无显示器，无键盘，无输入笔，无指针的设备，一个PDA会登记成单窗口设备(例如Palm Pilot)等等。在系统之间只交换有关的输出。

应当理解，所有输出，尤其是语音输出，可以被用户定制和编程。类似于可以为文本显示选择字体，可以选择通过语音产生输出。在这种情况下，我们说出语音字体。使用会话格式化语言准备更复杂的会话表示。总之，CVM401提供一个根据上下文堆栈405和任务调度器402把多个任务的输出排列成单通道输出的机制，并且提供了一个甚至在多路复用的情况下也可以重定向或修改分配给各个输入流的资源的机制。各个资源交换其会话能力并且输出流被裁剪成只交换有关的信息，其中包含输出语音字体的选择和包括GUI事件及其他音频内容的会话呈现的格式化。

现在更详细地解释CVM401的输入/输出处理。如上所述，CVM401必须适当地组织各种活动。例如，基本系统调用必须分散多个涉及不同子系统的动作。这种动作包含执行一个任务，侦听新输入，和产生一个输出/反馈。举例来说，任务调度器/控制器402会根据上下文堆栈405决定使用不同的、必须进行一次查询的统计分析器以便对话控制器404识别活跃上下文并完成查询。必须适当地对这些动作划分优先权以便执行完整查询和更新上下文堆栈405，向用户提供有关不完整或有歧义查询/命令的反馈，允许新输入被解码并且遍历上下文堆栈405，以及返回执行或运行进程的输出。

任务调度器/控制器402通过会话参数使各个任务或设备与一个会话引擎关联。当每个应用或设备有一个引擎时，各个应用或设备的NLU引擎可以并行(过程性线程)或串行(表格填充)工作(如上所述)。当多个设备/应用共享相同引擎时，需要NLU引擎与过程性线程并行工作。由各个被激活的任务根据会话参数拒绝一个新查询或确定其可能性。被拒绝或恢复几乎不可能的查询导致对话控制器404遍历上下文堆栈405以便寻找下一个可用上下文。在上下文堆栈405中存储一个活跃任务的各个动作，完成的查询和会话参数，以及每个返回值/结果。另外，在适当的情况下一个返回值和结果会启动传递上下文。

任务调度器/控制器402把各个命令/处理分解成多个动作，启动具有适当优先权的相关线程/进程并且在上下文堆栈405内部关联/插入这些动作。任务调度器402分配各个资源，在不同的分散动作之间共享这些资源并且控制到达和来自资源的句柄和数据流。任务调度器402根据形态(指针，键盘，文件，语音)把数据流重定向到适当的会话子系统或常规子系统，其中语音输入被改写/理解。使用这些子系统的输出遍历上下文堆栈405以选取活跃的查询并且完成查询。另一方面，根据各个任务的优先级对输出进行排队并且把输出顺序调度到输出资源上。

在有或者没有被激活的会话的情况下各个新(活跃)任务/进程/线程在上下文堆栈405中产生一个新的堆栈入口。上下文堆栈405与机器状态堆栈相关，使得对于来自一个用户的任何新输入，可以遍历上下文堆栈405直到能够适当建立输入上下文。这在本质上相当于从最近和过去的会话中发现和选择用户和机器之间的活跃会话，其中可能回溯历史记录。现在更详细地解释选择过程。另外，各个任务与一个混合主动层相关联。该层可以象相当于在操作系统中一个命令行的使用信息的会话那样简单。对话控制器404会首先在命令查询的语法层次检查一个用户命令查询是否完整或没有歧义。被认为不完整或有歧义的命令会通过类似方式以某个优先级(对所涉及的应用是最高优先级)被返回到适当的会话引擎407，该引擎会产生一个针对遗漏或有歧义信息的请求(提示)并且更新上下文(所请求的遗漏字段)。当不能更好地构成提示(例如传统应用)时，也可以简单地通知请求不完整或有歧义。

另一方面，完整和无歧义命令会产生某些结果(例如，输出或动作)。通过类似方式以某个优先级把这些结果返回到适当的会话引擎407并且更新上下文，除非象在常规系统中那样由用户进行重定向。然而，由于在对结果进行重定向时会导致部分混合主动的通知，重定向会更加复杂。如下所述，可以通过一个会话助理来加以实现。这样会使通过常规系统实现的方式极其复杂并且可能会需要把输出重定向到一个专门编写的脚本。命令也可能需要用户在根据来自CVM平台，应用或用户参数选择的优先顺序/设置执行任务之前进行确认。

以逐个上下文遍历堆栈的方式完成/搜寻活跃上下文。即，对话引擎通过遍历堆栈对新查询或参数进行比较，直到获得一个可接受的匹配并且可选地得到用户的确认。当发现一个在NLU符号语言层次上与发言匹配的上下文后，该上下文变成活跃并且对应的进程活跃。直到完成活跃的命令，或者直到提供一个新命令，所选择的上下文被标记成活跃并且被推到上下文堆栈405的顶端。当一个消息被返回给用户时，上下文被更新并且被推到上下文堆栈405中低于活跃上下文的顶端位置。更新活跃上下文以便通知存在一个返回值。当遍历堆栈之前也可以在取代CVM对话的会话层次实现这些操作，其中上述会话可以在堆栈内或总是在堆栈外，并且在活跃上下文之后搜寻到上述会话。同时，被完成的任务产生根据CVM优先权(例如FIFO或FILO)被排列在活跃上下文后面的上下文。充分完成并产生一个任务的活跃上下文会被压到低于下一个或所有返回上下文的堆栈位置。也可以变成活跃会话。可以自动进行这种处理，也可以在用户发出命令时进行。这种堆栈结构允许和多个任务，线程或进程保持无歧义的会话交互。

如果请求是完整的，则会处理请求，当请求不能被撤消时挂起可能需要用户确认的请求。否则，混合主动方式被用来继续完成或校正查询/命令。每当一个命令/请求取得进展时，在上下文中打开选项以供用户拒绝会话。这样会意味着恢复以前的堆栈状态(和程序状态)并且遍历堆栈。用户则必须明确请求在堆栈中向上回退。如果在执行或把执行通知传到用户之前用户拒绝或立即完成他/她的输入，新输入被附加到活跃发言中并且重新从堆栈顶端开始搜寻。用户在建立活跃上下文之前提供的任何其他发言被存储在缓冲区中并且被认为是对活跃发言的附加(语音发言或任何其他模式的输入)。根据语音，键盘，鼠标，任何其他输入或命令与应用输出更新上下文堆栈。

基于本发明的CVM401提供的一个特别有用的功能是“会话记忆”。会话记忆是延迟并返回到一个由用户，平台或特定应用分配的任务和上下文的能力。通常，由用户启动的指令/命令被明确发送到系统的后台。这种命令可以导致启动被赋予某些特定任务或功能的守护程序或代理。它们还可以导致记忆，其中CVM凭借记忆“记录”一个命令或事件，报告或加以执行并且在由用户选择或缺省设置的特定时间(例如在对话结束时)返回到用户。所以，可以重定向一个输出或后台任务以便在一个后续的时间提供其结果。常规代理被激活。常规后台任务和代理的差异是，当提示或结果被返回到用户时，恢复在记忆请求时生成的会话上下文。在发生记忆时，获得上下文堆栈405的抽样并且将其存储成与被记忆任务相关的元信息。当所记忆的任务与用户交互时重新组织上下文堆栈405。根据从启动任务到完成任务之间上下文和对话的演变产生的中间变化，通过由用户或应用开发者编程或由CVM强加的可能更新，存储当前上下文堆栈并且把旧的上下文堆栈加到堆栈顶端。当完成用户与被记忆任务之间的交互时，通过返回到一个以前的上下文把以前的上下文堆栈加到堆栈顶端。当增加上下文堆栈时，在堆栈底部消除任何重叠。用户，平台或应用可以决定只保存堆栈的存储部分。会话助理执行这种任务。通过简单地运行其自身并且只在产生输出时与用户重新交互的代理和守护程序可以实现这些操作。根据任务的优先级将其输出发送到用户。当变成活跃时用户可以容易地更新与代理相关的任务。会话记忆更适合作为被插入到堆栈底部并且只在对话结束并且堆栈被清空时才执行的任务。有时它们可以被插入到堆栈中较高的的位置或者在预定时刻被推到堆栈的顶端。只在活跃时才执行记忆任务。记忆功能提供记忆过去的动作，优先顺序和指令的能力。

如上所示，记忆节省了一次为恢复与提示相关的会话对活跃上下文进行的抽样。然而在进行记忆时能够总结针对用户的会话和上下文也是重要的。为此，一个应用(和/或用户参数选择或CVM平台作出的某些决定)的应用开发者可以提供应当被总结并且在被填充时被提供给用户的字段(即属性项目)。这些字段在与系统的各个变量/属性相关的元信息中被存储成额外字段。通常，应用开发者还可以描述应当如何寻址各个字段(使用一个可用的抽象名称)以代替用其实际变量名称或属性标志进行寻址的方式。接着在应用作出决定(应用的再激活)时启动总结，也可以由用户或CVM的查询启动总结。总结处理会搜寻活跃的进程，恢复上下文并且总结“填充与查询相关的属性n元组的状态”。总结任务是一个类似于任何其他应用的CVM服务，依靠该服务用户可以和总结应用对话以获得更详细的信息，也可以在时间上进一步回退以便进行总结。这就象说出“回到应用X”或“您在叫我做Y”那样简单，更复杂的方式是根据对话历史记录更详细地回退。

CVM401提供的另一个功能是会话重定向。由于易于重定向Unix进程的输入和输出，会话重定向也执行相同的功能。然而，由于在对数据流进行重定向时会导致部分混合主动的通知，重定向会更加复杂。使用会话调用可以使用优先权级别区别处理结果之间的输出和用户通知。

并且如上所述，元信息，抽象和抽象类别可以被关联到各个被调度的、提供特定任务选择的任务和进程。例如，通过一个会话请求(或通过按下键盘上的按键或点击鼠标或提供一个按键)，用户可以倾听一个任务的输出或者重新要求把一个任务的输入(例如扩音器)压到上下文堆栈中并且把一个wave文件或一个ASCII码文件附加到输入流中。类似地，举例来说，用户可以通过提供一个单独的重定向请求重定向到打印机，其中一个文件被发送到该打印机。

根据选项/优先顺序的配置，系统负载或系统的能力，任务调度器/控制器402可以决定在网络处理器上执行任务或延迟某些任务直到另一个处理器可用于理解输入，激活和能够理解输入，或者在网络上有一个能够执行这种任务的设备可用。通常，一个低端手持设备上的延迟听写会遵循这个模型。而且在任务中记忆任务并且逐个对话地进行记忆直到服务器端活跃并且能够进行改写。类似地，任务调度器/控制器402可以管理一个本地机器和一个服务器机器之间的共享接口。例如，一个名称拨号器应用可以被加到一个会话智能电话上。经常使用的名称被本地存储和识别。另一方面，未知名称或以前从不使用的名称被发送到一个能力更强的网络机器以便识别并接着下载更新的信息(要拨打的电话号码等等)。类似地，本地存储的全部信息可以周期性地进行同步以便更新电话号码信息。这个本地对基于服务器的识别的处理被任务调度器402隐藏。网络共享任务被用户当做若干独立于执行任务的机器的会话来管理。这是对针对所有事务处理的所有平台上的统一CVMAPI的用作的一个说明。这类似于在前面引用的IBM文档号YO999-113P中描述的、使用会话协议在网络设备之间提供会话服务协同的方法和系统。另外，一个分布式体系结构和介于客户端和服务器之间的分布式处理对会话网络产生新的要求。这种要求涉及管理分布在网络上的传输流和资源以保证参与网络上一个会话交互的各个用户有适当的对话流程。在IBM文档号YO999-113P中描述的单元在这里是被用于网络上的会话交互(例如，维护对话流程的服务器负载管理，基于任务，功能，能力要求，会话参数可用性(数据文件)，会话协议，提供一个具有允许重构播放的间隔的编码协议的音频RecoVC(兼容识别语音编码器)的引擎服务器选择，等等)。

应当理解，任务调度器/控制器402提供相对于常规OS是全新的调度行为，其中常规OS不这里描述的CVM方式共享会话和常规子系统。实际上，对于一个常规系统，文本输入在一个窗口内部总是连续的，并且与唯一一个的任务相关。通过一个键盘处理多个同时任务并且处理一个唯一窗口内显示的文本的能力会要求这里描述的大部分会话调度原则。任务调度器处理有关维护对话流程的事项，因而使网络和CPU负载造成的任何延迟最小。任务调度器会划分CPU周期，可用网络路径和资源的优先级以保证对话的延迟对于可接受的水平的最小的。当一个引擎变成瓶颈时，该引擎接受更多的CPU周期(较高优先级，直到被收回)。并且，这涉及会话式计算。当一个网络路径变得速度很慢时，会找到另一个路径或另一个资源以便最小化延迟。否则，会警告用户可能有响应延迟。活跃对话的对话流程是CVM的一个优先权。所有连接用户的活跃对话的对话流程和最小化延迟是通过网络中路由器网关和服务器上的CVM进行优化的功能。

会话CVM系统提供的另一个功能是“会话安全”，其中涉及本地或远程文件，尤其是可执行文件的作者和/或修改人的元信息可被用于安全目的。具体地，对于基于语音的会话系统，由于各个命令不但传递查询的方式，而且传递用于用户使用认证的足够信息，不依赖文本的发声者验证可用于识别和验证用户。通过这种方式，每当对受限制资源进行一次查询时，可以根据有关该资源的安全元信息对用户进行自动(和透明)认证。如上所述，针对用户查询和历史记录收集的全部信息可用于帮助用户识别(ID或验证)。

可以直接根据请求或使用在查询之前刚获取的非过期信息进行认证。具体地，可以通过逐个查询的方式对文件或应用访问进行授权。例如，如果一个用户请求一个受限制服务，可以根据预先被授权访问该特定服务的用户集合对请求进行验证。通过根据请求(例如，文件访问，目录访问，应用打开，可执行程序，连接，加密/解密，数字认证/签名)执行的开集发声者识别可以进行认证。在没有明确的登录或口令认证的情况下可以无缝访问具有不同口令或与一个类似用户相关的用户ID的资源。无论如何，在用户对话过程中可以连续并透明地进行非强制用户认证。

根据即使没有语音输入也可以实现会话VM的思路，上下文堆栈应当包含用户的身份以作为最近鉴定的身份。另外，各个资源应当包含授权用户目录以及某些安全要求(例如，在非语音的情况下最近认证的截止日期)。当然，也可以考虑基于敲键和输入笔的认证，但绝不是强制的。

各个资源还可以记录/高速缓冲各个试图访问它们的用户的身份。这些记录可以被加密并且以后被用来识别针对以前访问的资源的访问请求。具体地，操作系统可以截取来自一个外部源的口令请求并且以对用户透明的方式使用记录完成请求。新资源可以传递一个登录请求并且同时登记其元信息，使得即使是登录处理也可以对用户完全透明。这是对单一签名或口令窗口(vault)概念的扩展。

CVM提供的另一个功能是“会话定制”，其中可以根据用户请求程序的参数选择单独定制对各个任务或资源的访问。例如，可以根据一个已识别用户的参数选择自动定制CVM的个性特征/行为(例如合成的语音-语音字体)。直到用户明确退出CVM实例(即终止对话)，定制和参数选择才被冻结。这种系统或应用是多用户的，但每次只处理一个用户并且仅此一次，直到下一次登录为止。

如上所述，对于会话安全，每当对一个资源进行一次查询时可以对用户进行自动识别。可以直接根据请求或使用在查询之前刚获取的过期信息进行认证。根据活跃用户的顺序划分任务和上下文的优先权，并且每当用户顺序发生改变时重新划分优先权。可以在不需要重新设置整个环境的情况下根据用户身份的变化在“运行时刻”修改环境变量和参数选择。可以使用用户身份在各个上下文或上下文堆栈的层次上消除歧义。在分布式情况下，对于用户或服务器变化，不论是从客户端向服务器加载上下文还是恢复服务器上保存的上下文或在服务器之间传递上下文，均应当更新上下文。

会话VM可以动态适应多个用户的参数选择和活跃上下文。它允许多个用户同时活动运行。在一个基于语音的系统中，各个命令可用于进行不依赖文本的发声者识别。用户的任何改变自动隐含产生一个新的活跃上下文，该上下文在上下文堆栈中把以前的上下文压到后面，除非新用户或活跃应用明确放弃新的活跃上下文。用户改变自动改变上下文堆栈中的优先权以便产生处理与活跃用户相关的任务。

由于在各个会话的上下文中可以关联用户身份，可以立即并且透明地消除命令歧义(以独立于用户的方式正确理解来自我的母亲的电子邮件)。通过与相同用户相关的会话可以较好地增强遍历上下文堆栈405的处理，除非会话所有者，相关应用或某些选项放弃处理。在遍历上下文堆栈时这个规则出现的异常可以自动暗示会话被标记成多用户的。如上针对会话安全所述，通过诸如人工选择或由用户输入他或她的身份的可选过程可以获得用户身份。改变活跃用户身份也对会话安全子系统有影响。各个资源可以记录对其进行访问的用户的身份。

总之，应当理解，对于会话多用户和会话安全，对话，类别，元信息，和资源访问可以是一个关于用户身份及其相关元信息历史记录的函数。反之，通过一个查询收集到的会话信息可用于识别用户。在执行各个动作或访问之前和之后可以查询和更新与各个对象相关的元信息。当一个对象被产生，修改或查询时，关于用户的信息被加到其元信息中，使得元信息包括与各个对象相关的安全和参数选择字段。根据其内容，产生日期，访问历史记录，修改及其他元信息访问一个对象。不但根据用户身份而且根据类似日期，使用历史记录，被打开的应用等等的附加元信息对访问进行控制或配置。换句话说，可以允许个人访问一个文件，其中该文件被打开并且显示在屏幕上或者被播放或执行。然而，拒绝个人打开文件将其内容复制到另一个对象中。另外，可以通过不可删除的方式把元信息标贴到一个对象上。

CVM提供的另一个功能是“会话搜寻”，其中搜寻能力不仅基于文件的名称，修改或ASCII内容，还基于操作系统，应用或用户定义的抽象类别，以及操作系统可以通过在线或离线方式提取，或者在对象被访问时通过协议获得的主题。另外，上下文搜寻能力可以被用来完成活跃查询或选取类似查询/上下文。

具体地，可以根据与各个资源相关的抽象类别搜寻资源。这些类别可以被定义成此前在元信息上下文概念中描述的那样，也可以根据上下文关联定义这些类别。搜寻如上所述的目录中的所有图像相对较为简单，而搜寻“类似图像”则取决于上下文关联：在目录的所有图像中，哪些图像已经被用于一个类似的上下文(例如，被以类似于用来编辑当前图像的应用的方式加以分类的资源打开，编辑或包含等等)。通过对各个资源/对象访问进行上下文记录/高速缓冲来执行上述处理。现在类别还可以包含关于其自身的元信息。另外，不但可以根据类别或上下文类别进行搜寻，也可以根据用户访问进行搜寻(并且不象常规操作系统那样单纯根据对其进行修改的用户的身份)。

最终，可以根据字片段，字，字主题或上下文搜寻可转存介质的ASCII，音频和任何其他集合。主题涉及识别主题文本的能力。上下文搜寻涉及在文本中搜寻与活跃上下文或候选上下文类似的上下文以完成当前活跃查询/上下文的能力。例如，可以选取与指定的星期二有关的所有文件，同时明确搜寻关键字“星期二”或实际日期。提示“明天”的、有关星期一的日历条目也会返回这些条目。

当计算机不太可用时可以对文件进行离线主题确定。只应当检查新的或最近修改的文件。主题被自动加到与各个资源相关的元信息上。根据定义上下文信息总是非常消耗CPU的任务，因而只在用户明确请求时才执行这种任务。对于外部对象，当访问资源时可以自动登记主题(如上所述)。这不禁止本地机器在对象中搜寻其自己的内部抽象(通过有关其自身的元信息定义)。

还提供了“会话选择”功能。在资源管理器层次或依赖元信息，抽象和会话查询/混合主动/校正的任何应用内部提供会话选择能力，从而避免较长的基本选择操作序列并且提供自然的快捷方式和选择校正。提供通过层次结构访问并且立即呈现对象框架的各种机制。

具体地，应当理解，根据本发明并且使用从中选择一个活跃任务或应用的层次搜寻(基于抽象的选择)和复杂查询能力(基于对话的选择)的一种组合可以实现会话选择。会话选择对常规选择方法提供了重要改进。实际上，即使在GUI环境中，通过使用元信息和抽象类别也大大改进了指定应用的可用资源显示。更具体地说，通过基于抽象的会话选择(使用抽象和快捷方式)，个人可以按照与语音查询(IVR中)通过DTMF接口略过菜单页面的方式类似的方式略过菜单和层次选择。从提供效率的角度讲，这是会话接口提供的一个主要优点。其中也说明接口的统一性表现在可以通过独立于被用来访问一个服务的形态的方式使用相同接口(例如，通过一个桌面PC，一个PDA或电话)(例如，在前面引用的IBM文档号YO998-392P中讨论的CML)。

例如，考虑一个从数据库检索信息并且提供具有用于Web浏览的HTML格式和一个使用JSAPI和会话扩展建立的会话头的信息的后台服务器。当通过常规浏览器形态访问服务器时，个人可以通过点击或说话来显示信息并且选择期望信息。如果个人通过电话形态访问服务器，则通过一个包括URL和锚形标志的导航菜单进行用户选择。根据网页通过会话HTML发送到浏览器的元信息产生这些导航菜单。

在所有这些情况下，可能通过各种补充方式中的一个方式适当提供用于导航的菜单或对象与资源的任何其他层次结构，其中根据使用网页或文件系统作出的选择来进行上述导航。例如，在登记一个网络对象时，菜单可以传送有关其结构的元信息。此外，系统可以在本地跟踪元信息使之与具有结构(在IBM文档号为YO999-111P，与本专利同时申请，标题为“通过通用层次对象有效进行语音导航的结构框架”的专利申请中详细描述了会话结构框架，其中该专利申请与本发明有共同转让并且在此对其加以参考引用)的结构(框架)的各个对象关联。此外，在CPU的非峰值使用其间系统可以周期性地更新其框架信息。

系统可以周期性地扫描任何本地或外部资源和层次对象。可选地，在具体对话结构中，各个系统可以预订可访问资源并且在访问时周期性地更新框架元信息。此外，元信息服务器可以执行扫描并且和元信息一起提供框架信息。

这种元信息描述如何为菜单(TTS)提供需要使用的词汇，FSG和NLU等等。另外，在不需要象基于常规OS和GUI的选择所产生的后台跟踪或全新选择的情况下，混合主动方式和NLU可用于校正选择。

所以，对于会话搜寻和选择，可以根据常规结构(类似一个具有目录的文件系统)，元信息，被平台应用或用户关联到对象的抽象类别及其相关的动态信息搜寻或选择对象。另外，可以通过自然方式提供搜寻查询并且可以使用混合主动方式缩减搜寻查询。使用NLU技术可以对查询进行解码，分析并且将其转换成查询的一个逻辑组合(符号查询)。接着可以搜寻常规结构，类别和动态信息以匹配符号查询。根据搜寻结果，混合主动方式可用于缩减并修改查询。可以挑选或接受匹配的对象。

CVM提供的其他功能是会话帮助，指南和支持。会话接口一个最引人注目的方面是其平滑使用这种系统的学习曲线的能力。实际上NLU和混合主动方式有助于指导用户使用各个应用并且控制系统。然而，更重要的是能够在其执行任务时为用户提供支持。在用户有请求时会话支持提供帮助和指南。它依赖应用的用户使用历史的历史记录和具有类似分类(元信息)类别的历史记录。根据用户以前的动作，本发明的帮助功能会是详细(例如，用户从未执行任务，用户最近没有执行任务，或用户在执行这个任务时总是失败)或简单的提示(当用户熟悉此操作时)。当用户执行任务时，一个支持助理同时跟踪应用指南。助理跟踪并且使用遗漏字段，歧义请求，系列校正和被拒绝的命令以加强具有帮助对话的混合主动方式。应当理解，当被存储在元信息注册表218中并且与应用相关时，可以根据用户的使用历史记录裁剪CVM系统提供的诸如会话帮助和支持的服务以及某些对话提示(介绍，提问，反馈等等)。如果一个用户以前已经与一个指定应用进行交互，则在假定用户已经对其熟悉的情况下可以减少解释。类似地，如果一个用户犯了许多错误，由于多个错误被解释成用户对应用或功能不确定，不熟悉或不理解/误解，所以解释可以更加复杂。

通过NLU请求，混合主动方式，基于主题的搜寻和多态教学提供范围包括从混合主动方式/使用支持到对指南的会话访问(本地和通过网络)的不同帮助程序和形态。可以采取涉及本地或远程代理的会话技术支持形式(例如，升级或重新安装以及后台应用)。帮助接口的统一性和协同性总是具有最高的重要性。

应当理解，通过使用访问帮助信息的NLU查询或根据与当前用户(历史记录)相关的元信息和遗漏或通过混合主动方式修改的参数可以访问帮助信息。调整各个应用提供的对话使之适应用户的偏好或技能水平。

总之，使用本地和远程资源，用户和代理的使用历史记录并且通过一个完全协同的会话接口提供帮助和支持，从而完成请求，过程指导，信息搜寻和新应用的升级/安装。

下面是有关被用来实现上述CVM的编程语言/脚本的更详细讨论。这种编程/脚本以便允许把任何可用资源用作输入或输出流。通过使用CVM平台的会话子系统，各个输入被转换成可以被程序设计语言当做内置对象直接处理的二进制、ASCII输入或属性值n元组(或等价说明-字节或XML)。自动包含调用，标志和标签并且在对象和会话元信息与不同对象正确接口所需的进程之间发送。可以根据应用或用户的需要专门对任何输出进行格式化。现在可以使用新的编程工具容易地建立多态会话处理。编程/脚本语言为会话系统体系结构中出现的会话子系统：语音识别/发声者识别/会话系统的输入或输出提供类似于文件或数据流处理的处理。这些输入流被处理成实际上通过系统调用来实现的库调用。应当理解，从CVM的角度看，一个如前面引用的IBM文档号Y0998-392P所描述的会话浏览器可以被认为是一个会话应用，也可以认为其构件(例如XML分析器)和插件是包括会话应用的会话引擎的一部分。

来自一个扩音器的语音输入(例如标准语音输入)可以是具有字序列，电话，用户身份或查询的功能调用参数(NLU提供的符号语言表示)。也可以通过手写或文件等等提供输入。产生的各个输入流可以被看成是一个面向对象上下文中的导出类。

在使用平台脚本的情况下，使用一个会话子系统服务处理发言并且在产生动作之前通过脚本处理发言。一个常规命令和控制环境(例如通过语音的语音中心)可以被看作一个通过会话脚本产生的相对简单的会话平台。通过修改脚本，平台也会被修改。实际上使用常规C/C++代码建立语音中心，在代码深处隐藏了输入处理，命令识别和执行。可以在平台内部设置上下文，音频状态等等以便更新环境或全局变量。并且如上所述，会话对象/构件和基础类可以是过程性或说明性的。

上述基于本发明一个方面的输入处理认为语音或任何其他输入流被包含成典型的输入/输出流，上述输入/输出流易受通常为字符或二进制输入保留的所有形式的处理的影响。通过改写或者在经过分析和NLU之后映射成符号语言可以表示用户输入。此外，也可以通过脚本/程序设计语言完全控制输出。可以根据消息选择或设计，修改语音字体。通过使用这种会话编程语言和脚本，可以建立复杂的重定向，会话处理器或多态会话处理器。存在对常规字处理器和图片/照片/视频编辑器的自然多态扩展。包括CVM的基础类如上所述。

此外，当与其他对象交换输入流时，重要的是以无缝方式为数据流补充会话元信息以便对输入流进行导航，控制或合成。当与其他对象或子系统通信时，通过系统功能调用在本地完成这种处理。网络对象通过类似HTTP/HTML；TCP/IP的其他远程协议或不同形式的套接字交互进行通信。使用能够交换这个会话元信息的标签，标志和信号灯补充这些协议。

从根本上讲这种编程语言是新的会话工具，这种工具可以具有新脚本语言的形式并且是对PERL和Kshell,C和C++，HTML,Java脚本，Basic,Java以及现在被称作口语PERL的语言等等。还可以通过磨合(scratch)建立语言以便优化会话基础类库和对话构件(过程性或说明性)库在CVM顶端的解释(脚本/说明性)或编译(过程性)。

如上所述，编程语言/脚本包括会话应用和CVM之间的会话API。它也包括如前面引用的国际商业机器公司文档号为YO998-392P的专利申请所描述的CML(会话标记语言)。值得讨论过程性API和协议与CML(XML和HTTP)之间的差别以及对传送协议产生的变化。过程性API把CVM暴露给可理解会话的应用。过程性API和协议允许在CVM，应用和设备之间更快地交换会话信息，并且允许控制器更快地确定各个应用状态，而上下文交换需要过程性接口。在另一方面CML是符合XML的目的的、向会话浏览器传递呈现资料/内容的理想方式，并且具有减少开发对话所需的编程技能的优点。

在一个如前面引用的专利申请中描述的会话浏览器类型的接口中，在页面之间交换XML，但由浏览器通过API/协议管理页面之间和多个同时任务之间的上下文。实现可以是根据以串行化对象交换(使用XML)为基础的、基于纯套接字(TCP/IP)的Corba/Java RMI。最好把协议设计成支持XML(说明性)和过程性通信。

在会话脚本提供的可能性中间，会话逻辑大概是最引人注目的。在新会话编程语言的层次上对被提交和馈送到常规和会话子系统的输入流进行直接处理隐含了新的逻辑语句和操作符。

逻辑语句可以是下列语句：(1)真，(2)假，(3)不完整，(4)有歧义，(5)从ASCII的角度看，不同/相等，(6)从NLU的角度看，不同/相等，(7)从活跃查询字段的角度看，不同/相等，(8)未知，(9)不兼容，和/或(10)不可比。可以引入会话逻辑操作符以便测试或修改这种语句。总之，扩充逻辑语句状态和操作符以适应会话查询的多样性，其中可以根据其ASCII/二进制内容或其经过NLU转换的查询(常规和会话子系统的输入/输出)对查询进行逻辑比较。可以实现逻辑操作符以便测试或修改这种系统。

现在参照图7，一个图例图解了针对基于本发明一个方面的一个分布式CVM的体系结构。分布式系统的核心是CVM704(可以位于一个服务器，PC等等上面)，CVM704充当多个应用706，设备708-713，其他CVM应用或设备707和会话资源705之间的会话仲裁器。CVM704在这种设备和应用之间提供一个协同统一的会话接口，其中不同会话设备708-713，资源705，应用706利用该接口可以通过我们的会话协议进行连接。由多个会话连接的设备/对象提供一个协同接口。对象集合通过CVM704的集中或分布式上下文堆栈为用户提供了一个单独的协同接口。会话设备可以包含静音部件，其中可以通过另一个会话设备的会话接口控制静音部件。在登记期间，它们会在请求支持的上下文目录时进行交换。在连接期间更新这些上下文。根据连接把上下文集中或分布在设备上(即，网络是协商式的)。

当一个用户与设备集合交互时，总可以通过一个诸如汽车中的PVA(个人车辆助理)710的中央单元或一个语音浏览器713进行交互。任务调度器和上下文堆栈累积与所有设备相关的上下文并且会分析命令并把命令相应分配到各个设备上。如果用户与整个设备集合交互，则一个设备始终是活跃的(上次被激活的上下文)。这个设备检查一个新命令是否适合其上下文堆栈。即使不适合，传送到一个变成活跃的相邻设备。迭代处理，直到发现一个匹配并且可能得到用户的证实，或者请求被返回第一个设备。在这种情况下，向用户返回一个错误或混乱消息。

如上所述，CVM通过提供以下能力允许用户与系统对话：管理多个会话，使用上下文，通过抽象和元信息引用对象，分配和记忆任务，抽象和上下文，为用户定制，总结，帮助用户，甚至帮助不熟悉的用户，识别和鉴定用户，在有或者没有显示，GUI,keyboard或定点设备的所有交互中提供相同的接口。在加上或减去与通道无关的功能的电话，Web,PDA，桌面PC上进行相同的交互。

例如，一个用户可以远程访问关于一个电子数据表格的一个单元的信息并且在必要时修改该单元，同时还检查其电子邮件。用户可以选择以常规方式执行所有这些任务(在其桌面PC的前台)，也可以选择在不用查看的情况下通过语音检查电子数据表格信息，同时还完成录入一个电子邮件。在所有情况下接口对用户均是相同的。

当多个设备会话相连时，它们会协同其接口以便可以通过统一的CUI控制所有设备。通过下列例子可以说明这个概念。假定一天夜里你正开车回家并且记起你的配偶叫你到一个新食品商店购买某些商品。在发现你的电话应答机上的消息之后，你使用一个语音识别软件在你的桌面PC上快速把消息改写成一个备忘录。然而，你忘记打印或将它传递到你的PDA上。由于在你的汽车中有一个会话PDA，一个会话汽车PC(PVA，个人车辆助理)和一个会话智能电话，在你的桌面PC运行一个CVM的情况下便不会有什么影响。进一步假定PVA运行一个嵌入式CVM并且两个其他应用是可理解会话的，即你可以通过在PVA上运行的CVM控制它们。

你可以指示PVA使用电话拨入你的PC。一旦连接建立，通过语音对你进行鉴定，并且在不必记起文件名、目录或浏览你的目录并最终选择适当文件的情况下，你通过简单地请求你以前产生的“食品目录”以语音方式找到备忘录。如果你的PC CVM请求如此，你可能需要确认选择。你可以提出另一个查询-“应当与我的PDA同步”-并且文件被适当链接以便在下一次同步时被传送到你的PDA。最后命令-“干吧！”-并且你的PC放弃处理而由PVA处理有歧义的查询。PVA根据你以前的会话知道你期望同步PDA和PC。在可能的确认之后，执行同步并且食品目录被存储在你的PDA上以备稍后使用。

你现在指示PVA指导你一步一步到达商店。计算你的位置，从本地或一个服务器得到商店的位置，并且计算出一个线路以便考虑到最近的交通信息。任何时候你都可以请求有关你在哪里，下一步做什么，要走多远的导航信息，甚至可以请求一个不同的线路。

如果时间紧迫，你指示PVA拨打商店转接服务器。这可以导致一个具有目录支持服务IVR的中间对话。一旦连接到商店IVR，即以类似当前主页的方式建立的小型商业概念实例或个人用户IVR，你通过与商店的会话接口对话发出订单。为此，你请求PVA慢速浏览食品目录并且为你逐项朗读。接着重新向IVR陈述请求并且继续对话直到适当发出各个订单。

在你到达商店时，你的订单已经就绪。现在你可以开车回家并且在开车时安静地倾听你的电子邮件或检查新闻或股票行情。如果需要，你可以拨入你的PC以便查询或修改某些电子数据表格信息。同样你会在处理你的邮件时在你的桌面PC上对其进行语音查询。你还可以把任务分配给你的PVA或桌面PC上的代理以便请求更新或稍后提示。

对于运行在桌面PC和PVA上的CVM和了解智能电话和PDA的CVM，应用开发者必须只挂接到CVMAPI上。它导致登记所有其会话能力和要求：

1．活跃词汇，有限状态语法和控制应用的语言模型；

2 在支持NLU或列出一个上下文状态目录的情况下的符号映射；

3 被关联的有关元信息/类别，尤其是允许针对输出进行分类的元信息/类别；

4 会话I/O信息：是否直接控制输入/输出或是否一个静音部件，一个会话I/O提供方的客户端；和

5 CVM能力/状态：是否运行一个CVM；是否一个CVM客户端；是否一个主CVM，从CVM或配套CVM。

在前面的例子中，PVA是主CVM。如果配备CVM，则PDA和智能电话是从CVM，或者只是了解CVM。当PVA会话连接到PC时，需要PVA的应用开发者判定PVA是否充当主CVM，从CVM或配套CVM。当在本地或通过电话连接时，设备交换由API传递的必要信息，从而完全定义了设备间的协同关系。并且CVM自动处理所有的输入/输出发起方，其中包含会话和常规子系统。并且API传递CVM的全部信息以便把查询转换成应用调用，反之在输出被提供到用户之前把输出转换成语音并且加以适当的分类。

开发者使用开发工具可以容易地围绕会话API和CVM建立他的应用。这个开发环境(这里被称作口语时代“Spoken Age”)允许程序员仿真CVM，调试应用或网络协议并且快速开发会话用户界面。口语时代包含CUI和针对CVM开发的应用。它也提供修改针对指定应用的引擎的数据文件(会话参数)的环境。具体地，这意味着口语时代在工具层次上也包含类似象IBM通过语音工具包那样的SDK工具包的常规引擎前台程序。这意味着它提供的工具包和算法允许用户针对一个指定任务重新建立，调整或扩展数据文件。这导致根据数据收集规则收集应用数据并且运行适当的脚本以便产生数据文件并测试性能。这可以导致下载数据文件或一部分专用于任务，语境或声学环境的数据文件(来自CD ROM或Web站点)。这还可以导致根据查询更新数据，其中通过填写表格并且描述新应用/指定数据例子对一个数据文件生成服务机构进行上述查询。

一旦在一个平台上针对一个特定通道开发一个应用，程序员可以依赖口语时代把应用移植到任何其他支持CVM的平台上。他们还可以使用CVM自动调整其针对通信通道或新平台或设备产生的UI约束的会话能力。换句话说，现在可以依靠CVM的电话能力通过电话对一个为通过桌面PC进行语音访问而编写的电子数据表格进行语音访问。并且，一个用口语时代编写的、基于Java,CGI和XML/HTML的Web站点可以立即被转换成一个通过电话或使用小型嵌入式会话浏览器访问的受限制语音标记语言提供的IVR。

分布式系统还包括一个会话浏览器713，这是一个可以与CVM配合工作的、引人注目的语音应用。会话浏览器可以运行在CVM顶端并且在呈现一个CML页面的同时解释CML以建立一个会话对话。如图7所示并且如前面引用的IBM文档号为Y0998-392P的专利申请所描述的，会话译码器一个把类似HTML或DB2的常规格式译码成XML的会话译码器代理可以访问传统应用700。会话浏览器解释CML(会话语音标记语言)，该语言是一个基于XML规范的语音标记语言。该浏览器可以被看作一个运行在CVM顶端的、最引人注目的应用。会话浏览器可以携带其自己的CVM的独立应用。CML允许缺乏经验的应用开发者快速开发会话式对话。为了进一步跟上HTML和环球网，CML和会话浏览器提供了一个简单并且系统的，围绕传统企业应用和传统数据库建立一个会话用户界面的方式。此外，一旦在CVM顶端建立，这个机制可以在由用户在多个应用(本地和网络)和设备(本地和网络)之间进行的会话中包含这些应用，服务和事务处理。当用户访问一个传统应用，其PC上的一个会话应用或一个在服务器端运行会话浏览器或会话应用的IVR时，该机制也为用户提供相同的用户界面。使用会话代理把HTML对话转换成CML允许使用相同页面驱动PC或嵌入式设备上的常规或多态浏览器和IVR应用。在配备一个电话卡的服务器上适当设计的主页也变成一个个人IVR。尤其是在使用会话代理把HTML页面译码成CML页面时。

尽管通过API提供CVM并且CVM和分布式资源会通过API和过程性协议最有效地进行交互，但重要的是扩展交互协议使之包括HTTP和XML/HTML交换。实际上，HTTP和XML交换，或串行化对象对于一个单独的或连续的会话事务处理是足够的。选择最优协议和允许XML交换的选项使对话设计简单得只需要很少的编程知识。另一方面，过程性调用允许通过多个同时会话应用非常有效地得到本地或分布式实现。有效会话平台能力需要API接口。多个会话应用上的有效对话管理器需要在不同子系统，应用和所涉及的CVM实体之间交换过程性对象。

下面是本发明一个使用如图8所示的、也被称作UCRC(统一会话远程控制)的UCA(统一会话设备)的应用的一个例子。UCA或UCRC是涉及会话协议的多个方面的CVM设备的一个例子。UCRC是一个具有自联网能力的语音便携PDA。这种联网能力可以是RF，特殊技术(例如蓝牙，跳跃联网)或IR。在家庭环境中，设备现在可以理解会话(但通常是静音部件)。这意味着不同设备可以被发现并且交换以会话方式控制的必要信息。不同设备具有类似的网络能力。在简化的情况下，由一个使用类似X10的固定网络的“家庭控制器”类型的接口直接控制。在这种情况下，UCA更倾向于直接和家庭控制器会话。

UCRC周期性地(很经常)通过会话协议801(如上所述)广播握手(发现)请求。各个设备(或家庭控制器)在检测到这种请求时作出应答。任何新发现的设备标识其自身。UCRC也标识其自身。最终的握手导致一次登记。登记包含标识设备的性质和名称(和任何其他元信息)以及设备是一个静音部件的事实，登记接着会导致一次协商。

在这种情况下，协商立即同意由UCRC驱动会话。新发现的设备交换其当前状态和在该状态下支持的命令。当支持有限数量的命令时，也可以发送其支持的其它状态和与这些其他状态相关的命令。这些等于预先发送一个结构框架。当状态的结构太复杂时，每当状态改变时会以逐个状态的方式处理这种信息。

交换处理导致交换一列在激活时把返回句柄/事件回送到设备的命令和所有必要的数据文件：-词汇，基表，对话的提示/语音字体，语法，可能的分析，转换，标签，针对NL接口的符号语言和语言产生规则。可选地，信息可以涉及会执行会话引擎任务的其他引擎(例如，一个会执行语音识别任务等等的服务器)的地址。在激活并且从用户得到输入时，UCRC CVM确定相关的设备。这可以基于使用不同设备(如IBM文档号YO999-113P所述的本地或远程设备)支持的命令得到的识别结果。

当作出决定时，事件/返回句柄被激活并且在相关设备上执行命令。这导致状态改变。新状态被传送到UCRC。也更新有关UCRC的上下文。根据框架或所支持的命令的一次新交换更新命令。当一个设备临时从网络消失时，在设备仍然由UCRC控制的情况下信息被存储在上下文中。可以根据时间(多长时间以前最后见到该设备)、位置(元信息)或通过元信息(如果被撤消)进行这种操作。当重新激活时，从上下文或元信息中重新加载大部分信息并且协议只检查更新。

当一个设备被明确地从所控制的目录中清除时，停止签收请求可以明确来自设备或UCRC。当以常规方式(常规TV遥控器或灯光开关等等)控制设备时，事件被返回到UCRC以便重新登记/重新协商或仅仅更新上下文，数据文件和设备状态。

注意当一个家庭控制器被使用时，协议实际上是相同的，除非两个模型可以：

1)只登记一个应用：家庭控制器。任何设备改变或任何命令均导致家庭控制器总体状态的改变；

2)在UCRC上登记所有单个设备。家庭控制器只充当一个在设备和UCRC之间发送和译码协议的网关。

当考虑一个家庭控制器模型时，可以扩展UCRC提供的功能。可以通过一个合格无线LAN(以太网，针对被连接到家庭控制器的基站的RF)代替自联网。当超出范围时，家庭控制器解决方案提供了可以通过合格电话(例如调制解调器类型的连接)进行呼叫的优点。在这种情况下，可以通过电话交换所有协议。所以一个新UCRC拓扑是：一个当处于范围内时具有本地或自网络能力并且当超出家庭控制范围时具有二进制连接到基站的能力的蜂窝电话/UCRC。

可选地，UCRC能力还可以被复制或限制到家庭控制器机器上。当被复制时，如果机器可以通过电话卡提供语音浏览能力或本地家庭IVR能力，则在不需要一个经过交换会话协议的客户和服务器的二进制连接的情况下可以通过电话以语音方式从任何地方控制家庭设备。UCRC和会话协议更适合介于家庭控制器和设备之间。可以使用任何合格的电话。在第二种情况下，服务器通常也会被用来控制家庭设备。UCRC更适合作为一个便携I/O系统：捕捉音频，压缩并传送(会话编码)到家庭控制器。以类似方式把输出传送到UCRC以便播放。现在在家庭控制器服务器上完成所有的实际CVM处理。

现在参照图12，一个图例图解了一个可以使用这里描述的构件和功能构造的会话网络系统。应当理解，基于本发明的会话式计算在不同设备的联网方面隐含了新要求。这意味着在所有协议，负载和传输管理，以及网络高速缓冲和存储中主要考虑的目标不仅仅是保证负载或传输的均衡，也要优化在网络上交谈或使用网络资源的用户的所有活跃对话的对话流程。换句话说，会话分布式体系结构对优化增加了新的附加约束或考虑：对话延迟和流程，发送音频(会话编码)时的延迟，同步语音和GUI构件(实际上，一个GUI输入必须产生一个事件和由UI的一个语音构件和一个GUI构件构成的一个同步/协同行为)和更新与交换基础会话协议(协商，对话管理器协议等等)。如果期望在本地和/或网络上进行无缝和透明的处理，这个方面起着重要的作用。对于VoIP而言，服务质量，带宽，最低延迟，最低分组损耗仍然重要。

另外还存在充分传递数据文件的问题，对于特定任务和适当的引擎范围而言需要进行这种传递。并且这需要网络上的高速缓冲或存储，特别精确的传输管理和负载管理。并且，甚至没有针对只注重发送器和接收器之间的传输流程的VoIP提出一个概念。另外，在网络中可以适当预先存储，高速缓冲或复制框架信息(即对话逻辑)以便改进效率。

在图12所述的系统中，基于本发明的客户端设备1000(配备CVM系统或对话管理器能力)通过使用路由器1004连接经过PSTN1002和因特网/企业内部互联网1003可以从一个服务网络提供商网络1001访问期望的信息。路由器1004和因特网/企业内部互联网网络1003提供了会话网络服务扩展和包含以下内容的功能：分布式会话协议(上述)，通过RecoVC(兼容识别语音编码器)进行的音频编码，应用和元信息(分布式应用协议)，发现，登记，协商协议，维护对话流程的服务器负载管理，维护对话流程的传输均衡和路由，基于任务功能，能力要求，会话参数可用性(数据文件)，会话参数(分发：存储)的引擎服务器选择，传输/路由和高速缓冲。在任何如图12所示的网络(因特网，蓝牙，无线网络等等)中，以及在一个会话应用服务或内容、交易提供商的企业内部互联网上，网络会具有内容服务器，后台逻辑或业务逻辑服务器，会话引擎服务器，网关，路由器，代理，IVR(例如类似一个声卡)和服务器浏览器，其中根据由会话网络原则产生的优化在资源之间连续交换音频和数据文件。

因此，需要在所有这些实体(服务器，客户端，网关，路由器等等)上提供CVM构件或会话服务以便交换用于执行会话网络测量，传输，管理和执行不同功能的消息。通常在现有协议和系统的顶端执行这些功能以便在网络中完成负载均衡，传输均衡，存储和高速缓冲等等。

虽然这里已经针对附图描述了说明性的实施例，但应当理解，本系统和方法不仅限于这些详细的实施例，并且本领域的技术人员在不偏离本发明的范围和宗旨的前提下可以进行各种其他的改变和修改。所有这样的改变和修改确立被指定包含在如所附权利要求书所定义的本发明的范围内。

Claims

1．一个会话式计算系统，其中包括：

一个接收输入查询的多态会话用户界面(CUI)；

处理输入查询并且根据输入查询产生对话的会话引擎；

一个根据输入查询管理对话和与应用相关的上下文并且管理会话引擎的会话内核；和

一个在应用和会话内核之间提供一个接口的会话应用程序接口(API)。

2．如权利要求1所述的系统，其中会话API包括会话基础类和基础对话构件的库函数，可以访问这些函数以便构造用于执行会话过程或建立会话应用的会话对象。

3．如权利要求2所述的系统，其中会话基础类和基础对话构件包括CUI建立模块，会话平台库，对话模块，对话脚本，小程序，会话原语或其组合。

4．如权利要求2所述的系统，其中以说明性和过程性方式中的一种方式实现会话对象。

5．如权利要求1所述的系统，其中会话内核是一个在操作系统和实时操作系统中的一个的顶端运行的平台。

6．如权利要求1所述的系统，其中系统在个人计算机平台，服务器平台和嵌入式设备平台中的一个平台上运行。

7．如权利要求1所述的系统，其中多态CUI包括多个输入/输出(I/O)资源和一个用于和多个I/O资源接口并且在会话内核上登记多个I/O资源的I/OAPI。

8．如权利要求7所述的系统，其中I/OAPI层包括I/O抽象，用户界面抽象，设备抽象或其组合。

9．如权利要求1所述的系统，其中多态CUI包括统一自然语言理解(NLU)接口和自然语言生成(NLG)接口中的一个接口。

10．如权利要求9所述的系统，其中NLU和NLG接口提供上下文和混合主动方式。

11．如权利要求1所述的系统，其中会话内核包括：

一个管理应用之间的对话并且根据输入查询选择一个活跃对话，上下文和应用的对话管理器；

一个为会话任务管理并分配会话引擎的资源管理器；

一个协同和调度会话任务的会话任务调度器；

和

累积一个会话任务的一个活跃会话的一个上下文的一个上下文堆栈，上下文包括查询参数，一列属性值n元组和会话状态。

12．如权利要求11所述的系统，其中上下文堆栈还包括上下文的一个全局历史记录。

13．如权利要求11所述的系统，其中还包括一个管理元信息注册表的元信息管理器，元信息包括多个与单元相关的抽象类别，这些类别包括文件，目录，对象，数据流句柄，网络，外设，硬件，应用，网络文件系统或其组合。

14．如权利要求13所述的系统，其中元信息被用来提供针对单元的快捷方式。

15．如权利要求13所述的系统，其中元信息还提供有关参数选择，安全，习惯，生物测定，行为或其组合的用户信息。

16．如权利要求1所述的系统，其中会话内核通过一个会话引擎API控制和访问会话引擎。

17．如权利要求11所述的系统，其中会话内核还包括一个通过对话管理器访问后台逻辑的后台抽象层。

18．如权利要求7所述的系统，其中会话内核包括一个根据I/O资源和会话引擎的能力对行为进行调整，提供呈现给用户的CUI和对话的会话代码转换器。

19．如权利要求11所述的系统，其中还包括与可理解会话的系统交换信息的会话协议，上述可理解会话的系统包括远程应用，远程设备，远程会话式计算系统或其组合。

20．如权利要求19所述的系统，其中会话协议包括用于交换信息的分布式会话协议，所交换的信息包括会话状态，会话参数，上下文，会话引擎API调用，结果或其组合。

21．如权利要求19所述的系统，其中会话协议包括用于自动发现可理解会话的系统的会话发现协议，会话发现协议包括广播握手请求，交换标识符，交换第一次登记的句柄和交换第一次协商的句柄。

22．如权利要求21所述的系统，其中会话协议包括交换信息以便在系统和可理解会话的系统之间协商出网络拓扑的会话协商协议。

23．如权利要求22所述的系统，其中会话协议包括用于交换和登记有关会话能力，会话状态和上下文的信息以便把数据传递限制成只传输有关信息并且协商出网络拓扑的会话登记协议。

24．如权利要求11所述的系统，其中会话内核层提供通过会话应用API使用系统调用可以访问的会话服务和行为。