CN1321296A - 通过会话虚拟机进行会话式计算 - Google Patents

通过会话虚拟机进行会话式计算 Download PDF

Info

Publication number
CN1321296A
CN1321296A CN99811618A CN99811618A CN1321296A CN 1321296 A CN1321296 A CN 1321296A CN 99811618 A CN99811618 A CN 99811618A CN 99811618 A CN99811618 A CN 99811618A CN 1321296 A CN1321296 A CN 1321296A
Authority
CN
China
Prior art keywords
session
conversational
user
context
cvm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN99811618A
Other languages
English (en)
Other versions
CN1171200C (zh
Inventor
丹尼尔·考夫曼
利安·D·康莫福德
史蒂文·V·德贞纳罗
爱德华·A·爱波斯坦
波纳尼·格帕克里什南
斯蒂芬尼·H·梅斯
戴维·纳哈莫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
IPG501 Health Care Co., Ltd.
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN1321296A publication Critical patent/CN1321296A/zh
Application granted granted Critical
Publication of CN1171200C publication Critical patent/CN1171200C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/50Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
    • G06Q50/40
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/285Memory allocation or algorithm optimisation to reduce hardware requirements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4936Speech interaction details
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4938Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals comprising a voice browser which renders and interprets, e.g. VoiceXML
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/72445User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality for supporting Internet browser applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/60Medium conversion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2203/00Aspects of automatic or semi-automatic exchanges
    • H04M2203/35Aspects of automatic or semi-automatic exchanges related to information services provided via a voice call
    • H04M2203/355Interactive dialogue design tools, features or methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/74Details of telephonic subscriber devices with voice recognition means
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/42204Arrangements at the exchange for service or number selection by voice
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/44Additional connecting arrangements for providing access to frequently-wanted subscribers, e.g. abbreviated dialling
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4931Directory assistance systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M7/00Arrangements for interconnection between switching centres

Abstract

一个会话式计算系统,该系统在多个了解会话的应用(11)(即使用会话协议“谈话”的应用)和常规应用(12)之间提供了一个统一协调的多态会话用户界面(CUI)(10)。了解会话的应用(11)通过会话应用API(13)与一个会话内核(14)通信。会话内核(14)根据其登记的会话能力和要求控制应用和设备(本地和联网)之间的对话并且提供统一的会话用户界面,会话服务和行为。会话式计算系统可以建立在一个常规操作系统,API(15)和常规设备硬件(16)的顶端。会话内核(14)处理所有的I/O处理并且控制会话引擎(18)。会话内核(14)使用会话引擎(18)和会话参数(17)把语音请求转换成查询并且把输出和结果转换成口语消息。会话应用API(13)传达会话内核(14)的全部信息以便把查询转换成应用调用,反之在输出被提供到用户之前把输出转换成语音并且加以适当的分类。

Description

通过会话虚拟机进行会话式计算
本申请基于1998年10月2日提交的美国临时专利申请60/102,957号和1999年1月27日提交的美国临时专利申请60/117,595号。
本申请涉及会话式计算系统和方法。更具体地,本发明涉及一个CVM(会话虚拟机),其中CVM可以被实现成独立的OS(操作系统)或在能够针对常规平台和应用提供向后兼容的常规OS或RTOS(实时操作系统)的顶端运行的平台或内核。这里所描述的CVM向应用开发者公开了会话API(应用程序接口),会话协议和会话基础类,提供了一个通过管理对话与上下文,会话引擎与资源实现会话式计算的内核层,并且提供了跨越具有不同会话能力的平台和设备的会话协议/通信以便实现统一的CUI(会话用户界面)。
当前,由于主流体系结构,平台和OS根本上都是基于GUI或围绕GUI内核而建立的,基于GUI(图形用户界面)的OS(操作系统)在PC(个人计算机)和工作站领域占有绝对优势。当然,除了诸如IVR(交互式语音响应),UI主要是语音和DTMF(双音多频)I/O(输入/输出)的电话应用之外,最普遍的信息访问和管理应用均是围绕GUI模式而建立的。另外,结合诸如主机或非常专用的系统的旧体系结构使用其他非GUI的UI。通常,对于GUI模式,用户和机器之间的用户界面是图形方式的(例如Microsoft窗口或Unix X Windows)并且通过把各个进程显示成单独的窗口来提供多任务,其中可以通过键盘,鼠标,和/或诸如笔的其他指点设备输入到各个窗口(尽管在不直接与用户“交互/接口”时可以隐藏某些进程)。
GUI推动并促进了从分时主机到单个机器及其他诸如服务器,后端接收器和体系结构的同层设备的模式切换。基于GUI的OS已经被广泛地应用于常规PC客户服务器模型中以便访问和管理信息。所访问的信息可以是设备的本地信息,因特网或专用企业内部网的远程信息,个人所有并且位于多个个人PC,设备和服务器上的信息。这种信息包含内容资料,事务管理和生产工具。然而,我们正看到一个偏离常规PC客户/服务器模型的新趋势,这种趋势是访问和管理针对数十亿彼此互连、普及运算客户(PvC客户)的信息,从而允许用户从任何地方,在任意时刻并且通过任何设备访问和管理信息。并且这种对信息的访问使得信息接口同样独立于所使用的设备或应用。这个趋势与设备的小型化成对出现并且其能力和复杂性出现惊人增长。同时,由于电话仍然是最普遍的用于访问信息的通信设备,对于通过电话广泛访问和管理信息的期望也变得更加强烈。
不幸的是,对这种信息的访问受到可用设备或接口的限制,并且不同设备的基础逻辑完全不同。当然,满足嵌入式领域的种类和约束与其它对等领域,即PC,工作站和后台服务器没有可比性,嵌入式领域向UI提出了真实的挑战。此外,增加PvC客户端复杂性并且连接更加强制的输入和输出接口会显著减少GUI的效果。当然,PvC客户端更经常地被配置在移动环境中,其中用户希望进行免提或免看式的交互。即使是对于提供某些强制显示能力的嵌入式设备,GUI也会使小型显示器过载,独占有限处理能力和CPU资源。另外,这种GUI消耗并分散了努力使用这种强制性接口的用户的精力。此外,更多近来提出的对在任意时刻从任何地方通过任何设备访问和管理信息的普适接口的需求揭示出GUI的局限性。
最近,在使用计算机的各种应用中出现了语音命令和控制(语音C&C)UI。的确,近来语音识别作为电话IVR(交互式语音响应)接口的一部分在紧包装零售产品及其逐步介绍方面的成功表明语音识别会成为关键的用户界面单元。例如,电话公司,呼叫中心和IVR已经实现了自动完成某些任务,减少其操作员要求和操作费用并且加速呼叫处理的语音接口。然而,目前IVR应用开发者只是提供其自己专用的语音引擎和API(应用程序接口)。对话开发需要复杂的脚本编制和内行的程序员,并且这些专门的应用通常不能在提供商之间移植(即,各个应用制作辛苦并且针对特定的业务逻辑)。
另外,使用能市场供应的、针对听写与命令和控制的连续语音识别应用已经实现了针对基于GUI的OS的语音接口。然而这些语音应用本质上只是对基于GUI的OS的增补,在某种意义上这种应用允许对键盘和鼠标进行细微的替换并且允许用户改变控制焦点,加载新任务并且向拥有控制焦点的任务提供语音命令。当然,所有当前提供这种语音接口的提供商和技术开发者均依靠引入语音或NLU(自然语言理解)作为命令行输入来直接取代键盘或指点设备以便激活并选择GUI菜单。在这种应用中,语音被认为是一个新的附加I/O形态而不是人机交互的根本变革方向。
把语音,NLU或任何其他输入/输出接口实现成一个会话系统不应当仅限于集成到操作系统中。也不应当仅限于通过嵌入式设备进行的普通查看和感知。应当从根本上改变基础操作系统和计算功能的设计。此外,输入和输出介质在操作系统中产生最根本改变时要求的灵活性不一定需要语音输入/输出,而是还可以通过更常规的键盘,鼠标或笔输入和显示输出来加以实现。
因此,非常期望有一个通过统一会话用户界面跨越多个平台,设备和应用提供会话式计算,并且不仅仅是向现有应用增加语音I/O或会话能力,在常规操作系统中建立常规会话应用或单纯集成“语音”的系统。
本发明涉及一个基于通过统一会话用户界面(CUI)提供会话式计算的会话式计算模式的系统和方法。会话式计算模式规定与一个用户进行对话的系统负责对查询及其执行结果的完成,歧义消除,总结或校正。这些系统根据上下文,应用,历史资料和用户参数选择与生物测量抽象并处理查询,上下文和生成的信息。这些核心原则不需要有语音I/O接口,它们更倾向渗透到基础计算核心底层。当然,基于本发明的会话式计算模式适用于没有语音的情况,并且描述了围绕对话和会话建立计算的必要性,即使是通过例如键盘的设备进行这种对话。会话式计算模式允许用户以无缝的方式控制多窗口应用,例如,即使通过一个诸如VT100或Palm Pilot屏幕的哑终端显示器进行操作也可以按照并行方式运行。
在本发明的一个方面,一个提供基于会话模式的会话式计算的系统是一个CVM(会话虚拟机),其中CVM可以被实现成独立的OS(操作系统)或者是能够针对常规平台和应用提供向后兼容的常规OS或RTOS(实时操作系统)的顶端运行的平台或内核。CVM向应用开发者公开了会话API(应用程序接口),会话协议和会话基础类,提供了那个通过管理对话与上下文,会话引擎与资源实现会话式计算的内核层,并且提供了跨越具有不同会话能力的平台和设备的会话协议/通信以便实现统一的CUI(会话用户界面)。CVM内核根据其登记的会话能力和要求控制应用和设备之间的对话的核心层。CVM还提供了一个统一会话用户界面,该界面不单纯是增加语音以作为提供会话系统行为特性的I/O形态。CVM能够以类似于会话的、具有谈话,上下文,混合主动和抽象能力的方式管理任务。
在本发明的一个方面,CVM使用包含语音识别,发声者识别,文本-语音,自然语言理解和自然对话产生引擎的会话子系统(可以是本地或分布式的)理解并产生用户和机器之间的对话。通过CVM访问这些子系统。通过会话应用API对应用隐藏各个引擎。CVM可以通过会话引擎API控制这种引擎。另外,会话应用API可以包含会话引擎API。通常,CVM包含向应用开发者直接公开这些引擎API。通过使会话引擎API被包含在会话应用API中或通过在会话应用API层次上仿真类似的调用和功能可以实现上述要求。
在另一方面,CVM内核层(或CVM控制器)包括一个元信息管理器,一个资源管理器,一个上下文堆栈,一个全局历史记录,一个对话管理器和一个任务调度器以便管理对话并且选择活跃的对话,上下文和应用。上下文堆栈累积每个活跃进程的上下文(全部查询参数和状态/模式-即已经导入的查询参数,任何I/O事件和一个应用产生的事件),其中上述进程具有一个活跃的会话以及理解输入所需的任何数据(例如,活跃的FSG,主题,词汇或一个语音输入的可能查询)。CVM内核协同被分散在本地和联网常规与会话资源上的不同任务和进程。CVM内核层跟踪这些资源,向适当的会话子系统发送输入并且在设备,状态和应用之间作出仲裁。CVM内核层还根据活跃的会话与会话历史记录,延迟返回结果,网络资源授权,任务授权和记录协同输出产生和划分优先权。
在本发明的另一方面,CVM系统提供了一个高层抽象并且通过与诸如对象,数据流句柄,网络,外设,硬件与本地和网络文件系统的单元相关的元信息抽象出类别。一个基于本发明一个方面的抽象元信息系统包含由资源所有者/开发者或资源的以往用户/应用定义的多个类别。可以通过抽象快捷方式和混合主动请求访问这些单元。提供一个登记在连接或经过一个元信息服务器(类似于DNS服务器或名称空间管理器)自动产生与新对象相关的新类别,其中上述元信息服务器更新与一个对象或其内容相关的抽象类别目录并且充当一个登记各个资源的能力的抽象列表。可以使用相同协议在本地登记被下载或传递的对象。抽象元信息可用于快捷方式,自动提取或网络的处理单元。
在另一方面,CVM提供了使自然语言对话在多个任务,进程和谈话(具有多个语境)上进行NLU,NLG,上下文和混合主动分类的能力。提供一个会话输入接口,其中一组多模式输入流被分别转换成ASCII命令或查询(即,属性-数值或n元组列表)。各个输入实体(命令,NLU查询字段或参数单位(隔离字母,字,等等))与时间-标记关联并且相应被附加到一个混合输入流中。根据以前产生各个输入流的时间或各个应用/输入流依据上下文历史记录接收的优先权划分两个或更多具有相同时间标记的输入流的优先权。参照可能的FSG和词典检查混合输入并且可以有选择地把输入反馈到用户。各个资源交换其会话能力并且输入流被裁剪成只交换相应的信息。
在另一个方面,提供会话输出调度和接口协议,其中多个任务的输出排队等候基于单通道输出的上下文堆栈和任务调度器的处理。提供一个重定向或修改被分配给各个输入流的资源的机制,即使在多路复用的情况下也是如此。各个资源交换其会话能力并且输出流被裁剪成只交换有关的信息,其中包含输出语音字体的选择和会话呈现的格式化。
在另一方面,使用编程/脚本语言以便允许把任何可用资源用作输入或输出流。通过使用会话子系统,各个输入被转换成可以被程序设计语言当做内置对象直接处理的二进制或ASCII输入(属性-数值对或n元组列表)。自动包含调用,标志和标签以便在对象之间发送,并且处理与不同对象正确接口所需的会话元信息。实际上,具有任何形态的任何输入被CVM内核层的对话管理器捕捉成一个被加到相关上下文或上下文堆栈中的事件。例如,一个后跟“我想打开这个”命令的鼠标点击或指针/输入笔标点动作被解析成一组属性值对:命令:打开,对象:最后一次鼠标点击选择的窗口或任务。可以根据应用或用户的需要专门对输出进行格式化。现在可以使用新的编程工具容易地建立多态会话处理。另外,这种编程语言和脚本包括会话应用和CVM之间的会话API以及CML(会话标记语言)。
在另一个方面,扩充常规逻辑语句状态和操作符以适应会话查询的多样性,其中可以根据其ASCII/二进制内容或其经过NLU转换的查询/属性值n元组列表对查询进行逻辑比较。实现逻辑操作符以便测试或修改这种系统。
在另一方面,提供允许多个会话设备或应用登记其会话能力的会话网络连接协议,其中包含只需可理解会话的静音部件。提供会话协议以便协同与多个CVM和静音部件的会话,使得在通过会话连接和协同多个CVM设备时能够通过一个单独的接口(例如通过一个单独的扩音器)同时对其进行控制。在彼此发现并且登记其标识之后,各个系统或设备交换有关其会话能力的信息以便把数据传输限制到有关信息上。静音会话部件以类似方式工作并且可以通过一个会话代理服务器或作为CVM的会话客户端进行交互。多个CVM之间的协同可以导致动态主-从交互和端到端交互,从而提供一个经过协同的、由多个会话连接设备/对象呈现的统一会话接口。另外,可以考虑其他拓扑,其中包含多个在其间以端到端方式彼此交互的本地主设备(经过优化或判定以减少总体网络通信量和对话流程延迟)。对象集合通过集中或分布式上下文堆栈为用户提供了一个单独的协同接口。
在另一个方面,提供开发工具以便开发者针对CVM建立,模拟和调试可理解会话的应用。开发工具提供对API调用,协议调用,使用这些API和协议并且链接相关库的应用,拓展CVM提供的服务和行为特性的应用的直接实现。这些开发工具允许根据多个诸如语音字体的个性化特征构造高级会话接口,从而允许选择提供输出的语音类型。提供建立会话呈现的、诸如Postcript和AFL(音频格式化语言)的会话格式化语言。实现这些应用的代码可以是说明性或过程性的代码。其中包括经过解释和编译的、具有库链接,会话逻辑,引擎调用和会话基础类的脚本和程序。会话基础类是独立于形态或形态组合,概括了所有对话的特征的基本构件或会话原语(gestures)。
在另一个方面,通过使用关于本地或远程文件,尤其是可执行文件的作者和/或修改人的元信息防止未授权访问来提供会话安全。资源对受限制资源进行一次查询时,CVM便根据有关该资源的安全元信息对用户进行自动认证。直接对查询之前刚获取的请求或非过期信息执行认证。
在另一方面,CVM提供会话定制。每当对资源进行一次查询时便自动识别一个用户。直接对查询之前刚获取的请求或非过期信息执行认证。可以根据请求方的优先顺序单独定制各个任务或资源访问。根据活跃用户的顺序划分任务和上下文的优先权,并且每当用户顺序发生改变时重新划分优先权。可以在不需要重新设置整个环境的情况下根据用户身份的变化在运行时刻修改环境变量。使用用户身份在各个上下文或上下文堆栈的层次上消除歧义。
在另一个方面,不仅根据文件的名称,修改或ASCII内容,还根据操作系统,应用或用户定义的抽象类别和操作系统在线或离线提取的主题来提供会话搜寻能力,或者在访问对象时通过会话协议获得上述能力。另外,提供上下文搜寻能力以完成活跃的查询或提取类似的查询/上下文。
在另一方面,在资源管理器层次或依赖元信息,抽象和会话查询/混合主动/校正的任何应用内部提供会话选择能力。这种会话选择能力避免出现较长的基本选择序列并且提供了自然的快捷方式和选择校正。另外,提供通过层次结构访问并且立即呈现对象框架的机制。
在另一个方面,使用本地和远程资源,用户和代理的使用历史记录并且通过一个完全协同的会话接口提供会话帮助,指南和支持,从而完成请求,过程指导,信息搜寻和新应用的升级与安装。另外,通过使用访问帮助信息的NLU查询或根据与当前用户(历史记录)相关的元信息和遗漏或通过混合主动方式修改的参数可以访问帮助信息。调整各个应用提供的对话使之适应用户的参数选择或技能水平。
基于本发明的CVM提供的其他特性包含简单、直观、自然并且具有最短学习周期的接口,对语音的使用大大改善工作效率、新功能或使用的强制会话应用,能够理解自然语言查询的智能机器/设备,通过免提和/或免看模式有效完成任务的能力,补充常规用户I/O并且在必要时(没有显示器或显示器较小,没有键盘、输入笔或定点设备,远程计算等等)可以替代的强制多模式高效用户界面,独立于被用来访问的设备(PC,PDA,电话等等)并且独立于事务处理服务/应用的统一用户界面,和跨越多个会话设备、允许一个设备控制多个其它设备、对现有OS,应用,设备和服务向后兼容的协同接口。
通过下列对最优实施例的详细描述将要描述并且从中可以理解本发明的这些及其他方面,特性和优点,其中需要结合附图阅读该描述。
图1是基于本发明一个实施例的一个会话式计算系统的模块图;
图2是图解基于本发明一个实施例的一个会话式计算系统的抽象层次的图例;
图3是图解在基于本发明一个方面的会话式计算系统中实现的会话协议的模块图;
图4是基于本发明一个实施例的一个会话式计算系统的构件的模块图;
图5是一个图解基于本发明一个方面的任务调度进程的图例;
图6是一个图解基于本发明一个方面的通用会话用户界面和输入/输出进程的图例;
图7是一个图解基于本发明一个方面的分布式会话式计算系统的图例;
图8是图解基于本发明一个最优实施例的一个通用会话设备的图例;
图9是一个图解基于本发明一个方面的会话管理进程的图例;
图10是一个图解基于本发明另一个方面的会话管理进程的图例;
图11是一个图解基于本发明另一个方面的会话管理进程的图例;和
图12是一个图解基于本发明的会话网络的图例。
本发明涉及引用会话系统和多态接口的所有方面的会话式计算系统和方法。提供基于这里描述的会话式计算模式的会话式计算的关键构件是CVM(会话虚拟机)。在一个实施例中,CVM是一个运行在常规OS或RTOS顶端的会话平台或内核。还可以用PvC(普及运算)客户端和服务器实现CVM平台。通常,CVM在会话子系统(例如语音识别引擎,文本-语音等等。)和会话和/或常规应用之间提供会话API和协议。CVM也可以通过有更多限制的接口为现有应用提供向后兼容。如下所述,CVM提供了会话服务和行为特性以及会话协议以便与多个同样配备了一个CVM层或至少可以理解会话的应用和设备进行交互。
应当理解,这里描述的不同单元和协议/API是根据其执行的功能或交换的信息来定义的。其实际组织或实现可以发生变化,例如,通过相同或不同的实体来实现,被实现成较大构件的一个构件,或者作为一个独立实例化的对象或一组这样的对象或类。
一个基于这里根据本发明描述的会话式计算模式的CVM(或操作系统)允许计算机或任何其他交互设备与用户进行交谈。无论一台机器是否有显示器或GUI能力,也无论其是否有任何键盘,输入笔或指点设备,CVM还允许用户在该机器上运行多个任务。实际上,用户可以管理这些类似一个会话的任务并且最终完成一个任务或多个同时执行的任务。为了管理类似一个会话的任务,基于本发明的CVM提供根据混合主动方式,上下文和高级抽象层次执行其各种功能的能力。混合主动方式允许用户通过与系统进行对话自然地完成,修改或校正一个请求。混合主动方式还意味着CVM可以积极帮助(主动帮助)并且指导用户完成任务,在语音应用中尤其如此,其中混合主动能力是补充显示能力较弱的系统或具有有限显示能力的系统的自然方式。通常,CVM被用来补充常规接口和用户输入/输出而不是替代它们。这就是“多态”的概念,其中以和鼠标,键盘及其他诸如输入笔的输入设备并行的方式使用语音。当设备局限性对某些接口的实现有限制时可以取代常规接口。另外,在设备,对等层次和服务之间形成的接口的普适性和统一性是一个附加的强制特征。应当理解,CVM系统可以用于大量具有常规输入和/或输出介质的功能。实际上,利用基于本发明的CVM可以使具有典型键盘输入和结合常规监视器显示的指点设备的计算机显著受益。在1999年4月7日申请,标题为“多态命令解释程序”的美国临时专利申请第60/128,081号中描述了一个例子,其中该专利申请与本发明有共同转让并且在此对其加以参考引用(该申请描述一个构造在GUI形态和语音形态之间紧密同步的真实多态应用的方法)。换句话说,甚至不希望与其计算机交谈的用户也可以使其与CVM机器的交互得到显著的改进。
现在参照图1,一个模块图图解了基于本发明一个实施例的一个会话式计算系统(或CVM系统),其中在一个客户端设备或服务器上实现该系统。通常,CVM提供一个统一协同的多态会话用户界面(CUI)10。CUI的“多态”特性意味着诸如语音,键盘,输入笔,和指点设备(鼠标),触摸屏的各种I/O资源可被用于CVM平台。CUI10的“通用”特性意味着无论通过一个桌面计算机,具有有限显示能力的PDA还是没有显示能力的电话来实现CVM,CVM系统均为用户提供相同的UI。换句话说,通用性意味着CVM系统可以适当地处理具有从纯语音到语音,从语音到多态,即语音+GUI并且再到纯GUI的能力的设备的UI。所以,无论访问形态如何,通用CUI为所有用户交互提供相同的UI。
此外,通用CUI的概念扩展到协同CUI的概念。具体地,假定多个设备(在多个计算机对等层次内部或之间)提供相同的CUI,可以通过一个单独的会话-即协同接口管理这些设备。即,当多个设备以会话方式相连(即,彼此理解)时,可以通过其中一个设备的一个接口(例如单个扩音器)同时控制这些设备。例如,语音可以通过一个统一协同的CUI自动控制以会话方式相连的一个智能电话,一个寻呼机,一个PDA,网络计算机和IVR,以及一个车载计算机。下面会更详细地解释这些CUI概念。
CVM系统还包括多个应用,其中包含可理解会话的应用11(即用会话协议“交谈”的应用)和常规应用12。可理解会话的应用11是被专门编程以便通过会话应用API13与一个CVM核心层(或内核)进行操作的应用。通常,CVM内核14根据其登记的CVM能力和要求控制应用和设备之间的对话并且提供统一的CVM用户界面,该界面不单纯是把语音添加成提供会话系统行为特性的I/O形态。CVM系统可以建立在一个常规OS,API15和常规设备硬件16的顶端并且位于一个服务器或任何客户端设备(PC,PDA,PvC)上面。由CVM内核层14管理常规应用12,其中CVM内核层14负责通过OSAPI,GUI菜单和常规应用的命令以及基础OS命令进行访问。CVM自动操作所有的输入/输出发起方,其中包含会话子系统18(即,会话引擎)和常规OS15的常规子系统(例如,文件系统和常规驱动器)。通常,会话子系统18负责使用适当的数据文件17(例如,上下文,有限状态语法,词汇表,语言模型,符号查询映射等等。)把语音请求转换成查询并且把输出和结果转换成口语消息。会话应用API13传达CVM14的全部信息以便把查询转换成应用调用,反之在输出被提供到用户之前把输出转换成语音并且加以适当的分类。
现在参照图2,一个图例图解了基于本发明一个实施例的一个会话式计算系统(或CVM)的抽象编程层次。CVM的抽象层包括可理解会话的应用200和常规应用201。如上所述,可理解会话的应用200通过会话应用API层203与CVM内核层202交互。会话应用API层203包括会话编程语言/脚本和库(会话基础类)以便提供CVM内核202开放的各种功能(下面讨论)。例如,会话编程语言/脚本提供允许应用开发者挂到(或开发)可理解会话的应用200的会话API。它们也提供允许开发者把会话功能融入一个应用使之“可理解会话”的会话API层203,会话协议204和系统调用。实现应用的代码,API调用和协议调用包含经过解释和编译的、具有库链接,会话逻辑(如下所述)引擎调用和会话基础类的脚本和程序。
更具体地说,会话应用API层203包括多个会话基础类205(或基础对话构件),通过可以被用来建立基于本发明的CUI或可理解会话的应用200的库函数把这些基础类提供给应用开发者。会话基础类205独立于形态或形态组合(可以通过过程性或说明性的方式实现)、概括所有对话的特征的基本构件或会话原语(如T.V.Raman在“听觉用户界面,关于会说话的计算机”,Kluwer学术出版社,Boston1997中描述的)。会话基础类205包括CUI建立模块与会话平台库,对话模块与构件,和对话脚本与小程序。会话基础类205可以在本地被编译成会话对象206。更具体地说,通过在用诸如Java或C++的程序设计语言调用这些库的代码中综合不同的个体类从会话基础类205(基础对话构件)编译出会话对象205(或对话构件)。如上所述,编码包括把这种基础对话构件嵌入到说明性代码中或者把它们链接到代码中。嵌套调用和嵌入会话基础类205允许为执行特定对话任务或应用而构造(按照说明性方式或通过编译/解释)会话对象206(可重用或不可重用)。例如,可以通过诸如由一个会话浏览器(或查看器)(200a)处理或加载的CML(会话标记语言)(嵌套或非嵌套)页面的说明性方式实现会话对象206,其中在IBM文档号为Y09998-392P,与本专利同时申请,标题为“会话浏览器和会话系统”的专利申请中公开了上述会话浏览器,并且该专利申请与本发明有共同转让并且在此对其加以参考引用。对话对象包括可以通过CML(会话标记语言)页面(通过会话浏览器)加载的小应用程序或对象,CVM顶端上的过程性对象(可能分布在CVM的顶端),CML中的脚本CML标签和小服务程序构件。
根据本发明可以实现的会话原语的某些例子如下所述。一个会话原语消息被机器用来向用户传递信息类消息。原语消息通常会被表示成一个显示字符串或口语提示。被说出的消息部分可以是一个在CVM顶端运行的、关于各种应用/对话的当前状态的函数。一个“从集合中选择”会话原语被用来封装期待用户从一个离散选项集合中选择选项的对话。该原语封装了提示,缺省选择,和合法选项集合。“从范围中选择”会话原语被用来封装允许用户从一个连续数值范围中选择一个数值的对话。该原语封装了有效范围,当前选择,和一个信息性提示。另外,当输入约束更加复杂(或许不存在)时,会话原语输入被用来获得用户输入。该原语封装用户提示,关于所请求的信息项的应用级语义(TBD),并且可能还包括测试输入有效性的谓词。然而,如上所述,会话基础类包含但已超越了会话原语的概念(即扩展到基本行为和服务以及执行会话任务的规则层次)。
如下所述,一个编程模型允许通过会话API在一个主对话管理器和引擎之间建立连接。在CVM上提供基础类的数据文件(对嵌入平台可加载)。可以扩充和加载对象的数据文件。不同对象充当同时对话管理器。某些会话基础类的例子如下所述:
低层次对话会话基础类:
(在适当的地方可用的多态功能)
(在属于分布方式时具有CVM句柄)
1.从列表中选择一项
2.根据语法填充字段
3.发声者声学登记
4.发声者声学识别
5.发声者声学验证
6.发声验证
7.加入列表
8.发声登记
9.根据NL获得输入
10.消除歧义
等等
低层次专用对话会话基础类:
(在适当的地方可用的多态功能)
(在属于分布方式时具有CVM句柄)
1.得到是/否
2.得到日期
3.得到时间
4.得到自然数
5.得到当前值
6.得到美国或国际电话号码,规则可以指定,也可以是任意可能的规则
7.得到数字串
8.得到字母数字
9.得到拼写
10.语音生物测定识别
11.打开NL
12.关闭NL
13.删除NL
14.保存NL
15.选择NL
16.标记NL
等等。
中间层次对话会话基础类:
(在适当的地方可用的多态功能)
(在属于分布方式时具有CVM句柄)
1.表格填充
2.请求确认
3.识别用户
4.通过对话登记用户
5.语音生物测定识别
6.通过对话验证用户
7.校正输入
8.语音生物测定识别
9.语音生物测定验证
10.语音生物测定登记
11.管理表格
12.填充空白字段
13.倾听TTS
14.倾听回放
15.同时填充表格
16.同时分类对话
17.总结对话
等等。
高层专用基础类
(在适当的地方可用的多态功能)
(在属于分布方式时具有CVM句柄)
1.管理银行帐户
2.管理文件夹
3.请求旅行客房预订
4.管理电子邮件
5.管理日历
6.管理地址簿/定向器
等等。
通信会话类
1.得到CVM设备目录
2.得到CVM设备能力
3.向设备发送能力信息
4.请求具有指定能力的设备
5.从CVM设备得到句柄
6.标记为主CVM
7.标记为活跃CVM
8.得到上下文
9.发送上下文
10.得到结果
11.发送结果
12.保存上下文
等等。
服务和行为会话基础类
(在属于分布方式时也可以具有CVM句柄)
1.得到元信息
2.发送元信息
3.登记类别
4.得到类别目录
5.会话搜寻(基于对话或抽象)
6.会话选择(基于对话或抽象)
7.接受结果
8.拒绝结果
9.仲裁结果
等等。
其他服务
(具有多个类)
会话安全
会话定制
会话帮助
会话划分优先权
资源管理
输出格式化和呈现
I/O抽象
引擎抽象
等等。
规则
如何根据第一名称完整地得到一个名称
如何得到一个电话号码
如何得到一个地址
如何撤消一个查询
如何校正一个查询
等等。
CVM提供的开发环境在这里被称作SPOKEN AGETM。SpokenAge允许开发者针对CVM建立,模拟和调试可理解会话的应用。除了提供API调用的直接实现之外,SpokenAge还提供了建立具有多种个性化特征的高级会话接口。允许用户选择提供输出的语音类型的语音字体和建立会话呈现的会话格式化语言类似Postcript和AFL(音频格式化语言)。
如上所述,会话应用API层203包括会话编程语言和脚本以便提供通用会话输入和输出,会话逻辑和会话元信息交换协议。会话编程语言/脚本以便允许把任何可用资源用作输入或输出流。如下所述,通过使用会话引擎208和会话数据文件209(由CVM202通过会话引擎API207访问),各个输入被转换成可以被程序设计语言当做内置对象直接处理的二进制或ASCII输入。可以自动包含调用,标志和标签以便在对象之间进行发送,并且处理与不同对象正确接口所需的会话元信息。此外,可以根据应用或用户的需要专门对输出流进行格式化。这些编程工具允许容易地建立多态会话处理。此外,扩充逻辑语句状态和操作符以适应会话查询的多样性,其中可以根据其ASCII/二进制内容、其经过NLU转换的查询(常规和会话子系统的输入/输出)或基于FSG的查询(其中系统使用受限制的命令)对查询进行比较。可以实现逻辑操作符以便测试或修改这种系统。所扩充的会话逻辑数值/操作符包含:从ASCII码的角度看,有:真,假,不完整,不明确,不同/相等,从NLU的角度看,有:不同/相等,从活跃查询字段的角度看,有:不同/相等,以及未知,不兼容和不可比。
并且,会话应用API层203还包括扩展基础OS功能和行为的代码。这种扩展包含高层抽象和与任何对象相关的抽象类别,抽象类别的自登记机制,记录,总结,会话搜寻,选择,重定向,用户定制,训练能力,帮助,多用户和安全能力,以及基础类库,下面会更详细地讲述上述各个扩展。
图2的会话式计算系统还包括一个在核心引擎会话引擎208(例如语音识别,NL分析,NLU,TTS和语音压缩/解压缩引擎)之间提供接口的会话引擎API层207和使用它们的应用。引擎API层207也提供与本地或远程的核心引擎进行通信的协议。一个I/OAPI层210提供一个针对诸如键盘,鼠标,触摸屏,小键盘等等的I/O资源211的接口(提供一个多态会话UI)和一个用于捕捉语音I/O(音频入/音频出)的音频子系统。I/OAPI层210提供设备抽象,I/O抽象和UI抽象。I/O资源211会通过I/OAPI层210在CVM内核层202上登记。
核心CVM内核层202包括诸如会话应用和行为/服务管理层215,会话对话管理器(仲裁器)层219,会话资源管理器层220,任务/调度器管理器221和元信息管理器220的编程层,该层次提供CVM层202的核心功能。会话应用和行为/服务管理器层215包括管理常规和可理解会话的应用200与201的功能。这种管理功能包含跟踪哪个应用被登记(本地应用和网络分布式应用),应用的对话接口(如果有)是什么,以及各个应用的状态如何。另外,会话应用和服务/行为管理器20启动与CVM系统提供的任何特定服务或行为相关的所有任务。会话服务和行为是用户可以期待在应用和交互中发现的会话UI的所有行为和功能以及应用开发者可以期待能够通过API访问(在不必通过应用开发来实现的情况下)的功能。CVM内核202提供的会话服务和行为的例子包含但不仅限于会话分类与元信息,会话对象,资源和文件管理,会话搜寻,会话选择,会话定制,会话安全,会话帮助,会话划分优先权,会话资源管理,输出格式化与呈现,总结,会话延迟动作/代理/记录会话逻辑,和协同接口与设备(这里都会详细加以解释)。由会话应用API层203通过API调用提供这种服务。会话应用和行为/服务管理器215负责执行所有为使UI适应设备,应用的能力与约束和/或用户参数选择所需的所有不同功能。
会话对话管理器219包括管理所有登记应用之间的对话(包括语音与诸如GUI键盘,指针,鼠标,视频输入等等的多态I/O的会话对话)的功能。具体地,会话对话管理器219确定用户具有什么信息,用户提供了什么输入,以及哪个应用应当处理用户输入。
会话资源管理器220确定登记哪个会话引擎208(本地会话208和/或网络分布式资源),各个登记资源的能力和各个登记资源的状态。另外,会话资源管理器220划分CPU周期分配或输入/输出的优先权以便保持一个正在与活跃应用(例如,用于识别或处理一个具有优先权的当前输入或输出的引擎)进行的对话。类似地,对于分布式应用,会话资源管理器220路由并选择被用来使活跃前台处理的任何网络延迟最小化的引擎和网络路径。
任务调度器/管理器221调度并协同分散(由用户和机器)在本地与网络常规和会话资源上的不同任务和进程(下面会详细解释)。元信息管理222通过一个元信息注册表218管理与系统相关的元信息。元信息管理器218和注册表218收集通常假定在会话交互中已知但在当前会话的层次上得不到的全部信息。例子是:先验知识:文化层次,教育水平假定和固定信息:过去的请求,参考资料,关于用户,应用,新闻等等的信息。这些信息通常是需要保存并保持超过会话历史记录/上下文的存在时间长度/寿命的信息和期待成为会话的公共知识的信息,因而这些信息从不在当前和过去的会话交互其间被定义。并且如下所述,针对命令,资源和宏的快捷方式由元信息管理器222来管理并且被存储在元信息注册表218中。另外,元信息注册表21包含一个基于用户身份的用户使用记录。应当理解,当被存储在元信息注册表218中并且与应用相关时,可以根据用户的使用历史记录裁剪CVM系统提供的诸如会话帮助和支持的服务以及某些对话提示(介绍,提问,反馈等等)。如果一个用户以前已经与一个指定应用进行交互,则在假定用户已经对其熟悉的情况下可以减少解释。类似地,如果一个用户犯了许多错误,由于多个错误被解释成用户对应用或功能不确定,不熟悉或不理解/误解,所以解释可以更加复杂。
对话管理器219管理一个上下文堆栈217。上下文堆栈217包括有关一个应用的全部信息。这种信息包含所有针对在对话的上下文环境中执行的后台程序和任何在对话其间发生的外部事件的变量,状态,输入,输出和查询。如下所述,上下文堆栈与对应于各个活跃对话(或延迟对话-代理/记录)、经过组织/分类的上下文相关。一个全局历史记录216被包含在CVM系统中,其中包含被存储在各个应用的上下文之外的信息。全局历史记录存储与所有应用和在一个会话对话期间采取的动作相关的信息(即,当前对话用户和机器之间的对话的历史记录或从机器被启动开始的历史记录)。
CVM内核层202还包括一个允许通过对话管理器219(而不是略过对话管理器219)访问后台业务逻辑213的后台抽象层223。这样就允许把这种访问加到上下文堆栈217和全局历史记录216中。例如,后台抽象层223可以把来自和来自对话管理器219的输入和输出转换成数据库查询。层次223会把标准化属性值n元组转换成数据库查询并且把查询结果转换成返回给对话管理器219的属性值n元组列表或集合。另外,提供一个会话译码层224以便根据运行CVM系统的设备的I/O和引擎能力修改呈现给用户的行为,用户界面和对话。
CVM系统还包括一个作为OS212提供的基础系统服务的一部分的通信堆栈214(或通信引擎)。CVM系统使用通信堆栈通过会话协议204发送信息,其中会话协议204扩展常规通信服务以便提供会话通信。应当理解,根据本发明在会话设备之间提供会话通信交换的一个实施例并且结合众所周知的OSI(开放系统互联)协议层次可以实现通信堆栈214。如本领域中所知的,OSI包括七个层次,其中每个层次执行各自在网络连接设备的网络分布式会话应用之间提供通信的功能。这些层次(其功能是易理解的)包括一个应用层,一个表示层,一个会话层,一个传送层,一个网络层,一个数据链接层和一个物理层。通过会话协议204扩展应用层以便允许会话通信。
会话协议204通常允许远程应用和资源登记其会话能力和代理。在IBM文档号为Y0999-113P,与本专利同时申请,标题为“提供网络协同会话服务的系统和方法”的专利申请中也公开了这些会话协议204,其中该专利申请与本发明有共同转让并且在此对其加以参考引用(其中在一个不利用CVM系统的系统中使用会话协议)。具体地,额外参照图3,会话协议204(或方法)包含分布式会话协议300,发现,登记和协商协议301和语音传输协议302。分布式会话协议300允许网络会话应用200,200a和网络连接设备(本地客户端及其他诸如服务器的网络设备)交换信息以便彼此登记其当前会话状态,参数(数据文件209)和上下文。分布式会话协议300允许在网络连接设备(例如客户/服务器)之间共享本地和分布式会话引擎208,208a。分布式会话协议300也包含对话管理器(DM)协议(下面讨论)。分布式会话协议允许交换信息以便协同涉及多个设备或应用的会话,这些设备或应用包含主/从式会话网络,同层会话网络,静音部件。可以使用分布式会话协议在网络设备之间交换的信息包括数据文件(参数)指针,数据文件及其他会话参数的传递(如果需要),输入、输出事件和识别结果通知,会话引擎API调用和结果,状态和上下文及其他系统事件通知,登记更新:登记握手,协商更新:协商握手,和丢失一个请求资源时的发现更新。
另外,分布式会话协议300允许应用和设备交换其他诸如小应用程序,ActiveX构件,及其他可执行代码的信息,其中上述可执行代码允许设备或相关应用在主/从或端到端会话网络结构和包括静音部件的网络中的这种设备之间协同一个会话。换句话说,当多个CVM或可理解会话的多个设备以会话方式相连并且协同工作时,可以通过其中一个单独的接口(即通过一个单独的扩音器)同时控制这些设备。例如,语音可以通过一个唯一协同的会话接口自动控制一个智能电话,一个寻呼机,一个PDA,网络计算机,一个IVR,和一个车载计算机。可以通过另一个会话设备的会话接口控制静音部件。静音部件是一个可理解会话以便其能够通过API/协议与一个网络连接的CVM进行交互的系统。然而除了可能已经指定的功能之外,静音部件不向用户提供任何I/O。例如,通过能够被一个CVM发现,房屋内的一盏灯就变成可理解会话的,从而能够登记其会话状态(例如,其命令是:开灯,关灯)并且能够执行从一个CVM发送的命令。在这种形式下,这里远程UCRC(通用会话远程控制)的CVM远程控制能够下载由所有被发现的可理解会话设备支持的命令。因而用户可以简单地通过与CVM远程控制对话用语音控制这些应用。
在一个实施例中,通过RMI(远程方法调用)或RPC(远程过程调用)系统调用实现分布式会话协议300,从而实现应用与网络上不同会话引擎之间的调用。如本领域中所知的,RPC是允许一个应用向网络上的另一个应用请求一个接收方的协议。类似地,RMI是一个可以用来使对象在分布式网络中进行交互的方法。RMI允许一或多个对象随请求一起传递。
会话协议204还包括会话发现(检测),登记,和协商协议(或方法)301。登记协议允许各个网络设备或应用交换并登记有关其会话能力,状态/上下文和参数的信息,从而把设备之间的数据传递限制成只传输有关信息并且协商出主/从或同层网络关系。静音会话部件(只可理解会话)与此类似(即,登记其能力等等。)并且可以通过一个会话代理服务器进行交互或充当一个CVM的客户端(即,静音部件在CVM设备上的使用会话登记)。
登记协议允许交换下列信息:(1)能力与包含定义和最新事件的负载消息;(2)引擎资源(一个指定设备是否包含NLU,DM,NLG,TTS,发声者识别,语音识别压缩,编码,存储等等。);(3)I/O能力;(4)CPU,存储器,和负载能力;(5)数据文件类型(特定语境,词典,语言模型,语言,等等。);(6)网络地址和功能;(7)关于一个用户的信息(定义和最新事件);(8)用户对设备,应用或对话的参数选择;(9)定制;(10)用户经验;(11)帮助;(12)每个应用的能力要求(和应用状态)(定义和最新事件);(13)关于CUI服务和行为的元信息(帮助文件,类别,会话优先权,等等。)(定义和更新事件,通常通过针对列表的指针);(14)协议握手;和/或(15)拓扑协商。
使用诸如TCP/IP,TCP/IP29,X-10或CEBus的常规通信协议和设备之间的套接字通信可以进行登记。设备使用一个分布式会话体系结构向其相关的会话引擎和一个CVM控制器传送其会话参数(例如,活跃词汇,语法和语言模型,分析和转换/标签模型,语音印模,合成规则,基表(发音规则)和语音字体)。把这种信息当做文件、数据流或URL传递到CVM控制器和会话引擎(或如上所述,在设备间的信息交换层次上的说明性或过程性信息:对象和XML结构)。在一个实现登记协议的实施例中,当进行连接时,设备可以通过交换一组标志或一个设备属性对象用预先安排的协议(例如TTS英语,任何文本,语音识别,500个字和FSG语法,无发声者识别等等。)交换关于其会话能力的信息。同样地,应用可以交换引擎要求列表。对于主/从网络结构,主对话管理器可以编译所有列表并且用会话能力满足功能和要求。另外,可以通过指示传递或指向上下文堆栈/可以被控制器访问并且加入其上下文堆栈的设备或应用的历史记录来发送上下文信息。设备也传递关于其多态I/O和UI能力(有屏幕/没有屏幕,音频入和音频出能力,键盘,等等。)的信息。会话参数允许一个对话引擎根据当前状态和上下文估计NLU引擎是否适合进行一个新查询。
会话发现协议301被设备的自然联网的会话客户端230,230a用来自动发现本地或网络可理解会话系统并且动态且自然地网络连接这种可理解会话的系统。通过发现协议交换的信息包括如下:(1)广播用于握手或侦听请求的请求;(2)交换设备标识符;(3)交换第一次登记的句柄/指针;和(4)交换第一次协商的句柄。
此外,协商协议301允许在主/从或同层网络之间进行协商,从而在动态主-从和端到端交互中的多个CVM系统之间提供适当的协同。更具体地说,在登记时多个CVM设备会增加会话登记能力,关于其控制能力、它们要访问的会话引擎、它们已经登记的应用与设备和它们所控制的应用与设备的信息。根据其UI,I/O能力和活跃的I/O,一个CVM控制器变成主控制器而其它CVM控制器充当从控制器,其中从控制器作为已登记应用与主控制器相对等价,直到发生一次新的协商。根据活跃的I/O形态或设备或根据活跃的应用可以动态切换主和从的地位。
语音传输协议302(或会话编码协议)被语音传输客户端38,38a用来向其他网络设备,系统或应用发送/从其接收压缩语音以便进行处理。语音传输客户端38,38a使用适当的压缩硬件235,235a与压缩,解压缩和重构引擎234,234a配合工作以便处理通过网络发送的语音。语音编码器234,234a提供感观上可接受或可理解的压缩语音重构和优化的会话性能(例如,字差错率)。使用声学信号处理引擎(音频子系统)232,232a和适当的音频硬件233,233a在各自的网络设备上捕捉语音(并且转换成特征)。另外,可以在设备之间发送和接收压缩语音文件格式303以便处理语音。更具体地说,语音传输协议303允许设备向网络上的其他设备和应用发送并且从其接收压缩语音或本地处理结果。如上所述,会话引擎208(图2)最好包含用于压缩语音(或结果)的压缩/解压缩引擎234以便传输和解压缩通过网络从另一个设备或应用获得的压缩语音(或结果)并且进行本地处理。在一个实施例中,当一个发送设备和一个接收设备之间的握手过程结束之后,一个数据流(基于分组)被发送到接收器。分组报头最好指定用于对语音(或结果)进行编码的编码方案和编码参数(即,如在前面引用的IBM文档号为Y0999-113P的专利申请中讨论的采样频率,功能特征,向量维数,特征变换/系列)。还可以引入纠错信息(例如,如果损失或延迟了前面的分组则引入前面分组的最后特征向量以校正差分解码器)或适当的消息传送以恢复(再发送)出损失的分组。
如图9,10和11所示,会话协议204还包含用于在网络设备的对话管理器(DM)(下面会更详细地讨论DM)之间的信息交换的协议。例如如图9所示,在一个分布式应用(分布式应用200a)中,会话管理协议被用于交换信息以确定哪个对话管理器(219或219a)会执行一个指定功能。通常,不同设备,CVM或不同应用会具有其自己的对话管理器,上下文堆栈217,217a和全局历史记录218,218a。通过对话管理器DM协议(作为分布式协议300(图3)的一部分),不同的对话管理器会协商出一个拓扑,该拓扑具有一个主对话管理器和从对话管理器或同层对话管理器。活跃的主对话管理器(如图9中对话管理器219所示)会管理到不同管理器的I/O流以判定活跃的对话并且适当执行一个查询和更新上下文与历史记录。例如,可以交换下列信息:(1)DM体系结构登记(例如,每个DM可以是一组本地DM);(2)针对相关元信息(用户,设备能力,应用需求,等等。)的指针;(3)DM网络拓扑(例如,主/从,端到端)的协商;(4)在可适用,即使用由一个主DM控制的引擎的情况下的数据文件(会话参数);(5)关于诸如用户输入,输出到用户的I/O事件、被传送到引擎和/或补充上下文的通知;(6)识别事件通知;(7)从引擎向一个主DM传送经过处理的输入;(8)向已登记DM传送主DM的职责;(9)处理结果事件的DM;(10)DM异常;(11)传送置信度和歧义结果,建议的反馈和输出,建议的期望状态,建议的动作,建议的上下文改变,建议的新对话状态;(12)判决通知,上下文更新,动作更新,状态更新,等等;(13)关于完成,失败或中断动作的通知;(14)上下文改变通知;和/或(15)因动作而导致的数据文件,上下文和状态更新。另外,动作,I/O事件,后台访问是被会话资源管理器和任务调度器管理器共享的信息。
图10和11图解了一个基于本发明的,用于会话管理的系统和方法。更具体地说,图10图解了各种设备/应用(1,k和N)的多个对话管理器(即主仲裁器和从对话管理器1,k和N)之间的一个分层对话。图10图解了一个典型的主从拓扑。如上所述,通过使用DM协议交换有关信息来构成拓扑。另一方面,图11图解了另一个主/从结构,其中只有主干(仲裁器)对话管理器执行一或多个应用或设备(1,k,N)的对话管理器任务。在这个情况下,主对话管理器仲裁器是唯一提供并维护全局上下文和历史记录(或者具有专用上下文和历史记录的分类)的对话管理器。DM协议导致在各个应用,设备和核心主对话管理器之间交换属性值n元组。
应当理解,即使在涉及多个设备/应用的情况下也可以通过一个单独设备上的一个单独对话管理器串行执行如图10所示的实际对话管理处理。两种情况之间的差异是:与针对每个专用于指定任务的实体使用一个会话完成多个会话任务相反,用户有通过一个完成多个任务的实体完成一个会话的感觉。通过DM协议可以协商所有这些拓扑,也可以根据用户参数选择,应用选项或CVM缺省设置设定这些拓扑。
现在参照图4,一个图例图解了基于本发明一个实施例的会话系统的详细体系结构和CVM系统的会话内核的核心功能模块。应当理解,图4的系统和附加的描述的图解目的是提供实现例子,并且本领域的普通技术人员可以想象到用于实现一个基于本发明的宗旨的CVM的其他构件或系统体系结构。此外,应当理解,所有这些单元可以被引入一个应用内的独立模式,或者在一个现有操作系统下的平台,或者作为一个围绕这些不同的新单元建立一个核心内核的真实CVM。通过CVM可以捕捉和实现对基础操作系统的常规调用,从而允许移植。在这个情况下,CVM被配置成现有平台的一个独立平台。
参照图4,一个基于本发明一个实施例的会话系统400通常包括由一个CVM401运行和管理的常规子系统和会话子系统的一个组合。CVM401包括一个任务调度器/控制器402,一个元信息管理器403,一个对话控制器404(或前面被称作对话管理器的设备),一个上下文堆栈405,和一个会话子系统服务管理器406。应当理解,术语“CVM控制器”在这里可以被用来统一表示任务调度器/控制器402和对话控制器404。通常,CVM401通过把会话和常规输入流转换成多个动作来进行操作并且通过会话和/或常规输出流向一个用户产生分类输出。
会话系统400还包括多个会话资源子系统(引擎)407,该子系统包含一个语音识别系统408,一个发声者识别系统409,一个自然语言理解和自然语言分析系统410和一个文本-语音合成(TTS)系统411。应当理解,会话资源407也可以包含其他诸如一个NLG(自然语言生成)引擎的系统和一个音频子系统。如上所述,可以通过对CVM401的API调用访问所有这些会话子系统407。CVM401会定位所请求的会话子系统407(通过会话子系统服务管理器406),驱动其运行并且适当地返回结果。应当理解,这些会话子系统407可以位于本地或分布在一个网络上,而且所有会话子系统调用对应用是隐藏的(虽然在开发者想要实现引擎407的一个特定行为的情况下引擎API总是可用于应用)。
会话子系统服务管理器406管理CVM401提供的所有服务,UI和行为(如这里描述的)。常规子系统服务管理器406管理一个基础操作系统(或者在没有基础OS的情况下的常规I/O系统)提供的所有服务和UI。
CVM401的核心是上下文堆栈405,其中在对话控制器404的控制下操作和管理上下文堆栈405(应当理解,上下文堆栈405直接涉及上述全局历史记录和元信息注册表)。通常,上下文堆栈405通过一个激活的会话(即,涉及一个指定任务/进程/线程的会话交互)累积每个活跃进程的上下文(即,属性值n元组和状态/模式的全部查询参数列表)以及输入理解可能需要的不同引擎的任何数据文件413(或至少是这种会话参数的标识符)(例如,引擎用来执行其各自任务、诸如活跃FSG,主题,词汇,HMM(隐藏马尔科夫模型),语音印模,语言模型或针对一个语音输入的可能查询的文件或参数)。换句话说,术语“上下文”是指各个会话的状态(活跃或外来),其中上下文跟踪过去的会话历史记录,其当前状态,具体特征,对应任务的全部查询参数(例如,各个活跃任务/进程的词汇文件,语言模型,分析,标签,声波纹,TTS规则,语法,NLU等等)和输入理解所需的任何数据。应当理解,在一个分布式CVM(如下所述)中,上下文堆栈(以及其他CVM构件)可以直接与网络服务(即,分布在网络上的服务)相关(如上所述,针对上下文和全局历史记录)。
更具体地说,各个新任务,进程,或线程产生一个新堆栈入口并且和一个会话相关。各个应用可以和多个会话(例如应用管理会话和应用内容导航会话)相关。与一个指定会话相关的各个上下文包括最近对对应进程/任务/线程作出的请求以及最近的输出。一个指定会话的上下文也与任何对应于实际查询的活跃语法,词汇和符号语言相关。并且,最近的信息被存储在历史记录和上下文堆栈中。过去的历史记录,上下文和其他信息由元信息管理器403管理并且被存储成元信息的一部分。
对话控制器404通过在上下文堆栈405中为每个分散在本地或远程网络设备上的任务/进程/线程产生一个新堆栈入口来管理上下文堆栈405(其中任务管理由下述任务调度器/控制器402控制)。各个应用可以和多个会话(例如应用管理会话和应用内容导航会话)相关。如上所述,与一个指定会话相关的各个上下文包括最近对对应进程/任务/线程作出的请求以及最近的输出。此外,一个指定会话的上下文与任何对应于实际查询的活跃语法,词汇和符号语言(属性值n元组)相关。上下文堆栈405与机器状态堆栈相关,使得对于来自一个用户的任何新输入,对话控制器404可以遍历上下文堆栈405直到可以适当建立输入上下文。这在本质上相当于从最近和过去的会话中发现和选择用户和机器之间的活跃会话。
任务调度器/控制器402调度并协同分散(由用户和机器)在本地与网络常规和会话资源上的不同任务和进程。任务调度器/控制器402本质上是一个资源分配机制,其中通常通过监视所有资源的负载和可用性并且把各种任务适当分配和切换到不同资源,上述机制调度激活的任务(无论是常规任务还是会话任务)并且控制各个任务,资源等等的状态。资源分配功能涉及确定各个资源的当前负载,各个服务和应用的需求,以及通过把任务调度到可以对其进行处理的资源上来均衡/管理总体系统以便优化总体系统负载和会话流。任务调度器/控制器402依赖常规系统管理过程(通过常规任务管理器417)和不同资源(通过上述发现,登记,协商,和分布式会话协议)交换的任何信息。任务调度器/控制器402跟踪这些资源并且在上下文堆栈405上的不同任务之间共享常规子系统(例如,GUI I/O和系统,视频识别引擎,等等。)和会话子系统407。另外,任务调度器/控制器402会利用基础操作系统的服务到管理和控制可以由操作系统在常规任务管理器417的层次上控制的常规任务。并且如上所述,常规操作系统可以在会话任务调度器管理器/控制器402的指示下执行任务管理。
任务调度器/控制器402把来自常规和会话子系统服务412,406的输入(通过选择活跃上下文的对话控制器404)馈送到上下文堆栈405,把不同任务输出到不同子系统并且对其划分优先权。任务调度器/控制器402还通过上下文堆栈405插入和管理具有代理/守护程序和记录任务形式的会话助理。任务调度器/控制器402根据活跃的会话与会话历史记录,延迟返回结果,网络资源授权,任务授权,总结和记录协同输出产生和划分优先权(下面会解释这些功能)。
对话控制器404管理所有会话和常规应用(在任务调度器/控制器402上登记)之间的对话(会话=语音并且多态:GUI,键盘,指针,鼠标,视频输入等)。如上所述,应用交换(通过API调用或协商协议)关于其状态,它们如何解释一个最近的输入,和这种解释的置信级的信息。对话控制器404管理并确定活跃的上下文和应用。该控制器也管理会话协议,其中应用通过该协议交换帮助对话控制器404确定处于活跃状态的应用,或在不能确定时激活一个小对话以消除歧义。
图5图解了对话管理器404的功能。如图所示,由CVM401管理不同的任务(任务1,任务N)和资源(会话子系统A-Z)。CVM401判定哪个应用处于活跃状态以及如何修改上下文(如前面针对对话管理器和会话协议所描述的)。在分布式应用中,通过按照上述对话管理器协议发送消息来执行这个功能。应当理解,对话管理器协议被用来在本地并行应用之间交换信息。管理多个(本地或网络的)在设计时对对话管理器和引擎是未知的对话/应用上的对话和上下文的能力被称作通用NL处理,可插入对话管理器和NL应用。
应当理解,应用可以直接向CVM401(通过上述CVMAPI)或操作系统(诸如JVM(Java虚拟机)的基础系统或一个诸如MicrosoftWindows的操作系统)发出调用。当通过CVM401进行调用时,通过任务调度器/控制器402对其进行登记并且由对话控制器404管理对话(可以是多态的,甚至可以没有任何语音输入或输出)。当完成对基础操作系统的调用时,对话控制器404会仅仅间接地与应用进行交互,即,常规调用由常规任务管理器417管理并且当被传递和/或任务调度器联合/命令常规任务调度器417时被任务调度器/控制器402加以处理。后者会在对话控制器404上登记应用并且更新任务调度器/控制器402知道的任何状态变化。在通过一个C&C(命令和控制)接口(或任何其他类型的语音接口)管理常规应用的情况下,对话控制器404通过在对话控制器404上登记来登记和控制应用对话。应当理解,这些是特别的情况。但是,通常在向后兼容或非会话应用不成问题时,对话控制器404会控制所有应用的对话并通过上下文堆栈405管理上下文。应当理解,CVM401可以重新实现所有的常规功能,服务和行为特性。在这种情况下,CVM401不充当一个常规操作系统上的平台,而是充当其自己的、用来捕捉所有常规调用的操作系统。
CVM401还包括一个元信息管理器403,该管理器管理诸如文件(或其他类似的、适于设备的、诸如记录或名称空间的实体),目录,对象,与CVM401相关的应用,以及任何其他资源或对象(本地,网络等等),和有关用户的信息(参数选择,安全习惯,生物测定,行为等等)的单元。元信息管理器403通过用抽象类别和元信息使这种单元和系统资源与高级会话抽象层次相关来管理这些单元。扩充对象表示以包括类似与各个对象相关的内容驱动元信息(例如安全特性(用户和作者),文件与类似图画,图例,图像等等的抽象概念的关联)的高级知识表示。所有这些单元均与多个元信息类别中的一个或多个类别相关。由操作系统,应用或用户定义这些类别。通过指向类别定义和相关功能,或者通过把它们登记到这些类可以使各个文件,目录对象和应用与一个或多个已定义的类别关联。如下所述,抽象元信息可用于提供快捷方式,或自动提取并处理文件系统的单元或任何其他对象,资源或用户。
更具体地说,元信息管理器403使用具有多个类别的抽象元信息和协议管理文件系统。可以由资源的所有者/开发者或资源的以往用户/应用定义这些类别。有利的是,与常规文件管理系统相反,CVM401依赖关联存储器概念,其中操作系统通过三种主要形式捕捉有关文件的信息:(1)文件名的扩展名;(2)文件名的开头;和(3)文件内容类型(二进制或ASCII)(虽然这里描述的抽象类别概念可以显著改善这种常规文件系统)。在一个会话系统中,增加一个附加抽象层次以概括文件的内容或作用的特征。例如,各个文件可以和一组概括文件(通常一个GIF文件与一个缺省打开或编辑文件的软件应用相关联)特征的抽象类关联。另外,多个目录/文件系统显示缺省包含或不包含根据显示信息所得到的这些扩展名。为了利用任何自动处理,任何其他图像类型文件会需要在应用层次上登记,或者最好在操作系统层次上登记。反之,不正确或歧义文件扩展名经常会导致不正确的自动任务。另一方面,文件名开头传递更详细的、关于指定文件的内容和处理要求的信息。然而,当前类似MIME头的文件名开头通常只被用于应用类,例如电子邮件或诸如HTTP和HTML的协议和语言。
根据本发明,文件与抽象元信息相关。自动使用主题或图像分类符,或者明确根据应用,用户,平台等等可以实现这种关联。例如,图像,图画,电影,绘图的概念可以定义不同的抽象类别。所以可以通过这些独立于格式,扩展名,和/或文件使用的不同术语概括文件的特征。另外,CVM提供由应用开发者(接着进行登记)或用户(定制或使用)在应用上增加类别的能力。
应当理解,这些抽象也可以被扩展到目录,对象和应用,而不仅仅是针对文件。例如,类似链接,宏,快捷方式,甚至书签的概念可以和某些类别关联。相对于所有绘图应用或所有图像文件,这些类别允许显示所有财务应用或财务文件。
元信息管理器403会将任何在CVM平台上提供或建立的对象关联到一个双链接类别目录。应当理解,可以使用实现相同功能的其他实现。CVM平台包含一个关于所有已定义类别的注册表列表,其中由元信息管理器403管理该注册表。某些类别可以是依赖用户或应用的类别。通过使用CVM平台系统调用,一个用户或应用可以产生新类别和与这些类别关联的新对象。对于文件系统尤其是如此。此外,CVM平台或用户/应用通过系统调用提供的动态信息可以被增加到各个对象中:产生日期,使用日期,使用者,使用时间,使用频率,对象产生者,对象编译者。
根据对象,应用,用户或平台提供的信息可以索引一个对象的内容。这些索引是与一个对象相关的动态信息的一部分。可以在可能的运行时刻或以批处理模式完成索引和/或主题检测。
此外,应当理解,正象元信息可以被关联到可用资源那样,元信息,抽象和抽象类别可以被关联到各个被调度的任务和进程。除了进程和负载管理之外,这提供了很特定的任务选择。例如,通过一个会话请求,用户可以倾听一个任务的输出或者重新要求把一个任务的输入(例如扩音器)压到上下文堆栈中并且把一个wave文件或一个ASCII码文件附加到输入流中。类似地,举例来说,用户可以通过提供一个单独的重定向请求重定向到打印机,其中一个文件被发送到该打印机。
应当理解,在文件系统层次上使用抽象类别的概念最好被扩展到可被CVM操作系统使用或访问的任何对象和/或资源。同样应当理解,对于联网和分布式应用,元信息管理器403可以管理多个与非本地对象或资源(例如文件,目录,磁盘,对象,外设,应用等等)相关、由资源的所有者/开发者或资源的以往用户/应用定义的元信息类别。应当理解,实际上抽象类别不受一个具体资源是本地还是网络资源的影响,并且通过访问或连接到一个资源,该资源可以登记到抽象类别,甚至可以产生新的抽象类别。更具体地,可访问但未访问的对象必须登记其元信息,其中当一个机器与其相连时可以在本地进行登记处理,也可以登记到一个类似于DNS方案或名称空间管理器的服务器,其中登记其自身,其内容或其类别。当一个应用或对象被下载或被传送到机器(例如通过ActiveX,Java脚本,Java小应用程序,Vb脚本)时也在本地使用这个协议,从而允许一个应用自动登记/激活其抽象类别。使用登记协议(如上所述)在与一个远程系统相连时、或者通过一个元信息服务器(类似于一个DNS服务器或名称空间管理器)自动产生与新的非本地对象关联的新类别,其中上述服务器更新与一个对象或其内容相关的抽象类别目录。自登记机制允许从网络下载新对象或把新对象传送到网络以便传递其相关元信息并且使用相同协议进行本地登记。双链接目录和注册表可以被附加到平台目录。每当一个资源登记新类别时,指定新类别与该资源关联。当释放该资源时,清除对应的类别。
就象与本地对象相关的元信息那样,抽象元信息可用于快捷方式,自动提取或处理网络的非本地单元。在活跃抽象类别或登记资源集合内应当记忆这些资源,至少是记忆一段时间。通过指向类别定义和相关功能,或者通过把它们登记到适当的类,各个远程可访问非本地对象或资源可以和这些不同的类别关联。
例如,“watson”资源可以是指所有属于所访问的watson.ibm.com企业内部互联网、所有打印机资源或所有财务主页。当前,对于一个常规浏览器(或查看器),针对页面或文件的URL可以被存储并且被用户人工分类。作为该方案的结果,会根据文件名开头格式或最初在HTML内(例如在符合当前HTML规范的指定注解字段内,或在一个适当的元标签内,或者基于一个附加的会话协议握手)包含的其他元信息自动产生或预订抽象类别。所以,当书签被访问或增加时会被自动分类。
元信息管理器403和注册表收集通常假定在会话交互中已知但在当前会话的层次上得不到的全部信息。例子是:先验知识:文化层次,教育水平假定和固定信息:过去的请求,参考资料,关于用户,应用,新闻等等的信息。这些信息通常是需要保存并保持超过会话历史记录/上下文的存在时间长度/寿命的信息和期待成为会话的公共知识的信息,因而这些信息从不在当前和过去的会话交互其间被定义。
统一数据流处理是一个通过元信息简化抽象分类并且允许分类出类似抽象类别,文件,对象,应用以及本地或网络资源的重要路径。
现在会更详细地解释当处理输入和输出数据流时在CVM401的任务调度器/控制器402,对话控制器404和上下文堆栈405之间的交互。应当理解,本发明在多个任务(具有多个语境)之间提供了具有上下文和混合主动分类的NLU接口。更具体地说,本发明提供了使用NLU,NLG和混合主动方式在具有多个语境的多个应用之间进行自然语言对话的能力。在这点上,各个应用会为CVM401提供其自己的分析和转换参数。如下所述,NLU引擎410可以顺序(表格填充)或并行(例如,过程性线程或并行会话对象/过程或并行表格)标记一个查询。执行第一个通过产生一个非歧义查询完成其对话的任务,并且在用户拒绝所识别的查询的情况下存储其它应用解释的对应查询以便激活。
应当理解,会话生物测定可用于收集任何上下文和有关用户的元信息,这样做不但是为了设定或适应用户参数选择或授权一个查询,也是为了使用信息执行更可靠的识别。因此,可以累积任何信息以便识别用户。即,常用查询短语,查询短语类型,命令频率(经常使用,不经常使用),最优应用,时间或使用率等等。使用在标题为“使用非声学和/或声学模型进行发声者验证/识别/分类的装置和方法”的美国专利5,897,616号中公开的方法可以建立会话生物测定,其中该专利与本发明有共同转让并且在此对其加以参考引用。
现在参照图6,一个图例图解了一个基于本发明一个实施例的会话输入/输出接口。如图所示,一个基于本发明一个实施例的会话输入接口可以通过包含自然语言接口的电话600,键盘601,指点设备602,手写设备603处理多态输入,即文件/数据流/资源,语音。这意味着所有形态之间的所有输入和输出事件被捕捉并且被传送到对话管理器(还将其适当地存储在上下文堆栈中)。对来自一个语音客户端(例如电话600)的口语输入进行语音识别处理604,而对其它输入(例如,键盘,鼠标点击等等)进行NLU处理605。对各个输入进行属性获取(401a)处理,从而根据输入获取属性值n元组。执行一个总结处理401b,其中属性值n元组被加到上下文中并且根据后台应用608的语法验证查询是否完整,不完整,或有歧义。对话管理器和上下文管理也跟踪后台访问。有时可以通过向后台加载某些歧义消除能力(对话管理器的一个功能)向后台分配某些“智能”。单独地,各个输入流工作如常。关键的会话特性在于输入过程,其中可以根据NLU(提供对输入查询的自然语言理解)或FSG模式(与自由式自然语言输入相反,根据规则:语法和词汇约束输入)输入命令。通过补足遗漏字段或校正不正确的字段可以完成或校正活跃任务的命令或查询。同样地,CVM引入了不符合常规OS要求的新问题:合并同时的输入流,从而产生输入歧义。例如,输入现在可以混合键盘上的输入按键,手写输入和语音输入还有来自重定向输入流的可能输入。所以,本发明提供一个消除任何歧义的机制。按照前面引用的美国专利申请60/128,081号描述的方式可以实现这种机制。
根据本发明,输入问题被看成合并多个解码器输出,ASCII转录或一列属性值n元组的问题。各个输入流被转换成其ASCII转录并且通过语音识别处理604与输入时间标记对齐。当不同输入流与相同任务相关时,转录被合并如下。首先,根据时间标记对命令和查询进行分类并且附加到一个单独数据流上。可以根据FSG规则检查命令格式并且重新分类以满足语法规则。NLU查询不必需要重新分类。对于NLU查询,针对各个输入流填充符号字段并且在最终输入流层次上混合。诸如拼写和字母数字的参数不使用语法规则或NLU消除顺序歧义。类似地,时间标记被用于建立一个唯一的输入流。然而,输入被反馈给用户以便确认,其中使用一个取决于应用的词典或FSG规则库进行可能的预先过滤。
如上所述,对于基于网络的交互,各个机器登记网络中其他设备的任务调度器/控制器并且提供关于其会话能力的信息。换句话说,一个合格桌面PC会登记所有的会话能力,其中一个电话会自己(智能电话)或使其服务器(合格电话)登记成无显示器,无键盘,无输入笔,无指针的设备,一个PDA会登记成单窗口设备等等。在系统之间只交换有关的输入。
总之,输入过程提供一组多模式输入流,每个输入流被改写成一个ASCII命令,查询或属性值n元组列表。各个输入实体(命令,NLU查询字段或参数单位(隔离字母,字,等等。)与时间-标记关联并且相应被附加到一个混合输入流中。如果两个或更多输入流具有相同的时间标记,则根据各个输入流以前被构成的时间划分其优先权。参照可能的FSG和词典检查混合输入并且可以有选择地把输入反馈到用户。各个资源交换其会话能力并且输入流被裁剪成只交换相应的信息。
对于会话输出调度和接口,CVM401产生对文件/数据流/资源,显示(单窗口或多窗口,GUI,颜色,图像,电影),音频的输出。单独地,各个输出流工作如常。然而,根据上下文堆栈405和任务调度器/控制器402,多个处理的输出可以同时在相同的输出流上发生冲突(例如相同文本模式显示器或语音合成器)。并且在若干输出流之间可以多路复用一个任务的输出。
各个输出流可以工作如常。可选地,输出可以是一个任务的输出或对话进程(例如,直接对话或混合主动对话)产生的输出。存在不同类别的输出流。例如,对于一个单通道输出(例如,哑终端(VT100或Palm Pilot屏幕)或纯音频输出),所有使用这个资源的输出消息使用相同的通道(有时共享一个相同通道)(例如语音输出,单窗口/屏幕和/或文本输出)。对于多通道输出,每任务(例如Windows GUI)的输出均有一个单独的通道。根据内容堆栈405和任务调度器402分配的优先权对多个任务针对单通道资源产生的输出流进行排队。当一个单通道输出被提供给用户时,事件变成活跃并且被压到上下文堆栈的顶端。多通道输出不划分优先权,但被异步更新,并且没有把任务弹到堆栈顶端。
应当理解,根据由任务分配但可以被用户修改的输出句柄,各个任务的输出可以被多路复用到多个输出流。对于基于网络的交互,各个机器会登记网络中其它连接设备的任务调度器/控制器以便提供有关会话能力的信息。例如,如上所述,一个合格桌面PC会登记全部会话能力。一个电话会自己(智能电话)或使其服务器(合格电话)登记成无显示器,无键盘,无输入笔,无指针的设备,一个PDA会登记成单窗口设备(例如Palm Pilot)等等。在系统之间只交换有关的输出。
应当理解,所有输出,尤其是语音输出,可以被用户定制和编程。类似于可以为文本显示选择字体,可以选择通过语音产生输出。在这种情况下,我们说出语音字体。使用会话格式化语言准备更复杂的会话表示。总之,CVM401提供一个根据上下文堆栈405和任务调度器402把多个任务的输出排列成单通道输出的机制,并且提供了一个甚至在多路复用的情况下也可以重定向或修改分配给各个输入流的资源的机制。各个资源交换其会话能力并且输出流被裁剪成只交换有关的信息,其中包含输出语音字体的选择和包括GUI事件及其他音频内容的会话呈现的格式化。
现在更详细地解释CVM401的输入/输出处理。如上所述,CVM401必须适当地组织各种活动。例如,基本系统调用必须分散多个涉及不同子系统的动作。这种动作包含执行一个任务,侦听新输入,和产生一个输出/反馈。举例来说,任务调度器/控制器402会根据上下文堆栈405决定使用不同的、必须进行一次查询的统计分析器以便对话控制器404识别活跃上下文并完成查询。必须适当地对这些动作划分优先权以便执行完整查询和更新上下文堆栈405,向用户提供有关不完整或有歧义查询/命令的反馈,允许新输入被解码并且遍历上下文堆栈405,以及返回执行或运行进程的输出。
任务调度器/控制器402通过会话参数使各个任务或设备与一个会话引擎关联。当每个应用或设备有一个引擎时,各个应用或设备的NLU引擎可以并行(过程性线程)或串行(表格填充)工作(如上所述)。当多个设备/应用共享相同引擎时,需要NLU引擎与过程性线程并行工作。由各个被激活的任务根据会话参数拒绝一个新查询或确定其可能性。被拒绝或恢复几乎不可能的查询导致对话控制器404遍历上下文堆栈405以便寻找下一个可用上下文。在上下文堆栈405中存储一个活跃任务的各个动作,完成的查询和会话参数,以及每个返回值/结果。另外,在适当的情况下一个返回值和结果会启动传递上下文。
任务调度器/控制器402把各个命令/处理分解成多个动作,启动具有适当优先权的相关线程/进程并且在上下文堆栈405内部关联/插入这些动作。任务调度器402分配各个资源,在不同的分散动作之间共享这些资源并且控制到达和来自资源的句柄和数据流。任务调度器402根据形态(指针,键盘,文件,语音)把数据流重定向到适当的会话子系统或常规子系统,其中语音输入被改写/理解。使用这些子系统的输出遍历上下文堆栈405以选取活跃的查询并且完成查询。另一方面,根据各个任务的优先级对输出进行排队并且把输出顺序调度到输出资源上。
在有或者没有被激活的会话的情况下各个新(活跃)任务/进程/线程在上下文堆栈405中产生一个新的堆栈入口。上下文堆栈405与机器状态堆栈相关,使得对于来自一个用户的任何新输入,可以遍历上下文堆栈405直到能够适当建立输入上下文。这在本质上相当于从最近和过去的会话中发现和选择用户和机器之间的活跃会话,其中可能回溯历史记录。现在更详细地解释选择过程。另外,各个任务与一个混合主动层相关联。该层可以象相当于在操作系统中一个命令行的使用信息的会话那样简单。对话控制器404会首先在命令查询的语法层次检查一个用户命令查询是否完整或没有歧义。被认为不完整或有歧义的命令会通过类似方式以某个优先级(对所涉及的应用是最高优先级)被返回到适当的会话引擎407,该引擎会产生一个针对遗漏或有歧义信息的请求(提示)并且更新上下文(所请求的遗漏字段)。当不能更好地构成提示(例如传统应用)时,也可以简单地通知请求不完整或有歧义。
另一方面,完整和无歧义命令会产生某些结果(例如,输出或动作)。通过类似方式以某个优先级把这些结果返回到适当的会话引擎407并且更新上下文,除非象在常规系统中那样由用户进行重定向。然而,由于在对结果进行重定向时会导致部分混合主动的通知,重定向会更加复杂。如下所述,可以通过一个会话助理来加以实现。这样会使通过常规系统实现的方式极其复杂并且可能会需要把输出重定向到一个专门编写的脚本。命令也可能需要用户在根据来自CVM平台,应用或用户参数选择的优先顺序/设置执行任务之前进行确认。
以逐个上下文遍历堆栈的方式完成/搜寻活跃上下文。即,对话引擎通过遍历堆栈对新查询或参数进行比较,直到获得一个可接受的匹配并且可选地得到用户的确认。当发现一个在NLU符号语言层次上与发言匹配的上下文后,该上下文变成活跃并且对应的进程活跃。直到完成活跃的命令,或者直到提供一个新命令,所选择的上下文被标记成活跃并且被推到上下文堆栈405的顶端。当一个消息被返回给用户时,上下文被更新并且被推到上下文堆栈405中低于活跃上下文的顶端位置。更新活跃上下文以便通知存在一个返回值。当遍历堆栈之前也可以在取代CVM对话的会话层次实现这些操作,其中上述会话可以在堆栈内或总是在堆栈外,并且在活跃上下文之后搜寻到上述会话。同时,被完成的任务产生根据CVM优先权(例如FIFO或FILO)被排列在活跃上下文后面的上下文。充分完成并产生一个任务的活跃上下文会被压到低于下一个或所有返回上下文的堆栈位置。也可以变成活跃会话。可以自动进行这种处理,也可以在用户发出命令时进行。这种堆栈结构允许和多个任务,线程或进程保持无歧义的会话交互。
如果请求是完整的,则会处理请求,当请求不能被撤消时挂起可能需要用户确认的请求。否则,混合主动方式被用来继续完成或校正查询/命令。每当一个命令/请求取得进展时,在上下文中打开选项以供用户拒绝会话。这样会意味着恢复以前的堆栈状态(和程序状态)并且遍历堆栈。用户则必须明确请求在堆栈中向上回退。如果在执行或把执行通知传到用户之前用户拒绝或立即完成他/她的输入,新输入被附加到活跃发言中并且重新从堆栈顶端开始搜寻。用户在建立活跃上下文之前提供的任何其他发言被存储在缓冲区中并且被认为是对活跃发言的附加(语音发言或任何其他模式的输入)。根据语音,键盘,鼠标,任何其他输入或命令与应用输出更新上下文堆栈。
基于本发明的CVM401提供的一个特别有用的功能是“会话记忆”。会话记忆是延迟并返回到一个由用户,平台或特定应用分配的任务和上下文的能力。通常,由用户启动的指令/命令被明确发送到系统的后台。这种命令可以导致启动被赋予某些特定任务或功能的守护程序或代理。它们还可以导致记忆,其中CVM凭借记忆“记录”一个命令或事件,报告或加以执行并且在由用户选择或缺省设置的特定时间(例如在对话结束时)返回到用户。所以,可以重定向一个输出或后台任务以便在一个后续的时间提供其结果。常规代理被激活。常规后台任务和代理的差异是,当提示或结果被返回到用户时,恢复在记忆请求时生成的会话上下文。在发生记忆时,获得上下文堆栈405的抽样并且将其存储成与被记忆任务相关的元信息。当所记忆的任务与用户交互时重新组织上下文堆栈405。根据从启动任务到完成任务之间上下文和对话的演变产生的中间变化,通过由用户或应用开发者编程或由CVM强加的可能更新,存储当前上下文堆栈并且把旧的上下文堆栈加到堆栈顶端。当完成用户与被记忆任务之间的交互时,通过返回到一个以前的上下文把以前的上下文堆栈加到堆栈顶端。当增加上下文堆栈时,在堆栈底部消除任何重叠。用户,平台或应用可以决定只保存堆栈的存储部分。会话助理执行这种任务。通过简单地运行其自身并且只在产生输出时与用户重新交互的代理和守护程序可以实现这些操作。根据任务的优先级将其输出发送到用户。当变成活跃时用户可以容易地更新与代理相关的任务。会话记忆更适合作为被插入到堆栈底部并且只在对话结束并且堆栈被清空时才执行的任务。有时它们可以被插入到堆栈中较高的的位置或者在预定时刻被推到堆栈的顶端。只在活跃时才执行记忆任务。记忆功能提供记忆过去的动作,优先顺序和指令的能力。
如上所示,记忆节省了一次为恢复与提示相关的会话对活跃上下文进行的抽样。然而在进行记忆时能够总结针对用户的会话和上下文也是重要的。为此,一个应用(和/或用户参数选择或CVM平台作出的某些决定)的应用开发者可以提供应当被总结并且在被填充时被提供给用户的字段(即属性项目)。这些字段在与系统的各个变量/属性相关的元信息中被存储成额外字段。通常,应用开发者还可以描述应当如何寻址各个字段(使用一个可用的抽象名称)以代替用其实际变量名称或属性标志进行寻址的方式。接着在应用作出决定(应用的再激活)时启动总结,也可以由用户或CVM的查询启动总结。总结处理会搜寻活跃的进程,恢复上下文并且总结“填充与查询相关的属性n元组的状态”。总结任务是一个类似于任何其他应用的CVM服务,依靠该服务用户可以和总结应用对话以获得更详细的信息,也可以在时间上进一步回退以便进行总结。这就象说出“回到应用X”或“您在叫我做Y”那样简单,更复杂的方式是根据对话历史记录更详细地回退。
CVM401提供的另一个功能是会话重定向。由于易于重定向Unix进程的输入和输出,会话重定向也执行相同的功能。然而,由于在对数据流进行重定向时会导致部分混合主动的通知,重定向会更加复杂。使用会话调用可以使用优先权级别区别处理结果之间的输出和用户通知。
并且如上所述,元信息,抽象和抽象类别可以被关联到各个被调度的、提供特定任务选择的任务和进程。例如,通过一个会话请求(或通过按下键盘上的按键或点击鼠标或提供一个按键),用户可以倾听一个任务的输出或者重新要求把一个任务的输入(例如扩音器)压到上下文堆栈中并且把一个wave文件或一个ASCII码文件附加到输入流中。类似地,举例来说,用户可以通过提供一个单独的重定向请求重定向到打印机,其中一个文件被发送到该打印机。
根据选项/优先顺序的配置,系统负载或系统的能力,任务调度器/控制器402可以决定在网络处理器上执行任务或延迟某些任务直到另一个处理器可用于理解输入,激活和能够理解输入,或者在网络上有一个能够执行这种任务的设备可用。通常,一个低端手持设备上的延迟听写会遵循这个模型。而且在任务中记忆任务并且逐个对话地进行记忆直到服务器端活跃并且能够进行改写。类似地,任务调度器/控制器402可以管理一个本地机器和一个服务器机器之间的共享接口。例如,一个名称拨号器应用可以被加到一个会话智能电话上。经常使用的名称被本地存储和识别。另一方面,未知名称或以前从不使用的名称被发送到一个能力更强的网络机器以便识别并接着下载更新的信息(要拨打的电话号码等等)。类似地,本地存储的全部信息可以周期性地进行同步以便更新电话号码信息。这个本地对基于服务器的识别的处理被任务调度器402隐藏。网络共享任务被用户当做若干独立于执行任务的机器的会话来管理。这是对针对所有事务处理的所有平台上的统一CVMAPI的用作的一个说明。这类似于在前面引用的IBM文档号YO999-113P中描述的、使用会话协议在网络设备之间提供会话服务协同的方法和系统。另外,一个分布式体系结构和介于客户端和服务器之间的分布式处理对会话网络产生新的要求。这种要求涉及管理分布在网络上的传输流和资源以保证参与网络上一个会话交互的各个用户有适当的对话流程。在IBM文档号YO999-113P中描述的单元在这里是被用于网络上的会话交互(例如,维护对话流程的服务器负载管理,基于任务,功能,能力要求,会话参数可用性(数据文件),会话协议,提供一个具有允许重构播放的间隔的编码协议的音频RecoVC(兼容识别语音编码器)的引擎服务器选择,等等)。
应当理解,任务调度器/控制器402提供相对于常规OS是全新的调度行为,其中常规OS不这里描述的CVM方式共享会话和常规子系统。实际上,对于一个常规系统,文本输入在一个窗口内部总是连续的,并且与唯一一个的任务相关。通过一个键盘处理多个同时任务并且处理一个唯一窗口内显示的文本的能力会要求这里描述的大部分会话调度原则。任务调度器处理有关维护对话流程的事项,因而使网络和CPU负载造成的任何延迟最小。任务调度器会划分CPU周期,可用网络路径和资源的优先级以保证对话的延迟对于可接受的水平的最小的。当一个引擎变成瓶颈时,该引擎接受更多的CPU周期(较高优先级,直到被收回)。并且,这涉及会话式计算。当一个网络路径变得速度很慢时,会找到另一个路径或另一个资源以便最小化延迟。否则,会警告用户可能有响应延迟。活跃对话的对话流程是CVM的一个优先权。所有连接用户的活跃对话的对话流程和最小化延迟是通过网络中路由器网关和服务器上的CVM进行优化的功能。
会话CVM系统提供的另一个功能是“会话安全”,其中涉及本地或远程文件,尤其是可执行文件的作者和/或修改人的元信息可被用于安全目的。具体地,对于基于语音的会话系统,由于各个命令不但传递查询的方式,而且传递用于用户使用认证的足够信息,不依赖文本的发声者验证可用于识别和验证用户。通过这种方式,每当对受限制资源进行一次查询时,可以根据有关该资源的安全元信息对用户进行自动(和透明)认证。如上所述,针对用户查询和历史记录收集的全部信息可用于帮助用户识别(ID或验证)。
可以直接根据请求或使用在查询之前刚获取的非过期信息进行认证。具体地,可以通过逐个查询的方式对文件或应用访问进行授权。例如,如果一个用户请求一个受限制服务,可以根据预先被授权访问该特定服务的用户集合对请求进行验证。通过根据请求(例如,文件访问,目录访问,应用打开,可执行程序,连接,加密/解密,数字认证/签名)执行的开集发声者识别可以进行认证。在没有明确的登录或口令认证的情况下可以无缝访问具有不同口令或与一个类似用户相关的用户ID的资源。无论如何,在用户对话过程中可以连续并透明地进行非强制用户认证。
根据即使没有语音输入也可以实现会话VM的思路,上下文堆栈应当包含用户的身份以作为最近鉴定的身份。另外,各个资源应当包含授权用户目录以及某些安全要求(例如,在非语音的情况下最近认证的截止日期)。当然,也可以考虑基于敲键和输入笔的认证,但绝不是强制的。
各个资源还可以记录/高速缓冲各个试图访问它们的用户的身份。这些记录可以被加密并且以后被用来识别针对以前访问的资源的访问请求。具体地,操作系统可以截取来自一个外部源的口令请求并且以对用户透明的方式使用记录完成请求。新资源可以传递一个登录请求并且同时登记其元信息,使得即使是登录处理也可以对用户完全透明。这是对单一签名或口令窗口(vault)概念的扩展。
CVM提供的另一个功能是“会话定制”,其中可以根据用户请求程序的参数选择单独定制对各个任务或资源的访问。例如,可以根据一个已识别用户的参数选择自动定制CVM的个性特征/行为(例如合成的语音-语音字体)。直到用户明确退出CVM实例(即终止对话),定制和参数选择才被冻结。这种系统或应用是多用户的,但每次只处理一个用户并且仅此一次,直到下一次登录为止。
如上所述,对于会话安全,每当对一个资源进行一次查询时可以对用户进行自动识别。可以直接根据请求或使用在查询之前刚获取的过期信息进行认证。根据活跃用户的顺序划分任务和上下文的优先权,并且每当用户顺序发生改变时重新划分优先权。可以在不需要重新设置整个环境的情况下根据用户身份的变化在“运行时刻”修改环境变量和参数选择。可以使用用户身份在各个上下文或上下文堆栈的层次上消除歧义。在分布式情况下,对于用户或服务器变化,不论是从客户端向服务器加载上下文还是恢复服务器上保存的上下文或在服务器之间传递上下文,均应当更新上下文。
会话VM可以动态适应多个用户的参数选择和活跃上下文。它允许多个用户同时活动运行。在一个基于语音的系统中,各个命令可用于进行不依赖文本的发声者识别。用户的任何改变自动隐含产生一个新的活跃上下文,该上下文在上下文堆栈中把以前的上下文压到后面,除非新用户或活跃应用明确放弃新的活跃上下文。用户改变自动改变上下文堆栈中的优先权以便产生处理与活跃用户相关的任务。
由于在各个会话的上下文中可以关联用户身份,可以立即并且透明地消除命令歧义(以独立于用户的方式正确理解来自我的母亲的电子邮件)。通过与相同用户相关的会话可以较好地增强遍历上下文堆栈405的处理,除非会话所有者,相关应用或某些选项放弃处理。在遍历上下文堆栈时这个规则出现的异常可以自动暗示会话被标记成多用户的。如上针对会话安全所述,通过诸如人工选择或由用户输入他或她的身份的可选过程可以获得用户身份。改变活跃用户身份也对会话安全子系统有影响。各个资源可以记录对其进行访问的用户的身份。
总之,应当理解,对于会话多用户和会话安全,对话,类别,元信息,和资源访问可以是一个关于用户身份及其相关元信息历史记录的函数。反之,通过一个查询收集到的会话信息可用于识别用户。在执行各个动作或访问之前和之后可以查询和更新与各个对象相关的元信息。当一个对象被产生,修改或查询时,关于用户的信息被加到其元信息中,使得元信息包括与各个对象相关的安全和参数选择字段。根据其内容,产生日期,访问历史记录,修改及其他元信息访问一个对象。不但根据用户身份而且根据类似日期,使用历史记录,被打开的应用等等的附加元信息对访问进行控制或配置。换句话说,可以允许个人访问一个文件,其中该文件被打开并且显示在屏幕上或者被播放或执行。然而,拒绝个人打开文件将其内容复制到另一个对象中。另外,可以通过不可删除的方式把元信息标贴到一个对象上。
CVM提供的另一个功能是“会话搜寻”,其中搜寻能力不仅基于文件的名称,修改或ASCII内容,还基于操作系统,应用或用户定义的抽象类别,以及操作系统可以通过在线或离线方式提取,或者在对象被访问时通过协议获得的主题。另外,上下文搜寻能力可以被用来完成活跃查询或选取类似查询/上下文。
具体地,可以根据与各个资源相关的抽象类别搜寻资源。这些类别可以被定义成此前在元信息上下文概念中描述的那样,也可以根据上下文关联定义这些类别。搜寻如上所述的目录中的所有图像相对较为简单,而搜寻“类似图像”则取决于上下文关联:在目录的所有图像中,哪些图像已经被用于一个类似的上下文(例如,被以类似于用来编辑当前图像的应用的方式加以分类的资源打开,编辑或包含等等)。通过对各个资源/对象访问进行上下文记录/高速缓冲来执行上述处理。现在类别还可以包含关于其自身的元信息。另外,不但可以根据类别或上下文类别进行搜寻,也可以根据用户访问进行搜寻(并且不象常规操作系统那样单纯根据对其进行修改的用户的身份)。
最终,可以根据字片段,字,字主题或上下文搜寻可转存介质的ASCII,音频和任何其他集合。主题涉及识别主题文本的能力。上下文搜寻涉及在文本中搜寻与活跃上下文或候选上下文类似的上下文以完成当前活跃查询/上下文的能力。例如,可以选取与指定的星期二有关的所有文件,同时明确搜寻关键字“星期二”或实际日期。提示“明天”的、有关星期一的日历条目也会返回这些条目。
当计算机不太可用时可以对文件进行离线主题确定。只应当检查新的或最近修改的文件。主题被自动加到与各个资源相关的元信息上。根据定义上下文信息总是非常消耗CPU的任务,因而只在用户明确请求时才执行这种任务。对于外部对象,当访问资源时可以自动登记主题(如上所述)。这不禁止本地机器在对象中搜寻其自己的内部抽象(通过有关其自身的元信息定义)。
还提供了“会话选择”功能。在资源管理器层次或依赖元信息,抽象和会话查询/混合主动/校正的任何应用内部提供会话选择能力,从而避免较长的基本选择操作序列并且提供自然的快捷方式和选择校正。提供通过层次结构访问并且立即呈现对象框架的各种机制。
具体地,应当理解,根据本发明并且使用从中选择一个活跃任务或应用的层次搜寻(基于抽象的选择)和复杂查询能力(基于对话的选择)的一种组合可以实现会话选择。会话选择对常规选择方法提供了重要改进。实际上,即使在GUI环境中,通过使用元信息和抽象类别也大大改进了指定应用的可用资源显示。更具体地说,通过基于抽象的会话选择(使用抽象和快捷方式),个人可以按照与语音查询(IVR中)通过DTMF接口略过菜单页面的方式类似的方式略过菜单和层次选择。从提供效率的角度讲,这是会话接口提供的一个主要优点。其中也说明接口的统一性表现在可以通过独立于被用来访问一个服务的形态的方式使用相同接口(例如,通过一个桌面PC,一个PDA或电话)(例如,在前面引用的IBM文档号YO998-392P中讨论的CML)。
例如,考虑一个从数据库检索信息并且提供具有用于Web浏览的HTML格式和一个使用JSAPI和会话扩展建立的会话头的信息的后台服务器。当通过常规浏览器形态访问服务器时,个人可以通过点击或说话来显示信息并且选择期望信息。如果个人通过电话形态访问服务器,则通过一个包括URL和锚形标志的导航菜单进行用户选择。根据网页通过会话HTML发送到浏览器的元信息产生这些导航菜单。
在所有这些情况下,可能通过各种补充方式中的一个方式适当提供用于导航的菜单或对象与资源的任何其他层次结构,其中根据使用网页或文件系统作出的选择来进行上述导航。例如,在登记一个网络对象时,菜单可以传送有关其结构的元信息。此外,系统可以在本地跟踪元信息使之与具有结构(在IBM文档号为YO999-111P,与本专利同时申请,标题为“通过通用层次对象有效进行语音导航的结构框架”的专利申请中详细描述了会话结构框架,其中该专利申请与本发明有共同转让并且在此对其加以参考引用)的结构(框架)的各个对象关联。此外,在CPU的非峰值使用其间系统可以周期性地更新其框架信息。
系统可以周期性地扫描任何本地或外部资源和层次对象。可选地,在具体对话结构中,各个系统可以预订可访问资源并且在访问时周期性地更新框架元信息。此外,元信息服务器可以执行扫描并且和元信息一起提供框架信息。
这种元信息描述如何为菜单(TTS)提供需要使用的词汇,FSG和NLU等等。另外,在不需要象基于常规OS和GUI的选择所产生的后台跟踪或全新选择的情况下,混合主动方式和NLU可用于校正选择。
所以,对于会话搜寻和选择,可以根据常规结构(类似一个具有目录的文件系统),元信息,被平台应用或用户关联到对象的抽象类别及其相关的动态信息搜寻或选择对象。另外,可以通过自然方式提供搜寻查询并且可以使用混合主动方式缩减搜寻查询。使用NLU技术可以对查询进行解码,分析并且将其转换成查询的一个逻辑组合(符号查询)。接着可以搜寻常规结构,类别和动态信息以匹配符号查询。根据搜寻结果,混合主动方式可用于缩减并修改查询。可以挑选或接受匹配的对象。
CVM提供的其他功能是会话帮助,指南和支持。会话接口一个最引人注目的方面是其平滑使用这种系统的学习曲线的能力。实际上NLU和混合主动方式有助于指导用户使用各个应用并且控制系统。然而,更重要的是能够在其执行任务时为用户提供支持。在用户有请求时会话支持提供帮助和指南。它依赖应用的用户使用历史的历史记录和具有类似分类(元信息)类别的历史记录。根据用户以前的动作,本发明的帮助功能会是详细(例如,用户从未执行任务,用户最近没有执行任务,或用户在执行这个任务时总是失败)或简单的提示(当用户熟悉此操作时)。当用户执行任务时,一个支持助理同时跟踪应用指南。助理跟踪并且使用遗漏字段,歧义请求,系列校正和被拒绝的命令以加强具有帮助对话的混合主动方式。应当理解,当被存储在元信息注册表218中并且与应用相关时,可以根据用户的使用历史记录裁剪CVM系统提供的诸如会话帮助和支持的服务以及某些对话提示(介绍,提问,反馈等等)。如果一个用户以前已经与一个指定应用进行交互,则在假定用户已经对其熟悉的情况下可以减少解释。类似地,如果一个用户犯了许多错误,由于多个错误被解释成用户对应用或功能不确定,不熟悉或不理解/误解,所以解释可以更加复杂。
通过NLU请求,混合主动方式,基于主题的搜寻和多态教学提供范围包括从混合主动方式/使用支持到对指南的会话访问(本地和通过网络)的不同帮助程序和形态。可以采取涉及本地或远程代理的会话技术支持形式(例如,升级或重新安装以及后台应用)。帮助接口的统一性和协同性总是具有最高的重要性。
应当理解,通过使用访问帮助信息的NLU查询或根据与当前用户(历史记录)相关的元信息和遗漏或通过混合主动方式修改的参数可以访问帮助信息。调整各个应用提供的对话使之适应用户的偏好或技能水平。
总之,使用本地和远程资源,用户和代理的使用历史记录并且通过一个完全协同的会话接口提供帮助和支持,从而完成请求,过程指导,信息搜寻和新应用的升级/安装。
下面是有关被用来实现上述CVM的编程语言/脚本的更详细讨论。这种编程/脚本以便允许把任何可用资源用作输入或输出流。通过使用CVM平台的会话子系统,各个输入被转换成可以被程序设计语言当做内置对象直接处理的二进制、ASCII输入或属性值n元组(或等价说明-字节或XML)。自动包含调用,标志和标签并且在对象和会话元信息与不同对象正确接口所需的进程之间发送。可以根据应用或用户的需要专门对任何输出进行格式化。现在可以使用新的编程工具容易地建立多态会话处理。编程/脚本语言为会话系统体系结构中出现的会话子系统:语音识别/发声者识别/会话系统的输入或输出提供类似于文件或数据流处理的处理。这些输入流被处理成实际上通过系统调用来实现的库调用。应当理解,从CVM的角度看,一个如前面引用的IBM文档号Y0998-392P所描述的会话浏览器可以被认为是一个会话应用,也可以认为其构件(例如XML分析器)和插件是包括会话应用的会话引擎的一部分。
来自一个扩音器的语音输入(例如标准语音输入)可以是具有字序列,电话,用户身份或查询的功能调用参数(NLU提供的符号语言表示)。也可以通过手写或文件等等提供输入。产生的各个输入流可以被看成是一个面向对象上下文中的导出类。
在使用平台脚本的情况下,使用一个会话子系统服务处理发言并且在产生动作之前通过脚本处理发言。一个常规命令和控制环境(例如通过语音的语音中心)可以被看作一个通过会话脚本产生的相对简单的会话平台。通过修改脚本,平台也会被修改。实际上使用常规C/C++代码建立语音中心,在代码深处隐藏了输入处理,命令识别和执行。可以在平台内部设置上下文,音频状态等等以便更新环境或全局变量。并且如上所述,会话对象/构件和基础类可以是过程性或说明性的。
上述基于本发明一个方面的输入处理认为语音或任何其他输入流被包含成典型的输入/输出流,上述输入/输出流易受通常为字符或二进制输入保留的所有形式的处理的影响。通过改写或者在经过分析和NLU之后映射成符号语言可以表示用户输入。此外,也可以通过脚本/程序设计语言完全控制输出。可以根据消息选择或设计,修改语音字体。通过使用这种会话编程语言和脚本,可以建立复杂的重定向,会话处理器或多态会话处理器。存在对常规字处理器和图片/照片/视频编辑器的自然多态扩展。包括CVM的基础类如上所述。
此外,当与其他对象交换输入流时,重要的是以无缝方式为数据流补充会话元信息以便对输入流进行导航,控制或合成。当与其他对象或子系统通信时,通过系统功能调用在本地完成这种处理。网络对象通过类似HTTP/HTML;TCP/IP的其他远程协议或不同形式的套接字交互进行通信。使用能够交换这个会话元信息的标签,标志和信号灯补充这些协议。
从根本上讲这种编程语言是新的会话工具,这种工具可以具有新脚本语言的形式并且是对PERL和Kshell,C和C++,HTML,Java脚本,Basic,Java以及现在被称作口语PERL的语言等等。还可以通过磨合(scratch)建立语言以便优化会话基础类库和对话构件(过程性或说明性)库在CVM顶端的解释(脚本/说明性)或编译(过程性)。
如上所述,编程语言/脚本包括会话应用和CVM之间的会话API。它也包括如前面引用的国际商业机器公司文档号为YO998-392P的专利申请所描述的CML(会话标记语言)。值得讨论过程性API和协议与CML(XML和HTTP)之间的差别以及对传送协议产生的变化。过程性API把CVM暴露给可理解会话的应用。过程性API和协议允许在CVM,应用和设备之间更快地交换会话信息,并且允许控制器更快地确定各个应用状态,而上下文交换需要过程性接口。在另一方面CML是符合XML的目的的、向会话浏览器传递呈现资料/内容的理想方式,并且具有减少开发对话所需的编程技能的优点。
在一个如前面引用的专利申请中描述的会话浏览器类型的接口中,在页面之间交换XML,但由浏览器通过API/协议管理页面之间和多个同时任务之间的上下文。实现可以是根据以串行化对象交换(使用XML)为基础的、基于纯套接字(TCP/IP)的Corba/Java RMI。最好把协议设计成支持XML(说明性)和过程性通信。
在会话脚本提供的可能性中间,会话逻辑大概是最引人注目的。在新会话编程语言的层次上对被提交和馈送到常规和会话子系统的输入流进行直接处理隐含了新的逻辑语句和操作符。
逻辑语句可以是下列语句:(1)真,(2)假,(3)不完整,(4)有歧义,(5)从ASCII的角度看,不同/相等,(6)从NLU的角度看,不同/相等,(7)从活跃查询字段的角度看,不同/相等,(8)未知,(9)不兼容,和/或(10)不可比。可以引入会话逻辑操作符以便测试或修改这种语句。总之,扩充逻辑语句状态和操作符以适应会话查询的多样性,其中可以根据其ASCII/二进制内容或其经过NLU转换的查询(常规和会话子系统的输入/输出)对查询进行逻辑比较。可以实现逻辑操作符以便测试或修改这种系统。
现在参照图7,一个图例图解了针对基于本发明一个方面的一个分布式CVM的体系结构。分布式系统的核心是CVM704(可以位于一个服务器,PC等等上面),CVM704充当多个应用706,设备708-713,其他CVM应用或设备707和会话资源705之间的会话仲裁器。CVM704在这种设备和应用之间提供一个协同统一的会话接口,其中不同会话设备708-713,资源705,应用706利用该接口可以通过我们的会话协议进行连接。由多个会话连接的设备/对象提供一个协同接口。对象集合通过CVM704的集中或分布式上下文堆栈为用户提供了一个单独的协同接口。会话设备可以包含静音部件,其中可以通过另一个会话设备的会话接口控制静音部件。在登记期间,它们会在请求支持的上下文目录时进行交换。在连接期间更新这些上下文。根据连接把上下文集中或分布在设备上(即,网络是协商式的)。
当一个用户与设备集合交互时,总可以通过一个诸如汽车中的PVA(个人车辆助理)710的中央单元或一个语音浏览器713进行交互。任务调度器和上下文堆栈累积与所有设备相关的上下文并且会分析命令并把命令相应分配到各个设备上。如果用户与整个设备集合交互,则一个设备始终是活跃的(上次被激活的上下文)。这个设备检查一个新命令是否适合其上下文堆栈。即使不适合,传送到一个变成活跃的相邻设备。迭代处理,直到发现一个匹配并且可能得到用户的证实,或者请求被返回第一个设备。在这种情况下,向用户返回一个错误或混乱消息。
如上所述,CVM通过提供以下能力允许用户与系统对话:管理多个会话,使用上下文,通过抽象和元信息引用对象,分配和记忆任务,抽象和上下文,为用户定制,总结,帮助用户,甚至帮助不熟悉的用户,识别和鉴定用户,在有或者没有显示,GUI,keyboard或定点设备的所有交互中提供相同的接口。在加上或减去与通道无关的功能的电话,Web,PDA,桌面PC上进行相同的交互。
例如,一个用户可以远程访问关于一个电子数据表格的一个单元的信息并且在必要时修改该单元,同时还检查其电子邮件。用户可以选择以常规方式执行所有这些任务(在其桌面PC的前台),也可以选择在不用查看的情况下通过语音检查电子数据表格信息,同时还完成录入一个电子邮件。在所有情况下接口对用户均是相同的。
当多个设备会话相连时,它们会协同其接口以便可以通过统一的CUI控制所有设备。通过下列例子可以说明这个概念。假定一天夜里你正开车回家并且记起你的配偶叫你到一个新食品商店购买某些商品。在发现你的电话应答机上的消息之后,你使用一个语音识别软件在你的桌面PC上快速把消息改写成一个备忘录。然而,你忘记打印或将它传递到你的PDA上。由于在你的汽车中有一个会话PDA,一个会话汽车PC(PVA,个人车辆助理)和一个会话智能电话,在你的桌面PC运行一个CVM的情况下便不会有什么影响。进一步假定PVA运行一个嵌入式CVM并且两个其他应用是可理解会话的,即你可以通过在PVA上运行的CVM控制它们。
你可以指示PVA使用电话拨入你的PC。一旦连接建立,通过语音对你进行鉴定,并且在不必记起文件名、目录或浏览你的目录并最终选择适当文件的情况下,你通过简单地请求你以前产生的“食品目录”以语音方式找到备忘录。如果你的PC CVM请求如此,你可能需要确认选择。你可以提出另一个查询-“应当与我的PDA同步”-并且文件被适当链接以便在下一次同步时被传送到你的PDA。最后命令-“干吧!”-并且你的PC放弃处理而由PVA处理有歧义的查询。PVA根据你以前的会话知道你期望同步PDA和PC。在可能的确认之后,执行同步并且食品目录被存储在你的PDA上以备稍后使用。
你现在指示PVA指导你一步一步到达商店。计算你的位置,从本地或一个服务器得到商店的位置,并且计算出一个线路以便考虑到最近的交通信息。任何时候你都可以请求有关你在哪里,下一步做什么,要走多远的导航信息,甚至可以请求一个不同的线路。
如果时间紧迫,你指示PVA拨打商店转接服务器。这可以导致一个具有目录支持服务IVR的中间对话。一旦连接到商店IVR,即以类似当前主页的方式建立的小型商业概念实例或个人用户IVR,你通过与商店的会话接口对话发出订单。为此,你请求PVA慢速浏览食品目录并且为你逐项朗读。接着重新向IVR陈述请求并且继续对话直到适当发出各个订单。
在你到达商店时,你的订单已经就绪。现在你可以开车回家并且在开车时安静地倾听你的电子邮件或检查新闻或股票行情。如果需要,你可以拨入你的PC以便查询或修改某些电子数据表格信息。同样你会在处理你的邮件时在你的桌面PC上对其进行语音查询。你还可以把任务分配给你的PVA或桌面PC上的代理以便请求更新或稍后提示。
对于运行在桌面PC和PVA上的CVM和了解智能电话和PDA的CVM,应用开发者必须只挂接到CVMAPI上。它导致登记所有其会话能力和要求:
1.活跃词汇,有限状态语法和控制应用的语言模型;
2 在支持NLU或列出一个上下文状态目录的情况下的符号映射;
3 被关联的有关元信息/类别,尤其是允许针对输出进行分类的元信息/类别;
4 会话I/O信息:是否直接控制输入/输出或是否一个静音部件,一个会话I/O提供方的客户端;和
5 CVM能力/状态:是否运行一个CVM;是否一个CVM客户端;是否一个主CVM,从CVM或配套CVM。
在前面的例子中,PVA是主CVM。如果配备CVM,则PDA和智能电话是从CVM,或者只是了解CVM。当PVA会话连接到PC时,需要PVA的应用开发者判定PVA是否充当主CVM,从CVM或配套CVM。当在本地或通过电话连接时,设备交换由API传递的必要信息,从而完全定义了设备间的协同关系。并且CVM自动处理所有的输入/输出发起方,其中包含会话和常规子系统。并且API传递CVM的全部信息以便把查询转换成应用调用,反之在输出被提供到用户之前把输出转换成语音并且加以适当的分类。
开发者使用开发工具可以容易地围绕会话API和CVM建立他的应用。这个开发环境(这里被称作口语时代“Spoken Age”)允许程序员仿真CVM,调试应用或网络协议并且快速开发会话用户界面。口语时代包含CUI和针对CVM开发的应用。它也提供修改针对指定应用的引擎的数据文件(会话参数)的环境。具体地,这意味着口语时代在工具层次上也包含类似象IBM通过语音工具包那样的SDK工具包的常规引擎前台程序。这意味着它提供的工具包和算法允许用户针对一个指定任务重新建立,调整或扩展数据文件。这导致根据数据收集规则收集应用数据并且运行适当的脚本以便产生数据文件并测试性能。这可以导致下载数据文件或一部分专用于任务,语境或声学环境的数据文件(来自CD ROM或Web站点)。这还可以导致根据查询更新数据,其中通过填写表格并且描述新应用/指定数据例子对一个数据文件生成服务机构进行上述查询。
一旦在一个平台上针对一个特定通道开发一个应用,程序员可以依赖口语时代把应用移植到任何其他支持CVM的平台上。他们还可以使用CVM自动调整其针对通信通道或新平台或设备产生的UI约束的会话能力。换句话说,现在可以依靠CVM的电话能力通过电话对一个为通过桌面PC进行语音访问而编写的电子数据表格进行语音访问。并且,一个用口语时代编写的、基于Java,CGI和XML/HTML的Web站点可以立即被转换成一个通过电话或使用小型嵌入式会话浏览器访问的受限制语音标记语言提供的IVR。
分布式系统还包括一个会话浏览器713,这是一个可以与CVM配合工作的、引人注目的语音应用。会话浏览器可以运行在CVM顶端并且在呈现一个CML页面的同时解释CML以建立一个会话对话。如图7所示并且如前面引用的IBM文档号为Y0998-392P的专利申请所描述的,会话译码器一个把类似HTML或DB2的常规格式译码成XML的会话译码器代理可以访问传统应用700。会话浏览器解释CML(会话语音标记语言),该语言是一个基于XML规范的语音标记语言。该浏览器可以被看作一个运行在CVM顶端的、最引人注目的应用。会话浏览器可以携带其自己的CVM的独立应用。CML允许缺乏经验的应用开发者快速开发会话式对话。为了进一步跟上HTML和环球网,CML和会话浏览器提供了一个简单并且系统的,围绕传统企业应用和传统数据库建立一个会话用户界面的方式。此外,一旦在CVM顶端建立,这个机制可以在由用户在多个应用(本地和网络)和设备(本地和网络)之间进行的会话中包含这些应用,服务和事务处理。当用户访问一个传统应用,其PC上的一个会话应用或一个在服务器端运行会话浏览器或会话应用的IVR时,该机制也为用户提供相同的用户界面。使用会话代理把HTML对话转换成CML允许使用相同页面驱动PC或嵌入式设备上的常规或多态浏览器和IVR应用。在配备一个电话卡的服务器上适当设计的主页也变成一个个人IVR。尤其是在使用会话代理把HTML页面译码成CML页面时。
尽管通过API提供CVM并且CVM和分布式资源会通过API和过程性协议最有效地进行交互,但重要的是扩展交互协议使之包括HTTP和XML/HTML交换。实际上,HTTP和XML交换,或串行化对象对于一个单独的或连续的会话事务处理是足够的。选择最优协议和允许XML交换的选项使对话设计简单得只需要很少的编程知识。另一方面,过程性调用允许通过多个同时会话应用非常有效地得到本地或分布式实现。有效会话平台能力需要API接口。多个会话应用上的有效对话管理器需要在不同子系统,应用和所涉及的CVM实体之间交换过程性对象。
下面是本发明一个使用如图8所示的、也被称作UCRC(统一会话远程控制)的UCA(统一会话设备)的应用的一个例子。UCA或UCRC是涉及会话协议的多个方面的CVM设备的一个例子。UCRC是一个具有自联网能力的语音便携PDA。这种联网能力可以是RF,特殊技术(例如蓝牙,跳跃联网)或IR。在家庭环境中,设备现在可以理解会话(但通常是静音部件)。这意味着不同设备可以被发现并且交换以会话方式控制的必要信息。不同设备具有类似的网络能力。在简化的情况下,由一个使用类似X10的固定网络的“家庭控制器”类型的接口直接控制。在这种情况下,UCA更倾向于直接和家庭控制器会话。
UCRC周期性地(很经常)通过会话协议801(如上所述)广播握手(发现)请求。各个设备(或家庭控制器)在检测到这种请求时作出应答。任何新发现的设备标识其自身。UCRC也标识其自身。最终的握手导致一次登记。登记包含标识设备的性质和名称(和任何其他元信息)以及设备是一个静音部件的事实,登记接着会导致一次协商。
在这种情况下,协商立即同意由UCRC驱动会话。新发现的设备交换其当前状态和在该状态下支持的命令。当支持有限数量的命令时,也可以发送其支持的其它状态和与这些其他状态相关的命令。这些等于预先发送一个结构框架。当状态的结构太复杂时,每当状态改变时会以逐个状态的方式处理这种信息。
交换处理导致交换一列在激活时把返回句柄/事件回送到设备的命令和所有必要的数据文件:-词汇,基表,对话的提示/语音字体,语法,可能的分析,转换,标签,针对NL接口的符号语言和语言产生规则。可选地,信息可以涉及会执行会话引擎任务的其他引擎(例如,一个会执行语音识别任务等等的服务器)的地址。在激活并且从用户得到输入时,UCRC CVM确定相关的设备。这可以基于使用不同设备(如IBM文档号YO999-113P所述的本地或远程设备)支持的命令得到的识别结果。
当作出决定时,事件/返回句柄被激活并且在相关设备上执行命令。这导致状态改变。新状态被传送到UCRC。也更新有关UCRC的上下文。根据框架或所支持的命令的一次新交换更新命令。当一个设备临时从网络消失时,在设备仍然由UCRC控制的情况下信息被存储在上下文中。可以根据时间(多长时间以前最后见到该设备)、位置(元信息)或通过元信息(如果被撤消)进行这种操作。当重新激活时,从上下文或元信息中重新加载大部分信息并且协议只检查更新。
当一个设备被明确地从所控制的目录中清除时,停止签收请求可以明确来自设备或UCRC。当以常规方式(常规TV遥控器或灯光开关等等)控制设备时,事件被返回到UCRC以便重新登记/重新协商或仅仅更新上下文,数据文件和设备状态。
注意当一个家庭控制器被使用时,协议实际上是相同的,除非两个模型可以:
1)只登记一个应用:家庭控制器。任何设备改变或任何命令均导致家庭控制器总体状态的改变;
2)在UCRC上登记所有单个设备。家庭控制器只充当一个在设备和UCRC之间发送和译码协议的网关。
当考虑一个家庭控制器模型时,可以扩展UCRC提供的功能。可以通过一个合格无线LAN(以太网,针对被连接到家庭控制器的基站的RF)代替自联网。当超出范围时,家庭控制器解决方案提供了可以通过合格电话(例如调制解调器类型的连接)进行呼叫的优点。在这种情况下,可以通过电话交换所有协议。所以一个新UCRC拓扑是:一个当处于范围内时具有本地或自网络能力并且当超出家庭控制范围时具有二进制连接到基站的能力的蜂窝电话/UCRC。
可选地,UCRC能力还可以被复制或限制到家庭控制器机器上。当被复制时,如果机器可以通过电话卡提供语音浏览能力或本地家庭IVR能力,则在不需要一个经过交换会话协议的客户和服务器的二进制连接的情况下可以通过电话以语音方式从任何地方控制家庭设备。UCRC和会话协议更适合介于家庭控制器和设备之间。可以使用任何合格的电话。在第二种情况下,服务器通常也会被用来控制家庭设备。UCRC更适合作为一个便携I/O系统:捕捉音频,压缩并传送(会话编码)到家庭控制器。以类似方式把输出传送到UCRC以便播放。现在在家庭控制器服务器上完成所有的实际CVM处理。
现在参照图12,一个图例图解了一个可以使用这里描述的构件和功能构造的会话网络系统。应当理解,基于本发明的会话式计算在不同设备的联网方面隐含了新要求。这意味着在所有协议,负载和传输管理,以及网络高速缓冲和存储中主要考虑的目标不仅仅是保证负载或传输的均衡,也要优化在网络上交谈或使用网络资源的用户的所有活跃对话的对话流程。换句话说,会话分布式体系结构对优化增加了新的附加约束或考虑:对话延迟和流程,发送音频(会话编码)时的延迟,同步语音和GUI构件(实际上,一个GUI输入必须产生一个事件和由UI的一个语音构件和一个GUI构件构成的一个同步/协同行为)和更新与交换基础会话协议(协商,对话管理器协议等等)。如果期望在本地和/或网络上进行无缝和透明的处理,这个方面起着重要的作用。对于VoIP而言,服务质量,带宽,最低延迟,最低分组损耗仍然重要。
另外还存在充分传递数据文件的问题,对于特定任务和适当的引擎范围而言需要进行这种传递。并且这需要网络上的高速缓冲或存储,特别精确的传输管理和负载管理。并且,甚至没有针对只注重发送器和接收器之间的传输流程的VoIP提出一个概念。另外,在网络中可以适当预先存储,高速缓冲或复制框架信息(即对话逻辑)以便改进效率。
在图12所述的系统中,基于本发明的客户端设备1000(配备CVM系统或对话管理器能力)通过使用路由器1004连接经过PSTN1002和因特网/企业内部互联网1003可以从一个服务网络提供商网络1001访问期望的信息。路由器1004和因特网/企业内部互联网网络1003提供了会话网络服务扩展和包含以下内容的功能:分布式会话协议(上述),通过RecoVC(兼容识别语音编码器)进行的音频编码,应用和元信息(分布式应用协议),发现,登记,协商协议,维护对话流程的服务器负载管理,维护对话流程的传输均衡和路由,基于任务功能,能力要求,会话参数可用性(数据文件),会话参数(分发:存储)的引擎服务器选择,传输/路由和高速缓冲。在任何如图12所示的网络(因特网,蓝牙,无线网络等等)中,以及在一个会话应用服务或内容、交易提供商的企业内部互联网上,网络会具有内容服务器,后台逻辑或业务逻辑服务器,会话引擎服务器,网关,路由器,代理,IVR(例如类似一个声卡)和服务器浏览器,其中根据由会话网络原则产生的优化在资源之间连续交换音频和数据文件。
因此,需要在所有这些实体(服务器,客户端,网关,路由器等等)上提供CVM构件或会话服务以便交换用于执行会话网络测量,传输,管理和执行不同功能的消息。通常在现有协议和系统的顶端执行这些功能以便在网络中完成负载均衡,传输均衡,存储和高速缓冲等等。
虽然这里已经针对附图描述了说明性的实施例,但应当理解,本系统和方法不仅限于这些详细的实施例,并且本领域的技术人员在不偏离本发明的范围和宗旨的前提下可以进行各种其他的改变和修改。所有这样的改变和修改确立被指定包含在如所附权利要求书所定义的本发明的范围内。

Claims (24)

1.一个会话式计算系统,其中包括:
一个接收输入查询的多态会话用户界面(CUI);
处理输入查询并且根据输入查询产生对话的会话引擎;
一个根据输入查询管理对话和与应用相关的上下文并且管理会话引擎的会话内核;和
一个在应用和会话内核之间提供一个接口的会话应用程序接口(API)。
2.如权利要求1所述的系统,其中会话API包括会话基础类和基础对话构件的库函数,可以访问这些函数以便构造用于执行会话过程或建立会话应用的会话对象。
3.如权利要求2所述的系统,其中会话基础类和基础对话构件包括CUI建立模块,会话平台库,对话模块,对话脚本,小程序,会话原语或其组合。
4.如权利要求2所述的系统,其中以说明性和过程性方式中的一种方式实现会话对象。
5.如权利要求1所述的系统,其中会话内核是一个在操作系统和实时操作系统中的一个的顶端运行的平台。
6.如权利要求1所述的系统,其中系统在个人计算机平台,服务器平台和嵌入式设备平台中的一个平台上运行。
7.如权利要求1所述的系统,其中多态CUI包括多个输入/输出(I/O)资源和一个用于和多个I/O资源接口并且在会话内核上登记多个I/O资源的I/OAPI。
8.如权利要求7所述的系统,其中I/OAPI层包括I/O抽象,用户界面抽象,设备抽象或其组合。
9.如权利要求1所述的系统,其中多态CUI包括统一自然语言理解(NLU)接口和自然语言生成(NLG)接口中的一个接口。
10.如权利要求9所述的系统,其中NLU和NLG接口提供上下文和混合主动方式。
11.如权利要求1所述的系统,其中会话内核包括:
一个管理应用之间的对话并且根据输入查询选择一个活跃对话,上下文和应用的对话管理器;
一个为会话任务管理并分配会话引擎的资源管理器;
一个协同和调度会话任务的会话任务调度器;
累积一个会话任务的一个活跃会话的一个上下文的一个上下文堆栈,上下文包括查询参数,一列属性值n元组和会话状态。
12.如权利要求11所述的系统,其中上下文堆栈还包括上下文的一个全局历史记录。
13.如权利要求11所述的系统,其中还包括一个管理元信息注册表的元信息管理器,元信息包括多个与单元相关的抽象类别,这些类别包括文件,目录,对象,数据流句柄,网络,外设,硬件,应用,网络文件系统或其组合。
14.如权利要求13所述的系统,其中元信息被用来提供针对单元的快捷方式。
15.如权利要求13所述的系统,其中元信息还提供有关参数选择,安全,习惯,生物测定,行为或其组合的用户信息。
16.如权利要求1所述的系统,其中会话内核通过一个会话引擎API控制和访问会话引擎。
17.如权利要求11所述的系统,其中会话内核还包括一个通过对话管理器访问后台逻辑的后台抽象层。
18.如权利要求7所述的系统,其中会话内核包括一个根据I/O资源和会话引擎的能力对行为进行调整,提供呈现给用户的CUI和对话的会话代码转换器。
19.如权利要求11所述的系统,其中还包括与可理解会话的系统交换信息的会话协议,上述可理解会话的系统包括远程应用,远程设备,远程会话式计算系统或其组合。
20.如权利要求19所述的系统,其中会话协议包括用于交换信息的分布式会话协议,所交换的信息包括会话状态,会话参数,上下文,会话引擎API调用,结果或其组合。
21.如权利要求19所述的系统,其中会话协议包括用于自动发现可理解会话的系统的会话发现协议,会话发现协议包括广播握手请求,交换标识符,交换第一次登记的句柄和交换第一次协商的句柄。
22.如权利要求21所述的系统,其中会话协议包括交换信息以便在系统和可理解会话的系统之间协商出网络拓扑的会话协商协议。
23.如权利要求22所述的系统,其中会话协议包括用于交换和登记有关会话能力,会话状态和上下文的信息以便把数据传递限制成只传输有关信息并且协商出网络拓扑的会话登记协议。
24.如权利要求11所述的系统,其中会话内核层提供通过会话应用API使用系统调用可以访问的会话服务和行为。
CNB998116181A 1998-10-02 1999-10-01 通过会话虚拟机进行会话式计算的系统和方法 Expired - Fee Related CN1171200C (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US10295798P 1998-10-02 1998-10-02
US60/102,957 1998-10-02
US11759599P 1999-01-27 1999-01-27
US60/117,595 1999-01-27

Publications (2)

Publication Number Publication Date
CN1321296A true CN1321296A (zh) 2001-11-07
CN1171200C CN1171200C (zh) 2004-10-13

Family

ID=26799924

Family Applications (4)

Application Number Title Priority Date Filing Date
CNB998116165A Expired - Lifetime CN1160700C (zh) 1998-10-02 1999-10-01 提供网络协同会话服务的系统和方法
CNB998116173A Expired - Lifetime CN1151488C (zh) 1998-10-02 1999-10-01 通过一般分层对象进行有效语音导航的结构框架
CNB998116181A Expired - Fee Related CN1171200C (zh) 1998-10-02 1999-10-01 通过会话虚拟机进行会话式计算的系统和方法
CNB998116076A Expired - Lifetime CN100472500C (zh) 1998-10-02 1999-10-01 会话浏览器和会话系统

Family Applications Before (2)

Application Number Title Priority Date Filing Date
CNB998116165A Expired - Lifetime CN1160700C (zh) 1998-10-02 1999-10-01 提供网络协同会话服务的系统和方法
CNB998116173A Expired - Lifetime CN1151488C (zh) 1998-10-02 1999-10-01 通过一般分层对象进行有效语音导航的结构框架

Family Applications After (1)

Application Number Title Priority Date Filing Date
CNB998116076A Expired - Lifetime CN100472500C (zh) 1998-10-02 1999-10-01 会话浏览器和会话系统

Country Status (10)

Country Link
US (4) US7137126B1 (zh)
EP (4) EP1133734A4 (zh)
JP (4) JP2003525477A (zh)
KR (4) KR100430953B1 (zh)
CN (4) CN1160700C (zh)
AT (1) ATE383640T1 (zh)
CA (4) CA2345665C (zh)
DE (1) DE69937962T2 (zh)
IL (5) IL142366A0 (zh)
WO (4) WO2000021232A2 (zh)

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1329824C (zh) * 2003-09-15 2007-08-01 国际商业机器公司 用于提供从多个应用程序内可访问的通用协作框架的方法和系统
CN1968123B (zh) * 2005-11-08 2010-12-08 国际商业机器公司 动态多方、多个媒体通信自动协调的方法与装置
CN101884064B (zh) * 2007-12-07 2012-04-25 索尼公司 信息处理设备和信息处理方法
CN101002487B (zh) * 2004-06-14 2012-09-05 诺基亚公司 提供共享的界标用户界面的方法
CN101656800B (zh) * 2008-08-20 2013-07-24 环球娱乐株式会社 自动应答装置及方法、会话情节编辑装置、会话服务器
CN106031140A (zh) * 2014-02-13 2016-10-12 日本电气株式会社 通信系统、通信装置、通信方法和存储程序的非瞬时性计算机可读介质
CN106095593A (zh) * 2016-05-31 2016-11-09 广东欧珀移动通信有限公司 一种前、后景应用程序行为同步方法及装置
CN106302089A (zh) * 2015-05-21 2017-01-04 阿里巴巴集团控股有限公司 会话处理方法和系统
CN106847272A (zh) * 2016-12-12 2017-06-13 北京光年无限科技有限公司 与运行应用关联的智能机器人的数据交互方法
CN107003723A (zh) * 2014-10-21 2017-08-01 罗伯特·博世有限公司 用于会话系统中的响应选择和组成的自动化的方法和系统
CN107580722A (zh) * 2015-05-27 2018-01-12 英特尔公司 具有对应于各个数据流的直接存储器存取引擎的高斯混合模型加速器
CN108256066A (zh) * 2018-01-16 2018-07-06 智言科技(深圳)有限公司 端到端层次解码任务型对话系统
CN108352006A (zh) * 2015-11-06 2018-07-31 苹果公司 即时消息环境中的智能自动化助理
CN108369581A (zh) * 2016-01-23 2018-08-03 微软技术许可有限责任公司 支持新的语言理解场景的开发的工具
CN109218382A (zh) * 2017-06-30 2019-01-15 京瓷办公信息系统株式会社 远程通信控制系统和会话管理系统
CN110321413A (zh) * 2018-03-30 2019-10-11 国际商业机器公司 会话框架
CN110400564A (zh) * 2019-08-21 2019-11-01 科大国创软件股份有限公司 一种基于栈的聊天机器人对话管理方法
CN110489532A (zh) * 2018-05-14 2019-11-22 西门子股份公司 提供自适应会话系统的计算机实现方法和自适应会话系统
CN110651325A (zh) * 2017-05-16 2020-01-03 谷歌有限责任公司 计算助理的延迟响应
CN111105289A (zh) * 2019-11-22 2020-05-05 北京美鲜科技有限公司 一种基于aop方式的客户端订单取消判断方法及装置
CN112136124A (zh) * 2018-04-19 2020-12-25 谷歌有限责任公司 用于与计算机实现的自动助理进行人机对话会话的依赖图谈话建模
CN112989239A (zh) * 2016-03-17 2021-06-18 谷歌有限责任公司 混合的客户端-服务器数据提供的方法
CN114095487A (zh) * 2020-07-30 2022-02-25 中移(苏州)软件技术有限公司 一种远程任务执行方法、装置及存储介质
CN114787786A (zh) * 2019-12-13 2022-07-22 株式会社日立产机系统 通信模块、通信系统和通信方法

Families Citing this family (665)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1160700C (zh) * 1998-10-02 2004-08-04 国际商业机器公司 提供网络协同会话服务的系统和方法
US7003463B1 (en) 1998-10-02 2006-02-21 International Business Machines Corporation System and method for providing network coordinated conversational services
US6163794A (en) * 1998-10-23 2000-12-19 General Magic Network system extensible by users
US6886047B2 (en) * 1998-11-13 2005-04-26 Jp Morgan Chase Bank System and method for managing information retrievals for integrated digital and analog archives on a global basis
FR2787902B1 (fr) * 1998-12-23 2004-07-30 France Telecom Modele et procede d'implementation d'un agent rationnel dialoguant, serveur et systeme multi-agent pour la mise en oeuvre
WO2001013255A2 (en) 1999-08-13 2001-02-22 Pixo, Inc. Displaying and traversing links in character array
US7330815B1 (en) * 1999-10-04 2008-02-12 Globalenglish Corporation Method and system for network-based speech recognition
US7725307B2 (en) 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US6633846B1 (en) 1999-11-12 2003-10-14 Phoenix Solutions, Inc. Distributed realtime speech recognition system
US9076448B2 (en) 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system
US6665640B1 (en) 1999-11-12 2003-12-16 Phoenix Solutions, Inc. Interactive speech based learning/training system formulating search queries based on natural language parsing of recognized user queries
DE69942507D1 (de) 1999-12-06 2010-07-29 Ericsson Telefon Ab L M Intelligente Herstellung von Piconets
JP2001188784A (ja) * 1999-12-28 2001-07-10 Sony Corp 会話処理装置および方法、並びに記録媒体
US20010043234A1 (en) * 2000-01-03 2001-11-22 Mallik Kotamarti Incorporating non-native user interface mechanisms into a user interface
WO2001059999A1 (en) * 2000-02-11 2001-08-16 Convergent Networks, Inc. Service level executable environment for integrated pstn and ip networks and call processing language therefor
WO2003050799A1 (en) * 2001-12-12 2003-06-19 International Business Machines Corporation Method and system for non-intrusive speaker verification using behavior models
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
AU2001256902A1 (en) * 2000-05-05 2001-11-20 James Ewing A method and a system relating to protocol communications within a pre-existing www server framework
US6769010B1 (en) * 2000-05-11 2004-07-27 Howzone.Com Inc. Apparatus for distributing information over a network-based environment, method of distributing information to users, and method for associating content objects with a database wherein the content objects are accessible over a network communication medium by a user
FR2809204B1 (fr) * 2000-05-17 2003-09-19 Bull Sa Interface applicative multiprosseur, ne necessitant pas l'utilisation d'un systeme d'exploitation multiprocesseur
US7039951B1 (en) 2000-06-06 2006-05-02 International Business Machines Corporation System and method for confidence based incremental access authentication
US7047196B2 (en) 2000-06-08 2006-05-16 Agiletv Corporation System and method of voice recognition near a wireline node of a network supporting cable television and/or video delivery
US6604050B2 (en) * 2000-06-16 2003-08-05 Bayer Corporation System, method and biosensor apparatus for data communications with a personal data assistant
US6654722B1 (en) * 2000-06-19 2003-11-25 International Business Machines Corporation Voice over IP protocol based speech system
US6788667B1 (en) * 2000-06-20 2004-09-07 Nokia Corporation Wireless access to wired network audio services using mobile voice call
WO2002005153A2 (en) * 2000-07-07 2002-01-17 2020Me Holdings Ltd. System, method and medium for facilitating transactions over a network
US7139709B2 (en) 2000-07-20 2006-11-21 Microsoft Corporation Middleware layer between speech related applications and engines
EP1376418B1 (en) * 2000-08-31 2006-12-27 Hitachi, Ltd. Service mediating apparatus
US6785651B1 (en) 2000-09-14 2004-08-31 Microsoft Corporation Method and apparatus for performing plan-based dialog
AU2002213338A1 (en) 2000-10-16 2002-04-29 Eliza Corporation Method of and system for providing adaptive respondent training in a speech recognition application
US7072982B2 (en) 2000-11-22 2006-07-04 Microsoft Corporation Universal naming scheme for peer to peer resources
US7594030B2 (en) 2000-11-22 2009-09-22 Microsoft Corporation Locator and tracking service for peer to peer resources
EP1211588B1 (de) * 2000-12-04 2005-09-21 Siemens Aktiengesellschaft Verfahren zum Nutzen einer Datenverarbeitungsanlage abhängig von einer Berechtigung, zugehörige Datenverarbeitungsanlage und zugehöriges Programm
US7016847B1 (en) * 2000-12-08 2006-03-21 Ben Franklin Patent Holdings L.L.C. Open architecture for a voice user interface
GB0030958D0 (en) * 2000-12-19 2001-01-31 Smart Card Solutions Ltd Compartmentalized micro-controller operating system architecture
DE10064661A1 (de) * 2000-12-22 2002-07-11 Siemens Ag Kommunikationsanordnung und Verfahren für Kommunikationssysteme mit interaktiver Sprachfunktion
JP3322262B2 (ja) 2000-12-22 2002-09-09 日本電気株式会社 無線携帯端末通信システム
FI20002860A (fi) * 2000-12-27 2002-06-28 Nokia Corp Laiteroolit ja pikoverkkoyhteydet
US6925645B2 (en) * 2000-12-29 2005-08-02 Webex Communications, Inc. Fault tolerant server architecture for collaborative computing
US6964023B2 (en) 2001-02-05 2005-11-08 International Business Machines Corporation System and method for multi-modal focus detection, referential ambiguity resolution and mood classification using multi-modal input
US7461148B1 (en) * 2001-02-16 2008-12-02 Swsoft Holdings, Ltd. Virtual private server with isolation of system components
EP1233590A1 (en) * 2001-02-19 2002-08-21 Sun Microsystems, Inc. Content provider for a computer system
US7606909B1 (en) * 2001-02-20 2009-10-20 Michael Ely Method and apparatus for a business contact center
GB2372864B (en) * 2001-02-28 2005-09-07 Vox Generation Ltd Spoken language interface
DE60216096T2 (de) 2001-03-22 2007-06-28 Canon K.K. Informationsverarbeitungsvorrichtung und -verfahren und programmprodukt
US7174514B2 (en) * 2001-03-28 2007-02-06 Siebel Systems, Inc. Engine to present a user interface based on a logical structure, such as one for a customer relationship management system, across a web site
FR2822994B1 (fr) * 2001-03-30 2004-05-21 Bouygues Telecom Sa Assistance au conducteur d'un vehicule automobile
US6996531B2 (en) * 2001-03-30 2006-02-07 Comverse Ltd. Automated database assistance using a telephone for a speech based or text based multimedia communication mode
CA2344904A1 (en) * 2001-04-23 2002-10-23 Bruno Richard Preiss Interactive voice response system and method
US7437295B2 (en) * 2001-04-27 2008-10-14 Accenture Llp Natural language processing for a location-based services system
US7698228B2 (en) 2001-04-27 2010-04-13 Accenture Llp Tracking purchases in a location-based services system
US7610547B2 (en) * 2001-05-04 2009-10-27 Microsoft Corporation Markup language extensions for web enabled recognition
US7020841B2 (en) 2001-06-07 2006-03-28 International Business Machines Corporation System and method for generating and presenting multi-modal applications from intent-based markup scripts
US7366673B2 (en) * 2001-06-15 2008-04-29 International Business Machines Corporation Selective enablement of speech recognition grammars
US7606712B1 (en) * 2001-06-28 2009-10-20 At&T Intellectual Property Ii, L.P. Speech recognition interface for voice actuation of legacy systems
US7647597B2 (en) * 2001-06-28 2010-01-12 Microsoft Corporation Transparent and sub-classable proxies
US6839896B2 (en) * 2001-06-29 2005-01-04 International Business Machines Corporation System and method for providing dialog management and arbitration in a multi-modal environment
JP3997459B2 (ja) 2001-10-02 2007-10-24 株式会社日立製作所 音声入力システムおよび音声ポータルサーバおよび音声入力端末
EP2378436B1 (en) * 2001-10-03 2013-03-13 Accenture Global Services Limited Virtual customer database
US7441016B2 (en) 2001-10-03 2008-10-21 Accenture Global Services Gmbh Service authorizer
US7233655B2 (en) 2001-10-03 2007-06-19 Accenture Global Services Gmbh Multi-modal callback
US7472091B2 (en) 2001-10-03 2008-12-30 Accenture Global Services Gmbh Virtual customer database
US7324947B2 (en) 2001-10-03 2008-01-29 Promptu Systems Corporation Global speech user interface
EP1708470B1 (en) * 2001-10-03 2012-05-16 Accenture Global Services Limited Multi-modal callback system
ITFI20010199A1 (it) 2001-10-22 2003-04-22 Riccardo Vieri Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico
US7222073B2 (en) 2001-10-24 2007-05-22 Agiletv Corporation System and method for speech activated navigation
US7133830B1 (en) 2001-11-13 2006-11-07 Sr2, Inc. System and method for supporting platform independent speech applications
US8498871B2 (en) * 2001-11-27 2013-07-30 Advanced Voice Recognition Systems, Inc. Dynamic speech recognition and transcription among users having heterogeneous protocols
US20030101054A1 (en) * 2001-11-27 2003-05-29 Ncc, Llc Integrated system and method for electronic speech recognition and transcription
GB2388209C (en) 2001-12-20 2005-08-23 Canon Kk Control apparatus
US7302394B1 (en) * 2001-12-20 2007-11-27 Ianywhere Solutions, Inc. Front-end device independence for natural interaction platform
WO2003063137A1 (en) * 2002-01-22 2003-07-31 V-Enable, Inc. Multi-modal information delivery system
US6990639B2 (en) 2002-02-07 2006-01-24 Microsoft Corporation System and process for controlling electronic components in a ubiquitous computing environment using multimodal integration
US6807529B2 (en) * 2002-02-27 2004-10-19 Motorola, Inc. System and method for concurrent multimodal communication
US20030187944A1 (en) * 2002-02-27 2003-10-02 Greg Johnson System and method for concurrent multimodal communication using concurrent multimodal tags
US6704396B2 (en) 2002-02-27 2004-03-09 Sbc Technology Resources, Inc. Multi-modal communications method
GB0204768D0 (en) * 2002-02-28 2002-04-17 Mitel Knowledge Corp Bimodal feature access for web applications
FR2840484B1 (fr) * 2002-05-28 2004-09-03 France Telecom Protocole de communication entre un module d'application vocale et une plate-forme vocale dans un serveur vocal
US7398209B2 (en) * 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7822609B2 (en) 2002-06-14 2010-10-26 Nuance Communications, Inc. Voice browser with integrated TCAP and ISUP interfaces
KR20040002031A (ko) * 2002-06-29 2004-01-07 주식회사 케이티 다수의 응용프로그램들간의 음성인식엔진 공유 방법
US7693720B2 (en) 2002-07-15 2010-04-06 Voicebox Technologies, Inc. Mobile systems and methods for responding to natural language speech utterance
AU2002345308A1 (en) * 2002-07-17 2004-02-02 Nokia Corporation Mobile device having voice user interface, and a methode for testing the compatibility of an application with the mobile device
US20040054757A1 (en) * 2002-09-14 2004-03-18 Akinobu Ueda System for remote control of computer resources from embedded handheld devices
US7519534B2 (en) 2002-10-31 2009-04-14 Agiletv Corporation Speech controlled access to content on a presentation medium
US8793127B2 (en) 2002-10-31 2014-07-29 Promptu Systems Corporation Method and apparatus for automatically determining speaker characteristics for speech-directed advertising or other enhancement of speech-controlled devices or services
KR101032176B1 (ko) * 2002-12-02 2011-05-02 소니 주식회사 대화 제어 장치 및 방법 및 로봇 장치
KR20040051285A (ko) * 2002-12-12 2004-06-18 삼성전자주식회사 애플릿이 링크된 마크업 문서의 디스플레이 방법 및 그시스템
US7822612B1 (en) * 2003-01-03 2010-10-26 Verizon Laboratories Inc. Methods of processing a voice command from a caller
US7673304B2 (en) * 2003-02-18 2010-03-02 Microsoft Corporation Multithreaded kernel for graphics processing unit
US7669134B1 (en) 2003-05-02 2010-02-23 Apple Inc. Method and apparatus for displaying information during an instant messaging session
US7249025B2 (en) * 2003-05-09 2007-07-24 Matsushita Electric Industrial Co., Ltd. Portable device for enhanced security and accessibility
CN1894658B (zh) * 2003-06-06 2012-02-29 纽约市哥伦比亚大学托管会 用于话音激活网页的系统和方法
EP1654806A4 (en) 2003-06-26 2007-01-17 Agile Tv Corp NULL SEARCH, NULL MEMORY VECTOR QUANTIZATION
US7313528B1 (en) * 2003-07-31 2007-12-25 Sprint Communications Company L.P. Distributed network based message processing system for text-to-speech streaming data
US7428273B2 (en) 2003-09-18 2008-09-23 Promptu Systems Corporation Method and apparatus for efficient preamble detection in digital data receivers
US7249348B2 (en) * 2003-10-21 2007-07-24 Hewlett-Packard Development Company, L.P. Non-interfering status inquiry for user threads
US7199802B2 (en) * 2003-10-24 2007-04-03 Microsoft Corporation Multiple-mode window presentation system and process
US7856632B2 (en) * 2004-01-29 2010-12-21 Klingman Edwin E iMEM ASCII architecture for executing system operators and processing data operators
US20050229185A1 (en) * 2004-02-20 2005-10-13 Stoops Daniel S Method and system for navigating applications
WO2005094098A1 (en) * 2004-02-25 2005-10-06 Sk Telecom Co., Ltd. Method and mobile terminal for implementing vector animation interactive service on mobile phone browser
US7925510B2 (en) * 2004-04-28 2011-04-12 Nuance Communications, Inc. Componentized voice server with selectable internal and external speech detectors
US7596788B1 (en) * 2004-05-11 2009-09-29 Platform Computing Corporation Support of non-trivial scheduling policies along with topological properties
US20050289264A1 (en) * 2004-06-08 2005-12-29 Daniel Illowsky Device and method for interoperability instruction set
KR100627228B1 (ko) * 2004-07-01 2006-09-25 에스케이 텔레콤주식회사 기업용 무선 어플리케이션 서비스를 위한 전용 브라우저시스템 및 그 운영방법
US7483968B1 (en) * 2004-07-29 2009-01-27 Emc Corporation System and method for configuring resource groups
FI20041075A0 (fi) 2004-08-12 2004-08-12 Nokia Corp Tiedon lähettäminen ryhmälle vastaanottolaitteita
US8744852B1 (en) * 2004-10-01 2014-06-03 Apple Inc. Spoken interfaces
US7693719B2 (en) * 2004-10-29 2010-04-06 Microsoft Corporation Providing personalized voice font for text-to-speech applications
US8706501B2 (en) * 2004-12-09 2014-04-22 Nuance Communications, Inc. Method and system for sharing speech processing resources over a communication network
US7640162B2 (en) * 2004-12-14 2009-12-29 Microsoft Corporation Semantic canvas
KR100654447B1 (ko) * 2004-12-15 2006-12-06 삼성전자주식회사 지역별로 존재하는 컨텐츠를 글로벌로 공유하고 거래하는방법 및 시스템
US7987244B1 (en) * 2004-12-30 2011-07-26 At&T Intellectual Property Ii, L.P. Network repository for voice fonts
KR100725719B1 (ko) * 2005-02-04 2007-06-08 주식회사 유진로봇 음성과 태스크 오브젝트 기반의 대화시스템
US7490042B2 (en) * 2005-03-29 2009-02-10 International Business Machines Corporation Methods and apparatus for adapting output speech in accordance with context of communication
US9111253B2 (en) * 2005-04-22 2015-08-18 Sap Se Groupware time tracking
US20060271520A1 (en) * 2005-05-27 2006-11-30 Ragan Gene Z Content-based implicit search query
WO2006133547A1 (en) 2005-06-13 2006-12-21 E-Lane Systems Inc. Vehicle immersive communication system
JP4667138B2 (ja) 2005-06-30 2011-04-06 キヤノン株式会社 音声認識方法及び音声認識装置
US8090084B2 (en) * 2005-06-30 2012-01-03 At&T Intellectual Property Ii, L.P. Automated call router for business directory using the world wide web
US7640160B2 (en) 2005-08-05 2009-12-29 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7620549B2 (en) 2005-08-10 2009-11-17 Voicebox Technologies, Inc. System and method of supporting adaptive misrecognition in conversational speech
US7949529B2 (en) * 2005-08-29 2011-05-24 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions
EP1934971A4 (en) 2005-08-31 2010-10-27 Voicebox Technologies Inc DYNAMIC LANGUAGE SCRIPTURE
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US8073700B2 (en) 2005-09-12 2011-12-06 Nuance Communications, Inc. Retrieval and presentation of network service results for mobile device using a multimodal browser
US9009046B1 (en) * 2005-09-27 2015-04-14 At&T Intellectual Property Ii, L.P. System and method for disambiguating multiple intents in a natural language dialog system
US7633076B2 (en) 2005-09-30 2009-12-15 Apple Inc. Automated response to and sensing of user activity in portable devices
WO2007044479A2 (en) * 2005-10-05 2007-04-19 Dun & Bradstreet, Inc. Modular web-based asp application for multiple products
US20070124142A1 (en) * 2005-11-25 2007-05-31 Mukherjee Santosh K Voice enabled knowledge system
US9215748B2 (en) 2005-11-28 2015-12-15 Canon Kabushiki Kaisha Communication apparatus, control method for communication apparatus, and communication system
JP4829600B2 (ja) * 2005-11-28 2011-12-07 キヤノン株式会社 通信装置及び通信装置の制御方法
JP2007164732A (ja) * 2005-12-16 2007-06-28 Crescent:Kk コンピュータ実行可能なプログラム、および情報処理装置
DE102005061365A1 (de) * 2005-12-21 2007-06-28 Siemens Ag Verfahren zur Ansteuerung zumindest einer ersten und zweiten Hintergrundapplikation über ein universelles Sprachdialogsystem
CN100382083C (zh) * 2005-12-23 2008-04-16 威盛电子股份有限公司 网络会话管理方法及系统
US7840964B2 (en) * 2005-12-30 2010-11-23 Intel Corporation Mechanism to transition control between components in a virtual machine environment
KR101204408B1 (ko) * 2006-01-19 2012-11-27 삼성전자주식회사 유니폼 객체 모델을 이용한 유비쿼터스 서비스/디바이스테스트 방법 및 장치
US20070180365A1 (en) * 2006-01-27 2007-08-02 Ashok Mitter Khosla Automated process and system for converting a flowchart into a speech mark-up language
US8078990B2 (en) 2006-02-01 2011-12-13 Research In Motion Limited Secure device sharing
US20070225983A1 (en) * 2006-03-23 2007-09-27 Theodore Maringo Worldwide time device
KR101264318B1 (ko) * 2006-07-07 2013-05-22 삼성전자주식회사 네트워크 환경에서의 서비스 메뉴 및 서비스 제공방법 및그 서비스 제공장치
KR100807307B1 (ko) * 2006-07-10 2008-02-28 한국전자통신연구원 대화형 음성 인터페이스 시스템 및 그 응답 방법
US9976865B2 (en) 2006-07-28 2018-05-22 Ridetones, Inc. Vehicle communication system with navigation
US20100030557A1 (en) 2006-07-31 2010-02-04 Stephen Molloy Voice and text communication system, method and apparatus
US8589869B2 (en) * 2006-09-07 2013-11-19 Wolfram Alpha Llc Methods and systems for determining a formula
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US7957976B2 (en) * 2006-09-12 2011-06-07 Nuance Communications, Inc. Establishing a multimodal advertising personality for a sponsor of a multimodal application
KR100832534B1 (ko) * 2006-09-28 2008-05-27 한국전자통신연구원 음성 인식을 통한 컨텐츠 정보 서비스 제공 장치 및 그방법
US8073681B2 (en) 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
US8478250B2 (en) 2007-07-30 2013-07-02 Bindu Rama Rao Interactive media management server
US10803474B2 (en) 2006-11-22 2020-10-13 Qualtrics, Llc System for creating and distributing interactive advertisements to mobile devices
US8700014B2 (en) 2006-11-22 2014-04-15 Bindu Rama Rao Audio guided system for providing guidance to user of mobile device on multi-step activities
US11256386B2 (en) 2006-11-22 2022-02-22 Qualtrics, Llc Media management system supporting a plurality of mobile devices
US7827033B2 (en) * 2006-12-06 2010-11-02 Nuance Communications, Inc. Enabling grammars in web page frames
US20080140390A1 (en) * 2006-12-11 2008-06-12 Motorola, Inc. Solution for sharing speech processing resources in a multitasking environment
CA2572116A1 (en) * 2006-12-27 2008-06-27 Ibm Canada Limited - Ibm Canada Limitee System and method for processing multi-modal communication within a workgroup
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
US8843376B2 (en) 2007-03-13 2014-09-23 Nuance Communications, Inc. Speech-enabled web content searching using a multimodal browser
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8788620B2 (en) * 2007-04-04 2014-07-22 International Business Machines Corporation Web service support for a multimodal client processing a multimodal application
US8131549B2 (en) * 2007-05-24 2012-03-06 Microsoft Corporation Personality-based device
AU2012244080B2 (en) * 2007-05-24 2014-04-17 Microsoft Technology Licensing, Llc Personality-based Device
US9794348B2 (en) * 2007-06-04 2017-10-17 Todd R. Smith Using voice commands from a mobile device to remotely access and control a computer
US8612972B2 (en) * 2007-06-27 2013-12-17 Microsoft Corporation Running add-on components in virtual environments
US20090018818A1 (en) * 2007-07-10 2009-01-15 Aibelive Co., Ltd. Operating device for natural language input
US9264483B2 (en) 2007-07-18 2016-02-16 Hammond Development International, Inc. Method and system for enabling a communication device to remotely execute an application
ITFI20070177A1 (it) 2007-07-26 2009-01-27 Riccardo Vieri Sistema per la creazione e impostazione di una campagna pubblicitaria derivante dall'inserimento di messaggi pubblicitari all'interno di uno scambio di messaggi e metodo per il suo funzionamento.
US9053089B2 (en) 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
US8595642B1 (en) 2007-10-04 2013-11-26 Great Northern Research, LLC Multiple shell multi faceted graphical user interface
US8165886B1 (en) 2007-10-04 2012-04-24 Great Northern Research LLC Speech interface system and method for control and interaction with applications on a computing system
US8364694B2 (en) 2007-10-26 2013-01-29 Apple Inc. Search assistant for digital media assets
US8620662B2 (en) 2007-11-20 2013-12-31 Apple Inc. Context-aware unit selection
US8472934B2 (en) * 2007-11-28 2013-06-25 Nokia Corporation Portable apparatus, method and user interface
US8140335B2 (en) 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9703784B2 (en) * 2007-12-24 2017-07-11 Sandisk Il Ltd. Mobile device and method for concurrently processing content according to multiple playlists
US8219407B1 (en) 2007-12-27 2012-07-10 Great Northern Research, LLC Method for processing the output of a speech recognizer
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8327272B2 (en) 2008-01-06 2012-12-04 Apple Inc. Portable multifunction device, method, and graphical user interface for viewing and managing electronic calendars
US8086455B2 (en) * 2008-01-09 2011-12-27 Microsoft Corporation Model development authoring, generation and execution based on data and processor dependencies
US20090198496A1 (en) * 2008-01-31 2009-08-06 Matthias Denecke Aspect oriented programmable dialogue manager and apparatus operated thereby
US8065143B2 (en) 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
US8289283B2 (en) 2008-03-04 2012-10-16 Apple Inc. Language input interface on a device
US8856009B2 (en) * 2008-03-25 2014-10-07 Intelligent Mechatronic Systems Inc. Multi-participant, mixed-initiative voice interaction system
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) * 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
CN102037710B (zh) * 2008-05-19 2014-04-02 思杰系统有限公司 用于远程处理多媒体插件调用的方法和系统
US8589161B2 (en) 2008-05-27 2013-11-19 Voicebox Technologies, Inc. System and method for an integrated, multi-modal, multi-device natural language voice services environment
US9305548B2 (en) 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
WO2009149219A2 (en) * 2008-06-03 2009-12-10 Whirlpool Corporation Appliance development toolkit
US8464150B2 (en) 2008-06-07 2013-06-11 Apple Inc. Automatic language identification for dynamic text processing
CA2727951A1 (en) 2008-06-19 2009-12-23 E-Lane Systems Inc. Communication system with voice mail access and call by spelling functionality
US20090328062A1 (en) * 2008-06-25 2009-12-31 Microsoft Corporation Scalable and extensible communication framework
CN101621480B (zh) * 2008-06-30 2012-03-28 国际商业机器公司 呈现服务器和在其中使用的xsl文件处理方法
US9652023B2 (en) 2008-07-24 2017-05-16 Intelligent Mechatronic Systems Inc. Power management system
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8463053B1 (en) 2008-08-08 2013-06-11 The Research Foundation Of State University Of New York Enhanced max margin learning on multimodal data mining in a multimedia database
US8959053B2 (en) * 2008-08-13 2015-02-17 Alcatel Lucent Configuration file framework to support high availability schema based upon asynchronous checkpointing
US8768702B2 (en) 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US8898568B2 (en) 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US8583418B2 (en) 2008-09-29 2013-11-12 Apple Inc. Systems and methods of detecting language and natural language strings for text to speech synthesis
US8352268B2 (en) 2008-09-29 2013-01-08 Apple Inc. Systems and methods for selective rate of speech and speech preferences for text to speech synthesis
US8355919B2 (en) 2008-09-29 2013-01-15 Apple Inc. Systems and methods for text normalization for text to speech synthesis
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8352272B2 (en) 2008-09-29 2013-01-08 Apple Inc. Systems and methods for text to speech synthesis
US8396714B2 (en) 2008-09-29 2013-03-12 Apple Inc. Systems and methods for concatenation of words in text to speech synthesis
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
US8121842B2 (en) 2008-12-12 2012-02-21 Microsoft Corporation Audio output of a document from mobile device
US8914417B2 (en) 2009-01-07 2014-12-16 International Business Machines Corporation Apparatus, system, and method for maintaining a context stack
TW201027378A (en) * 2009-01-08 2010-07-16 Realtek Semiconductor Corp Virtual platform and related simulation method
US8352269B2 (en) * 2009-01-15 2013-01-08 K-Nfb Reading Technology, Inc. Systems and methods for processing indicia for document narration
WO2010084497A1 (en) * 2009-01-26 2010-07-29 Tomer London System and method for providing visual content and services to wireless terminal devices in response to a received voice call
US9529573B2 (en) * 2009-01-28 2016-12-27 Microsoft Technology Licensing, Llc Graphical user interface generation through use of a binary file
US8862252B2 (en) 2009-01-30 2014-10-14 Apple Inc. Audio user interface for displayless electronic device
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
CN101533409B (zh) * 2009-04-23 2011-03-02 何海群 一种网络浏览器系统和控制方法
US8601015B1 (en) 2009-05-15 2013-12-03 Wolfram Alpha Llc Dynamic example generation for queries
US8788524B1 (en) 2009-05-15 2014-07-22 Wolfram Alpha Llc Method and system for responding to queries in an imprecise syntax
WO2010135837A1 (en) * 2009-05-28 2010-12-02 Intelligent Mechatronic Systems Inc Communication system with personal information management and remote vehicle monitoring and control features
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10540976B2 (en) 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US10255566B2 (en) 2011-06-03 2019-04-09 Apple Inc. Generating and processing task items that represent tasks to perform
US9002713B2 (en) 2009-06-09 2015-04-07 At&T Intellectual Property I, L.P. System and method for speech personalization by need
US9055151B2 (en) * 2009-06-22 2015-06-09 Avaya Inc. Method to set the flag as replied or forwarded to all replied or forwarded voice messages
US8442189B2 (en) * 2009-06-22 2013-05-14 Avaya Inc. Unified communications appliance
WO2010148518A1 (en) 2009-06-27 2010-12-29 Intelligent Mechatronic Systems Vehicle internet radio interface
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US9502025B2 (en) 2009-11-10 2016-11-22 Voicebox Technologies Corporation System and method for providing a natural language content dedication service
US9171541B2 (en) * 2009-11-10 2015-10-27 Voicebox Technologies Corporation System and method for hybrid processing in a natural language voice services environment
US8682649B2 (en) 2009-11-12 2014-03-25 Apple Inc. Sentiment prediction from textual data
US20110110534A1 (en) * 2009-11-12 2011-05-12 Apple Inc. Adjustable voice output based on device status
US20110125733A1 (en) * 2009-11-25 2011-05-26 Fish Nathan J Quick access utility
US9978272B2 (en) 2009-11-25 2018-05-22 Ridetones, Inc Vehicle to vehicle chatting and communication system
US20110144976A1 (en) * 2009-12-10 2011-06-16 Arun Jain Application user interface system and method
US8868427B2 (en) * 2009-12-11 2014-10-21 General Motors Llc System and method for updating information in electronic calendars
EP4318463A3 (en) * 2009-12-23 2024-02-28 Google LLC Multi-modal input on an electronic device
GB0922608D0 (en) * 2009-12-23 2010-02-10 Vratskides Alexios Message optimization
JP2011139303A (ja) * 2009-12-28 2011-07-14 Nec Corp 通信システム、制御装置、通信制御方法、およびプログラム
US8600743B2 (en) 2010-01-06 2013-12-03 Apple Inc. Noise profile determination for voice-related feature
US8381107B2 (en) 2010-01-13 2013-02-19 Apple Inc. Adaptive audio feedback system and method
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US9665620B2 (en) * 2010-01-15 2017-05-30 Ab Initio Technology Llc Managing data queries
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US8645914B2 (en) * 2010-01-22 2014-02-04 AgentSheets, Inc. Conversational programming
DE202011111062U1 (de) 2010-01-25 2019-02-19 Newvaluexchange Ltd. Vorrichtung und System für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8433828B2 (en) 2010-02-26 2013-04-30 Apple Inc. Accessory protocol for touch screen device accessibility
US8554948B2 (en) * 2010-03-03 2013-10-08 At&T Intellectual Property I, L.P. Methods, systems and computer program products for identifying traffic on the internet using communities of interest
JP5560814B2 (ja) * 2010-03-24 2014-07-30 日本電気株式会社 負荷分散システム、負荷分散サーバおよび負荷分散方法
US8612932B2 (en) * 2010-04-18 2013-12-17 Voxeo Corporation Unified framework and method for call control and media control
US8776091B2 (en) * 2010-04-30 2014-07-08 Microsoft Corporation Reducing feedback latency
US8484015B1 (en) 2010-05-14 2013-07-09 Wolfram Alpha Llc Entity pages
US8639516B2 (en) 2010-06-04 2014-01-28 Apple Inc. User-specific noise suppression for voice quality improvements
US8352908B2 (en) 2010-06-28 2013-01-08 International Business Machines Corporation Multi-modal conversion tool for form-type applications
US8713021B2 (en) 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
US9246914B2 (en) * 2010-07-16 2016-01-26 Nokia Technologies Oy Method and apparatus for processing biometric information using distributed computation
US9104670B2 (en) 2010-07-21 2015-08-11 Apple Inc. Customized search or acquisition of digital media assets
US8812298B1 (en) 2010-07-28 2014-08-19 Wolfram Alpha Llc Macro replacement of natural language input
US8775618B2 (en) * 2010-08-02 2014-07-08 Ebay Inc. Application platform with flexible permissioning
US8719006B2 (en) 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
US8688435B2 (en) * 2010-09-22 2014-04-01 Voice On The Go Inc. Systems and methods for normalizing input media
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US10515147B2 (en) 2010-12-22 2019-12-24 Apple Inc. Using statistical language models for contextual lookup
US20120173242A1 (en) * 2010-12-30 2012-07-05 Samsung Electronics Co., Ltd. System and method for exchange of scribble data between gsm devices along with voice
US10049669B2 (en) 2011-01-07 2018-08-14 Nuance Communications, Inc. Configurable speech recognition system using multiple recognizers
US9183843B2 (en) 2011-01-07 2015-11-10 Nuance Communications, Inc. Configurable speech recognition system using multiple recognizers
US8781836B2 (en) 2011-02-22 2014-07-15 Apple Inc. Hearing assistance system for providing consistent human speech
US9542657B2 (en) * 2011-02-23 2017-01-10 Avaya Inc. Method and system for optimizing contact center performance
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US9202465B2 (en) * 2011-03-25 2015-12-01 General Motors Llc Speech recognition dependent on text message content
US8171137B1 (en) 2011-05-09 2012-05-01 Google Inc. Transferring application state across devices
EP2707808A4 (en) * 2011-05-13 2015-10-21 Microsoft Technology Licensing Llc USE OF QUERY LOOKING PROTOCOLS FOR DOMAIN RECOGNITION IN UNDERSTANDING SPOKEN LANGUAGE
US20120317492A1 (en) * 2011-05-27 2012-12-13 Telefon Projekt LLC Providing Interactive and Personalized Multimedia Content from Remote Servers
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10672399B2 (en) 2011-06-03 2020-06-02 Apple Inc. Switching between text data and audio data based on a mapping
US8812294B2 (en) 2011-06-21 2014-08-19 Apple Inc. Translating phrases from one language into another using an order-based set of declarative rules
US9069814B2 (en) 2011-07-27 2015-06-30 Wolfram Alpha Llc Method and system for using natural language to generate widgets
US8706472B2 (en) 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8645978B2 (en) * 2011-09-02 2014-02-04 Compuverde Ab Method for data maintenance
US9734252B2 (en) 2011-09-08 2017-08-15 Wolfram Alpha Llc Method and system for analyzing data using a query answering system
US8645532B2 (en) * 2011-09-13 2014-02-04 BlueStripe Software, Inc. Methods and computer program products for monitoring the contents of network traffic in a network device
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
US9851950B2 (en) 2011-11-15 2017-12-26 Wolfram Alpha Llc Programming in a precise syntax using natural language
US8595016B2 (en) * 2011-12-23 2013-11-26 Angle, Llc Accessing content using a source-specific content-adaptable dialogue
KR101962126B1 (ko) * 2012-02-24 2019-03-26 엘지전자 주식회사 음성 인식 결과에 따라 데이터베이스에 액세스하는 멀티미디어 디바이스 및 그 제어 방법
CN103295575B (zh) * 2012-02-27 2019-01-25 北京三星通信技术研究有限公司 一种语音识别方法和客户端
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
CN104487932B (zh) * 2012-05-07 2017-10-10 思杰系统有限公司 用于远程应用和桌面的语音识别支持
US20130304536A1 (en) * 2012-05-10 2013-11-14 Ebay, Inc. Harvest Customer Tracking Information
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US8775442B2 (en) 2012-05-15 2014-07-08 Apple Inc. Semantic search using a single-source semantic model
US10395270B2 (en) 2012-05-17 2019-08-27 Persado Intellectual Property Limited System and method for recommending a grammar for a message campaign used by a message optimization system
WO2013185109A2 (en) 2012-06-08 2013-12-12 Apple Inc. Systems and methods for recognizing textual identifiers within a plurality of words
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9502029B1 (en) * 2012-06-25 2016-11-22 Amazon Technologies, Inc. Context-aware speech processing
US9495129B2 (en) * 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US20140006318A1 (en) * 2012-06-29 2014-01-02 Poe XING Collecting, discovering, and/or sharing media objects
US8880398B1 (en) * 2012-07-13 2014-11-04 Google Inc. Localized speech recognition with offload
US9529808B1 (en) 2012-07-16 2016-12-27 Tintri Inc. Efficient and flexible organization and management of file metadata
CN108629041A (zh) * 2012-07-19 2018-10-09 格兰斯电讯网络有限公司 协同浏览与其他形式的信息共享的集成
US8577671B1 (en) * 2012-07-20 2013-11-05 Veveo, Inc. Method of and system for using conversation state information in a conversational interaction system
US9485330B2 (en) 2012-07-30 2016-11-01 Tencent Technology (Shenzhen) Company Limited Web browser operation method and system
CN103577444B (zh) * 2012-07-30 2017-04-05 腾讯科技(深圳)有限公司 一种操控浏览器的方法及系统
US9465833B2 (en) 2012-07-31 2016-10-11 Veveo, Inc. Disambiguating user intent in conversational interaction system for large corpus information retrieval
US9378073B2 (en) 2012-08-14 2016-06-28 International Business Machines Corporation Remote procedure call for a distributed system
US9384736B2 (en) * 2012-08-21 2016-07-05 Nuance Communications, Inc. Method to provide incremental UI response based on multiple asynchronous evidence about user input
US9405424B2 (en) 2012-08-29 2016-08-02 Wolfram Alpha, Llc Method and system for distributing and displaying graphical items
CN102831229A (zh) * 2012-08-30 2012-12-19 浙大网新科技股份有限公司 适合盲人使用的网页浏览方法
KR102150289B1 (ko) * 2012-08-30 2020-09-01 삼성전자주식회사 사용자 단말에서 사용자 인터페이스 장치 및 이를 지원하는 방법
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US8700396B1 (en) * 2012-09-11 2014-04-15 Google Inc. Generating speech data collection prompts
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8935167B2 (en) 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
US10276157B2 (en) * 2012-10-01 2019-04-30 Nuance Communications, Inc. Systems and methods for providing a voice agent user interface
WO2014055076A1 (en) 2012-10-04 2014-04-10 Nuance Communications, Inc. Improved hybrid controller for asr
US8983849B2 (en) 2012-10-17 2015-03-17 Nuance Communications, Inc. Multiple device intelligent language model synchronization
WO2014073206A1 (ja) * 2012-11-07 2014-05-15 日本電気株式会社 情報処理装置、及び、情報処理方法
KR101980834B1 (ko) * 2012-11-28 2019-05-21 한국전자통신연구원 컨텍스트 정보 기반 응용프로그램 관리방법 및 그 장치
US9003039B2 (en) 2012-11-29 2015-04-07 Thales Canada Inc. Method and apparatus of resource allocation or resource release
KR101940719B1 (ko) * 2012-12-14 2019-01-23 한국전자통신연구원 태스크 그래프 기반 대화 처리 시스템의 태스크 그래프 구축 장치 및 방법
CN103117058B (zh) * 2012-12-20 2015-12-09 四川长虹电器股份有限公司 基于智能电视平台的多语音引擎切换系统及方法
CN103020278A (zh) * 2012-12-28 2013-04-03 深圳创维数字技术股份有限公司 一种网页的控制方法及浏览器
US9430420B2 (en) 2013-01-07 2016-08-30 Telenav, Inc. Computing system with multimodal interaction mechanism and method of operation thereof
US9922639B1 (en) * 2013-01-11 2018-03-20 Amazon Technologies, Inc. User feedback for speech interactions
CN103971687B (zh) * 2013-02-01 2016-06-29 腾讯科技(深圳)有限公司 一种语音识别系统中的负载均衡实现方法和装置
KR20230137475A (ko) 2013-02-07 2023-10-04 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US9817835B2 (en) 2013-03-12 2017-11-14 Tintri Inc. Efficient data synchronization for storage containers
US9733821B2 (en) 2013-03-14 2017-08-15 Apple Inc. Voice control to diagnose inadvertent activation of accessibility features
US9218052B2 (en) 2013-03-14 2015-12-22 Samsung Electronics Co., Ltd. Framework for voice controlling applications
US10642574B2 (en) 2013-03-14 2020-05-05 Apple Inc. Device, method, and graphical user interface for outputting captions
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US9977779B2 (en) 2013-03-14 2018-05-22 Apple Inc. Automatic supplementation of word correction dictionaries
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US10572476B2 (en) 2013-03-14 2020-02-25 Apple Inc. Refining a search based on schedule items
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US9348555B2 (en) * 2013-03-15 2016-05-24 Volkswagen Ag In-vehicle access of mobile device functions
KR101857648B1 (ko) 2013-03-15 2018-05-15 애플 인크. 지능형 디지털 어시스턴트에 의한 사용자 트레이닝
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
AU2014233517B2 (en) 2013-03-15 2017-05-25 Apple Inc. Training an at least partial voice command system
AU2014251347B2 (en) 2013-03-15 2017-05-18 Apple Inc. Context-sensitive handling of interruptions
US9526120B2 (en) 2013-03-15 2016-12-20 Google Inc. Techniques for context-based application invocation for short-range wireless communication interactions
US9875494B2 (en) 2013-04-16 2018-01-23 Sri International Using intents to analyze and personalize a user's dialog experience with a virtual personal assistant
WO2014183035A1 (en) 2013-05-10 2014-11-13 Veveo, Inc. Method and system for capturing and exploiting user intent in a conversational interaction based information retrieval system
US9431008B2 (en) 2013-05-29 2016-08-30 Nuance Communications, Inc. Multiple parallel dialogs in smart phone applications
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014196984A1 (en) * 2013-06-07 2014-12-11 Nuance Communications, Inc. Speech-based search using descriptive features of surrounding objects
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3937002A1 (en) 2013-06-09 2022-01-12 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
AU2014278595B2 (en) 2013-06-13 2017-04-06 Apple Inc. System and method for emergency calls initiated by voice command
US9311298B2 (en) * 2013-06-21 2016-04-12 Microsoft Technology Licensing, Llc Building conversational understanding systems using a toolset
KR102053820B1 (ko) 2013-07-02 2019-12-09 삼성전자주식회사 서버 및 그 제어방법과, 영상처리장치 및 그 제어방법
US10776375B2 (en) * 2013-07-15 2020-09-15 Microsoft Technology Licensing, Llc Retrieval of attribute values based upon identified entities
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
US10109273B1 (en) 2013-08-29 2018-10-23 Amazon Technologies, Inc. Efficient generation of personalized spoken language understanding models
US9361289B1 (en) * 2013-08-30 2016-06-07 Amazon Technologies, Inc. Retrieval and management of spoken language understanding personalization data
US10628378B2 (en) 2013-09-03 2020-04-21 Tintri By Ddn, Inc. Replication of snapshots and clones
US9495965B2 (en) * 2013-09-20 2016-11-15 American Institutes For Research Synthesis and display of speech commands method and system
CN103474065A (zh) * 2013-09-24 2013-12-25 贵阳世纪恒通科技有限公司 基于自动分类技术的语音意图判定识别方法
WO2015050543A1 (en) * 2013-10-02 2015-04-09 Empire Technology Development, Llc Identification of distributed user interface (dui) elements
CN104598257B (zh) * 2013-10-30 2019-01-18 华为技术有限公司 远程应用程序运行的方法和装置
KR101740332B1 (ko) * 2013-11-05 2017-06-08 한국전자통신연구원 자동 번역 장치 및 방법
US9754591B1 (en) 2013-11-18 2017-09-05 Amazon Technologies, Inc. Dialog management context sharing
US9690854B2 (en) * 2013-11-27 2017-06-27 Nuance Communications, Inc. Voice-enabled dialog interaction with web pages
US9558176B2 (en) 2013-12-06 2017-01-31 Microsoft Technology Licensing, Llc Discriminating between natural language and keyword language items
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
KR101489826B1 (ko) * 2013-12-30 2015-02-04 유승우 더미 터미널 및 본체
SG11201707861UA (en) * 2014-03-25 2017-10-30 Botanic Tech Inc Systems and methods for executing cryptographically secure transactions using voice and natural language processing
US20150278852A1 (en) * 2014-04-01 2015-10-01 DoubleVerify, Inc. System And Method For Identifying Online Advertisement Laundering And Online Advertisement Injection
JP2015207819A (ja) * 2014-04-17 2015-11-19 株式会社リコー 情報処理装置、情報処理システム、通信制御方法およびプログラム
US9514376B2 (en) * 2014-04-29 2016-12-06 Google Inc. Techniques for distributed optical character recognition and distributed machine language translation
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US11314826B2 (en) 2014-05-23 2022-04-26 Samsung Electronics Co., Ltd. Method for searching and device thereof
US9990433B2 (en) 2014-05-23 2018-06-05 Samsung Electronics Co., Ltd. Method for searching and device thereof
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
AU2015266863B2 (en) 2014-05-30 2018-03-15 Apple Inc. Multi-command single utterance input method
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
JP2016024212A (ja) * 2014-07-16 2016-02-08 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
SG11201702029PA (en) * 2014-09-14 2017-04-27 Speaktoit Inc Platform for creating customizable dialog system engines
EP3195145A4 (en) 2014-09-16 2018-01-24 VoiceBox Technologies Corporation Voice commerce
WO2016044321A1 (en) 2014-09-16 2016-03-24 Min Tang Integration of domain information into state transitions of a finite state transducer for natural language processing
JP6335388B2 (ja) 2014-09-19 2018-05-30 コンヴィーダ ワイヤレス, エルエルシー サービス層セッション移転および共有
US9606986B2 (en) 2014-09-29 2017-03-28 Apple Inc. Integrated word N-gram and class M-gram language models
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9747896B2 (en) 2014-10-15 2017-08-29 Voicebox Technologies Corporation System and method for providing follow-up responses to prior natural language inputs of a user
CN107077326B (zh) * 2014-10-15 2020-10-13 艾拉物联网络(深圳)有限公司 用于所连接的消费者设备的注册框架
US9800619B2 (en) * 2014-10-15 2017-10-24 Ayla Networks, Inc. Registration framework for connected consumer devices
US9648055B2 (en) * 2014-10-15 2017-05-09 Ayla Networks, Inc. Applications in a flexible registration framework
US9813505B2 (en) 2014-10-15 2017-11-07 Ayla Networks, Inc. Devices in a flexible registration framework
US10614799B2 (en) 2014-11-26 2020-04-07 Voicebox Technologies Corporation System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance
US10431214B2 (en) 2014-11-26 2019-10-01 Voicebox Technologies Corporation System and method of determining a domain and/or an action related to a natural language input
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9965464B2 (en) * 2014-12-05 2018-05-08 Microsoft Technology Licensing, Llc Automatic process guidance
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US10154041B2 (en) * 2015-01-13 2018-12-11 Microsoft Technology Licensing, Llc Website access control
US9854049B2 (en) 2015-01-30 2017-12-26 Rovi Guides, Inc. Systems and methods for resolving ambiguous terms in social chatter based on a user profile
US10180985B2 (en) * 2015-02-19 2019-01-15 At&T Intellectual Property I, L.P. Apparatus and method for automatically redirecting a search
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9672829B2 (en) * 2015-03-23 2017-06-06 International Business Machines Corporation Extracting and displaying key points of a video conference
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US20160321025A1 (en) * 2015-04-30 2016-11-03 Kabushiki Kaisha Toshiba Electronic apparatus and method
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
WO2016191653A1 (en) * 2015-05-27 2016-12-01 Orion Labs Intelligent agent features for wearable personal communication nodes
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10181326B2 (en) 2015-06-01 2019-01-15 AffectLayer, Inc. Analyzing conversations to automatically identify action items
US10133999B2 (en) 2015-06-01 2018-11-20 AffectLayer, Inc. Analyzing conversations to automatically identify deals at risk
US10387573B2 (en) 2015-06-01 2019-08-20 AffectLayer, Inc. Analyzing conversations to automatically identify customer pain points
US10360911B2 (en) 2015-06-01 2019-07-23 AffectLayer, Inc. Analyzing conversations to automatically identify product features that resonate with customers
US10110743B2 (en) 2015-06-01 2018-10-23 AffectLayer, Inc. Automatic pattern recognition in conversations
US10367940B2 (en) 2015-06-01 2019-07-30 AffectLayer, Inc. Analyzing conversations to automatically identify product feature requests
US10324979B2 (en) 2015-06-01 2019-06-18 AffectLayer, Inc. Automatic generation of playlists from conversations
US10679013B2 (en) 2015-06-01 2020-06-09 AffectLayer, Inc. IoT-based call assistant device
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US9407989B1 (en) 2015-06-30 2016-08-02 Arthur Woodrow Closed audio circuit
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10504137B1 (en) 2015-10-08 2019-12-10 Persado Intellectual Property Limited System, method, and computer program product for monitoring and responding to the performance of an ad
US9688225B2 (en) * 2015-10-09 2017-06-27 Livio, Inc. Methods and systems for a mobile device to emulate a vehicle human-machine interface
CA3005710C (en) * 2015-10-15 2021-03-23 Interactive Intelligence Group, Inc. System and method for multi-language communication sequencing
KR102112814B1 (ko) 2015-10-21 2020-05-19 구글 엘엘씨 다이얼로그 시스템들에서의 파라미터 수집 및 자동 다이얼로그 생성
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US11018888B2 (en) * 2015-12-03 2021-05-25 Whirlpool Corporation Methods of remote control of appliances
US10832283B1 (en) 2015-12-09 2020-11-10 Persado Intellectual Property Limited System, method, and computer program for providing an instance of a promotional message to a user based on a predicted emotional response corresponding to user characteristics
CN105551488A (zh) * 2015-12-15 2016-05-04 深圳Tcl数字技术有限公司 语音控制方法及系统
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10732783B2 (en) 2015-12-28 2020-08-04 Microsoft Technology Licensing, Llc Identifying image comments from similar images
US9947316B2 (en) 2016-02-22 2018-04-17 Sonos, Inc. Voice control of a media playback system
US10743101B2 (en) 2016-02-22 2020-08-11 Sonos, Inc. Content mixing
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US10224026B2 (en) * 2016-03-15 2019-03-05 Sony Corporation Electronic device, system, method and computer program
US9996531B1 (en) * 2016-03-29 2018-06-12 Facebook, Inc. Conversational understanding
US10319371B2 (en) * 2016-05-04 2019-06-11 GM Global Technology Operations LLC Disambiguation of vehicle speech commands
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
KR101995540B1 (ko) * 2016-06-03 2019-07-15 주식회사 허브케이 판독/입력 오류 단어 정정 장치 및 방법
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US9978390B2 (en) 2016-06-09 2018-05-22 Sonos, Inc. Dynamic player selection for audio signal processing
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US11200891B2 (en) * 2016-06-21 2021-12-14 Hewlett-Packard Development Company, L.P. Communications utilizing multiple virtual assistant services
US10331784B2 (en) 2016-07-29 2019-06-25 Voicebox Technologies Corporation System and method of disambiguating natural language processing requests
KR101827773B1 (ko) * 2016-08-02 2018-02-09 주식회사 하이퍼커넥트 통역 장치 및 방법
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
KR102481881B1 (ko) * 2016-09-07 2022-12-27 삼성전자주식회사 외부 디바이스를 제어하는 서버 및 그 방법
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US9942678B1 (en) 2016-09-27 2018-04-10 Sonos, Inc. Audio playback settings for voice interaction
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
CN106844453B (zh) * 2016-12-20 2020-09-08 江苏瀚远科技股份有限公司 一种电子文件格式转换方法
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
KR102643501B1 (ko) * 2016-12-26 2024-03-06 현대자동차주식회사 대화 처리 장치, 이를 포함하는 차량 및 대화 처리 방법
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10971157B2 (en) 2017-01-11 2021-04-06 Nuance Communications, Inc. Methods and apparatus for hybrid speech recognition processing
US20180247644A1 (en) * 2017-02-27 2018-08-30 Intel Corporation Queueing spoken dialogue output
EP3392884A1 (en) * 2017-04-21 2018-10-24 audEERING GmbH A method for automatic affective state inference and an automated affective state inference system
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
US10127227B1 (en) * 2017-05-15 2018-11-13 Google Llc Providing access to user-controlled resources by automated assistants
US11436417B2 (en) 2017-05-15 2022-09-06 Google Llc Providing access to user-controlled resources by automated assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
CN107319857A (zh) * 2017-06-30 2017-11-07 广东工业大学 一种交互镜子及具有该交互镜子的智能家电系统
US20190018545A1 (en) * 2017-07-13 2019-01-17 International Business Machines Corporation System and method for rapid financial app prototyping
KR102419374B1 (ko) * 2017-07-21 2022-07-11 삼성전자주식회사 사용자 발화를 처리하는 전자 장치 및 그 전자 장치의 제어 방법
TWI646529B (zh) * 2017-07-25 2019-01-01 雲拓科技有限公司 主動聊天裝置
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
CN109426530B (zh) * 2017-08-17 2022-04-05 阿里巴巴集团控股有限公司 页面确定方法、装置、服务器和存储介质
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10600419B1 (en) * 2017-09-22 2020-03-24 Amazon Technologies, Inc. System command processing
US10957313B1 (en) 2017-09-22 2021-03-23 Amazon Technologies, Inc. System command processing
US10446165B2 (en) 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
CN107479906A (zh) * 2017-09-28 2017-12-15 电子科技大学 基于Cordova的跨平台在线教育移动终端
US10621981B2 (en) 2017-09-28 2020-04-14 Sonos, Inc. Tone interference cancellation
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
US10453454B2 (en) * 2017-10-26 2019-10-22 Hitachi, Ltd. Dialog system with self-learning natural language understanding
CN107767856B (zh) * 2017-11-07 2021-11-19 中国银行股份有限公司 一种语音处理方法、装置及服务器
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
AU2017442245B2 (en) * 2017-12-08 2020-03-26 Google Llc System for securing a personal digital assistant with stacked data structures
CN108008728B (zh) * 2017-12-12 2020-01-17 深圳市银星智能科技股份有限公司 清洁机器人以及基于清洁机器人的最短路径规划方法
US20190180753A1 (en) * 2017-12-12 2019-06-13 Ca, Inc. Analysis of collaborative dialog data structures from speech processing computer system
US11443646B2 (en) 2017-12-22 2022-09-13 Fathom Technologies, LLC E-Reader interface system with audio and highlighting synchronization for digital books
US11900928B2 (en) 2017-12-23 2024-02-13 Soundhound Ai Ip, Llc System and method for adapted interactive experiences
US10671251B2 (en) 2017-12-22 2020-06-02 Arbordale Publishing, LLC Interactive eReader interface generation based on synchronization of textual and audial descriptors
WO2019125486A1 (en) * 2017-12-22 2019-06-27 Soundhound, Inc. Natural language grammars adapted for interactive experiences
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
CN108269205A (zh) * 2018-01-24 2018-07-10 成都安信思远信息技术有限公司 一种利用云平台的电子数据鉴定系统
US11343614B2 (en) 2018-01-31 2022-05-24 Sonos, Inc. Device designation of playback and network microphone device arrangements
US20190236137A1 (en) * 2018-01-31 2019-08-01 Microsoft Technology Licensing, Llc Generating conversational representations of web content
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
CN108520748B (zh) * 2018-02-01 2020-03-03 百度在线网络技术(北京)有限公司 一种智能设备功能引导方法及系统
US10891430B2 (en) * 2018-02-02 2021-01-12 Fuji Xerox Co., Ltd. Semi-automated methods for translating structured document content to chat-based interaction
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
KR102507249B1 (ko) * 2018-03-08 2023-03-07 삼성전자주식회사 성능 모드 제어 방법 및 이를 지원하는 전자 장치
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
CN108614773A (zh) * 2018-04-24 2018-10-02 广州链创信息科技有限公司 一种手机小程序用展示发布体验系统
US11094316B2 (en) * 2018-05-04 2021-08-17 Qualcomm Incorporated Audio analytics for natural language processing
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10504518B1 (en) 2018-06-03 2019-12-10 Apple Inc. Accelerated task performance
US10776582B2 (en) * 2018-06-06 2020-09-15 International Business Machines Corporation Supporting combinations of intents in a conversation
US10811009B2 (en) 2018-06-27 2020-10-20 International Business Machines Corporation Automatic skill routing in conversational computing frameworks
US10681460B2 (en) 2018-06-28 2020-06-09 Sonos, Inc. Systems and methods for associating playback devices with voice assistant services
EP3682345B1 (en) 2018-08-07 2021-11-24 Google LLC Assembling and evaluating automated assistant responses for privacy concerns
US11436215B2 (en) 2018-08-20 2022-09-06 Samsung Electronics Co., Ltd. Server and control method thereof
EP4343534A2 (en) * 2018-08-23 2024-03-27 Google Llc Regulating assistant responsiveness according to characteristics of a multi-assistant environment
US10461710B1 (en) 2018-08-28 2019-10-29 Sonos, Inc. Media playback system with maximum volume setting
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US10762893B2 (en) * 2018-09-28 2020-09-01 Comcast Cable Communications, Llc Monitoring of one or more audio/video collection devices
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US10594837B1 (en) 2018-11-02 2020-03-17 International Business Machines Corporation Predictive service scaling for conversational computing
EP3654249A1 (en) 2018-11-15 2020-05-20 Snips Dilated convolutions and gating for efficient keyword spotting
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US10770072B2 (en) 2018-12-10 2020-09-08 International Business Machines Corporation Cognitive triggering of human interaction strategies to facilitate collaboration, productivity, and learning
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US10602268B1 (en) 2018-12-20 2020-03-24 Sonos, Inc. Optimization of network microphone devices using noise classification
CN110021291B (zh) * 2018-12-26 2021-01-29 创新先进技术有限公司 一种语音合成文件的调用方法及装置
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US10867604B2 (en) 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
EP3703342B1 (en) * 2019-03-01 2023-07-26 ABB Schweiz AG Dynamic load balancing in network centric process control systems
WO2020185880A1 (en) * 2019-03-12 2020-09-17 Beguided, Inc. Conversational artificial intelligence for automated self-service account management
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
CN111800537B (zh) * 2019-04-09 2021-07-20 Oppo广东移动通信有限公司 终端使用状态的评估方法、装置、存储介质及电子设备
CN111857219B (zh) * 2019-04-25 2023-06-30 益逻触控系统公司 具有三层系统架构的自助服务装置
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
EP3739491B1 (en) 2019-05-17 2022-07-06 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
US10586540B1 (en) 2019-06-12 2020-03-10 Sonos, Inc. Network microphone device with command keyword conditioning
US11138975B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
US11526780B2 (en) * 2019-08-05 2022-12-13 Microsoft Technology Licensing, Llc Converting nonnative skills for conversational computing interfaces
US10915227B1 (en) 2019-08-07 2021-02-09 Bank Of America Corporation System for adjustment of resource allocation based on multi-channel inputs
CN110647736A (zh) * 2019-08-13 2020-01-03 平安科技(深圳)有限公司 插件式坐席系统登录方法、装置、计算机设备及存储介质
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
CN110647305B (zh) * 2019-09-29 2023-10-31 阿波罗智联(北京)科技有限公司 应用程序的语音交互方法、装置、设备和介质
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
JP7029434B2 (ja) * 2019-10-23 2022-03-03 サウンドハウンド,インコーポレイテッド コンピュータによって実行される方法、サーバ装置、情報処理システム、プログラム、およびクライアント端末
WO2021096382A2 (ru) * 2019-11-15 2021-05-20 Федеральное Государственное Автономное Образовательное Учреждение Высшего Образования "Московский Физико-Технический Институт" (Национальный Исследовательский Университет) (Мфти) Способ и система управления диалоговым агентом в канале взаимодействия с пользователем
US11664044B2 (en) 2019-11-25 2023-05-30 Qualcomm Incorporated Sound event detection learning
EP3836043A1 (en) 2019-12-11 2021-06-16 Carrier Corporation A method and an equipment for configuring a service
CN111223485A (zh) * 2019-12-19 2020-06-02 深圳壹账通智能科技有限公司 智能交互方法、装置、电子设备及存储介质
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
CN113035226A (zh) * 2019-12-24 2021-06-25 中兴通讯股份有限公司 语音通话方法、通信终端和计算机可读介质
US11209573B2 (en) 2020-01-07 2021-12-28 Northrop Grumman Systems Corporation Radio occultation aircraft navigation aid system
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11494166B2 (en) 2020-03-30 2022-11-08 Nuance Communications, Inc. Omni-channel conversational application development system and method
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11698771B2 (en) 2020-08-25 2023-07-11 Sonos, Inc. Vocal guidance engines for playback devices
US11514799B2 (en) 2020-11-11 2022-11-29 Northrop Grumman Systems Corporation Systems and methods for maneuvering an aerial vehicle during adverse weather conditions
US11410677B2 (en) 2020-11-24 2022-08-09 Qualcomm Incorporated Adaptive sound event classification
CN112527435B (zh) * 2020-12-08 2024-02-13 建信金融科技有限责任公司 浏览器操作方法及系统
US11329933B1 (en) 2020-12-28 2022-05-10 Drift.com, Inc. Persisting an AI-supported conversation across multiple channels
US20220415311A1 (en) * 2021-06-24 2022-12-29 Amazon Technologies, Inc. Early invocation for contextual data processing
US20230197072A1 (en) * 2021-12-17 2023-06-22 Google Llc Warm word arbitration between automated assistant devices
CN115064168B (zh) * 2022-08-17 2022-12-13 广州小鹏汽车科技有限公司 语音交互方法、服务器和存储介质
CN116719649A (zh) * 2022-09-01 2023-09-08 荣耀终端有限公司 会话通知的提示方法、电子设备及可读存储介质
CN116450383A (zh) * 2023-06-19 2023-07-18 合肥景云软件工程有限责任公司 一种通过网页调用操作系统的方法

Family Cites Families (104)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4787031A (en) * 1985-01-04 1988-11-22 Digital Equipment Corporation Computer with virtual machine mode and multiple protection rings
JPH0673135B2 (ja) * 1988-03-01 1994-09-14 工業技術院長 自然言語対話処理装置
US5282265A (en) * 1988-10-04 1994-01-25 Canon Kabushiki Kaisha Knowledge information processing system
JPH0384652A (ja) * 1989-08-29 1991-04-10 Personal Joho Kankyo Kyokai ヒューマンインタフェースのアーキテクチャモデル
US5333237A (en) * 1989-10-10 1994-07-26 Hughes Aircraft Company Hypermedia structured knowledge base system
JP3235728B2 (ja) * 1990-02-09 2001-12-04 沖ソフトウェア株式会社 会話制御方式
JPH05304567A (ja) * 1990-04-05 1993-11-16 Texas Instr Inc <Ti> 遠隔通信システムならびにその遠隔通信サービスプレゼンテーションインターフェース及び遠隔通信ネットワーク
JPH0410153A (ja) * 1990-04-27 1992-01-14 Nippon Telegr & Teleph Corp <Ntt> 情報検索システム
US5133004A (en) 1990-05-07 1992-07-21 Unisys Corporation Digital computer platform for supporting telephone network applications
US5255305A (en) * 1990-11-01 1993-10-19 Voiceplex Corporation Integrated voice processing system
US5274695A (en) * 1991-01-11 1993-12-28 U.S. Sprint Communications Company Limited Partnership System for verifying the identity of a caller in a telecommunications network
JPH0792801B2 (ja) * 1991-08-02 1995-10-09 工業技術院長 非単調推論方法
US5283888A (en) * 1991-08-27 1994-02-01 International Business Machines Corporation Voice processing interface unit employing virtual screen communications for accessing a plurality of primed applications
US6400996B1 (en) * 1999-02-01 2002-06-04 Steven M. Hoffberg Adaptive pattern recognition based control system and method
JP3213056B2 (ja) * 1992-06-19 2001-09-25 株式会社日立製作所 マルチメディア処理装置
US5384890A (en) * 1992-09-30 1995-01-24 Apple Computer, Inc. Method and apparatus for providing multiple clients simultaneous access to a sound data stream
FR2696574B1 (fr) * 1992-10-06 1994-11-18 Sextant Avionique Procédé et dispositif d'analyse d'un message fourni par des moyens d'interaction à un système de dialogue homme-machine.
JPH06131437A (ja) * 1992-10-20 1994-05-13 Hitachi Ltd 複合形態による操作指示方法
JPH06149534A (ja) * 1992-11-13 1994-05-27 Toshiba Corp 音声画面操作装置
US6029188A (en) * 1993-01-18 2000-02-22 Institute For Personalized Information Environment Information processing system for an architecture model capable of interfacing with humans and capable of being modified
US5544228A (en) * 1993-09-27 1996-08-06 The Walt Disney Company Method and apparatus for transmission of full frequency digital audio
US5509060A (en) * 1993-11-19 1996-04-16 At&T Corp. Network-accessible intelligent telephone service
US5748841A (en) * 1994-02-25 1998-05-05 Morin; Philippe Supervised contextual language acquisition system
US5644686A (en) * 1994-04-29 1997-07-01 International Business Machines Corporation Expert system and method employing hierarchical knowledge base, and interactive multimedia/hypermedia applications
JP3408332B2 (ja) * 1994-09-12 2003-05-19 富士通株式会社 ハイパーテキスト読上装置
US5682539A (en) * 1994-09-29 1997-10-28 Conrad; Donovan Anticipated meaning natural language interface
US5594789A (en) * 1994-10-13 1997-01-14 Bell Atlantic Network Services, Inc. Transaction implementation in video dial tone network
EP0792493B1 (en) * 1994-11-08 1999-08-11 Vermeer Technologies, Inc. An online service development tool with fee setting capabilities
JPH08137697A (ja) * 1994-11-15 1996-05-31 Kobe Steel Ltd 自律分散型システム
US6029195A (en) * 1994-11-29 2000-02-22 Herz; Frederick S. M. System for customized electronic identification of desirable objects
US5748974A (en) * 1994-12-13 1998-05-05 International Business Machines Corporation Multimodal natural language interface for cross-application tasks
JP2746218B2 (ja) * 1995-02-23 1998-05-06 富士ゼロックス株式会社 資源管理装置および資源管理方法
US5890123A (en) * 1995-06-05 1999-03-30 Lucent Technologies, Inc. System and method for voice controlled video screen display
US5742845A (en) * 1995-06-22 1998-04-21 Datascape, Inc. System for extending present open network communication protocols to communicate with non-standard I/O devices directly coupled to an open network
JP3729918B2 (ja) * 1995-07-19 2005-12-21 株式会社東芝 マルチモーダル対話装置及び対話方法
US5794205A (en) * 1995-10-19 1998-08-11 Voice It Worldwide, Inc. Voice recognition interface apparatus and method for interacting with a programmable timekeeping device
JPH10124378A (ja) * 1995-12-01 1998-05-15 Zakuson R & D:Kk インターネットおよびイントラネット上におけるホームページ上の文書録画支援装置および文書録画支援システム
WO1997023973A1 (en) * 1995-12-22 1997-07-03 Rutgers University Method and system for audio access to information in a wide area computer network
US6101528A (en) * 1996-03-27 2000-08-08 Intel Corporation Method and apparatus for discovering server applications by a client application in a network of computer systems
US5884262A (en) * 1996-03-28 1999-03-16 Bell Atlantic Network Services, Inc. Computer network audio access and conversion system
JPH11510977A (ja) * 1996-04-22 1999-09-21 エイ・ティ・アンド・ティ・コーポレーション オーディオインターフェイスを用いた情報の取り出し方法および装置
US5956507A (en) * 1996-05-14 1999-09-21 Shearer, Jr.; Bennie L. Dynamic alteration of operating system kernel resource tables
JPH09319760A (ja) * 1996-05-30 1997-12-12 Nippon Telegr & Teleph Corp <Ntt> 情報検索運行システム
DE69734650T2 (de) * 1996-06-03 2006-08-10 Worldvoice Licensing, Inc. Fernsprechsprachpostverfahren mit netzwerkadress-und sprach-authentifizierung
JPH1078952A (ja) * 1996-07-29 1998-03-24 Internatl Business Mach Corp <Ibm> 音声合成方法、音声合成装置、ハイパーテキストの制御方法及び制御装置
US5799063A (en) * 1996-08-15 1998-08-25 Talk Web Inc. Communication system and method of providing access to pre-recorded audio messages via the Internet
JPH10124293A (ja) * 1996-08-23 1998-05-15 Osaka Gas Co Ltd 音声指令可能なコンピュータとそれ用の媒体
US5850629A (en) * 1996-09-09 1998-12-15 Matsushita Electric Industrial Co., Ltd. User interface controller for text-to-speech synthesizer
EP0863466A4 (en) * 1996-09-26 2005-07-20 Mitsubishi Electric Corp INTERACTIVE PROCESSOR
US5721827A (en) * 1996-10-02 1998-02-24 James Logan System for electrically distributing personalized information
US5915001A (en) * 1996-11-14 1999-06-22 Vois Corporation System and method for providing and using universally accessible voice and speech data files
US5774857A (en) * 1996-11-15 1998-06-30 Motorola, Inc. Conversion of communicated speech to text for tranmission as RF modulated base band video
JP3826239B2 (ja) * 1996-11-22 2006-09-27 日本電信電話株式会社 ハイパーテキスト中継方法及び装置
US6282511B1 (en) * 1996-12-04 2001-08-28 At&T Voiced interface with hyperlinked information
US5960399A (en) 1996-12-24 1999-09-28 Gte Internetworking Incorporated Client/server speech processor/recognizer
US6456974B1 (en) * 1997-01-06 2002-09-24 Texas Instruments Incorporated System and method for adding speech recognition capabilities to java
JP2907174B2 (ja) * 1997-02-04 1999-06-21 日本電気株式会社 監視制御システムのユーザインタフェースシステム
JPH10222342A (ja) * 1997-02-06 1998-08-21 Nippon Telegr & Teleph Corp <Ntt> ハイパーテキスト音声制御方法及び装置
JPH10222525A (ja) * 1997-02-07 1998-08-21 Hitachi Ltd ナビゲーション方法
JPH10243048A (ja) * 1997-02-27 1998-09-11 Nippon Telegr & Teleph Corp <Ntt> 情報伝送方法及びシステム
US5987102A (en) * 1997-03-14 1999-11-16 Efusion, Inc. Method and apparatus for bridging a voice call including selective provision of information in non-audio to the caller
US5884266A (en) 1997-04-02 1999-03-16 Motorola, Inc. Audio interface for document based information resource navigation and method therefor
JP3646471B2 (ja) * 1997-05-14 2005-05-11 日本電信電話株式会社 情報提供方法及び個人適応情報提供サーバ及び情報提供プログラムを格納した記憶媒体
US5897616A (en) * 1997-06-11 1999-04-27 International Business Machines Corporation Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases
US6044347A (en) * 1997-08-05 2000-03-28 Lucent Technologies Inc. Methods and apparatus object-oriented rule-based dialogue management
US6353824B1 (en) * 1997-11-18 2002-03-05 Apple Computer, Inc. Method for dynamic presentation of the contents topically rich capsule overviews corresponding to the plurality of documents, resolving co-referentiality in document segments
US6157705A (en) * 1997-12-05 2000-12-05 E*Trade Group, Inc. Voice control of a server
US6370508B2 (en) * 1998-09-11 2002-04-09 Genesys Telecommunications Laboratories, Inc. Interface engine for managing business processes within a multimedia communication-center
US6230197B1 (en) * 1998-09-11 2001-05-08 Genesys Telecommunications Laboratories, Inc. Method and apparatus for rules-based storage and retrieval of multimedia interactions within a communication center
JP4562910B2 (ja) * 1998-03-23 2010-10-13 マイクロソフト コーポレーション オペレーティングシステムのアプリケーション・プログラム・インターフェース
US6012030A (en) * 1998-04-21 2000-01-04 Nortel Networks Corporation Management of speech and audio prompts in multimodal interfaces
US6018711A (en) * 1998-04-21 2000-01-25 Nortel Networks Corporation Communication system user interface with animated representation of time remaining for input to recognizer
US6859451B1 (en) * 1998-04-21 2005-02-22 Nortel Networks Limited Server for handling multimodal information
US6438523B1 (en) * 1998-05-20 2002-08-20 John A. Oberteuffer Processing handwritten and hand-drawn input and speech input
US6253326B1 (en) * 1998-05-29 2001-06-26 Palm, Inc. Method and system for secure communications
US6397259B1 (en) * 1998-05-29 2002-05-28 Palm, Inc. Method, system and apparatus for packet minimized communications
US6269366B1 (en) * 1998-06-24 2001-07-31 Eastman Kodak Company Method for randomly combining images with annotations
US6269336B1 (en) * 1998-07-24 2001-07-31 Motorola, Inc. Voice browser for interactive services and methods thereof
US6119147A (en) * 1998-07-28 2000-09-12 Fuji Xerox Co., Ltd. Method and system for computer-mediated, multi-modal, asynchronous meetings in a virtual space
WO2000008547A1 (en) * 1998-08-05 2000-02-17 British Telecommunications Public Limited Company Multimodal user interface
US6195696B1 (en) * 1998-10-01 2001-02-27 International Business Machines Corporation Systems, methods and computer program products for assigning, generating and delivering content to intranet users
US7003463B1 (en) * 1998-10-02 2006-02-21 International Business Machines Corporation System and method for providing network coordinated conversational services
US6493671B1 (en) 1998-10-02 2002-12-10 Motorola, Inc. Markup language for interactive services to notify a user of an event and methods thereof
CN1160700C (zh) * 1998-10-02 2004-08-04 国际商业机器公司 提供网络协同会话服务的系统和方法
US6615240B1 (en) * 1998-12-18 2003-09-02 Motive Communications, Inc. Technical support chain automation with guided self-help capability and option to escalate to live help
US6851115B1 (en) * 1999-01-05 2005-02-01 Sri International Software-based architecture for communication and cooperation among distributed electronic agents
US6523061B1 (en) * 1999-01-05 2003-02-18 Sri International, Inc. System, method, and article of manufacture for agent-based navigation in a speech-based data navigation system
US7216351B1 (en) * 1999-04-07 2007-05-08 International Business Machines Corporation Systems and methods for synchronizing multi-modal interactions
US6519617B1 (en) * 1999-04-08 2003-02-11 International Business Machines Corporation Automated creation of an XML dialect and dynamic generation of a corresponding DTD
US6636831B1 (en) * 1999-04-09 2003-10-21 Inroad, Inc. System and process for voice-controlled information retrieval
US6529889B1 (en) * 1999-07-27 2003-03-04 Acappella Software, Inc. System and method of knowledge architecture
US7069220B2 (en) * 1999-08-13 2006-06-27 International Business Machines Corporation Method for determining and maintaining dialog focus in a conversational speech system
US6799169B1 (en) * 1999-08-13 2004-09-28 International Business Machines Corporation Method and system for modeless operation of a multi-modal user interface through implementation of independent decision networks
US6377913B1 (en) * 1999-08-13 2002-04-23 International Business Machines Corporation Method and system for multi-client access to a dialog system
US6738803B1 (en) * 1999-09-03 2004-05-18 Cisco Technology, Inc. Proxy browser providing voice enabled web application audio control for telephony devices
US6615172B1 (en) * 1999-11-12 2003-09-02 Phoenix Solutions, Inc. Intelligent query engine for processing voice based queries
US6829603B1 (en) * 2000-02-02 2004-12-07 International Business Machines Corp. System, method and program product for interactive natural dialog
US7415537B1 (en) * 2000-04-07 2008-08-19 International Business Machines Corporation Conversational portal for providing conversational browsing and multimedia broadcast on demand
US6934756B2 (en) * 2000-11-01 2005-08-23 International Business Machines Corporation Conversational networking via transport, coding and control conversational protocols
US6970935B1 (en) * 2000-11-01 2005-11-29 International Business Machines Corporation Conversational networking via transport, coding and control conversational protocols
US6801604B2 (en) * 2001-06-25 2004-10-05 International Business Machines Corporation Universal IP-based and scalable architectures across conversational applications using web services for speech and audio processing resources
US6839896B2 (en) * 2001-06-29 2005-01-04 International Business Machines Corporation System and method for providing dialog management and arbitration in a multi-modal environment
US7398209B2 (en) * 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7349845B2 (en) * 2003-09-03 2008-03-25 International Business Machines Corporation Method and apparatus for dynamic modification of command weights in a natural language understanding system

Cited By (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1329824C (zh) * 2003-09-15 2007-08-01 国际商业机器公司 用于提供从多个应用程序内可访问的通用协作框架的方法和系统
CN101002487B (zh) * 2004-06-14 2012-09-05 诺基亚公司 提供共享的界标用户界面的方法
CN1968123B (zh) * 2005-11-08 2010-12-08 国际商业机器公司 动态多方、多个媒体通信自动协调的方法与装置
CN101884064B (zh) * 2007-12-07 2012-04-25 索尼公司 信息处理设备和信息处理方法
CN101656800B (zh) * 2008-08-20 2013-07-24 环球娱乐株式会社 自动应答装置及方法、会话情节编辑装置、会话服务器
US11303711B2 (en) 2014-02-13 2022-04-12 Nec Corporation Communication system, communication device, communication method, and non-transitory compu ter readable medium storing program
CN106031140A (zh) * 2014-02-13 2016-10-12 日本电气株式会社 通信系统、通信装置、通信方法和存储程序的非瞬时性计算机可读介质
CN106031140B (zh) * 2014-02-13 2019-05-14 日本电气株式会社 通信系统、通信装置、通信方法和存储程序的非瞬时性计算机可读介质
US11778046B2 (en) 2014-02-13 2023-10-03 Nec Corporation Virtualized communication device and method therefor
CN107003723A (zh) * 2014-10-21 2017-08-01 罗伯特·博世有限公司 用于会话系统中的响应选择和组成的自动化的方法和系统
CN106302089A (zh) * 2015-05-21 2017-01-04 阿里巴巴集团控股有限公司 会话处理方法和系统
CN106302089B (zh) * 2015-05-21 2019-06-11 阿里巴巴集团控股有限公司 会话处理方法和系统
CN107580722A (zh) * 2015-05-27 2018-01-12 英特尔公司 具有对应于各个数据流的直接存储器存取引擎的高斯混合模型加速器
CN108352006A (zh) * 2015-11-06 2018-07-31 苹果公司 即时消息环境中的智能自动化助理
CN108352006B (zh) * 2015-11-06 2022-02-25 苹果公司 即时消息环境中的智能自动化助理
US11809886B2 (en) 2015-11-06 2023-11-07 Apple Inc. Intelligent automated assistant in a messaging environment
US11526368B2 (en) 2015-11-06 2022-12-13 Apple Inc. Intelligent automated assistant in a messaging environment
CN108369581A (zh) * 2016-01-23 2018-08-03 微软技术许可有限责任公司 支持新的语言理解场景的开发的工具
CN112989239A (zh) * 2016-03-17 2021-06-18 谷歌有限责任公司 混合的客户端-服务器数据提供的方法
CN106095593A (zh) * 2016-05-31 2016-11-09 广东欧珀移动通信有限公司 一种前、后景应用程序行为同步方法及装置
CN106095593B (zh) * 2016-05-31 2019-04-16 Oppo广东移动通信有限公司 一种前、后景应用程序行为同步方法及装置
US10642662B2 (en) 2016-05-31 2020-05-05 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Method for application action synchronization, terminal device, and storage medium
US10649817B2 (en) 2016-05-31 2020-05-12 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Method for application action synchronization, terminal device, and storage medium
CN106847272A (zh) * 2016-12-12 2017-06-13 北京光年无限科技有限公司 与运行应用关联的智能机器人的数据交互方法
US11790207B2 (en) 2017-05-16 2023-10-17 Google Llc Delayed responses by computational assistant
CN110651325A (zh) * 2017-05-16 2020-01-03 谷歌有限责任公司 计算助理的延迟响应
CN109218382A (zh) * 2017-06-30 2019-01-15 京瓷办公信息系统株式会社 远程通信控制系统和会话管理系统
CN108256066B (zh) * 2018-01-16 2022-01-11 智言科技(深圳)有限公司 端到端层次解码任务型对话系统
CN108256066A (zh) * 2018-01-16 2018-07-06 智言科技(深圳)有限公司 端到端层次解码任务型对话系统
CN110321413A (zh) * 2018-03-30 2019-10-11 国际商业机器公司 会话框架
CN112136124A (zh) * 2018-04-19 2020-12-25 谷歌有限责任公司 用于与计算机实现的自动助理进行人机对话会话的依赖图谈话建模
CN112136124B (zh) * 2018-04-19 2024-02-20 谷歌有限责任公司 用于与计算机实现的自动助理进行人机对话会话的依赖图谈话建模
CN110489532A (zh) * 2018-05-14 2019-11-22 西门子股份公司 提供自适应会话系统的计算机实现方法和自适应会话系统
CN110489532B (zh) * 2018-05-14 2023-11-17 西门子股份公司 提供自适应会话系统的计算机实现方法和自适应会话系统
CN110400564A (zh) * 2019-08-21 2019-11-01 科大国创软件股份有限公司 一种基于栈的聊天机器人对话管理方法
CN111105289A (zh) * 2019-11-22 2020-05-05 北京美鲜科技有限公司 一种基于aop方式的客户端订单取消判断方法及装置
CN114787786A (zh) * 2019-12-13 2022-07-22 株式会社日立产机系统 通信模块、通信系统和通信方法
CN114095487A (zh) * 2020-07-30 2022-02-25 中移(苏州)软件技术有限公司 一种远程任务执行方法、装置及存储介质
CN114095487B (zh) * 2020-07-30 2024-03-19 中移(苏州)软件技术有限公司 一种远程任务执行方法、装置及存储介质

Also Published As

Publication number Publication date
CN100472500C (zh) 2009-03-25
DE69937962D1 (de) 2008-02-21
US8082153B2 (en) 2011-12-20
EP1133734A2 (en) 2001-09-19
WO2000021075A1 (en) 2000-04-13
EP1125279A4 (en) 2005-02-23
CA2345661A1 (en) 2000-04-13
CN1321295A (zh) 2001-11-07
KR100459299B1 (ko) 2004-12-03
US7418382B1 (en) 2008-08-26
CA2345665C (en) 2011-02-08
EP1125277A4 (en) 2002-02-20
CA2345660A1 (en) 2000-04-13
US7137126B1 (en) 2006-11-14
WO2000021073A1 (en) 2000-04-13
CA2345662A1 (en) 2000-04-13
IL142364A0 (en) 2002-03-10
KR20010073105A (ko) 2001-07-31
CN1171200C (zh) 2004-10-13
EP1125277A1 (en) 2001-08-22
JP3703082B2 (ja) 2005-10-05
IL142363A0 (en) 2002-03-10
IL142366A (en) 2008-11-26
CN1342290A (zh) 2002-03-27
EP1125279B1 (en) 2008-01-09
KR20010085878A (ko) 2001-09-07
EP1125279A1 (en) 2001-08-22
CA2345660C (en) 2006-01-31
KR20010075552A (ko) 2001-08-09
KR100620826B1 (ko) 2006-09-13
EP1163576A4 (en) 2005-11-30
WO2000021232A2 (en) 2000-04-13
CN1323435A (zh) 2001-11-21
DE69937962T2 (de) 2008-12-24
US20090313026A1 (en) 2009-12-17
CA2345665A1 (en) 2000-04-13
KR100431972B1 (ko) 2004-05-22
EP1133734A4 (en) 2005-12-14
ATE383640T1 (de) 2008-01-15
IL140805A0 (en) 2002-02-10
WO2000021075A9 (en) 2000-06-08
JP2002526855A (ja) 2002-08-20
US7729916B2 (en) 2010-06-01
US20070043574A1 (en) 2007-02-22
JP4171585B2 (ja) 2008-10-22
WO2000021232A3 (en) 2000-11-02
WO2000020962A3 (en) 2000-07-13
IL142366A0 (en) 2002-03-10
JP2002527800A (ja) 2002-08-27
EP1163576A2 (en) 2001-12-19
KR100430953B1 (ko) 2004-05-12
JP2002527919A (ja) 2002-08-27
WO2000020962A2 (en) 2000-04-13
KR20020004931A (ko) 2002-01-16
CN1160700C (zh) 2004-08-04
JP2003525477A (ja) 2003-08-26
CN1151488C (zh) 2004-05-26

Similar Documents

Publication Publication Date Title
CN1171200C (zh) 通过会话虚拟机进行会话式计算的系统和方法
CN1224894C (zh) 应用程序对话管理方法与对话管理器和仲裁器接口装置
CN100585586C (zh) 翻译系统
US11023461B2 (en) Query translation
JP3779162B2 (ja) データ提示システムのためのユーザインターフェース
US8996375B1 (en) Speech interface system and method for control and interaction with applications on a computing system
CN1248139C (zh) 用于表达频道化数据的系统和方法
US7720674B2 (en) Systems and methods for processing natural language queries
CN1740970A (zh) 无缝地比较对象的系统和方法
CN1846204A (zh) 用于提供数据驱动命令行输出的机制
CN1598768A (zh) 信息处理装置及其控制方法
CN1524217A (zh) 分布式计算服务平台
CN1328668A (zh) 用于指定网络上的位置的系统和处理
CN1932756A (zh) 动态生成用于合成数据的语音可导航菜单的方法和系统
CN101149746A (zh) 在多个web服务中发现至少一个web服务的方法
US11461681B2 (en) System and method for multi-modality soft-agent for query population and information mining
US20020111786A1 (en) Everyday language-based computing system and method
CN117157643A (zh) 利用知识蒸馏的ai nlp编码器的域自适应
CN1735889A (zh) 分析部分未解析的输入的机制
JP2009048446A (ja) 要求サービス提案装置、システム、方法、及びプログラム
CN1894658A (zh) 用于话音激活网页的系统和方法
US20230368773A1 (en) Methods and systems for generating personal virtual agents
CN1126523A (zh) 为语言请求产生指令的系统
EP1209660A2 (en) Voice navigation in web applications
US20230306967A1 (en) Personal assistant multi-skill

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: IPG501 HEALTH CARE CO., LTD.

Free format text: FORMER OWNER: INTERNATIONAL BUSINESS MACHINE CORP.

Effective date: 20080530

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20080530

Address after: Guernsey Island

Patentee after: IPG501 Health Care Co., Ltd.

Address before: American New York

Patentee before: International Business Machines Corp.

C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20041013

Termination date: 20101001