CN104299623A - 语音应用中用于自动确认和消歧模块的方法和系统 - Google Patents

语音应用中用于自动确认和消歧模块的方法和系统 Download PDF

Info

Publication number
CN104299623A
CN104299623A CN201410331849.7A CN201410331849A CN104299623A CN 104299623 A CN104299623 A CN 104299623A CN 201410331849 A CN201410331849 A CN 201410331849A CN 104299623 A CN104299623 A CN 104299623A
Authority
CN
China
Prior art keywords
candidate
attribute
disambiguation
user
control flow
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410331849.7A
Other languages
English (en)
Other versions
CN104299623B (zh
Inventor
R·P·阿科尔卡尔
J·克莱蒂恩斯特
V·S·莫尔
D·纳哈莫
C·F·维夏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN104299623A publication Critical patent/CN104299623A/zh
Application granted granted Critical
Publication of CN104299623B publication Critical patent/CN104299623B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules

Abstract

本发明提供了语音应用中用于自动确认和消歧模块的方法和系统。所述方法包括:经由语音浏览器执行对与用户的对话流建模的控制流逻辑。控制流逻辑产生消歧要求。启动消歧模块,并将一组至少两个候选和划分标准从控制流逻辑发送给所述模块。基于划分标准分析候选的属性以确定每个属性的划分分数,其指示辨别候选的能力。基于划分分数对属性进行排序。基于排序在首位的属性询问用户,并使用询问的结果以减少所述一组候选。重复分析、排序和询问的步骤,直到所述一组候选被减少为单个候选为止。将单个候选返回给控制流逻辑,用于继续执行。

Description

语音应用中用于自动确认和消歧模块的方法和系统
技术领域
本公开涉及语音应用,并且更具体地涉及语音应用中用于自动确认和消歧模块的系统和方法。
背景技术
语音应用是通过口语与用户通信的计算机程序。例如,用户可以被提供语音提示,然后可以说出由语音应用解释的指令。语音应用有各种各样的用途,诸如基于电话的自动客户服务应用。可以使用现有标准(诸如作为用于提供自动交互语音对话的标准的VoiceXML(VXML))开发语音应用。VoiceXML可以按照与在网页浏览器上观看HTML文档类似的方式被使用;VoiceXML文档可以由语音浏览器解释。用户可以经由电话系统与语音浏览器接触。然而,语音浏览器也可以位于用户本地。例如,安装在智能电话或平板电脑上的语音浏览器可以用于与用户交互。
除了VoiceXML之外,可以使用业务流程建模标注(BPMN)建模语音应用。BPMN建立了用于建模业务流程和网页服务的标准。由于语音应用可以是网页服务的重要部分,所以BPMN可以特别有助于建模语音应用。
语音应用的重要部分是自动语音识别(ASR)。ASR技术用于将接收到的用户语音解释为计算机可理解的指令。由于可能存在许多不同的以口语表达相同指令的方式、对于相同的词可能存在不同的发音、以及可能存在许多听上去非常相似、但彼此不同的词,ASR技术在辨别用户说的话的多个可能的可选含义时会有困难。确认和消歧是在计算机已经确定口说的词可以是多个不同命令中的一个之后,帮助ASR技术将口说的词确定为特定命令的方法。
在确认时,语音应用会要求用户确认实际说出了特定命令。典型的确认问题会听起来是“我认为你说了X,正确么?”确认会非常适合于以下情况:计算机已经确定口语最可能是特定命令,但确定度没有超过预定阈值和/或可能有其它接近的选项可用。
在消歧时,计算机会在辨别两个或更多可能的选项时有困难,并且计算机可以请求用户在可能的选项之间选择。消歧可以特别有助于多个选项听起来相似的情况,因此消歧可以通过例如提示用户使用更易于解释的语言回答来要求用户在相似的发声选项之间选择。例如,在用户已经说出城市名并且计算机不确定该城市名是“奥斯汀”还是“波士顿”的情况下,可以通过问用户“你是说德克萨斯的奥斯汀还是马萨诸塞的波士顿?”来执行消歧,从而提示用户说出州名以及城市名,使得计算机可以准确确定命令。
在存在大量的潜在命令的情况下,消歧可以用于减小潜在命令的范围,并通过一系列问题的过程最终获得特定命令。在此情况下,可以基于预期答案的范围仔细确定问题。
由于预期答案一般与潜在命令有很大关系,一般逐个应用地编程确认和消歧逻辑。特别地,用于执行确认和消歧的逻辑、以及可能的答案一般被直接硬编码到用于语音应用的处理流程中。通过使用该方法,对预期答案的认识会被更有效地用于执行确认和消歧。然而,该方法也通过迫使开发者重复编程确认和消歧而使编程语音应用更加困难。
发明内容
一种用于提供语音应用的方法包括:经由语音浏览器执行控制流逻辑,其对与用户的对话流建模。控制流逻辑产生消歧/确认要求。响应于消歧/确认要求而启动消歧/确认模块。将划分标准和一组至少两个候选从控制流逻辑发送给消歧/确认模块。基于划分标准分析所述一组候选的属性以确定每个属性的划分分数,其指示该属性辨别至少两个候选的能力。基于属性的对应划分分数对属性进行排序。基于排序在首位的属性询问用户,并使用询问结果以至少减少所述一组候选。重复分析、排序和询问的步骤,直到所述一组候选被减少为单个候选为止。将单个候选从消歧/确认模块返回给控制流逻辑用于继续执行。
控制流逻辑可以包括业务流程建模(BPM)。
当所述一组候选中的排在首位的候选的确定度低于第一预定阈值、或者排在首位的候选和所述一组候选中的另一个候选的确定度之间的差值低于第二预定阈值时,消歧/确认要求可以由控制流逻辑生成。
对属性进行分析和排序的步骤可以包括:收集所述一组候选中的每个候选的属于每个属性的标识符,并根据语言或音素特性对属性进行排序。
可以访问语言或音素数据库以提供语言或音素特性。
询问用户可以包括:参考一个或多个用户接口文档基于排序在首位的属性生成消歧用户接口,经由文本转语音模块向用户提供所生成的消歧用户接口,经由自动语音识别模块获得用户响应,以及基于获得的用户响应减少所述一组候选。
划分分数可以是值为0.0和1.0之间的系数。
一种用于提供语音应用的方法包括:经由语音浏览器执行控制流逻辑,其对与用户的对话流建模,控制流逻辑产生消歧/确认要求。响应于消歧/确认要求而启动消歧/确认模块。将候选和选择标准从控制流逻辑发送给消歧/确认模块。基于选择标准分析候选的属性以确定每个属性的确认分数,其指示该属性确认候选的正确性的能力。基于属性的对应划分分数对属性进行排序。基于排序在首位的属性询问用户,并使用询问结果修改候选的正确性的确定性度量。将候选的正确性的确定性度量返回给控制流逻辑用于继续执行。
可以重复分析、排序和询问的步骤,直到确定性度量高于第一预定阈值或低于第二预定阈值为止。
当候选被修改为低于第二预定确定性程度时,可以从控制流逻辑接收另外的候选,并且可以对另外的候选执行消歧。
控制流逻辑可以包括业务流程建模(BPM)。
当候选的确定性度量低于预定阈值时,消歧/确认要求可以由控制流逻辑生成。
对属性进行分析和排序的步骤可以包括:收集候选的属于每个属性的标识符,并根据语言或音素特性对属性进行排序。
可以访问语言或音素数据库以提供语言或音素特性。
询问用户可以包括:参考一个或多个用户接口文档基于排序在首位的属性生成确认用户接口,经由文本转语音模块向用户提供所生成的确认用户接口,经由自动语音识别模块获得用户响应,以及基于获得的用户响应修改确定性度量。
一种用于提供语音应用的方法包括:经由语音浏览器执行控制流逻辑,其对与用户的对话流建模。控制流逻辑产生消歧/确认要求。响应于消歧/确认要求而启动数据库消歧模块。将划分标准和一组至少两个候选从控制流逻辑发送给数据库消歧模块。从数据库对所述一组候选中的每个候选检索一组属性。基于划分标准分析所述一组候选中的每个候选的属性以确定每个属性的划分分数,其指示该属性辨别至少两个候选的能力。基于属性的对应划分分数对属性进行排序。基于排序在首位的属性询问用户,并使用询问结果以至少减少所述一组候选。重复分析、排序和询问的步骤,直到所述一组候选被减少为单个候选为止。将单个候选从数据库消歧模块返回给控制流逻辑用于继续执行。
控制流逻辑可以包括业务流程建模(BPM)。
当所述一组候选中的排在首位的候选的确定度低于第一预定阈值、或者排在首位的候选和所述一组候选中的另一个候选的确定度之间的差值低于第二预定阈值时,消歧/确认要求可以由控制流逻辑生成。
对属性进行分析和排序的步骤可以包括:收集所述一组候选中的每个候选的属于每个属性的标识符,并根据语言或音素特性对属性进行排序。
询问用户可以包括:参考一个或多个用户接口文档基于排序在首位的属性生成消歧用户接口,经由文本转语音模块向用户提供所生成的消歧用户接口,经由自动语音识别模块获得用户响应,以及基于获得的用户响应减少所述一组候选。
附图说明
当结合附图考虑时,通过参考以下详细描述将容易获得并同时更好地理解本公开更加完整的评价及其许多附随的方面,其中:
图1是示出根据本发明示例性实施例的用于在语音应用中执行自动确认和消歧的架构的示意图;
图2是示出根据本发明示例性实施例的用于在语音应用中执行自动确认和消歧的方法的流程图;
图3是示出根据本发明示例性实施例的用于在语音应用中执行自动数据库消歧的方法的流程图;
图4和5提供了示出根据本发明示例性实施例的确认/消歧模块的逻辑的流程图;并且
图6示出能够实现根据本公开的实施例的方法和装置的计算机系统的示例。
具体实施方式
在描述附图所示的本公开的示例性实施例的过程中,出于清楚的目的采用了特定术语。然而,本发明并不意在局限于如此选择的特定术语,应理解的是,每个特定要素均包括以类似方式操作的所有技术等价物。
本发明的示例性实施例可以提供使用通用模块执行语音应用中的确认和消歧的系统和方法,所述通用模块可以替代将确认和消歧硬编码到控制流逻辑中的方案而被使用。在本文中该通用模块可以被称为自动语音识别(ASR)确认/消歧模块。
如上面讨论的,语音应用的现有方法要求基于期待的答案定制编程确认和消歧,以便提供满意的用户体验。相比而言,本发明的示例性实施例提供可以用于执行确认和消歧而不需要定制编程的通用模块。
本发明的示例性实施例可以提供能够解决确认和消歧问题的ASR确认/消歧模块。该模块可以在需要时被激活,并且可以动态和自动地生成用于与用户一起执行确认和消歧的提示。
ASR确认/消歧模块可以被用在建立于业务流程建模(BPM)框架上的语音应用中。然而,本发明并不局限于这种应用,在出于提供简化解释的目的在本文描述BPM的使用时,应该理解本文描述的自动确认和消歧模块的概念可以用在各种各样的平台中。
此外,可以在语音应用使用用户响应从外部数据库检索数据时使用本发明的示例性实施例。如果应用期待从数据库挑选出唯一的条目、但用户仅提供部分信息(例如不足以识别唯一响应的信息),则从数据库检索的数据可能是有歧义的。例如,如果用户在被提示给出城市名时提供的城市名被数据库确定为存在于多个州中,则应用需要消歧。因此,本发明的示例性实施例提供了数据库(DB)消歧模块,其解决了从自动识别问题并生成适当提示的外部资源检索的数据中的歧义。
解决这些ASR和数据库消歧问题的两个模块都可以被自动化,生成用于用户的必要提示和语法。这些模块可以被集成在相关对话步骤中,并在歧义出现时被自动激活。这些模块可以被集成在可能仅具有最小定制编码的语音应用中。
本发明的示例性实施例可以利用被称作控制流逻辑(CFL)的服务器组件,所述控制流逻辑利用解释用户语音命令的ASR引擎、以及提供语音提示并通过合成和/或预先录制的声音将其它信息传递给用户的文本转语音(TTS)引擎,来配置对对话流建模的BPM活动和VXML浏览器之间的通信。
控制流逻辑可以包括ASR确认/消歧模块。该确认/消歧模块可以接受语音识别的N-最优结果(其中N是2或更大的整数)作为输入,并决定响应是充分足够还是需要额外确认或消歧。当最优识别结果的置信度低于预定阈值时,可以自动调用确认。当除了排在首位的结果之外还存在其它具有高置信度的识别结果时,可以自动调用消歧。
当要求确认时,ASR确认/消歧模块可以产生问题,诸如“你的意思真的是X么?”。在消歧时,模块可以基于可能的选项生成用于消歧的提示。例如,模块可以产生问题,诸如“请说表示X的1,表示Y的2,或表示Z的3”。在两种情况下,附加有特定语法的提示被提供给VXML浏览器。负责向用户读出提示(例如使用TTS)并转录可听响应(例如使用ASR)的VXML浏览器可以处理向用户的提问。该过程可以是自动的,并且对于主对话流是隐藏的。因此,如果曾经发生过一些ASR确认或消歧,主对话流可以不必考虑。因此,主对话流可以仅仅确信从CFL接收的最终用户响应是确认的响应。因此,如果缺省值不适合,则主对话流中的活动可能仅提供将由模块使用的置信度。
数据库(DB)消歧模块可以存在于架构的BPM层面中。当对话流过程使用用户响应询问外部数据存储装置时,会发生歧义。如果用户响应看起来与数据库内的多个条目匹配(例如,提供了与数据库内的多个不同的城市匹配的城市名),可以调用该模块,以基于从询问返回的数据库条目执行消歧。因此,该模块可以被放置在与外部数据存储装置的连接之后,其中在所述外部数据存储装置中可以检索歧义数据。
当返回的询问结果并不唯一时,可以自动调用消歧。该模块可以使用所述结果中的不同数据库条目中的数据来检索用于辨别候选的额外信息。用于消歧的数据库条目可以作为参数由利用模块的应用的开发者提供,或者数据库条目可以由数据库消歧模块基于候选而动态地生成。在此情况下,模块选择最适合消歧的数据库条目,例如,该模块可以确定最有效辨别候选的数据库条目。可以考虑候选之间的语音相似性。基于所选择的候选,模块可以使用最适合的数据库条目生成用于消歧的提示。如果候选列表足够短,则该提示可以枚举它们中的每一个,并让用户通过号码或其他这样的方式进行挑选。如果存在许多候选,则模块可以生成提示,请求用户提供可以用于就最终结果做出决定或缩窄可能候选的范围的信息。例如,所生成的提示可以是:“请指定州”。该提示及其语法可以基于数据库条目名和候选的数据生成。生成的提示可以尽可能接近考虑了候选、使用的数据库条目及其数据的自然语言。
图1是示出根据本发明示例性实施例的用于在语音应用中执行自动确认和消歧的架构的示意图。控制流逻辑(CFL)11可以被例如开发者编程为提供语音应用的流程树(flow tree)。该流程树可以引导语音应用从开始到结束的进展,同时考虑语音应用取决于用户输入而形成分支的全部各种方式。虽然现有技术中一些方法的CFL可以基于期待的结果而被硬编码为包括确认和消歧,但是根据本发明示例性实施例的CFL不包含用于确认和消歧的逻辑。由此,CFL的编程可以被显著简化,并且寻常度更低。
CFL11可以向语音浏览器12提供用于引导语音浏览器12与用户交互的指令。语音浏览器12可以利用文本转语音(TTS)模块14提供发声提示。然后语音浏览器可以经由电话15或另一扬声器和麦克风接口将语音提示提供给用户。用户可以经由电话15响应该语音提示,并且语音浏览器可以利用ASR模块13提供用于声音输入的听写(dictation)。听写所得的响应可以被提供回给控制流逻辑。然而,当听写所得的响应的明确度不令人满意时,可以自动调用确认/消歧模块16。此外,当听写所得的响应被理解为数据库18中的条目、并且听写所得的响应的明确度不令人满意时,数据库消歧模块17可以从数据库18读取相关条目,并可以对其执行消歧。在任何一种情况下,确认和/或消歧响应可以被提供回给CFL11。
图2是示出根据本发明示例性实施例的用于在语音应用中执行自动确认和消歧的方法的流程图。可以执行控制流逻辑(步骤S21)。控制流逻辑的执行可以包括运行语音应用的应用编程。可以在包括BPM框架的应用服务器上执行CFL。
CFL可以在例如需要输入时要求生成用户询问(步骤S22)。文本转语音可以用于使询问变为发声(步骤S23)。然后可以执行语音通信(步骤S24)。语音通信可以包括向用户播放发声询问,并将用户的可听响应数字化。然后可以对该数字化响应执行ASR(步骤S25)。
然后,可以确定数字化响应是否足够明确(步骤S26)。明确的结果可以是被识别为具有可接受的确定度的单个响应的结果。该可接受的确定度可以作为参数由CFL提供。如果确定响应足够明确(是,步骤S26),则可以使用该响应,并且可以继续控制流逻辑的执行(步骤S21)。如果确定响应不足够明确(否,步骤S26),例如存在多个响应候选和/或排在首位的候选的确定度不够,则可以调用确认和消歧模块以产生明确的询问结果(步骤S27),其可以是具有足够确定度的单个识别结果。此后,可以使用该响应,并且可以继续控制流逻辑的执行(步骤S21)。
在一般的ASR结果不足够明确时,上述方法会特别有用。然而,有时CFL期待结果处于可从数据库检索的一组期待答案中。例如,用于提供航班状态的航线语音应用可以向用户询问目的地城市,并且期待用户提供的结果是该航线服务的其中一个城市。在此情况下,结果可以与数据库条目进行比较。图3是示出根据本发明示例性实施例的用于在语音应用中执行自动数据库消歧的方法的流程图。
可以执行控制流逻辑(步骤S31)。CFL可以在例如需要输入时要求生成用户询问(步骤S32)。文本转语音可以用于使询问变为发声(步骤S33)。然后可以执行语音通信(步骤S34)。语音通信可以包括向用户播放发声询问,并将用户的可听响应数字化。然后可以对该数字化响应执行ASR(步骤S35)。
然后,可以确定是否期待数字化响应与来自数据库的条目匹配(步骤S36)。该确定可以根据例如CFL提供的参数做出。在以上示例中,当要求的结果是航线飞往的城市时,CFL的编程可以指示该结果将从一组数据库条目中选择。该指示可以作为参数由CFL提供。如果不期待响应与数据库条目匹配(否,步骤S36),则可以使用该响应,并且可以继续控制流逻辑的执行(步骤S31)。然而,如果确定结果将从一组数据库条目中选择(是,步骤S36),则可以自动调用数据库消歧模块以查阅数据库条目并产生明确的询问结果(步骤S37)。此后,可以使用该响应,并且可以继续控制流逻辑的执行(步骤S31)。
如上面讨论的,通过自动调用确认/消歧模块,本发明的示例性实施例消除了对于将这些特征硬解码到CFL中的需要。图4和5提供了示出根据本发明的示例性实施例的确认/消歧模块的逻辑的流程图。该过程可以在检测到消歧请求时开始(步骤S41)。消歧请求可以由语音应用CFL自动生成。消歧请求的示例可以包括一组N-最优候选,其中N是至少为2的整数。N-最优候选可以具有相似的置信度值,并且由于该原因消歧会是合乎期望的。可替换地,消歧可以由CFL标记启动,在这种情况下语音应用的开发者预期将会有些模糊的一组答案。接下来,可以收集关于候选结果组的数据(步骤S42)。候选结果组可以是用户在做出选择时可能已经说过的一组词或短语。这些词可以是相似的发音或者甚至相同的发音,因此会需要消歧。可以检查候选的数据结构以获得消歧属性和/或属性组合(步骤S43)。本文使用的属性是用于例如描述每个数据库条目的数据的类别。消歧属性是可以用于将候选彼此辨别开的数据的那些类别。例如,在一组候选是人名、并且每个人具有相关联的数据库条目的情况下,当人的名和姓听起来至少相似时,消歧可以使用除了名和姓以外的其它属性(诸如“位置”或“出生日期”)。在候选具有至少略微不同的发音的情况下,属性可以是语音的,诸如“名”。然而,属性也可以与候选的其它特性(诸如关于其定义的那些特性)相关。类似地,属性的组合可以用在特定组合会具有特别重要性的情况中。因此,检查可以包括确定可以用于消歧的属性/组合。
每个属性/组合可以具有指示该属性/组合辨别候选的能力的划分系数。例如,划分系数越大,属性/组合更擅于辨别更多候选。
此后,可以通过划分系数对属性/组合进行排序(步骤S44)。划分系数可以是表示每个属性/组合的划分能力的值。该值可以在0.0(意味着该属性仅具有有限的辨别能力)到1.0(意味着该属性能够有效辨别所有候选)之间归一化。
该排序可以包括检查候选结果组(步骤S45)。此后,对于排序在首位的属性,可以收集一组标识符,以供用户接口使用(步骤S46)。排序在首位的属性可以是具有最大划分能力的属性或属性组合。标识符是针对每个属性与每个候选相关联的那些数据点。例如,如果属性是“名”,则一个候选的标识符可以是“约翰”,而针对同一个属性的另一个候选的标识符可以是“贝蒂”。对应地,在本步骤中,可以对于每个候选收集属于每个排序在首位的属性值的实际数据。
然后,可以基于每个属性的各种标识符的音素和其它分割(separation)来分析排在首位的属性(步骤S51)。本步骤可以用于部分地基于相关联的标识符可以被发音的程度来确定哪些属性可以最适合于消歧。可以查阅语言和/或音素数据库(步骤S52),以提供对排在首位的属性的各种标识符可以被发音的方式的洞察。
此后,可以基于标识符的发音的区别度来执行属性的进一步排序(步骤S53)。该区别度可以被表示为例如标识符不和谐系数。这也可以是0.0(其中标识符可以被基本相同地发音)和1.0(其中每个标识符可以具有基本不同的发音)之间的归一化值。进一步排序的目的可以是最小化最小对立对(音素分割)的数量,以及增加完全消歧的几率。该进一步排序可以参考所分析的划分属性(步骤S54)。所分析的划分属性可以是步骤S51的分析的结果。
此后,可以基于主消歧属性生成消歧用户接口,然后用户可以使用所生成的用户接口被询问(步骤S55)。生成消歧用户接口可以包括:确定参考了排序在首位的属性的用于向用户提供询问的最佳句法。消歧用户接口可以依赖于诸如标识符的类型和数量之类的因素。适合的用于生成消歧用户接口的技术可以包括枚举、大列表分割(large list segmentation)、以及其它形式的语法生成。主消歧属性可以作为消歧标准由CFL选择。在生成消歧用户接口时,可以查阅各种用户接口文档(步骤S56)。可以根据什么最适合于被开发的给定语音应用,来选择这些接口文档。适合的接口文档的示例可以包括用于支持主要可视界面的HTML5文档、用于支持语音浏览器的VoiceXML文档等。
此后,可以确定消歧是否完成(步骤S57)。消歧的完成可以被定义为除了一个候选以外排除所有候选。如果消歧完成(是,步骤S57),则消歧过程可以结束,并且最终结果可以被提供回给CFL。另一方面,如果候选的范围已经被缩窄,但还没有被缩窄为一个候选(否,步骤S57),则消歧的结果(其可以是更少的一组候选)可以被用于(步骤S58)进一步消歧(步骤S42)。
图6示出可以实现本公开的方法和系统的计算机系统的示例。本公开的系统和方法可以以运行在例如主机、个人计算机(PC)、手持计算机、服务器等的计算机系统上的软件应用的形式实现。软件应用可以存储在可由计算机系统在本地访问、并且可经由去往例如局域网或互联网的网络的硬线或无线连接被访问的记录媒质上。
一般地被称为系统1000的计算机系统可以包括:例如,中央处理单元(CPU)1001,随机存取存储器(RAM)1004,打印机接口1010,显示单元1011,局域网(LAN)数据传输控制器1005,LAN接口1006,网络控制器1003,内部总线1002,以及一个或多个输入设备1009(例如键盘、鼠标等)。如图所示,系统1000可以经由链路1007被连接到数据存储设备1008(例如硬盘)。
本文描述的示例性实施例是示例性的,并且可以引入许多变化,而不脱离本公开的精神或所附权利要求的范围。例如,在本公开和所附权利要求的范围内,不同示例性实施例的要素和/或特征可以彼此结合和/或彼此替换。

Claims (21)

1.一种用于提供语音应用的方法,包括:
经由语音浏览器执行对与用户的对话流建模的控制流逻辑,所述控制流逻辑产生消歧/确认要求;
响应于所述消歧/确认要求,启动消歧/确认模块;
将一组至少两个候选和划分标准从所述控制流逻辑发送给所述消歧/确认模块;
基于所述划分标准分析所述一组候选的属性以确定每个属性的划分分数,其指示该属性辨别所述至少两个候选的能力;
基于所述属性的对应划分分数对所述属性进行排序;
基于排序在首位的属性询问所述用户,并使用询问的结果以至少减少所述一组候选;
重复分析、排序和询问的步骤,直到所述一组候选被减少为单个候选为止;以及
将所述单个候选从所述消歧/确认模块返回给所述控制流逻辑,用于继续执行。
2.如权利要求1所述的方法,其中所述控制流逻辑包括业务流程建模BPM。
3.如权利要求1所述的方法,其中当所述一组候选中的排在首位的候选的确定度低于第一预定阈值、或者所述排在首位的候选和所述一组候选中的另一个候选的确定度之间的差值低于第二预定阈值时,由所述控制流逻辑生成所述消歧/确认要求。
4.如权利要求1所述的方法,其中对属性进行分析和排序的步骤包括:收集所述一组候选中的每个候选的属于每个属性的标识符,以及根据语言或音素特性对所述属性进行排序。
5.如权利要求4所述的方法,其中访问语言或音素数据库以提供所述语言或音素特性。
6.如权利要求1所述的方法,其中询问所述用户包括:
参考一个或多个用户接口文档基于所述排序在首位的属性生成消歧用户接口;
经由文本转语音模块向所述用户提供所生成的消歧用户接口;
经由自动语音识别模块获得用户响应;以及
基于所获得的用户响应减少所述一组候选。
7.如权利要求1所述的方法,其中所述划分分数是具有0.0和1.0之间的值的系数。
8.一种用于提供语音应用的方法,包括:
经由语音浏览器执行对与用户的对话流建模的控制流逻辑,所述控制流逻辑产生消歧/确认要求;
响应于所述消歧/确认要求,启动消歧/确认模块;
将候选和选择标准从所述控制流逻辑发送给所述消歧/确认模块;
基于所述选择标准分析所述候选的属性以确定每个属性的确认分数,其指示该属性确认所述候选的正确性的能力;
基于所述属性的对应划分分数对所述属性进行排序;
基于排序在首位的属性询问所述用户,并使用询问的结果以修改所述候选的正确性的确定性度量;以及
将所述候选的正确性的确定性度量返回给所述控制流逻辑,用于继续执行。
9.如权利要求8所述的方法,其中重复分析、排序和询问的步骤,直到所述确定性度量高于第一预定阈值或低于第二预定阈值为止。
10.如权利要求9所述的方法,其中当所述候选被修改为低于第二预定确定性程度时,从所述控制流逻辑接收另外的候选,并对所述另外的候选执行消歧。
11.如权利要求8所述的方法,其中所述控制流逻辑包括业务流程建模BPM。
12.如权利要求8所述的方法,其中当所述候选的确定性度量低于预定阈值时,由所述控制流逻辑生成所述消歧/确认要求。
13.如权利要求8所述的方法,其中对属性进行分析和排序的步骤包括:收集所述候选的属于每个属性的标识符,以及根据语言或音素特性对所述属性进行排序。
14.如权利要求13所述的方法,其中访问语言或音素数据库以提供所述语言或音素特性。
15.如权利要求8所述的方法,其中询问所述用户包括:
参考一个或多个用户接口文档基于所述排序在首位的属性生成确认用户接口;
经由文本转语音模块向所述用户提供所生成的确认用户接口;
经由自动语音识别模块获得用户响应;以及
基于所获得的用户响应修改所述确定性度量。
16.一种用于提供语音应用的方法,包括:
经由语音浏览器执行对与用户的对话流建模的控制流逻辑,所述控制流逻辑产生消歧/确认要求;
响应于所述消歧/确认要求,启动数据库消歧模块;
将一组至少两个候选和划分标准从所述控制流逻辑发送给所述数据库消歧模块;
从数据库对所述一组候选中的每个候选检索一组属性;
基于所述划分标准分析所述一组候选中的每个候选的属性以确定每个属性的划分分数,其指示该属性辨别所述至少两个候选的能力;
基于所述属性的对应划分分数对所述属性进行排序;
基于排序在首位的属性询问所述用户,并使用询问的结果以至少减少所述一组候选;
重复分析、排序和询问的步骤,直到所述一组候选被减少为单个候选为止;以及
将所述单个候选从所述数据库消歧模块返回给所述控制流逻辑,用于继续执行。
17.如权利要求16所述的方法,其中所述控制流逻辑包括业务流程建模BPM。
18.如权利要求16所述的方法,其中当所述一组候选中的排在首位的候选的确定度低于第一预定阈值、或者所述排在首位的候选和所述一组候选中的另一个候选的确定度之间的差值低于第二预定阈值时,由所述控制流逻辑生成所述消歧/确认要求。
19.如权利要求16所述的方法,其中对属性进行分析和排序的步骤包括:收集所述一组候选中的每个候选的属于每个属性的标识符,以及根据语言或音素特性对所述属性进行排序。
20.如权利要求16所述的方法,其中询问所述用户包括:
参考一个或多个用户接口文档基于所述排序在首位的属性生成消歧用户接口;
经由文本转语音模块向所述用户提供所生成的消歧用户接口;
经由自动语音识别模块获得用户响应;以及
基于所获得的用户响应减少所述一组候选。
21.一种用于提供语音应用的系统,所述系统包括配置成执行权利要求1至20中任一项所述的方法步骤的装置。
CN201410331849.7A 2013-07-15 2014-07-14 语音应用中用于自动确认和消歧模块的方法和系统 Expired - Fee Related CN104299623B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US13/942,307 US9298811B2 (en) 2013-07-15 2013-07-15 Automated confirmation and disambiguation modules in voice applications
US13/942,307 2013-07-15

Publications (2)

Publication Number Publication Date
CN104299623A true CN104299623A (zh) 2015-01-21
CN104299623B CN104299623B (zh) 2017-09-29

Family

ID=52277807

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410331849.7A Expired - Fee Related CN104299623B (zh) 2013-07-15 2014-07-14 语音应用中用于自动确认和消歧模块的方法和系统

Country Status (2)

Country Link
US (1) US9298811B2 (zh)
CN (1) CN104299623B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106463114A (zh) * 2015-03-31 2017-02-22 索尼公司 信息处理设备、控制方法及程序
CN107402933A (zh) * 2016-05-20 2017-11-28 富士通株式会社 实体多音字消歧方法和实体多音字消歧设备
CN108962233A (zh) * 2018-07-26 2018-12-07 苏州思必驰信息科技有限公司 用于语音对话平台的语音对话处理方法及系统

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9298811B2 (en) * 2013-07-15 2016-03-29 International Business Machines Corporation Automated confirmation and disambiguation modules in voice applications
US9507849B2 (en) * 2013-11-28 2016-11-29 Soundhound, Inc. Method for combining a query and a communication command in a natural language computer system
US10540347B2 (en) * 2014-10-27 2020-01-21 Nuance Communications, Inc. Contextual search disambiguation
US10083002B2 (en) * 2014-12-18 2018-09-25 International Business Machines Corporation Using voice-based web navigation to conserve cellular data
JP6719740B2 (ja) * 2016-05-20 2020-07-08 日本電信電話株式会社 対話方法、対話システム、対話装置、およびプログラム
GB201620714D0 (en) * 2016-12-06 2017-01-18 Microsoft Technology Licensing Llc Information retrieval system
US10013971B1 (en) * 2016-12-29 2018-07-03 Google Llc Automated speech pronunciation attribution
US11276395B1 (en) * 2017-03-10 2022-03-15 Amazon Technologies, Inc. Voice-based parameter assignment for voice-capturing devices
WO2018163647A1 (ja) * 2017-03-10 2018-09-13 日本電信電話株式会社 対話方法、対話システム、対話装置、およびプログラム
US10922360B2 (en) * 2017-08-30 2021-02-16 International Business Machines Corporation Ancillary speech generation via query answering in knowledge graphs

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040088285A1 (en) * 2002-10-31 2004-05-06 Sbc Properties, L.P. Method and system for an automated disambiguation
US20050131892A1 (en) * 2003-12-10 2005-06-16 Sbc Knowledge Ventures, L.P. Natural language web site interface
EP1557824A1 (en) * 2004-01-22 2005-07-27 AT&T Corp. System and method to disambiguate user's intention in a spoken dialog system
US20050261902A1 (en) * 2004-05-24 2005-11-24 Sbc Knowledge Ventures, L.P. Method for designing an automated speech recognition (ASR) interface for a customer call center
US20060143007A1 (en) * 2000-07-24 2006-06-29 Koh V E User interaction with voice information services
JP2008506156A (ja) * 2004-07-06 2008-02-28 ボクシィファイ, インコーポレイテッド マルチスロット対話システムおよび方法
US20090006167A1 (en) * 2007-06-28 2009-01-01 Bea Systems, Inc. System and Method for Integrating a Business Process Management System with an Enterprise Service Bus
CN102137085A (zh) * 2010-01-22 2011-07-27 谷歌公司 语音命令的多维消歧
CN102428440A (zh) * 2009-03-18 2012-04-25 罗伯特·博世有限公司 用于多模式输入的同步和消歧的系统和方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8175248B2 (en) 2007-01-29 2012-05-08 Nuance Communications, Inc. Method and an apparatus to disambiguate requests
US7822608B2 (en) * 2007-02-27 2010-10-26 Nuance Communications, Inc. Disambiguating a speech recognition grammar in a multimodal application
US8165877B2 (en) * 2007-08-03 2012-04-24 Microsoft Corporation Confidence measure generation for speech related searching
US8762153B2 (en) * 2008-08-18 2014-06-24 At&T Intellectual Property I, L.P. System and method for improving name dialer performance
US9298811B2 (en) * 2013-07-15 2016-03-29 International Business Machines Corporation Automated confirmation and disambiguation modules in voice applications

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060143007A1 (en) * 2000-07-24 2006-06-29 Koh V E User interaction with voice information services
US20040088285A1 (en) * 2002-10-31 2004-05-06 Sbc Properties, L.P. Method and system for an automated disambiguation
US20050131892A1 (en) * 2003-12-10 2005-06-16 Sbc Knowledge Ventures, L.P. Natural language web site interface
EP1557824A1 (en) * 2004-01-22 2005-07-27 AT&T Corp. System and method to disambiguate user's intention in a spoken dialog system
US20050261902A1 (en) * 2004-05-24 2005-11-24 Sbc Knowledge Ventures, L.P. Method for designing an automated speech recognition (ASR) interface for a customer call center
JP2008506156A (ja) * 2004-07-06 2008-02-28 ボクシィファイ, インコーポレイテッド マルチスロット対話システムおよび方法
US20090006167A1 (en) * 2007-06-28 2009-01-01 Bea Systems, Inc. System and Method for Integrating a Business Process Management System with an Enterprise Service Bus
CN102428440A (zh) * 2009-03-18 2012-04-25 罗伯特·博世有限公司 用于多模式输入的同步和消歧的系统和方法
CN102137085A (zh) * 2010-01-22 2011-07-27 谷歌公司 语音命令的多维消歧

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106463114A (zh) * 2015-03-31 2017-02-22 索尼公司 信息处理设备、控制方法及程序
CN106463114B (zh) * 2015-03-31 2020-10-27 索尼公司 信息处理设备、控制方法及程序存储单元
CN107402933A (zh) * 2016-05-20 2017-11-28 富士通株式会社 实体多音字消歧方法和实体多音字消歧设备
CN108962233A (zh) * 2018-07-26 2018-12-07 苏州思必驰信息科技有限公司 用于语音对话平台的语音对话处理方法及系统
CN108962233B (zh) * 2018-07-26 2020-11-17 苏州思必驰信息科技有限公司 用于语音对话平台的语音对话处理方法及系统

Also Published As

Publication number Publication date
CN104299623B (zh) 2017-09-29
US20150019228A1 (en) 2015-01-15
US9298811B2 (en) 2016-03-29

Similar Documents

Publication Publication Date Title
CN104299623A (zh) 语音应用中用于自动确认和消歧模块的方法和系统
US11776547B2 (en) System and method of video capture and search optimization for creating an acoustic voiceprint
US10319381B2 (en) Iteratively updating parameters for dialog states
US8515736B1 (en) Training call routing applications by reusing semantically-labeled data collected for prior applications
US10032454B2 (en) Speaker and call characteristic sensitive open voice search
US6839667B2 (en) Method of speech recognition by presenting N-best word candidates
US11450311B2 (en) System and methods for accent and dialect modification
US7103542B2 (en) Automatically improving a voice recognition system
US9305553B2 (en) Speech recognition accuracy improvement through speaker categories
KR100563365B1 (ko) 계층적 언어 모델
US6526380B1 (en) Speech recognition system having parallel large vocabulary recognition engines
US10839788B2 (en) Systems and methods for selecting accent and dialect based on context
WO2020228173A1 (zh) 违规话术检测方法、装置、设备及计算机可读存储介质
KR20210158344A (ko) 디지털 어시스턴트를 위한 머신 러닝 시스템
US7292976B1 (en) Active learning process for spoken dialog systems
KR102097710B1 (ko) 대화 분리 장치 및 이에서의 대화 분리 방법
CN104903954A (zh) 使用基于人工神经网络的亚语音单位区分的说话人验证及识别
US20110307252A1 (en) Using Utterance Classification in Telephony and Speech Recognition Applications
US10224030B1 (en) Dynamic gazetteers for personalized entity recognition
CN111460111A (zh) 评估自动对话服务的重新训练推荐
CN109313892A (zh) 稳健的语言识别方法和系统
CN104969288A (zh) 基于话音记录日志提供话音识别系统的方法和系统
CN110164416B (zh) 一种语音识别方法及其装置、设备和存储介质
KR101801250B1 (ko) 음악에 적합한 테마를 자동으로 태깅하는 방법 및 시스템
JP6114210B2 (ja) 音声認識装置、特徴量変換行列生成装置、音声認識方法、特徴量変換行列生成方法及びプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170929