CN102137085A - 语音命令的多维消歧 - Google Patents

语音命令的多维消歧 Download PDF

Info

Publication number
CN102137085A
CN102137085A CN2010102791432A CN201010279143A CN102137085A CN 102137085 A CN102137085 A CN 102137085A CN 2010102791432 A CN2010102791432 A CN 2010102791432A CN 201010279143 A CN201010279143 A CN 201010279143A CN 102137085 A CN102137085 A CN 102137085A
Authority
CN
China
Prior art keywords
action
user
candidate
word
client device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2010102791432A
Other languages
English (en)
Other versions
CN102137085B (zh
Inventor
迈克尔·J·勒博
威廉·J·伯恩
约翰·尼古拉斯·吉特科夫
亚历山大·H·格伦斯坦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of CN102137085A publication Critical patent/CN102137085A/zh
Application granted granted Critical
Publication of CN102137085B publication Critical patent/CN102137085B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/14Digital output to display device ; Cooperation and interconnection of the display device with other functional units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics

Abstract

本发明涉及语音命令的多维消歧。用于处理语音命令的方法、系统和装置,包括编码在计算机存储介质上的计算机程序。在一个方面,一种方法包括:在服务器接收音频信号;通过所述服务器对所述音频信号执行语音识别,以识别匹配所述音频信号的一个或多个部分的一个或多个候选词语;对于每一个候选词语识别一个或多个可能的意欲动作;提供信息用于在客户端设备上显示,所述信息指定所述候选词语和用于每一个候选词语的动作;从所述客户端设备接收由用户选择的动作的指示,其中从在所述提供的信息中包括的所述动作中选择这个动作;以及,调用由所述用户选择的这个动作。

Description

语音命令的多维消歧
技术领域
本说明书涉及搜索引擎。
背景技术
随着在因特网上可获得的信息量已经显著地扩大,用户明确地表达用于定位特定的相关信息的有效搜索查询越来越困难。近些年来,在搜索引擎提供商之间的竞争已经引起在搜索引擎算法的演进以及用于显示搜索结果的用户界面的爆炸性的加速。
可以使用各种机制来向搜索引擎提供查询。例如,用户可以使用在计算设备上的键盘向搜索框中明确地键入查询,并且可以然后提交该查询。查询也可以是隐含的,诸如通过用户在他们的计算设备上显示的地图上移景(panning),并且通过查询被发送来显示在地图的该区域中的企业的注释信息。另外,用户可以通过说出查询来输入它们,特别是当使用键盘可能很小或免提操作可能很重要的移动设备(例如,智能电话或应用手机)时。
发明内容
语音命令的正确解释一般要求它们在至少二维中消歧。在本说明书称作“识别质量”的维度的第一维中的消岐包括:将在语音命令中包括的声音与说话者可能已经说出的术语匹配。在一个示例中,在识别质量维度中的消岐可以试图确定:当说话者发出具有声音“kα□bil”(使用国际音标(IPA)注音符号)的语音命令时,他们是否意欲说出类似发音的词语“call bil”、“call Phil”、“cobble”、“cable”、“kill bill”、“call bull”或“Kabul”。本说明书将作为对语音命令执行语音识别过程的结果输出的一个或多个词称作“候选词语”。
在本说明书称作“说话者意图”维度的第二维中的消岐涉及确定当说话者说出构成语音命令的词语时说话者可能意在进行什么动作。例如,如果假定说话者已经在语音命令期间说出了词语“call bill”,则在说话者意图维度中的消岐可以试图确定说话者是否可能意欲“call(呼叫)”名为“Bill”的第一联系人或名为“Bill”的第二联系人,说话者是否可能意欲“call(呼叫)”在家中或工作中的名为“Bill”的联系人或说话者是否可能指令应当发出“call”以从服务提供者请求“bill(账单)”(或“invoice(单据)”)。本说明书将当说话者说出构成语音命令的词语时说话者可能意欲进行的动作称作“可能的意欲动作”。
因此,在这两个维度中的语音命令的消岐可能导致一个候选词语,该候选词语具有多于一个的相关联的动作,诸如单个词语“call bill”可以与呼叫名为“Bill”的两个联系人之一的可能意欲动作相关联的情况。另外,语音命令的消岐可能导致两个或更多的候选词语,每一个具有一个或多个相关联的动作,诸如同一语音命令匹配到词语“callbill”以呼叫名为“Bill”的联系人并且匹配到词语“Kabul”以购买到Kabul(喀布尔)市的飞机票的情况。在任何一种情况下,根据在本说明书中描述的主题的一个创新方面,如果不能自动地解决在不同的候选词语和动作之间的歧义,则可以向用户提供多维消岐的结果以用于选择。
一般地,在本说明书中描述的主题的另一个创新方面可以被体现在下述方法中,该方法包括动作:在服务器接收音频信号;由所述服务器对所述音频信号执行语音识别,以识别与所述音频信号的一个或多个部分匹配的一个或多个候选词语;对于每一个候选词语识别一个或多个可能的意欲动作;提供信息以在客户端设备上显示,所述信息指定所述候选词语和用于每一个候选词语的动作;从所述客户端设备接收由用户选择的动作的指示,其中,所述动作是从在所提供的信息中包括的动作中选择的;以及,调用由所述用户选择的所述动作。该方面的其他实施例包括被配置为执行编码在计算机存储设备上的方法的动作的对应系统、装置和计算机程序。
这些和其他实施例每一个可以可选地包括下面特征中的一个或多个。例如,服务器可以是搜索引擎。可以从客户端设备接收索引,其中,执行语音识别进一步包括:识别索引中的与音频信号匹配的候选词语。所述索引可以是由所述客户端设备存储的联系人的索引。
在其他示例中,当候选词语是人的姓名时,与候选词语相关联的动作中的一个或多个可以启动与该人的呼叫、电子邮件或即时消息会话。当候选词语包括兴趣点(POI)时,与候选词语相关联的动作中的一个或多个可以获得所述POI的地图、到所述POI的路线指引(direction)、关于所述POI的详细信息或到所述POI的距离。当候选词语识别媒体内容时,与该候选词语相关联的动作中的一个或多个可以播放所述媒体内容,启动对于所述媒体内容的下载或获得关于所述媒体内容的详细信息。与候选词语相关联的动作中的一个或多个可以使用候选词语作为查询词语来启动web搜索查询。可以对于每一个动作确定歧义值,其中,可以递增与用户选择的动作相关联的歧义值。
在其他示例中,所述动作也可以包括:确定特定动作的所述歧义值满足阈值;基于确定所述歧义值满足所述阈值而自动地调用所述特定动作;确定用户已经取消了所述特定动作;以及基于确定所述用户已经取消了所述特定动作而递减所述特定动作的所述歧义值,其中,基于确定所述用户已经取消了所述特定动作而提供所述信息。
在其他示例中,可以对每一个候选词语确定语音识别置信量度,其中,可以基于对于与动作相关联的候选词语确定的语音识别置信量度来确定每一个动作的歧义值。可以基于动作各自的歧义值来产生动作的排名,其中,提供所述信息可以进一步包括提供所述排名。用于识别特定动作的所述信息可以是图标。调用所述用户选择的应用可以进一步包括:向所述客户端设备提供用于识别由所述客户端设备存储的应用的信息。
一般地,在本说明书中描述的主题的另一个创新方面可以被体现在下述方法中,所述方法包括如下动作:通过客户端设备向服务器提供音频信号;获得指定与所述音频信号的一个或多个部分匹配的一个或多个候选词语和用于每一个候选词语的一个或多个可能意欲的动作的信息;接收对动作的用户选择;向所述服务器提供所述用户选择的动作的指示;以及调用由所述用户选择的所述动作。该方面的其他实施例包括被配置为执行编码在计算机存储设备上的方法的动作的对应系统、装置和计算机程序。
在下面的附图和说明书中阐述了在本说明书中描述的主题的一个或多个实施例的细节。通过说明书、附图和权利要求,所述主题的其他潜在特征、方面和优点将变得显而易见。
附图说明
图1是解释响应于语音命令对动作的调用的概念图。
图2和7图示了示例性系统。
图3和4是示例性过程的流程图。
图5A-5B和6A-6B图示了示例性用户界面。
在全部附图中,相似的附图标记表示对应的部分。
具体实施方式
图1是用于执行语音命令的多维消岐的示例性框架的概念图。更具体地,该图描述了客户端设备104(例如,蜂窝电话、PDA或个人计算机)和服务器116,它们一起构成信息搜索系统100,并且该图也描述了在客户端设备104和服务器116之间的数据流以及在各种状态中的客户端设备104的用户界面(被标注为分别在时间顺序的状态(a)、(h)、(1)和“n”中的用户界面102、130、136、150)。服务器116可以是搜索引擎或由搜索引擎用来执行语音识别的服务器。
如状态(a)中所示,在客户端设备104上显示的用户界面102包括控件106,控件106作为用于接收查询词语的搜索框和用于接收命令的命令提示符。当控件106实现搜索功能时,客户端设备104的用户可以通过向控件中输入查询词语的一部分或一个或多个完整的查询词语来启动对于在公用或专用网络上存储的信息的搜索。
当控件106实现命令功能时,客户端设备的用户可以发出任何适当的命令,例如用于指令客户端设备104呼叫在用户的联系人列表中的联系人的命令、用于指示客户端设备104编写和向在它们的联系人列表中的联系人发送电子通信(例如,电子邮件、即时消息、文本消息)的命令、用于指令客户端设备104播放各种类型的媒体内容(例如,音频、视频)、下载各种类型的媒体内容(例如,音频、视频)或与各种类型的媒体内容(例如,音频、视频)交互的命令或用于指示客户端设备执行任何其他类型的功能的命令。控件106因此提供简化的、直观的和强大的用户界面,用于允许用户通过单个多功能命令框或提示符输入或说出多种类型的命令,并且请求多种类型的功能。
不不同于在用户界面的不同部分上或在不同的用户界面上提供不同的功能的客户端设备,客户端设备104可以使用控件106来实现搜索功能和命令功能,而不要求用户首先输入导航功能,以便调用特定的期望功能。在客户端设备是移动设备的情况下,这样的方法允许用户界面102最佳地利用小屏幕大小、有限的处理能力和可能在客户端设备104上存在的完整键盘的缺少。
在图1中所示的示例框架中,通过语音命令向控件106输入词语。在一些示例中,在说出语音命令之前,用户可以选择用户界面控件来激活语音控制,以允许语音命令用于向控件106内输入词语。控件106可以是用户界面102的永久或半永久特征,例如,在用户界面102上保持的浏览器工具条上的搜索框,只要浏览器在执行,或者,用户可以例如通过输入与控件106相关联的统一资源定位符(URL)来导航到控件106。
如状态(b)中图示,使用键盘或其他输入机制来向控件106输入词语。当激活语音控件时,用户108可以向麦克风112说出声音110。用户108可以例如在说话之前按下麦克风112上的按钮,说出语音命令,然后释放麦克风上的按钮,以启动消岐过程。又如,麦克风112可以被嵌入客户端设备104内或否则安装在客户端设备104上,并且用户108可以在说话之前选择用户界面控件(例如,麦克风的图标)。又如,麦克风112可以在用户108说话之前是“打开”的,或可以处于“总是打开”的状态(例如,用户108可以仅说话而不用“打开”麦克风112)。
声音110可以包括一个或多个音素,其中,音素是用于形成在发音之间的有意义的对比的声音的最小单位。例如,声音110包括音素“ka:”和“bil”。举几个例子,声音110可以表示短语“call Bill”、“kill Bill”、“cobble”或“Kabul”中的一个。
如在状态(c)中所示,与声音110对应的音频信号114被从客户端设备104提供到服务器116。例如,客户端设备104可以通过记录声音110来建立声音文件或数据流,并且可以通过诸如因特网的网络来发送声音文件。服务器116可以是一个或多个服务器计算设备。向服务器116发送音频信号并且使得服务器116执行语音识别、命令消岐和与命令执行相关的一些或全部处理可以允许对于客户端设备104的低处理要求。然而,在其他示例实施方式中,语音识别可以发生在客户端设备104,并且,向服务器116发送语音识别的结果而不是音频信号。
如在状态(d)中所示,服务器116对接收的音频信号执行语音识别过程,以识别与音频信号匹配的一个或多个候选词语118a-d。词语可以包括一个或多个词。例如,对接收的包括声音110的记录的声音文件执行的语音识别可以识别候选词语“call Bill”118a、“kill Bill”118b、“Kabul”118c和“cable”118d,如在表格120的最左列中所示。
可以通过选择具有在识别阈值之上的对应语音识别置信量度的候选词语来执行候选词语118a-d的识别。例如,语音识别过程可以识别由服务器116的语音识别模块返回的候选词语匹配记录的声音或匹配用户108所说的内容的概率。该置信量度反应了概率;分值越高,则候选词语越可能匹配记录的声音。
可以识别诸如5%的置信度的阈值。可以对于在说话者意图维度中的消岐选择满足阈值(例如,大于或等于5%)的候选词语,并且,可以忽略或从识别的候选词语118的列表排除具有不满足该阈值的置信度的候选词语。对于5%的阈值,与候选词语118a-d分别对应的50%122a、30%122b、15%122c和5%122d的置信量度值每一个满足阈值。
又如,可以识别具有N个最高语音识别置信量度的N个候选词语,其中,N是正整数(例如,5)。N的选择可以例如基于用户界面102的大小的估计,或基于典型移动设备的显示器的大小的估计(例如,如下所述,可以在用户界面上呈现候选词语,并且,N的选择可以基于多少候选词语可以垂直地适配在特定或典型的用户界面显示中)。又如,可以选择置信量度122a-d,使得置信量度值122a-d的和等于100%或60%。对于由用户108或一般而言由用户历史选择的候选词语,可以调整(例如,提高)置信量度值。提高量可以基于历史选择的数量或频率。
可以至少部分地基于在从客户端设备接收的数据的索引或数据库中的候选词语的包含来识别该候选词语。例如,服务器116可以从客户端设备104定期地接收联系人的索引。语音识别可以包括:识别在索引中包括并且与接收的音频信号匹配的候选词语。例如,由于在从客户端设备104接收的联系人索引中包括姓名“Bill”,所以可以部分地识别候选词语“call Bill”118a。如果在客户端提供的索引中未包括“Bill”,则可能不能识别候选词语“call Bill”118a,可以以较低的置信量度识别候选词语“call Bill”118a,或可以将姓名“Bill”仅识别为与“invoice”同义的词。客户端提供的索引也可以包括其他信息,诸如与客户端设备能够执行的应用程序相关的信息、用户界面尺寸、在客户端设备上可用的媒体内容等。
如在状态(e)中和在表123中所示,服务器116识别与每一个识别的候选词语118a-d相关联的一个或多个动作124a-e。例如,可以对于“call Bill”候选词语118a识别“call Bill at home(呼叫家中的Bill)”124a、“call Bill at work(呼叫工作中的Bill)”124b和“perform a web search for‘Call Bill’(执行对于“Call Bill”的web搜索)”124c动作。其他示例包括:识别与“kill Bill”候选词语118b相关联的“download‘Kill Bill’movie(下载“kill Bill”电影)”动作124d、识别与“Kabul”候选词语118c相关联的“get directions to Kabul(获得到喀布尔的路线指引)”动作124e和识别与“cable”候选词语118d相关联的“pay cable bill(支付有线电视账单)”动作124f。动作的其他示例包括:基于人的姓名来启动与人的电子邮件或即时消息会话;基于媒体内容的题目来播放媒体内容或获得关于媒体内容的详细信息;以及基于POI的名称来获得POI的地图、POI的详细信息或到POI的距离。
当候选词语本身不识别动作或命令时,可以使用词语/动作映射器或其他规则引擎来确定适当的动作。例如,可以对于包括名称的候选词语选择“启动联系人”动作,可以对于识别媒体内容的候选词语选择“下载”动作,可以对于识别与用户108有关系的企业的候选词语选择“支付”动作,以及可以对于识别POI的候选词语选择“地图”动作。
如在状态(f)中所示,可以对于每一个动作确定歧义值,其中,歧义值表示用户意欲进行该动作的可能性。例如,可以对于动作124a-f分别确定30128a、10128b、10128c、10128d、0128e和10128f的歧义值。高歧义值可以表示用户意欲进行相关联的动作的概率的高置信度。例如,30的歧义值128a可以表示相关联的动作124a具有比具有较低的歧义值(例如,10)的动作124b更高的是用户意欲进行的动作的概率。在一些实施方式中,高歧义值可以指示相关联的动作是高度模糊的(例如,不可能已经被意欲进行)。
例如,在一些实施方式中,基于大于10的歧义值128b的30的歧义值128a,动作124a可以被认为比动作124b更不太可能已经被意欲进行。高歧义值可以与服务器116的用户或其他用户过去已经选择的动作相关联。低歧义值可以与服务器116的用户或其他用户过去从未选择或仅很少选择的动作相关联。如下更全面所述,低歧义值也可以与用户过去取消的动作相关联。
歧义值可以与语音识别置信量度相关。例如,高的语音识别置信量度可以导致相关联的动作的高的歧义值(例如,意欲的高可能性),并且反之亦然。如下更详细所述,随着时间的推移,可以递增与用户选择的动作相关联的歧义值,并且,可以递减与用户取消的动作相关联的歧义值。如果用户之前未选择动作或如果以前对于用户未识别对应的候选词语,则该动作的初始歧义值可以是0。
可以识别总共M个动作,其中,M是正整数(例如,7)。M的选择可以例如基于用户界面102的大小的估计,或基于典型的移动设备的显示器的大小的估计(例如,如下所述,可以在用户界面上呈现候选词语/动作对,并且,M的选择可以基于多少候选词语/动作对可以垂直地适配在特定或典型的用户界面显示中)。又如,可以在识别的动作124a-e中包括具有在阈值(例如,10)之上的对应歧义值的动作,并且可以从识别的动作124a-e排除具有在阈值之下的对应歧义值的动作。又如,可以在识别的动作中包括每一个类型的最大数量的动作。例如,在一些示例中,可以包括“呼叫联系人”类型的最多三个动作,即使可以基于识别的候选词语来识别超过三个“呼叫联系人”动作。
可以对于候选词语识别一个或多个默认动作,而与是否已经对于候选词语识别了其他类型的动作无关。例如,每一个候选词语可以具有相关联的“web搜索”动作。可以对于候选词语识别的其他默认动作可以包括:在在线词典或在线百科全书中查找候选词语。对于一些音频信号,可以识别仅一个动作。
例如,对于一些音频信号,可以识别仅一个候选词语,并且可以对于候选词语识别仅一个默认动作(例如,web搜索)。对于一些音频信号,语音识别过程可能不能识别具有可接受的置信量度的任何适当候选词语,并且在一些实施方式中,服务器116可能不能识别与不可识别的音频信号相关联的任何动作。在其他实施方式中,服务器116可以识别可以触发客户端设备104请用户重复它们的命令的未识别的音频信号的动作。
如果一组歧义值指示很可能用户意欲进行特定的动作,则可以使用“隐含”的调用过程来自动地调用那个动作。可以从绝对或相对形式的、用于指示用户的意图很模糊的高歧义值建立这样的高概率。如果动作具有大于阈值(例如,30)的歧义值,则可以隐含地调用动作。又如,如果最高歧义值是第二最高歧义值的至少三倍,则可以隐含地调用具有最高歧义值的动作。作为第三示例,如果最高歧义值是第二最高歧义值的至少四倍并且也大于阈值(例如,20),则可以隐含地调用具有最高歧义值的动作。换句话说,在一些实施方式中,在诸如最高歧义值是4并且每一个其他的歧义值是1或更少的示例中,即使最高歧义值比每一个其他的歧义值大至少4倍,也可以不隐含地调用具有最高歧义值的动作,因为最高歧义值不超过阈值。
状态(g)图示了特定的“call Bill at home”动作124a的隐含调用。例如,由于在阈值之上的相关联的歧义值124c(例如,30的歧义值可以超过诸如20的阈值),可以隐含地调用动作124a。服务器116可以向客户端设备104发送指示要调用的动作的类型(例如,拨打联系人)和相关联的候选词语(例如,诸如“Bill”的联系人的姓名)的元数据。在一些示例中,服务器116也可以发送其他信息,诸如联系人的电话号码。换句话说,为了减少用户108的等待时间,服务器可以向客户端设备104发送要拨打的号码,使得客户端设备104不必查找联系人的号码。如上所述,与联系人相关联的电话号码可以被包括在从客户端设备104向服务器116定期地发送的索引中。
从服务器116接收的信息可以触发客户端设备104调用动作124a。在一些示例中,客户端设备104可以立即调用动作124a(例如,可以在从服务器116接收到信息时立即拨打Bill的电话号码)。在其他示例中,可以在调用动作124a之前,在用户界面102上显示窗口130。窗口130可以实现“倒计时定时器”,其中,向用户108呈现倒计时消息,用于指示当倒计时定时器达到0时将执行动作124a。如果用户意欲呼叫Bill,则用户108可以使得倒计时定时器达到0,并且,在那个点,可以调用对于Bill的呼叫。
倒计时定时器倒计时的时间量可以基于相关联的动作的歧义值。例如,如果歧义值128a指示用户108意欲进行动作124a的概率高(例如,75%),则可以根本不使用倒计时定时器。如果歧义值128a指示用户108意欲进行动作124a的概率是中等的(例如,50%),则倒计时定时器可以在小数量的秒数(例如,2)时启动,并且,如果歧义值128a指示低概率(例如,20%),则倒计时定时器可以在较高的秒数(例如,4)开始。在一些实施方式中,服务器116确定倒计时定时器开始值,并且向客户端设备104发送该值。
可以在窗口130中包括取消控件132,以允许用户108在调用动作124a之前取消动作124a(或者,对于诸如电话号码的拨打的一些动作,一旦其在进行中则取消该动作)。如在状态(n)中所示,用户108不意欲呼叫Bill,选择取消控件132来取消动作124a的调用。响应于对取消控件132的选择,可以从客户端设备104向服务器116发送中断信号(如状态(i)所示)。
响应于接收到中断信号,服务器116可以递减动作124a的歧义值,以考虑动作124a不是用户108意欲进行的动作的事实。例如,状态(j)图示了相关联的歧义值128a减少值5。递减用户手动取消的动作的歧义值将减少如果在未来的语音命令中说出类似的声音模式则自动调用所取消的动作的机会。
也响应于接收到中断信号,服务器116可以向客户端设备104发送候选词语/动作对的列表134,使得用户108可以挑选实际上意欲进行的动作。如果歧义值128a-d都不在阈值之上,则列表134也可以被发送到客户端设备104,或具有隐含地调用动作的元数据(例如,在状态(g)中)。换句话说,如果歧义值128a-d都不高得足以引起相关联的动作的隐含调用,则列表134可以被发送到客户端设备104。在一些实施方式中,列表134是基于其各自的歧义值的动作124a-c的排名。在其他实施方式中,列表134在被服务器116发送时未被排名(例如,未排序),并且在这样的示例中,列表134可以随后被客户端设备104排名。可以以替代列表116的另一种数据结构来封装词语/动作对,该数据结构包括表、数据库或XML文件。
在接收到列表134后,客户端设备104可以在用户界面102上显示窗口136。在一些实施方式中,服务器116产生用于显示窗口136的代码(例如,HTML(超文本标记语言)代码),并且将该代码与列表134相结合地发送。窗口136包括列表138,列表138显示分别与动作124a-f对应的列表项目140a-f。在一些实施方式中,如果用户108取消隐含动作的调用(例如,用户108可以通过选择取消控件132来取消动作124a的隐含调用)。则列表138可以不包括用于所取消的动作的对应列表项目。例如,如果用户已经取消了动作124a的隐含调用(例如,在状态(h)中),则列表138可以不包括列表项目140a。
每一个列表项目140a-f包括对应的图标142a-f。图标142a-f指示与各列表项目140a-f对应的动作的类型。例如,图标142a-b指示列表项目140a-b对应于“呼叫联系人”动作。图标142c指示列表项目140c对应于“web搜索”动作。图标142d指示列表项目140d对应于播放电影(例如,流或购买和下载)动作。图标142e指示列表项目140e对应于地图或路线指引动作,并且图标142f指示列表项目140f对应于“支付账单”动作。
窗口136包括如果用户108意欲进行的动作未在列表138中被显示则用户108可以使用来输入或说出不同的命令或动作的搜索框144。如果用户108意义进行的动作被显示在对应的列表项目140a-d中,则用户108可以选择与意欲进行的动作对应的列表项目140a-d。例如,如在状态(l)中所示,用户108可以选择列表项目140e,以指示他们希望调用对应的动作124e,以显示到喀布尔的路线指引。响应于对列表项目140a-e的用户选择,客户端设备104向服务器116发送与所选择的列表项目140a-e对应的动作的指示。例如,状态(m)图示了向服务器116发送指示,该指示指示对与请求到喀布尔的路线指引对应的动作124e的选择。与状态(g)的隐含调用过程相反,状态(k)和(l)提供了对动作的手工选择,这在本说明书中被称作“显式的”调用过程。
响应于接收到用户选择的动作的指示,服务器116调用用户选择的动作。对于一些类型的动作,诸如产生地图或产生到一个位置的路线指引,则在服务器116上进行处理,并且向客户端设备104发送用于显示结果(例如,显示图像、HTML代码)的信息。例如,对于用户选择的动作124e,可以通过在服务器116上运行的地图应用来产生喀布尔的地图和到喀布尔的路线指引。用于显示地图和路线指引的HTML代码可以被发送到客户端设备104,如状态(n)所示。客户端设备可以在用户界面102中显示所产生的地图和路线指引,诸如在窗口150中显示所产生的地图和路线指引。
对于一些类型的动作,服务器116可以向客户端设备104发送消息,该消息指示动作的类型并且有可能指示与动作相关的元数据。在接收到该消息后,客户端设备104可以执行所示的动作。例如,如果用户108选择列表项目140b来指示选择呼叫工作中的Bill的动作124b,则服务器116可以向客户端设备104发送用于指示客户端设备104应当启动呼叫的消息。从服务器116向客户端设备104发送的消息可以包括Bill的工作号码。
对于一些类型的动作,动作的调用包含在服务器116和客户端设备104上的处理(例如,除了仅查找信息或仅显示信息之外的处理)。例如,对于播放媒体标题的动作,服务器116可以从媒体服务器下载标题,处理信用卡交易并且解锁数字媒体权限。服务器116可以向客户端设备104发送媒体内容。客户端设备104可以解码媒体内容,并且可以播放该内容。
响应于对动作的用户选择,可以递增相关联的歧义值。例如,状态(o)图示与用户选择的动作124e对应的歧义值128e增加5。随着时间推移,歧义值可以增加到其在或大于阈值的点,使得如果动作随后被映射到候选词语,则可以隐含地调用相关联的动作。
图2图示了可以用于响应于语音命令或其他音频信号而调用动作的示例性系统200。系统200包括通过网络206而连接到一个或多个客户端设备204的服务器202。服务器202除了别的之外包括一个或多个处理器208、网络接口210、查询修订器212、用户接口213和介质214。服务器202可以是搜索引擎,或者,服务器202可以被搜索引擎用于执行语音识别。客户端设备204包括一个或多个处理器220、用户界面222、网络接口224、麦克风226和介质228。客户端设备204可以是移动电话、膝上型计算机、PDA、智能电话、BlackberryTM或其他手持或移动设备。在另一种实施方式中,客户端设备204不是便携或移动的,而是台式计算机或服务器。
介质214和228存储和记录信息或数据,并且每一个可以是光学存储介质、磁性存储介质、快闪存储器或任何其他适当的存储介质类型。介质214包括词语消岐器应用230,并且可能包括一个或多个其他应用232。词语消岐器应用包括语音识别模块234、词语/动作映射器236、置信分值产生器238、动作启动器240和客户端设备索引242。
语音识别模块234对接收的音频信号执行语音识别,以识别与音频信号匹配的一个或多个候选词语。语音识别模块可以确定每一个识别的词语的语音识别置信量度,每一个识别的词语的语音识别置信量度指示候选词语匹配音频信号的置信度。词语/动作映射器236识别与每一个候选词语相关联的一个或多个动作。置信分值产生器238确定每一个动作的歧义值,该歧义值表示用户意欲进行该动作的可能性。查询修订器212可以调节歧义值,诸如增加用户选择的动作的歧义值并且减少用户取消的动作的歧义值。
客户端设备索引242可以包括从一个或多个客户端设备204接收的一个或多个类型的索引。例如,服务器202可以定期地从客户端设备204接收联系人的索引。语音识别模块234可以识别在客户端设备索引242中包括并且匹配所接收的音频信号的候选词语。客户端设备索引242也可以包括其他信息,诸如与客户端设备204能够执行的应用程序相关的信息、用户界面尺寸、在客户端设备204上可获得的媒体内容等。其他应用232除了别的之外可以包括例如地图产生器应用、交易应用(例如,用于支持电子账单或用于管理媒体内容的购买)和搜索应用。
介质228包括搜索应用250,并且可能包括一个或多个其他应用252。介质228也包括用户偏好254、图标数据库256和联系人数据库258。联系人数据库258可以包括例如在客户端设备204上存储的个人联系人的列表。联系人数据库258的一些或全部内容以被定期地发送到服务器202。图标数据库256可以包括用于指示特定类型的动作的图标。可以接着在向客户端设备204的用户呈现的建议的候选词语/动作对的列表中的候选词语/动作对或与其一起显示图标。
搜索应用250可以向客户端设备204的用户提供搜索用户界面,该搜索用户界面允许用户输入语音命令来执行因特网搜索,并且执行其他动作,诸如拨打联系人、通过电子邮件或其他电子通信来与联系人进行通信、进行电子账单支付、获得到POI的路线指引或关于POI的其他信息或其他动作。用户偏好254可以包括:用于特定用户的定制阈值,诸如用于指示用户一般通过语音命令例如意欲呼叫联系人而不是执行web搜索的值;或用于指示用户偏好立即调用命令而不是使用倒计时定时器的值。其他用户偏好254可以指示用户偏好自动地调用特定类型的动作(例如,拨打联系人)或用户偏好看到在建议的候选词语/动作对的列表中首先呈现web搜索动作的建议。
服务器202可以连接到网络206,并且有可能通过网络接口210连接到一个或多个其他网络。类似地,客户端设备204可以连接到网络206,并且有可能通过网络接口224连接到一个或多个其他网络。网络206可以包括例如因特网、广域网(WAN)、局域网(LAN)、模拟或数字有线和无线电话网络(例如,PSTN、综合业务数字网(ISDN)和数字用户线(xDSL))、无线电、电视机、有线电视、卫星和/或用于承载数据业务的任何适当的其他递送或隧道传送机制的一个或多个。网络可以包括多个网络或子网,其中每一个可以包括例如有线或无线数据路径。
处理器208包括一个或多个处理器,并且处理用于服务器202的操作系统或应用程序计算机指令。类似地,处理器220包括一个或多个处理器,并且处理用于客户端设备204的操作系统或应用程序计算机指令。用户界面222显示应用用户界面,应用用户界面包括用于在客户端设备204上运行的应用的用户界面控件。例如,用户界面222可以显示用于搜索应用250的界面。用户界面213显示用于在服务器202上运行的应用的应用用户界面。例如,用户界面213可以显示用于配置、监控和调用词语消岐器应用230的管理员应用的界面。
图3是图示用于基于语音命令来调用动作的计算机实现的过程300的流程图。简而言之,过程300包括:在服务器接收音频信号;通过所述服务器对音频信号执行语音识别,以识别与音频信号的一个或多个部分匹配的一个或多个候选词语;识别用于每一个候选词语的一个或多个可能意欲的动作;提供用于在客户端设备上显示的信息,所述信息指定所述候选词语和用于每一个候选词语的动作;从所述客户端设备接收由用户选择的动作的指示,其中,从在所提供的信息中包括的动作中选择所述动作;以及调用由所述用户选择的动作。使用过程300,在至少二维中对构成语音命令的声音进行消岐。
进一步详细而言,当过程300开始时(302),服务器从客户端设备接收音频信号(303)。服务器可以间接地从客户端设备接收音频信号,例如,其中客户端设备向搜索引擎发送音频信号,搜索引擎继而向服务器发送该音频信号。
服务器对音频信号执行语音识别,以识别与音频信号的一个或多个部分匹配的一个或多个候选词语(304)。如图1中所示,服务器116对音频信号114执行语音识别,以识别候选词语118a-d。执行语音识别可以包括:在客户端接收的索引中识别匹配音频信号的候选词语(例如联系人的姓名)。
语音识别用于在“识别质量”维度中执行对语音命令的消岐。使用语音识别,构成语音命令的声音匹配到说话者可能已经说出的词语。在一个示例中,在识别质量维度中的消岐可以试图确定当说话者发出语音命令时他们是否意欲说出类似声音的词语“directions to Paris(到巴黎的路线指引)”、“directions to Perris(到佩里斯的路线指引)”、“direct to Perry’s house(直接到Perry家)”、“do you reckon two pairs(你估计两对吗)”、“door erect chintz toupee wrist”或其他可能的候选词语。
对于每一个候选词语识别一个或多个可能意欲的动作(306)。例如,如图1中所示,对于相关联的动作118a-d识别动作124a-e。动作可以包括例如拨打联系人、执行对于候选词语的web搜索、获得到POI的路线指引、播放媒体内容或支付在线账单。动作的其他示例包括:基于人的姓名来启动与人的电子邮件或即时消息会话;基于媒体内容的标题来播放媒体内容或获得关于媒体内容的详细信息;以及基于POI的名称来获得POI的地图、关于POI的详细信息或到POI的距离。
由将候选词语匹配到适当动作的在客户端或服务器上的模块执行在“说话者意图”第二维度中的消岐,并且在“说话者意图”第二维度中的消岐获得与每一个动作相关联的歧义值。在这样做时,当说话者说出构成语音命令的词语时他们可能已经意欲进行该动作。
用于指定候选词语和用于每一个候选词语的动作的信息被提供来在客户端设备上显示(308)。例如,可以在客户端设备上显示用户界面,该用户界面包括候选词语/动作对的列表,并且表示动作类型的图标接着每一个候选词语/动作对或被包括在每一个候选词语/动作对中。可以以基于用户意欲进行动作的可能性的顺序来在用户界面中排名并且呈现候选词语/动作对。
对于上述的“directions to Paris”示例,用户界面可以向用户提供下述选项:获得到法国巴黎、德克萨斯的巴黎或加利福尼亚的佩里斯的路线指引;确定到用户的朋友“Perry”的家的路径;使用词语“do you reckon two pairs”来执行web搜索;或者确定电影“Directions to Paris”的演出时间。如果用户未生活在法国、德克萨斯或加利福尼亚附近,但是他们有名为“Perry”的朋友,或如果他们的用户偏好指示他们喜欢电影,则可以将路径和演出时间动作排名得比路线指引和web搜索动作更高。
识别用户选择的动作,并且,接收由用户选择的动作的指示(310)。从在提供的信息中包括的动作中选择动作。例如,用户可以在用户界面中选择候选词语/动作对,以指示他们期望调用所选择的动作。用户可以例如说出数字“2”以选择第二个识别的动作。
调用由用户选择的动作(312),由此结束过程300(314)。对于一些类型的动作,诸如产生地图或产生到位置的路线指引,在服务器上进行处理,并且用于显示结果(例如,显示图像、HTML代码)的信息被发送到客户端设备。对于其他类型的动作,服务器可以向客户端设备发送消息,该消息指示要在客户端设备上调用的动作的类型,并且可能指示与动作相关的元数据。在接收到消息后,客户端设备可以执行所指示的动作。例如,客户端设备可以启动向联系人的呼叫。对于一些类型的动作,动作的调用包含在服务器和客户端设备两者上的处理。例如,对于播放媒体标题的动作,服务器可以从媒体服务器下载标题,处理信用卡交易,并且解锁数字媒体权限。服务器可以向客户端设备发送媒体内容,并且客户端设备可以解码和播放媒体内容。
图4是图示用于基于音频信号调用动作的计算机实现的过程300的流程图。简而言之,过程400包括:通过客户端设备向服务器提供音频信号;获得信息,该信息指定与音频信号的一个或多个部分匹配的一个或多个候选词语和用于每一个候选词语的一个或多个可能的意欲动作;接收对动作的用户选择;向服务器提供用户选择的动作的指示;以及调用由用户选择的动作。
进一步详细而言,当过程400开始时(402),通过客户端设备向服务器提供音频信号(404)。例如,并且如图1中所示,客户端设备104向服务器116发送音频信号114。可以例如通过将由用户108说出的语音命令记录到麦克风112中来建立音频信号114。
获得用于识别与音频信号匹配的一个或多个词语和与每一个候选词语相关联的一个或多个动作的信息(406)。例如并且如图1中所示,服务器116可以向客户端设备104发送候选词语/动作对的列表134。可以通过歧义值来排名列表134,或在一些实施方式中,不排名列表134。
接收对动作的用户选择(408)。例如,用户可以从在客户端设备的用户界面上显示的建议的候选词语/动作对的列表中选择动作。例如并且如图1中所示,用户108可以选择与“directions to Kabul”动作124e对应的列表项目140e。
用于识别用户选择的动作的信息被提供到服务器(S410)。例如并且如图1中所示,可以从客户端设备104向服务器116发送对动作124e的选择的指示。
调用用户选择的动作(412),由此结束过程400(414)。对于一些类型的动作,诸如产生地图或产生到一个位置的路线指引,在服务器上进行处理,并且用于显示结果(例如,显示图像、HTML代码)的信息被发送到客户端设备。对于其他类型的动作,服务器可以向客户端设备发送消息,该消息指示要在客户端设备上调用的动作的类型,并且可以指示与动作相关的元数据。在接收到消息后,客户端设备可以执行所指示的动作。例如,客户端设备可以启动向联系人的呼叫。对于一些类型的动作,动作的调用包含在服务器和客户端设备两者上的处理。例如,对于播放媒体标题的动作,服务器可以从媒体服务器下载标题,处理信用卡交易,并且解锁数字媒体权限。服务器可以向客户端设备发送媒体内容,并且客户端设备可以解码和播放媒体内容。
图5A-5B和6A-6B图示了示例性用户界面。图5A图示了可以例如在移动客户端设备上显示的示例用户界面500。用户界面500包括麦克风控件502,用户可以在说出语音命令之前选择麦克风控件502。用户的语音命令可以被记录,并且对应的音频信号可以被发送到服务器。服务器可以执行语音识别以识别匹配音频信号的一个或多个候选词语。服务器也可以识别与每一个识别的候选词语对应的一个或多个动作。服务器可以发送可以在用户界面500的列表区域506中的列表项目504a-h中识别的候选词语/动作对的列表。在一些实施方式中,服务器产生用于显示列表区域506的信息(例如,显示图像、HTML代码),并且移动客户端设备使用所接收的信息来呈现列表区域506。
列表项目504a-h每一个分别包括相关联的图标508a-h。图标508a-h的每一个指示与相应的列表项目504a-h对应的动作或动作的类型。例如,图标508a-f——每一个包括对应的联系人的图片——每一个指示“call contact(呼叫联系人)”动作类型。图标508g-h每一个指示“websearch(web搜索)”动作类型。用户可以选择列表项目504a-h来使得调用对应的动作。例如,用户可以选择列表项目504b,以在他的移动电话上呼叫名为“Huan”的联系人。又如,用户可以选择列表项目504g以启动对于短语“call Bill(呼叫比尔)”的web搜索。如果用户选择列表项目504e或列表项目504f,则用户可以被提示来输入对应的“Jeff”或“billB”联系人的电话号码,因为移动客户端设备不具有那些联系人的电话号码。响应于用户选择列表项目504a-h,服务器可以递增与用户选择的动作相关联的歧义值。
图5B图示了示例用户界面550。如果用户选择了上面参考图5A描述的列表项目504a,则可以例如在移动客户端设备上显示用户界面550。又如,如果服务器隐含地调用“call Bill at home(呼叫家中的比尔)”,诸如如果认为“call Bill at home”动作很可能是用户在发出语音命令时意欲进行的动作,则可以显示用户界面550(例如,“call Bill at home”动作可能是被用户频繁地请求的动作,和/或语音识别过程可能已经确定了用于识别随后被映射到“call Bill at home”动作的候选词语的高置信度阈值)。在一些实施方式中,可以隐含地调用“call Bill at home”动作,而不显示用户界面550。
在服务器接收到用于向移动客户端设备指示隐含地调用“call Bill at home”动作的消息后,客户端设备可以显示用户界面550。在一些示例中,移动客户端设备在显示用户界面550后可以立即启动“call Bill at home”动作。在其他示例中,在调用“call Bill at home”动作之前,在用户界面550上可以显示窗口552。在一些示例中,响应于用户选择“拨打”控件554而调用“call Bill at home”动作。
在其他示例中,窗口552可以实现“倒计时定时器”,其中,向用户呈现倒计时消息,该消息用于指示当倒计时定时器达到0时将执行“call Bill at home”动作。如果用户意欲呼叫比尔,则用户可以使得倒计时定时器达到0,并且在那个点,可以调用对于比尔的呼叫。在定时器达到0之前,用户也可以选择拨打控件554以调用呼叫动作。倒计时定时器倒计时的时间量可以基于相关联的动作的歧义值。例如,如果歧义值指示用户意欲进行“call Bill at home”动作的概率高,则可以根本不使用倒计时定时器。如果歧义值指示用户意欲进行“call Bill at home”动作的概率是中等的,则倒计时定时器可以在小数量的秒数(例如,2)时启动,并且如果歧义值指示低概率,则倒计时定时器可以在较高的秒数(例如,4)开始。
取消控件556可以被包括在窗口552中,以允许用户在进行呼叫之前取消“call Bill at home”动作,或例如如果移动设备已经拨打但是正在等待比尔的电话回答则取消呼叫。如果用户选择取消控件556来取消对于比尔的呼叫,则可以从移动客户端设备向服务器发送中断信号。响应于接收到中断信号,服务器可以递减“call Bill at home”动作的歧义值,以考虑该动作不是用户意欲进行的动作的事实。另外,如果由于确定隐含地调用“call Bill at home”动作而显示用户界面550,则服务器可以响应于用户选择取消控件556来向移动客户端设备发送候选词语/动作对的列表,以指示所述移动客户端设备显示上面参考图5A描述的界面500,以允许用户选择他们意欲调用的动作。
图6A图示了可以例如在移动客户端设备上显示的示例用户界面600。可以响应于服务器发送候选词语/动作对的列表而显示用户界面600,该候选词语/动作对的列表对应于一组候选词语,该组候选词语匹配与由移动客户端设备向服务器发送的语音命令相关联的音频信号。例如,移动客户端设备的用户可能已经说出了语音命令“directions to Paris”。所接收的候选词语/动作对的列表可以用于在用户界面600的列表区域606中显示列表项目604a-h。
列表项目604a-h每一个分别包括相关联的图标608a-h。每一个图标608a-h指示与相应的列表项目604a-h对应的动作的类型。例如,图标608a-h每一个指示“get directions(获得路线指引)”动作类型(例如,分别与“directions to Paris”、“directions to parents”、“directions to parris”和“directions to tears”动作)。图标608e-g每一个指示“web search(web搜索)”动作类型(例如,分别与对于短语“directions to Paris”、“directions to parents”和“directions to tears”的web搜索对应)。图标608h指示电影下载动作类型(例如,与“下载‘Directions to Paris’电影”动作相关联)。
用户可以选择列表项目604a-h来使得调用对应的动作。例如,用户可以选择列表项目604b以获得到“parents(父母)”的路线指引。又如,用户可以选择列表项目604g来启动对于短语“directions to tears”的web搜索。响应于用户选择列表项目604a-h,服务器可以递增与用户选择的动作相关联的歧义值。
图6B图示了示例用户界面650。如果用户选择了上面参考图6A所述的列表项目604a,则用户界面650可以被例如显示在移动客户端设备上。又如,如果服务器隐含地调用“directions to Paris”,诸如如果认为“directions to Paris”动作很可能是当说出语音命令时用户意欲进行的动作,则可以显示用户界面650。移动客户端设备在接收到服务器的用于向移动客户端设备指示隐含地调用“directions to Paris”动作的消息后,可以显示用户界面650。在一些示例中,可以由移动客户端设备在显示用户界面650后立即启动“directions to Paris”动作。在其他示例中,可以在调用“directions to Paris”之前在用户界面650上显示窗口652。在一些示例中,响应于用户选择“go”控件654来调用“directions to Paris”动作。
在其他示例中,窗口652可以实现“倒计时定时器”,其中,向用户呈现倒计时消息,该消息用于指示当倒计时定时器达到0时将执行“directions to Paris”动作。用户可以使得倒计时定时器达到0,并且在那个点,可以调用该动作。用户也可以选择“go”控件654,以在定时器达到0之前调用该动作。取消控件656可以被包括在窗口652中,以允许用户在调用该动作之前取消“directions to Paris”动作。如果用户选择取消控件656来取消该动作,则可以从移动客户端设备向服务器发送中断信号。响应于接收到中断信号,服务器可以递减用于“directions to Paris”动作的歧义值,以考虑该动作不是用户意欲进行的动作的事实。另外,如果由于确定隐含地调用“directions to Paris”动作而显示用户界面650,则服务器可以响应于用户选择取消控件656来向移动客户端设备发送候选词语/动作对的列表,以指示移动客户端设备显示上面参考图6A所述的界面600,以允许用户选择他们意欲调用的动作。
图7是一般计算机系统700的示例的示意图。系统700包括处理器710、存储器720、存储设备730和输入/输出设备740。组件710、720、730和740中的每一个使用系统总线750互连。处理器710能够处理用于在系统700内执行的指令。在一种实施方式中,处理器710是单线程的处理器。在另一种实施方式中,处理器710是多线程处理器。处理器710能够处理在存储器720中或在存储设备730上存储的指令,以在输入/输出设备740上显示用户界面的图形信息。
存储器720存储系统700内信息。在一种实施方式中,存储器720是计算机可读介质。在另一种实施方式中,存储器720是易失性存储器单元。在另一种实施方式中,存储器720是非易失性存储器单元。
存储设备730能够为系统700提供大容量存储。在一种实施方式中,存储设备730是计算机可读介质。在各种不同的实施方式中,存储设备730可以是软盘设备、硬盘设备、光盘设备或带设备。
输入/输出设备740为系统700提供输入/输出操作。在一种实施方式中,输入/输出设备740包括键盘和/或指示设备。在另一种实施方式中,输入/输出设备740包括显示单元,用于显示图形用户界面。
可以在数字电子电路中、在计算机硬件中或在计算机硬件和固件或软件的组合中实现所述的特征。可以在计算机可读存储设备中有形地包含的计算机程序产品中实现该装置,该计算机程序产品由可编程处理器执行;并且可以通过可编程处理器来执行方法步骤,该可编程处理器通过操作输入数据并且产生输出来执行指令的程序以执行所述实施方式的功能。可以在一个或多个计算机程序中有益地实现所述的特征,该一个或多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行,该至少一个可编程处理器耦合来从数据存储系统、至少一个输入设备和至少一个输出设备接收数据和指令,以及向数据存储系统、至少一个输入设备和至少一个输出设备发送数据和指令。计算机程序是可以在计算机中直接地或间接地使用来执行特定动作或带来特定结果的指令集。可以以包括编译型或解释型语言的编程语言的任何适当形式来编写计算机程序,并且,可以任何适当的形式来部署计算机程序,包括作为单独程序或作为适合于用在计算环境中的模块、组件、子例程或其他单元。
用于执行指令的程序的适当处理器包括例如通用和专用微处理器以及任何相关种类的计算机的单个处理器或多个处理器之一。一般地,处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的必要元件是用于执行指令的处理器和用于存储指令和数据的一个或多个存储器。一般地,计算机也包括一个或多个大容量存储设备或可操作地耦合以与一个或多个大容量存储设备进行通信,该一个或多个大容量存储设备用于存储数据文件;这样的设备包括诸如内部硬盘和移动盘的磁盘、磁光盘和光盘。适合于有形地包含计算机程序指令和数据的存储设备包括所有形式的非易失性存储器,其中例如包括:半导体存储器设备,诸如EPROM、EEPROM和快闪存储器设备;磁盘,诸如内部硬盘和移动盘;磁光盘;以及CD-ROM和DVD-ROM盘。处理器和存储器可以被ASIC(专用集成电路)补充或被包含在ASIC中。
为了提供与用户的交互,可以在具有显示设备和键盘和指示设备的计算机上实现特征,该显示设备诸如是CRT(阴极射线管)或LCD(液晶显示器)监控器,用于向用户显示信息,该键盘和指示设备诸如是鼠标或跟踪球,通过其,用户可以向计算机提供输入。
可以在计算机系统中实现特征,该计算机系统包括诸如数据服务器的后端组件,或者该计算机系统包括诸如应用服务器或因特网服务器的中间件组件,或者该计算机系统包括前端组件,诸如具有图形用户界面或因特网浏览器的客户端计算机,或者该计算机系统包括上述的任何可操作组合。系统的组件可以通过诸如通信网络的数字数据通信的任何相关形式或介质连接。通信网络的示例包括例如局域网、广域网和形成因特网的计算机和网络。
计算机系统可以包括客户端和服务器。客户端和服务器一般彼此远离,并且通常通过诸如所述的网络来交互。客户端和服务器的关系依靠运行在相应的计算机上并且彼此具有客户端-服务器关系的计算机程序而出现。
电子文档(为了简洁称作文档)可以但是不必对应于文件。文档可以被存储在保持其他文档的文件的一部分中、在专用于涉及的文档的单个文件中或在多个协同的文件中。
在本说明书中描述的主题和操作的实施例可以被实现在数字电子电路中或在计算机软件、固件或硬件中或在它们的一个或多个的组合中,该计算机软件、固件或硬件包括在本说明书中公开的结构及其结构等同物。在本说明书中描述的主题的实施例可以被实现为一个或多个计算机程序,即计算机程序指令的一个或多个模块,该一个或多个计算机程序被编码在计算机存储介质上,以由数据处理装置执行或控制数据处理装置的操作。
计算机存储介质可以是计算机可读存储装置、计算机可读存储基底、随机或串行存取存储器阵列或设备或它们的一个或多个的组合或包括在其中。而且,虽然计算机存储介质不是传播信号,但是计算机存储介质可以是以人为产生的传播信号中编码的计算机程序指令的源或目的地。计算机存储介质也可以是一个或多个分立的物理组件或介质(例如,多个CD、盘或其他存储设备),或可以被包括在其中。在本说明书中描述的操作可以被实现为由数据处理设备对于在一个或多个计算机可读存储设备上存储或从其他源接收的数据执行的操作。
术语“数据处理装置”涵盖用于处理数据的所有种类的设备、装置和机器,包括例如可编程处理器、计算机、片上系统或上述的多个或组合。该装置可以包括专用逻辑电路,例如,FPGA(现场可编程门阵列)或ASIC(专用集成电路)。除了硬件之外,该装置也可以包括创建所讨论的计算机程序的执行环境的代码,例如构成处理器固件、协议栈、数据库管理系统、操作系统、跨平台运行时间环境、虚拟机或它们的一个或多个的组合的代码。该装置和执行环境可以实现各种不同的计算模型基础结构,诸如web服务、分布式计算和网格计算基础结构。
可以以任何适当形式的编程语言来编写计算机程序(也称作程序、软件、软件应用、脚本或代码),该任何适当形式的编程语言包括编译型或解释型语言、说明性语言或程序语言,并且可以以任何可操作形式来部署计算机程序,该任何可操作形式包括作为单独程序或作为适合于用在计算环境中的模块、组件、子例程、对象或其他单元。计算机程序可以但是不必对应于在文件系统中的文件。程序可以被存储在保持其他程序或数据(例如,在标记语言文档中存储的一个或多个脚本)的文件的一部分中、在专用于所涉及的程序的单个文件中或在多个协调的文件(例如,存储一个或多个模块、支程序或代码的部分的文件)中。计算机程序可以被部署为在一个计算机上或在位于一个位置或分布在多个位置并且通过通信网络互连的多个计算机上执行。
在本说明书中描述的过程和逻辑流可以被执行一个或多个计算机程序的一个或多个可编程处理器执行,以通过操作输入数据和产生输出来执行动作。过程和逻辑流也可以被专用逻辑电路执行,并且装置也可以被实现为专用逻辑电路,该专用逻辑电路例如是FPGA(现场可编程门阵列)或ASIC(专用集成电路)。
适合于计算机程序的执行的处理器包括例如通用和专用微处理器和任何适当种类的数字计算机的任何一个或多个处理器。一般地,处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的必要元件是用于根据指令来执行动作的处理器和用于存储指令和数据的一个或多个存储器设备。一般地,计算机也包括一个或多个大容量存储设备,或可操作地耦合来从一个或多个大容量存储设备接收数据或向其传送数据或两者,该一个或多个大容量存储设备用于存储数据,例如磁盘、磁光盘或光盘。然而,计算机不必具有这样的设备。而且,可以在另一种设备中嵌入计算机,该另一种设备例如是移动电话、个人数字助理(PDA)、移动音频或视频播放机、游戏控制器、全球定位系统(GPS)接收器或便携存储设备(例如,通用串行总线(USB)快闪驱动),仅列举出几个。适合于存储计算机程序指令和数据的设备包括所有形式的非易失性存储器、介质和存储器设备,包括例如:半导体存储器设备,例如,EPROM、EEPROM和快闪存储器设备;磁盘,例如内部硬件或移动盘;磁光盘;以及CD-ROM和DVD-ROM盘。处理器和存储器可以被专用逻辑电路补充或被包含在其中。
为了提供与用户的交互,在本说明书中描述的主题的实施例可以被实现在计算机上,该计算机具有显示设备与键盘和指示设备,该显示设备例如是CRT(阴极射线管)或LCD(液晶显示器)监控器,用于向用户显示信息,该键盘和指示设备例如是鼠标或跟踪球,通过其用户可以向计算机提供输入。也可以使用其他种类的设备来提供与用户的交互;例如,向用户提供的反馈可以是任何适当形式的感官反馈,例如视觉反馈、听觉反馈或触觉反馈;并且可以以任何相关的形式来接收来自用户的输入,该任何相关的形式包括声音、语音或触觉输入。另外,计算机可以通过向用户使用的设备发送文档和从用户使用的设备接收文档来与用户交互;例如通过响应于从web浏览器接收的请求向在用户的客户端设备上的web浏览器发送网页。
可以在计算系统中实现在本说明书中描述的主题的实施例,该计算系统包括后端组件,例如作为数据服务器,或该计算系统包括中间件组件,例如应用服务器,或该计算系统包括前端组件,例如具有图形用户界面或web浏览器的客户计算机,通过该图形用户界面或web浏览器,用户可以与在本说明书中描述的主题的实现交互,或该计算系统包括这样的后端、中间件或前端组件的一个或多个的组合。系统的组件可以通过任何适当形式或介质的数字数据通信——例如通信网络——来互连。通信网络的示例包括局域网(“LAN”)和广域网(“WAN”)、国际网络(例如因特网)和对等网络(例如自组织对等网络)。
计算系统可以包括客户端和服务器。客户端和服务器一般彼此远离,并且通常通过通信网络来交互。客户端和服务器的关系依靠运行在相应的计算机上并且彼此具有客户端-服务器关系的计算机程序而出现。在一些实施例中,服务器向客户端设备发送数据(例如,HTML页面)(例如,用于显示数据和从与客户端设备交互的用户接收用户输入)。可以在服务器从客户端设备接收在客户端设备产生的数据(例如,用户交互的结果)。
已经描述了多个实施方式。尽管如此,可以明白,在不偏离本公开的精神和范围的情况下,可以进行各种修改。因此,其他实施方式在所附的权利要求的范围内。

Claims (20)

1.一种计算机实现的方法,包括:
在服务器接收音频信号;
通过所述服务器对所述音频信号执行语音识别,以识别匹配所述音频信号的一个或多个部分的一个或多个候选词语;
对于每一个候选词语识别一个或多个可能的意欲动作;
提供信息用于在客户端设备上显示,所述信息指定所述候选词语和用于每一个候选词语的动作;
从所述客户端设备接收由用户选择的动作的指示,其中所述动作是从在所提供的信息中包括的动作中选择的;以及
调用由所述用户选择的所述动作。
2.根据权利要求1所述的方法,其中,所述服务器包括搜索引擎。
3.根据权利要求1所述的方法,进一步包括:
从客户端设备接收索引,以及
其中,执行所述语音识别进一步包括:识别所述索引中的匹配所述音频信号的候选词语。
4.根据权利要求3所述的方法,其中,所述索引进一步包括由所述客户端设备存储的联系人的索引。
5.根据权利要求1所述的方法,其中,当候选词语包括人的姓名时,与所述候选词语相关联的动作中的一个或多个启动与所述人的呼叫、电子邮件或即时消息会话。
6.根据权利要求1所述的方法,其中,当候选词语包括兴趣点(POI)时,与所述候选词语相关联的动作中的一个或多个获得所述POI的地图、到所述POI的路线指引、关于所述POI的详细信息或到所述POI的距离。
7.根据权利要求1所述的方法,其中,当候选词语识别媒体内容时,与所述候选词语相关联的动作中的一个或多个播放所述媒体内容、启动对于所述媒体内容的下载或获得关于所述媒体内容的详细信息。
8.根据权利要求1所述的方法,其中,与候选词语相关联的动作中的一个或多个使用所述候选词语作为查询词语来启动web搜索查询。
9.根据权利要求1所述的方法,进一步包括:确定每一个动作的歧义值,所述歧义值表示所述用户实际上意欲进行所述动作的确定度。
10.根据权利要求9所述的方法,进一步包括:
响应于接收到由所述用户选择的所述动作的指示,递增与所述用户选择的动作相关联的所述歧义值。
11.根据权利要求9所述的方法,进一步包括:
确定特定动作的所述歧义值满足阈值;
基于确定所述歧义值满足所述阈值,自动地调用所述特定动作;
确定用户已经取消了所述特定动作;以及
基于确定所述用户已经取消了所述特定动作,递减所述特定动作的所述歧义值,
其中,基于确定所述用户已经取消了所述特定动作来提供所述信息。
12.根据权利要求9所述的方法,进一步包括:
确定每一个候选词语的语音识别置信量度,
其中,基于对于与每一个动作相关联的候选词语确定的所述语音识别置信量度,确定所述动作的所述歧义值。
13.根据权利要求9所述的方法,进一步包括:
基于所述动作各自的歧义值,产生所述动作的排名,
其中,提供所述信息进一步包括提供所述排名。
14.根据权利要求1所述的方法,其中,指定特定动作的所述信息包括图标。
15.根据权利要求1所述的方法,其中,调用所述用户选择的应用进一步包括:向客户端设备提供指定由所述客户端设备存储的应用的信息。
16.一种系统,包括:
一个或多个计算机;以及
耦接到所述一个或多个计算机的计算机可读介质,其上存储有指令,所述指令当被所述一个或多个计算机执行时使得所述一个或多个计算机执行操作,所述操作包括:
在服务器接收音频信号;
通过所述服务器对所述音频信号执行语音识别,以识别匹配所述音频信号的一个或多个部分的一个或多个候选词语;
对于每一个候选词语识别一个或多个可能的意欲动作;
提供信息用于在客户端设备上显示,所述信息指定所述候选词语和用于每一个候选词语的动作;
从所述客户端设备接收由用户选择的动作的指示,其中所述动作是从在所提供的信息中包括的动作中选择的;以及
调用由所述用户选择的所述动作。
17.一种计算机实现的方法,包括:
通过客户端设备向服务器提供音频信号;
获得信息,所述信息指定匹配所述音频信号的一个或多个部分的一个或多个候选词语和用于每一个候选词语的一个或多个可能的意欲动作;
从所述一个或多个可能的意欲动作接收对动作的用户选择;
向所述服务器提供所述用户选择的动作的指示;以及
调用由所述用户选择的所述动作。
18.一种编码有计算机程序的计算机存储介质,所述程序包括指令,所述指令当被数据处理装置执行时使得所述数据处理装置执行操作,所述操作包括:
通过客户端设备向服务器提供音频信号;
获得信息,所述信息指定匹配所述音频信号的一个或多个部分的一个或多个候选词语和用于每一个候选词语的一个或多个可能的意欲动作;
从所述一个或多个可能的意欲动作接收对动作的用户选择;
向所述服务器提供所述用户选择的动作的指示;以及
调用由所述用户选择的所述动作。
19.根据权利要求18所述的介质,其中,所述操作进一步包括:从所述客户端设备向所述服务器发送联系人的索引。
20.根据权利要求18所述的介质,其中,所述操作进一步包括:
确定每一个动作的歧义值;
确定特定动作的所述歧义值满足阈值;
基于确定所述歧义值满足所述阈值,自动地调用所述特定动作;
确定所述用户已经取消了所述特定动作;以及
基于确定所述用户已经取消了所述特定动作,递减所述特定动作的所述歧义值,
其中,基于确定所述用户已经取消了所述特定动作,提供所述信息。
CN201010279143.2A 2010-01-22 2010-09-08 用于语音命令的多维消歧的系统和方法 Active CN102137085B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US12/692,307 US8626511B2 (en) 2010-01-22 2010-01-22 Multi-dimensional disambiguation of voice commands
US12/692,307 2010-01-22

Publications (2)

Publication Number Publication Date
CN102137085A true CN102137085A (zh) 2011-07-27
CN102137085B CN102137085B (zh) 2016-02-24

Family

ID=43983537

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010279143.2A Active CN102137085B (zh) 2010-01-22 2010-09-08 用于语音命令的多维消歧的系统和方法

Country Status (6)

Country Link
US (1) US8626511B2 (zh)
EP (1) EP2355093B1 (zh)
JP (1) JP5911669B2 (zh)
KR (1) KR101667006B1 (zh)
CN (1) CN102137085B (zh)
AU (1) AU2010214793B2 (zh)

Cited By (88)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102722525A (zh) * 2012-05-15 2012-10-10 北京百度网讯科技有限公司 通讯录人名的语言模型建立方法、语音搜索方法及其系统
CN103092887A (zh) * 2011-11-07 2013-05-08 联想(北京)有限公司 电子设备及其语音信息提供方法
CN103377652A (zh) * 2012-04-25 2013-10-30 上海智臻网络科技有限公司 一种用于进行语音识别的方法、装置和设备
CN103517094A (zh) * 2012-06-15 2014-01-15 三星电子株式会社 服务器和控制该服务器的方法
CN103915094A (zh) * 2012-12-28 2014-07-09 财团法人工业技术研究院 基于目标名称识别的共享语音操控方法与装置
CN104112448A (zh) * 2013-04-19 2014-10-22 通用汽车环球科技运作有限责任公司 用于管理语音系统的对话的方法和系统
CN104299623A (zh) * 2013-07-15 2015-01-21 国际商业机器公司 语音应用中用于自动确认和消歧模块的方法和系统
CN104424944A (zh) * 2013-08-19 2015-03-18 联想(北京)有限公司 一种信息处理方法及电子设备
CN104699236A (zh) * 2013-12-05 2015-06-10 联想(新加坡)私人有限公司 利用境况解释自然语言语音识别命令
CN104731918A (zh) * 2015-03-25 2015-06-24 百度在线网络技术(北京)有限公司 一种语音搜索方法及装置
CN105960673A (zh) * 2014-10-09 2016-09-21 谷歌公司 多个设备上的热词检测
CN106471570A (zh) * 2014-05-30 2017-03-01 苹果公司 多命令单一话语输入方法
CN107004413A (zh) * 2014-11-28 2017-08-01 微软技术许可有限责任公司 扩展数字个人助理动作提供者
TWI601032B (zh) * 2013-08-02 2017-10-01 晨星半導體股份有限公司 應用於聲控裝置的控制器與相關方法
CN107274889A (zh) * 2017-06-19 2017-10-20 北京紫博光彦信息技术有限公司 一种根据语音生成业务单据的方法及装置
CN107452378A (zh) * 2017-08-15 2017-12-08 北京百度网讯科技有限公司 基于人工智能的语音交互方法和装置
CN107491468A (zh) * 2016-06-11 2017-12-19 苹果公司 具有数字助理的应用集成
CN108257601A (zh) * 2017-11-06 2018-07-06 广州市动景计算机科技有限公司 用于语音识别文本的方法、设备、客户端装置及电子设备
CN108369580A (zh) * 2015-12-11 2018-08-03 微软技术许可有限责任公司 针对屏幕上项目选择的基于语言和域独立模型的方法
CN110111793A (zh) * 2018-02-01 2019-08-09 腾讯科技(深圳)有限公司 音频信息的处理方法、装置、存储介质及电子装置
CN110168541A (zh) * 2016-07-29 2019-08-23 乐威指南公司 基于静态和时间知识图消除词语歧义的系统和方法
CN110310631A (zh) * 2019-06-28 2019-10-08 北京百度网讯科技有限公司 语音识别方法、装置、服务器和存储介质
CN110720098A (zh) * 2018-05-11 2020-01-21 谷歌有限责任公司 语音激活网络中的自适应接口
CN110741362A (zh) * 2018-05-03 2020-01-31 谷歌有限责任公司 音频查询的重叠处理的协调
CN110956967A (zh) * 2018-09-27 2020-04-03 上海博泰悦臻网络技术服务有限公司 基于声纹识别的车辆控制方法与车辆
CN111309136A (zh) * 2018-06-03 2020-06-19 苹果公司 加速的任务执行
US10720160B2 (en) 2018-06-01 2020-07-21 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10741181B2 (en) 2017-05-09 2020-08-11 Apple Inc. User interface for correcting recognition errors
CN111857636A (zh) * 2019-04-24 2020-10-30 本田技研工业株式会社 声音操作系统及装置、声音操作控制方法和记录介质
CN111880425A (zh) * 2014-05-30 2020-11-03 苹果公司 用于家庭自动化的智能助理
US10930282B2 (en) 2015-03-08 2021-02-23 Apple Inc. Competing devices responding to voice triggers
CN112416484A (zh) * 2018-06-03 2021-02-26 苹果公司 加速任务执行
US10944859B2 (en) 2018-06-03 2021-03-09 Apple Inc. Accelerated task performance
US10978090B2 (en) 2013-02-07 2021-04-13 Apple Inc. Voice trigger for a digital assistant
US11009970B2 (en) 2018-06-01 2021-05-18 Apple Inc. Attention aware virtual assistant dismissal
US11010127B2 (en) 2015-06-29 2021-05-18 Apple Inc. Virtual assistant for media playback
US11037565B2 (en) 2016-06-10 2021-06-15 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US11070949B2 (en) 2015-05-27 2021-07-20 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on an electronic device with a touch-sensitive display
US11087759B2 (en) 2015-03-08 2021-08-10 Apple Inc. Virtual assistant activation
US11120372B2 (en) 2011-06-03 2021-09-14 Apple Inc. Performing actions associated with task items that represent tasks to perform
US11126400B2 (en) 2015-09-08 2021-09-21 Apple Inc. Zero latency digital assistant
US11133008B2 (en) 2014-05-30 2021-09-28 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
CN113504888A (zh) * 2016-12-30 2021-10-15 谷歌有限责任公司 用于序列相关数据消息整合的系统和方法
US11152002B2 (en) 2016-06-11 2021-10-19 Apple Inc. Application integration with a digital assistant
US11169616B2 (en) 2018-05-07 2021-11-09 Apple Inc. Raise to speak
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US11217251B2 (en) 2019-05-06 2022-01-04 Apple Inc. Spoken notifications
US11237797B2 (en) 2019-05-31 2022-02-01 Apple Inc. User activity shortcut suggestions
US11269678B2 (en) 2012-05-15 2022-03-08 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11348582B2 (en) 2008-10-02 2022-05-31 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11380310B2 (en) 2017-05-12 2022-07-05 Apple Inc. Low-latency intelligent automated assistant
US11388291B2 (en) 2013-03-14 2022-07-12 Apple Inc. System and method for processing voicemail
US11405466B2 (en) 2017-05-12 2022-08-02 Apple Inc. Synchronization and task delegation of a digital assistant
US11423886B2 (en) 2010-01-18 2022-08-23 Apple Inc. Task flow identification based on user intent
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11431642B2 (en) 2018-06-01 2022-08-30 Apple Inc. Variable latency device coordination
US11468282B2 (en) 2015-05-15 2022-10-11 Apple Inc. Virtual assistant in a communication session
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11500672B2 (en) 2015-09-08 2022-11-15 Apple Inc. Distributed personal assistant
US11516537B2 (en) 2014-06-30 2022-11-29 Apple Inc. Intelligent automated assistant for TV user interactions
US11526368B2 (en) 2015-11-06 2022-12-13 Apple Inc. Intelligent automated assistant in a messaging environment
US11532306B2 (en) 2017-05-16 2022-12-20 Apple Inc. Detecting a trigger of a digital assistant
US11580990B2 (en) 2017-05-12 2023-02-14 Apple Inc. User-specific acoustic models
US11599331B2 (en) 2017-05-11 2023-03-07 Apple Inc. Maintaining privacy of personal information
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11657813B2 (en) 2019-05-31 2023-05-23 Apple Inc. Voice identification in digital assistant systems
US11671920B2 (en) 2007-04-03 2023-06-06 Apple Inc. Method and system for operating a multifunction portable electronic device using voice-activation
US11675829B2 (en) 2017-05-16 2023-06-13 Apple Inc. Intelligent automated assistant for media exploration
US11710482B2 (en) 2018-03-26 2023-07-25 Apple Inc. Natural assistant interaction
US11727219B2 (en) 2013-06-09 2023-08-15 Apple Inc. System and method for inferring user intent from speech inputs
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11765209B2 (en) 2020-05-11 2023-09-19 Apple Inc. Digital assistant hardware abstraction
US11798547B2 (en) 2013-03-15 2023-10-24 Apple Inc. Voice activated device for use with a voice-based digital assistant
US11809783B2 (en) 2016-06-11 2023-11-07 Apple Inc. Intelligent device arbitration and control
US11809483B2 (en) 2015-09-08 2023-11-07 Apple Inc. Intelligent automated assistant for media search and playback
US11853647B2 (en) 2015-12-23 2023-12-26 Apple Inc. Proactive assistance based on dialog communication between devices
US11854539B2 (en) 2018-05-07 2023-12-26 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US11853536B2 (en) 2015-09-08 2023-12-26 Apple Inc. Intelligent automated assistant in a media environment
US11886805B2 (en) 2015-11-09 2024-01-30 Apple Inc. Unconventional virtual assistant interactions
US11928604B2 (en) 2005-09-08 2024-03-12 Apple Inc. Method and apparatus for building an intelligent automated assistant

Families Citing this family (270)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001013255A2 (en) 1999-08-13 2001-02-22 Pixo, Inc. Displaying and traversing links in character array
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
ITFI20010199A1 (it) 2001-10-22 2003-04-22 Riccardo Vieri Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico
US7669134B1 (en) 2003-05-02 2010-02-23 Apple Inc. Method and apparatus for displaying information during an instant messaging session
US20060271520A1 (en) * 2005-05-27 2006-11-30 Ragan Gene Z Content-based implicit search query
US7633076B2 (en) 2005-09-30 2009-12-15 Apple Inc. Automated response to and sensing of user activity in portable devices
ITFI20070177A1 (it) 2007-07-26 2009-01-27 Riccardo Vieri Sistema per la creazione e impostazione di una campagna pubblicitaria derivante dall'inserimento di messaggi pubblicitari all'interno di uno scambio di messaggi e metodo per il suo funzionamento.
US9053089B2 (en) 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
US8595642B1 (en) 2007-10-04 2013-11-26 Great Northern Research, LLC Multiple shell multi faceted graphical user interface
US8165886B1 (en) 2007-10-04 2012-04-24 Great Northern Research LLC Speech interface system and method for control and interaction with applications on a computing system
US8364694B2 (en) 2007-10-26 2013-01-29 Apple Inc. Search assistant for digital media assets
US8620662B2 (en) 2007-11-20 2013-12-31 Apple Inc. Context-aware unit selection
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8327272B2 (en) 2008-01-06 2012-12-04 Apple Inc. Portable multifunction device, method, and graphical user interface for viewing and managing electronic calendars
US8065143B2 (en) 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
US8289283B2 (en) 2008-03-04 2012-10-16 Apple Inc. Language input interface on a device
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8464150B2 (en) 2008-06-07 2013-06-11 Apple Inc. Automatic language identification for dynamic text processing
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8768702B2 (en) 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US8898568B2 (en) 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8396714B2 (en) 2008-09-29 2013-03-12 Apple Inc. Systems and methods for concatenation of words in text to speech synthesis
US8583418B2 (en) * 2008-09-29 2013-11-12 Apple Inc. Systems and methods of detecting language and natural language strings for text to speech synthesis
US8352272B2 (en) 2008-09-29 2013-01-08 Apple Inc. Systems and methods for text to speech synthesis
US8352268B2 (en) 2008-09-29 2013-01-08 Apple Inc. Systems and methods for selective rate of speech and speech preferences for text to speech synthesis
US8355919B2 (en) 2008-09-29 2013-01-15 Apple Inc. Systems and methods for text normalization for text to speech synthesis
US8306836B2 (en) 2008-12-01 2012-11-06 Trimble Navigation Limited Management of materials on a construction site
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
US8862252B2 (en) 2009-01-30 2014-10-14 Apple Inc. Audio user interface for displayless electronic device
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10540976B2 (en) 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8682649B2 (en) 2009-11-12 2014-03-25 Apple Inc. Sentiment prediction from textual data
US8600743B2 (en) 2010-01-06 2013-12-03 Apple Inc. Noise profile determination for voice-related feature
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US8381107B2 (en) 2010-01-13 2013-02-19 Apple Inc. Adaptive audio feedback system and method
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8626511B2 (en) * 2010-01-22 2014-01-07 Google Inc. Multi-dimensional disambiguation of voice commands
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8639516B2 (en) 2010-06-04 2014-01-28 Apple Inc. User-specific noise suppression for voice quality improvements
US8738377B2 (en) * 2010-06-07 2014-05-27 Google Inc. Predicting and learning carrier phrases for speech input
US8713021B2 (en) 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
US9104670B2 (en) 2010-07-21 2015-08-11 Apple Inc. Customized search or acquisition of digital media assets
KR101699720B1 (ko) * 2010-08-03 2017-01-26 삼성전자주식회사 음성명령 인식 장치 및 음성명령 인식 방법
US9349368B1 (en) 2010-08-05 2016-05-24 Google Inc. Generating an audio notification based on detection of a triggering event
US8719006B2 (en) 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US10515147B2 (en) 2010-12-22 2019-12-24 Apple Inc. Using statistical language models for contextual lookup
US8781836B2 (en) 2011-02-22 2014-07-15 Apple Inc. Hearing assistance system for providing consistent human speech
US8688453B1 (en) * 2011-02-28 2014-04-01 Nuance Communications, Inc. Intent mining via analysis of utterances
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10672399B2 (en) 2011-06-03 2020-06-02 Apple Inc. Switching between text data and audio data based on a mapping
US8812294B2 (en) 2011-06-21 2014-08-19 Apple Inc. Translating phrases from one language into another using an order-based set of declarative rules
EP3754997B1 (en) 2011-08-05 2023-08-30 Samsung Electronics Co., Ltd. Method for controlling electronic apparatus based on voice recognition and motion recognition, and electronic apparatus applying the same
US8706472B2 (en) 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
DE102012019178A1 (de) * 2011-09-30 2013-04-04 Apple Inc. Verwendung von Kontextinformationen zum Erleichtern der Verarbeitung von Befehlen bei einem virtuellen Assistenten
AU2015203483A1 (en) * 2011-09-30 2015-07-16 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US9570086B1 (en) * 2011-11-18 2017-02-14 Google Inc. Intelligently canceling user input
US9620122B2 (en) * 2011-12-08 2017-04-11 Lenovo (Singapore) Pte. Ltd Hybrid speech recognition
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
KR101980173B1 (ko) * 2012-03-16 2019-05-20 삼성전자주식회사 서드 파티 테스크 공급자들의 서비스 제공을 대행하는 협력적 퍼스널 어시스턴트 시스템 및 그에 따른 방법
US9317605B1 (en) 2012-03-21 2016-04-19 Google Inc. Presenting forked auto-completions
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US8775442B2 (en) 2012-05-15 2014-07-08 Apple Inc. Semantic search using a single-source semantic model
US9275411B2 (en) * 2012-05-23 2016-03-01 Google Inc. Customized voice action system
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
WO2013185109A2 (en) 2012-06-08 2013-12-12 Apple Inc. Systems and methods for recognizing textual identifiers within a plurality of words
US8886576B1 (en) 2012-06-22 2014-11-11 Google Inc. Automatic label suggestions for albums based on machine learning
US8429103B1 (en) 2012-06-22 2013-04-23 Google Inc. Native machine learning service for user adaptation on a mobile platform
US8510238B1 (en) 2012-06-22 2013-08-13 Google, Inc. Method to predict session duration on mobile devices using native machine learning
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
KR20140004515A (ko) * 2012-07-03 2014-01-13 삼성전자주식회사 디스플레이 장치, 대화형 시스템 및 응답 정보 제공 방법
US20150169286A1 (en) * 2012-08-06 2015-06-18 Koninklijke Philips N.V. Audio activated and/or audio activation of a mode and/or a tool of an executing software application
US9424840B1 (en) 2012-08-31 2016-08-23 Amazon Technologies, Inc. Speech recognition platforms
US20150088523A1 (en) * 2012-09-10 2015-03-26 Google Inc. Systems and Methods for Designing Voice Applications
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8935167B2 (en) 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
US9082413B2 (en) 2012-11-02 2015-07-14 International Business Machines Corporation Electronic transaction authentication based on sound proximity
CN103871401B (zh) * 2012-12-10 2016-12-28 联想(北京)有限公司 一种语音识别的方法及电子设备
CN103871408B (zh) * 2012-12-14 2017-05-24 联想(北京)有限公司 一种语音识别方法及装置、电子设备
CN103020047A (zh) * 2012-12-31 2013-04-03 威盛电子股份有限公司 修正语音应答的方法及自然语言对话系统
US9977779B2 (en) 2013-03-14 2018-05-22 Apple Inc. Automatic supplementation of word correction dictionaries
US10572476B2 (en) 2013-03-14 2020-02-25 Apple Inc. Refining a search based on schedule items
US9733821B2 (en) 2013-03-14 2017-08-15 Apple Inc. Voice control to diagnose inadvertent activation of accessibility features
US10642574B2 (en) 2013-03-14 2020-05-05 Apple Inc. Device, method, and graphical user interface for outputting captions
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
AU2014251347B2 (en) 2013-03-15 2017-05-18 Apple Inc. Context-sensitive handling of interruptions
AU2014233517B2 (en) 2013-03-15 2017-05-25 Apple Inc. Training an at least partial voice command system
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
KR101857648B1 (ko) 2013-03-15 2018-05-15 애플 인크. 지능형 디지털 어시스턴트에 의한 사용자 트레이닝
KR101456974B1 (ko) * 2013-05-21 2014-10-31 삼성전자 주식회사 사용자 단말기, 음성인식 서버 및 음성인식 가이드 방법
US20140350941A1 (en) * 2013-05-21 2014-11-27 Microsoft Corporation Method For Finding Elements In A Webpage Suitable For Use In A Voice User Interface (Disambiguation)
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
EP3937002A1 (en) 2013-06-09 2022-01-12 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
AU2014278595B2 (en) 2013-06-13 2017-04-06 Apple Inc. System and method for emergency calls initiated by voice command
US9646606B2 (en) 2013-07-03 2017-05-09 Google Inc. Speech recognition using domain knowledge
US9786296B2 (en) * 2013-07-08 2017-10-10 Qualcomm Incorporated Method and apparatus for assigning keyword model to voice operated function
US20150031416A1 (en) 2013-07-23 2015-01-29 Motorola Mobility Llc Method and Device For Command Phrase Validation
US10186262B2 (en) 2013-07-31 2019-01-22 Microsoft Technology Licensing, Llc System with multiple simultaneous speech recognizers
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
CN103456300B (zh) * 2013-08-07 2016-04-20 科大讯飞股份有限公司 一种基于class-base语言模型的POI语音识别方法
US9361084B1 (en) 2013-11-14 2016-06-07 Google Inc. Methods and systems for installing and executing applications
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9858039B2 (en) * 2014-01-28 2018-01-02 Oracle International Corporation Voice recognition of commands extracted from user interface screen devices
US9589562B2 (en) 2014-02-21 2017-03-07 Microsoft Technology Licensing, Llc Pronunciation learning through correction logs
CN103870160B (zh) * 2014-03-26 2018-03-23 联想(北京)有限公司 一种信息处理方法及电子设备
US9959296B1 (en) * 2014-05-12 2018-05-01 Google Llc Providing suggestions within a document
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
KR101572932B1 (ko) 2014-07-11 2015-11-30 현대자동차주식회사 음성 인식 기능이 탑재된 차량에서의 발신 통화 제어 방법 및 장치
US9257120B1 (en) 2014-07-18 2016-02-09 Google Inc. Speaker verification using co-location information
US11676608B2 (en) 2021-04-02 2023-06-13 Google Llc Speaker verification using co-location information
US11942095B2 (en) 2014-07-18 2024-03-26 Google Llc Speaker verification using co-location information
KR102319530B1 (ko) 2014-08-18 2021-10-29 삼성전자주식회사 사용자 입력 처리 방법 및 장치
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9318107B1 (en) 2014-10-09 2016-04-19 Google Inc. Hotword detection on multiple devices
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9690542B2 (en) * 2014-12-22 2017-06-27 Microsoft Technology Licensing, Llc Scaling digital personal assistant agents across devices
CN105786356B (zh) * 2014-12-23 2019-08-09 阿里巴巴集团控股有限公司 一种应用的操作方法及装置
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US20160349894A1 (en) * 2015-05-27 2016-12-01 Remote Media, Llc Touchscreen Method and System for Sharing Multimedia Content
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
KR20170033722A (ko) * 2015-09-17 2017-03-27 삼성전자주식회사 사용자의 발화 처리 장치 및 방법과, 음성 대화 관리 장치
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US9973887B2 (en) * 2016-01-21 2018-05-15 Google Llc Sharing navigation data among co-located computing devices
US9779735B2 (en) 2016-02-24 2017-10-03 Google Inc. Methods and systems for detecting and processing speech signals
US9922648B2 (en) * 2016-03-01 2018-03-20 Google Llc Developer voice actions system
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
KR20170138279A (ko) * 2016-06-07 2017-12-15 엘지전자 주식회사 이동 단말기 및 그 제어방법
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US10462619B2 (en) * 2016-06-08 2019-10-29 Google Llc Providing a personal assistant module with a selectively-traversable state machine
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
US9691384B1 (en) 2016-08-19 2017-06-27 Google Inc. Voice action biasing system
US9972320B2 (en) 2016-08-24 2018-05-15 Google Llc Hotword detection on multiple devices
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10403273B2 (en) * 2016-09-09 2019-09-03 Oath Inc. Method and system for facilitating a guided dialog between a user and a conversational agent
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US9984688B2 (en) * 2016-09-28 2018-05-29 Visteon Global Technologies, Inc. Dynamically adjusting a voice recognition system
EP4328905A2 (en) 2016-11-07 2024-02-28 Google Llc Recorded media hotword trigger suppression
TWI612472B (zh) * 2016-12-01 2018-01-21 財團法人資訊工業策進會 指令轉換方法與系統以及非暫態電腦可讀取記錄媒體
JP6725006B2 (ja) * 2016-12-02 2020-07-15 ヤマハ株式会社 制御装置および機器制御システム
WO2018101459A1 (ja) 2016-12-02 2018-06-07 ヤマハ株式会社 コンテンツ再生機器、収音機器、及びコンテンツ再生システム
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
KR102502220B1 (ko) 2016-12-20 2023-02-22 삼성전자주식회사 전자 장치, 그의 사용자 발화 의도 판단 방법 및 비일시적 컴퓨터 판독가능 기록매체
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10529324B1 (en) * 2016-12-27 2020-01-07 Cognistic, LLC Geographical based voice transcription
US10706843B1 (en) * 2017-03-09 2020-07-07 Amazon Technologies, Inc. Contact resolution for communications systems
JP2018167339A (ja) * 2017-03-29 2018-11-01 富士通株式会社 発話制御プログラム、情報処理装置及び発話制御方法
US11170768B2 (en) 2017-04-17 2021-11-09 Samsung Electronics Co., Ltd Device for performing task corresponding to user utterance
KR102414122B1 (ko) 2017-04-19 2022-06-29 삼성전자주식회사 사용자 발화를 처리하는 전자 장치 및 그 동작 방법
US10497364B2 (en) 2017-04-20 2019-12-03 Google Llc Multi-user authentication on a device
KR20180118461A (ko) * 2017-04-21 2018-10-31 엘지전자 주식회사 음성 인식 장치 및 음성 인식 방법
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10395650B2 (en) 2017-06-05 2019-08-27 Google Llc Recorded media hotword trigger suppression
CN107146616B (zh) * 2017-06-13 2020-05-08 Oppo广东移动通信有限公司 设备控制方法及相关产品
US10607606B2 (en) 2017-06-19 2020-03-31 Lenovo (Singapore) Pte. Ltd. Systems and methods for execution of digital assistant
US10854191B1 (en) * 2017-09-20 2020-12-01 Amazon Technologies, Inc. Machine learning models for data driven dialog management
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10672379B1 (en) * 2017-09-25 2020-06-02 Amazon Technologies, Inc. Systems and methods for selecting a recipient device for communications
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
EP3695419A1 (en) 2017-10-10 2020-08-19 Sanofi Medical query answering apparatus
US11445235B2 (en) * 2017-10-24 2022-09-13 Comcast Cable Communications, Llc Determining context to initiate interactivity
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US11343588B2 (en) 2018-03-27 2022-05-24 Saturn Licensing Llc Information processing apparatus, information processing method, transmission apparatus, and transmission method
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
KR102612835B1 (ko) * 2018-04-20 2023-12-13 삼성전자주식회사 전자 장치 및 전자 장치의 기능 실행 방법
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US10692496B2 (en) 2018-05-22 2020-06-23 Google Llc Hotword suppression
CN108632653B (zh) * 2018-05-30 2022-04-19 腾讯科技(深圳)有限公司 语音管控方法、智能电视及计算机可读存储介质
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
WO2019244455A1 (ja) * 2018-06-21 2019-12-26 ソニー株式会社 情報処理装置及び情報処理方法
CN108881466B (zh) * 2018-07-04 2020-06-26 百度在线网络技术(北京)有限公司 交互方法和装置
US11151986B1 (en) * 2018-09-21 2021-10-19 Amazon Technologies, Inc. Learning how to rewrite user-specific input for natural language understanding
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US20220046310A1 (en) * 2018-10-15 2022-02-10 Sony Corporation Information processing device, information processing method, and computer program
US10984791B2 (en) 2018-11-29 2021-04-20 Hughes Network Systems, Llc Spoken language interface for network management
KR20200099036A (ko) * 2019-02-13 2020-08-21 삼성전자주식회사 음성 인식 기능을 이용한 동작을 수행하는 전자 장치 및 이를 이용한 동작과 관련된 알림을 제공하는 방법
KR20200099380A (ko) * 2019-02-14 2020-08-24 삼성전자주식회사 음성 인식 서비스를 제공하는 방법 및 그 전자 장치
US11003419B2 (en) * 2019-03-19 2021-05-11 Spotify Ab Refinement of voice query interpretation
EP3983909A1 (en) * 2019-06-12 2022-04-20 Liveperson, Inc. Systems and methods for communication system intent analysis
US11875231B2 (en) 2019-06-26 2024-01-16 Samsung Electronics Co., Ltd. System and method for complex task machine learning
US11438452B1 (en) 2019-08-09 2022-09-06 Apple Inc. Propagating context information in a privacy preserving manner
JP7440654B2 (ja) * 2020-02-28 2024-02-28 グーグル エルエルシー デジタルアクション実行のためのインターフェースおよびモード選択
US11463437B2 (en) * 2020-03-04 2022-10-04 International Business Machines Corporation Device activation verification
US11301902B2 (en) * 2020-04-16 2022-04-12 At&T Intellectual Property I, L.P. Methods, systems, and devices for providing information and recommended actions regarding advertising entities using a virtual assistant
US20220044676A1 (en) * 2020-08-04 2022-02-10 Bank Of America Corporation Determination of user intent using contextual analysis
US20220157315A1 (en) * 2020-11-13 2022-05-19 Apple Inc. Speculative task flow execution
WO2022140178A1 (en) * 2020-12-21 2022-06-30 Cerence Operating Company Routing of user commands across disparate ecosystems
US11620993B2 (en) * 2021-06-09 2023-04-04 Merlyn Mind, Inc. Multimodal intent entity resolver
US11507346B1 (en) * 2021-10-25 2022-11-22 GM Global Technology Operations LLC Intelligent text and voice feedback for voice assistant
EP4210047A1 (en) * 2022-01-05 2023-07-12 Honeywell International Inc. Contextual editable speech recognition methods and systems
WO2024029850A1 (ko) * 2022-08-05 2024-02-08 삼성전자주식회사 언어 모델에 기초하여 사용자 발화를 처리하는 방법 및 전자 장치
WO2024072142A1 (ko) * 2022-09-29 2024-04-04 삼성전자 주식회사 서술어를 포함하지 않는 발화를 처리하는 전자 장치, 동작 방법 및 저장 매체

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090030696A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility
CN101366074A (zh) * 2005-08-09 2009-02-11 移动声控有限公司 话音控制式无线通信装置系统
US20090157404A1 (en) * 2007-12-17 2009-06-18 Verizon Business Network Services Inc. Grammar weighting voice recognition information
CN101589427A (zh) * 2005-06-30 2009-11-25 微软公司 语音应用程序装备和记入

Family Cites Families (102)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5027406A (en) * 1988-12-06 1991-06-25 Dragon Systems, Inc. Method for interactive speech recognition and training
JPH03163623A (ja) * 1989-06-23 1991-07-15 Articulate Syst Inc 音声制御コンピュータ・インターフェース
US6965864B1 (en) * 1995-04-10 2005-11-15 Texas Instruments Incorporated Voice activated hypermedia systems using grammatical metadata
US6292767B1 (en) * 1995-07-18 2001-09-18 Nuance Communications Method and system for building and running natural language understanding systems
US5712957A (en) * 1995-09-08 1998-01-27 Carnegie Mellon University Locating and correcting erroneously recognized portions of utterances by rescoring based on two n-best lists
US6064959A (en) * 1997-03-28 2000-05-16 Dragon Systems, Inc. Error correction in speech recognition
US6961700B2 (en) * 1996-09-24 2005-11-01 Allvoice Computing Plc Method and apparatus for processing the output of a speech recognition engine
US5797123A (en) 1996-10-01 1998-08-18 Lucent Technologies Inc. Method of key-phase detection and verification for flexible speech understanding
US5895466A (en) * 1997-08-19 1999-04-20 At&T Corp Automated natural language understanding customer service system
US6021384A (en) * 1997-10-29 2000-02-01 At&T Corp. Automatic generation of superwords
US6633235B1 (en) * 1998-06-15 2003-10-14 Winbond Electronics Corp. Method and apparatus for allowing a personal computer to control one or more devices
JP2000076040A (ja) * 1998-09-03 2000-03-14 Matsushita Electric Ind Co Ltd 音声入力ネットワーク端末装置
US6453292B2 (en) * 1998-10-28 2002-09-17 International Business Machines Corporation Command boundary identifier for conversational natural language
US6839669B1 (en) * 1998-11-05 2005-01-04 Scansoft, Inc. Performing actions identified in recognized speech
US7881936B2 (en) * 1998-12-04 2011-02-01 Tegic Communications, Inc. Multimodal disambiguation of speech recognition
US8275617B1 (en) * 1998-12-17 2012-09-25 Nuance Communications, Inc. Speech command input recognition system for interactive computer display with interpretation of ancillary relevant speech query terms into commands
US6523061B1 (en) * 1999-01-05 2003-02-18 Sri International, Inc. System, method, and article of manufacture for agent-based navigation in a speech-based data navigation system
US6556970B1 (en) * 1999-01-28 2003-04-29 Denso Corporation Apparatus for determining appropriate series of words carrying information to be recognized
US6643620B1 (en) * 1999-03-15 2003-11-04 Matsushita Electric Industrial Co., Ltd. Voice activated controller for recording and retrieving audio/video programs
US20020032564A1 (en) * 2000-04-19 2002-03-14 Farzad Ehsani Phrase-based dialogue modeling with particular application to creating a recognition grammar for a voice-controlled user interface
US6513006B2 (en) * 1999-08-26 2003-01-28 Matsushita Electronic Industrial Co., Ltd. Automatic control of household activity using speech recognition and natural language
US7725307B2 (en) * 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US6912498B2 (en) * 2000-05-02 2005-06-28 Scansoft, Inc. Error correction in speech recognition by correcting text around selected area
US7447299B1 (en) * 2000-05-02 2008-11-04 Microsoft Corporation Voice and telephone keypad based data entry for interacting with voice information services
US6587824B1 (en) * 2000-05-04 2003-07-01 Visteon Global Technologies, Inc. Selective speaker adaptation for an in-vehicle speech recognition system
US20060143007A1 (en) * 2000-07-24 2006-06-29 Koh V E User interaction with voice information services
US6922670B2 (en) * 2000-10-24 2005-07-26 Sanyo Electric Co., Ltd. User support apparatus and system using agents
US6795808B1 (en) * 2000-10-30 2004-09-21 Koninklijke Philips Electronics N.V. User interface/entertainment device that simulates personal interaction and charges external database with relevant data
EP1346344A1 (en) * 2000-12-18 2003-09-24 Koninklijke Philips Electronics N.V. Store speech, select vocabulary to recognize word
US6801897B2 (en) * 2001-03-28 2004-10-05 International Business Machines Corporation Method of providing concise forms of natural commands
JP3523213B2 (ja) * 2001-03-28 2004-04-26 株式会社ジャストシステム コマンド処理装置、コマンド処理方法、及びコマンド処理プログラム
US7366673B2 (en) * 2001-06-15 2008-04-29 International Business Machines Corporation Selective enablement of speech recognition grammars
US20020198714A1 (en) * 2001-06-26 2002-12-26 Guojun Zhou Statistical spoken dialog system
US20030093419A1 (en) * 2001-08-17 2003-05-15 Srinivas Bangalore System and method for querying information using a flexible multi-modal interface
JP3997459B2 (ja) * 2001-10-02 2007-10-24 株式会社日立製作所 音声入力システムおよび音声ポータルサーバおよび音声入力端末
US7099829B2 (en) * 2001-11-06 2006-08-29 International Business Machines Corporation Method of dynamically displaying speech recognition system information
US7861169B2 (en) * 2001-11-19 2010-12-28 Ricoh Co. Ltd. Multimedia print driver dialog interfaces
US20030149566A1 (en) * 2002-01-02 2003-08-07 Esther Levin System and method for a spoken language interface to a large database of changing records
US7203907B2 (en) * 2002-02-07 2007-04-10 Sap Aktiengesellschaft Multi-modal synchronization
US7693720B2 (en) * 2002-07-15 2010-04-06 Voicebox Technologies, Inc. Mobile systems and methods for responding to natural language speech utterance
US7386454B2 (en) * 2002-07-31 2008-06-10 International Business Machines Corporation Natural error handling in speech recognition
US7519534B2 (en) * 2002-10-31 2009-04-14 Agiletv Corporation Speech controlled access to content on a presentation medium
US6993482B2 (en) * 2002-12-18 2006-01-31 Motorola, Inc. Method and apparatus for displaying speech recognition results
US20050004799A1 (en) * 2002-12-31 2005-01-06 Yevgenly Lyudovyk System and method for a spoken language interface to a large database of changing records
US20050021826A1 (en) * 2003-04-21 2005-01-27 Sunil Kumar Gateway controller for a multimodal system that provides inter-communication among different data and voice servers through various mobile devices, and interface for that controller
US7539619B1 (en) * 2003-09-05 2009-05-26 Spoken Translation Ind. Speech-enabled language translation system and method enabling interactive user supervision of translation and speech recognition accuracy
CN1973525B (zh) * 2004-06-22 2012-11-07 语音信号技术公司 一种在移动装置上提供运营商业务的方法及相应的移动装置
US7599838B2 (en) * 2004-09-01 2009-10-06 Sap Aktiengesellschaft Speech animation with behavioral contexts for application scenarios
US8942985B2 (en) * 2004-11-16 2015-01-27 Microsoft Corporation Centralized method and system for clarifying voice commands
US7457751B2 (en) * 2004-11-30 2008-11-25 Vocera Communications, Inc. System and method for improving recognition accuracy in speech recognition applications
US7751551B2 (en) * 2005-01-10 2010-07-06 At&T Intellectual Property I, L.P. System and method for speech-enabled call routing
US7450698B2 (en) 2005-01-14 2008-11-11 At&T Intellectual Property 1, L.P. System and method of utilizing a hybrid semantic model for speech recognition
US7437297B2 (en) * 2005-01-27 2008-10-14 International Business Machines Corporation Systems and methods for predicting consequences of misinterpretation of user commands in automated systems
US7720684B2 (en) * 2005-04-29 2010-05-18 Nuance Communications, Inc. Method, apparatus, and computer program product for one-step correction of voice interaction
JP4804052B2 (ja) * 2005-07-08 2011-10-26 アルパイン株式会社 音声認識装置、音声認識装置を備えたナビゲーション装置及び音声認識装置の音声認識方法
US7424431B2 (en) * 2005-07-11 2008-09-09 Stragent, Llc System, method and computer program product for adding voice activation and voice control to a media player
US7640160B2 (en) * 2005-08-05 2009-12-29 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7949529B2 (en) * 2005-08-29 2011-05-24 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions
US8265939B2 (en) * 2005-08-31 2012-09-11 Nuance Communications, Inc. Hierarchical methods and apparatus for extracting user intent from spoken utterances
US7603360B2 (en) * 2005-09-14 2009-10-13 Jumptap, Inc. Location influenced search results
JP2007142840A (ja) * 2005-11-18 2007-06-07 Canon Inc 情報処理装置及び情報処理方法
CN101495955B (zh) * 2005-12-12 2013-06-19 特捷通讯公司 移动设备检索与导航
US8271107B2 (en) * 2006-01-13 2012-09-18 International Business Machines Corporation Controlling audio operation for data management and data rendering
EP1994529B1 (en) * 2006-02-14 2011-12-07 Intellectual Ventures Fund 21 LLC Communication device having speaker independent speech recognition
US20070208567A1 (en) * 2006-03-01 2007-09-06 At&T Corp. Error Correction In Automatic Speech Recognition Transcripts
US20070239531A1 (en) * 2006-03-30 2007-10-11 Francoise Beaufays Controlling the serving of serially rendered ads, such as audio ads
JP4551961B2 (ja) * 2006-03-31 2010-09-29 パイオニア株式会社 音声入力支援装置、その方法、そのプログラム、そのプログラムを記録した記録媒体、および、ナビゲーション装置
US8234120B2 (en) * 2006-07-26 2012-07-31 Nuance Communications, Inc. Performing a safety analysis for user-defined voice commands to ensure that the voice commands do not cause speech recognition ambiguities
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8099287B2 (en) * 2006-12-05 2012-01-17 Nuance Communications, Inc. Automatically providing a user with substitutes for potentially ambiguous user-defined speech commands
US8886540B2 (en) * 2007-03-07 2014-11-11 Vlingo Corporation Using speech recognition results based on an unstructured language model in a mobile communication facility application
US8886545B2 (en) * 2007-03-07 2014-11-11 Vlingo Corporation Dealing with switch latency in speech recognition
US8650030B2 (en) * 2007-04-02 2014-02-11 Google Inc. Location based responses to telephone requests
US8352264B2 (en) * 2008-03-19 2013-01-08 Canyon IP Holdings, LLC Corrective feedback loop for automated speech recognition
JP4412504B2 (ja) * 2007-04-17 2010-02-10 本田技研工業株式会社 音声認識装置、音声認識方法、及び音声認識用プログラム
US8438024B2 (en) * 2007-10-05 2013-05-07 International Business Machines Corporation Indexing method for quick search of voice recognition results
US8140335B2 (en) * 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US8478578B2 (en) * 2008-01-09 2013-07-02 Fluential, Llc Mobile speech-to-speech interpretation system
US8099289B2 (en) * 2008-02-13 2012-01-17 Sensory, Inc. Voice interface and search for electronic devices including bluetooth headsets and remote systems
US7917368B2 (en) * 2008-02-25 2011-03-29 Mitsubishi Electric Research Laboratories, Inc. Method for interacting with users of speech recognition systems
US8676577B2 (en) * 2008-03-31 2014-03-18 Canyon IP Holdings, LLC Use of metadata to post process speech recognition output
KR101427686B1 (ko) * 2008-06-09 2014-08-12 삼성전자주식회사 프로그램 선택 방법 및 그 장치
US8762153B2 (en) * 2008-08-18 2014-06-24 At&T Intellectual Property I, L.P. System and method for improving name dialer performance
US8676904B2 (en) * 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
WO2010061751A1 (ja) * 2008-11-25 2010-06-03 旭化成株式会社 重み係数生成装置、音声認識装置、ナビゲーション装置、車両、重み係数生成方法、及び重み係数生成プログラム
JP5334178B2 (ja) * 2009-01-21 2013-11-06 クラリオン株式会社 音声認識装置およびデータ更新方法
US9311917B2 (en) * 2009-01-21 2016-04-12 International Business Machines Corporation Machine, system and method for user-guided teaching of deictic references and referent objects of deictic references to a conversational command and control system
KR101567603B1 (ko) * 2009-05-07 2015-11-20 엘지전자 주식회사 멀티 음성 시스템의 동작 제어 장치 및 방법
KR20120040160A (ko) * 2009-05-27 2012-04-26 구글 인코포레이티드 검색 결과들 내의 컴퓨터 어플리케이션 데이터
EP4318463A3 (en) * 2009-12-23 2024-02-28 Google LLC Multi-modal input on an electronic device
US8914401B2 (en) * 2009-12-30 2014-12-16 At&T Intellectual Property I, L.P. System and method for an N-best list interface
US8494852B2 (en) * 2010-01-05 2013-07-23 Google Inc. Word-level correction of speech input
US8433570B2 (en) * 2010-01-06 2013-04-30 General Motors Llc Method of recognizing speech
US8626511B2 (en) * 2010-01-22 2014-01-07 Google Inc. Multi-dimensional disambiguation of voice commands
US20110184740A1 (en) * 2010-01-26 2011-07-28 Google Inc. Integration of Embedded and Network Speech Recognizers
US20110246944A1 (en) * 2010-04-06 2011-10-06 Google Inc. Application-independent text entry
US8392411B2 (en) * 2010-05-20 2013-03-05 Google Inc. Automatic routing of search results
US8738377B2 (en) * 2010-06-07 2014-05-27 Google Inc. Predicting and learning carrier phrases for speech input
US8224654B1 (en) * 2010-08-06 2012-07-17 Google Inc. Editing voice input
US8473289B2 (en) * 2010-08-06 2013-06-25 Google Inc. Disambiguating input based on context
US8359020B2 (en) * 2010-08-06 2013-01-22 Google Inc. Automatically monitoring for voice input based on context
US8731939B1 (en) * 2010-08-06 2014-05-20 Google Inc. Routing queries based on carrier phrase registration

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101589427A (zh) * 2005-06-30 2009-11-25 微软公司 语音应用程序装备和记入
CN101366074A (zh) * 2005-08-09 2009-02-11 移动声控有限公司 话音控制式无线通信装置系统
US20090030696A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility
US20090157404A1 (en) * 2007-12-17 2009-06-18 Verizon Business Network Services Inc. Grammar weighting voice recognition information

Cited By (129)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11928604B2 (en) 2005-09-08 2024-03-12 Apple Inc. Method and apparatus for building an intelligent automated assistant
US11671920B2 (en) 2007-04-03 2023-06-06 Apple Inc. Method and system for operating a multifunction portable electronic device using voice-activation
US11348582B2 (en) 2008-10-02 2022-05-31 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US11423886B2 (en) 2010-01-18 2022-08-23 Apple Inc. Task flow identification based on user intent
US11120372B2 (en) 2011-06-03 2021-09-14 Apple Inc. Performing actions associated with task items that represent tasks to perform
CN103092887A (zh) * 2011-11-07 2013-05-08 联想(北京)有限公司 电子设备及其语音信息提供方法
CN103092887B (zh) * 2011-11-07 2016-10-05 联想(北京)有限公司 电子设备及其语音信息提供方法
CN103377652A (zh) * 2012-04-25 2013-10-30 上海智臻网络科技有限公司 一种用于进行语音识别的方法、装置和设备
CN103377652B (zh) * 2012-04-25 2016-04-13 上海智臻智能网络科技股份有限公司 一种用于进行语音识别的方法、装置和设备
US11321116B2 (en) 2012-05-15 2022-05-03 Apple Inc. Systems and methods for integrating third party services with a digital assistant
CN102722525A (zh) * 2012-05-15 2012-10-10 北京百度网讯科技有限公司 通讯录人名的语言模型建立方法、语音搜索方法及其系统
US11269678B2 (en) 2012-05-15 2022-03-08 Apple Inc. Systems and methods for integrating third party services with a digital assistant
CN103517094A (zh) * 2012-06-15 2014-01-15 三星电子株式会社 服务器和控制该服务器的方法
CN103517094B (zh) * 2012-06-15 2018-04-17 三星电子株式会社 服务器和控制该服务器的方法
CN103915094A (zh) * 2012-12-28 2014-07-09 财团法人工业技术研究院 基于目标名称识别的共享语音操控方法与装置
US11636869B2 (en) 2013-02-07 2023-04-25 Apple Inc. Voice trigger for a digital assistant
US10978090B2 (en) 2013-02-07 2021-04-13 Apple Inc. Voice trigger for a digital assistant
US11388291B2 (en) 2013-03-14 2022-07-12 Apple Inc. System and method for processing voicemail
US11798547B2 (en) 2013-03-15 2023-10-24 Apple Inc. Voice activated device for use with a voice-based digital assistant
CN104112448B (zh) * 2013-04-19 2017-07-14 通用汽车环球科技运作有限责任公司 用于管理语音系统的对话的方法和系统
CN104112448A (zh) * 2013-04-19 2014-10-22 通用汽车环球科技运作有限责任公司 用于管理语音系统的对话的方法和系统
US11727219B2 (en) 2013-06-09 2023-08-15 Apple Inc. System and method for inferring user intent from speech inputs
CN104299623B (zh) * 2013-07-15 2017-09-29 国际商业机器公司 语音应用中用于自动确认和消歧模块的方法和系统
CN104299623A (zh) * 2013-07-15 2015-01-21 国际商业机器公司 语音应用中用于自动确认和消歧模块的方法和系统
TWI601032B (zh) * 2013-08-02 2017-10-01 晨星半導體股份有限公司 應用於聲控裝置的控制器與相關方法
CN104424944B (zh) * 2013-08-19 2018-01-23 联想(北京)有限公司 一种信息处理方法及电子设备
CN104424944A (zh) * 2013-08-19 2015-03-18 联想(北京)有限公司 一种信息处理方法及电子设备
CN104699236A (zh) * 2013-12-05 2015-06-10 联想(新加坡)私人有限公司 利用境况解释自然语言语音识别命令
US11138971B2 (en) 2013-12-05 2021-10-05 Lenovo (Singapore) Pte. Ltd. Using context to interpret natural language speech recognition commands
CN110797019B (zh) * 2014-05-30 2023-08-29 苹果公司 多命令单一话语输入方法
US11670289B2 (en) 2014-05-30 2023-06-06 Apple Inc. Multi-command single utterance input method
US11133008B2 (en) 2014-05-30 2021-09-28 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US11810562B2 (en) 2014-05-30 2023-11-07 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
CN110797019A (zh) * 2014-05-30 2020-02-14 苹果公司 多命令单一话语输入方法
US11257504B2 (en) 2014-05-30 2022-02-22 Apple Inc. Intelligent assistant for home automation
US11699448B2 (en) 2014-05-30 2023-07-11 Apple Inc. Intelligent assistant for home automation
CN106471570B (zh) * 2014-05-30 2019-10-01 苹果公司 多命令单一话语输入方法
US10878809B2 (en) 2014-05-30 2020-12-29 Apple Inc. Multi-command single utterance input method
US10497365B2 (en) 2014-05-30 2019-12-03 Apple Inc. Multi-command single utterance input method
CN106471570A (zh) * 2014-05-30 2017-03-01 苹果公司 多命令单一话语输入方法
CN111880425A (zh) * 2014-05-30 2020-11-03 苹果公司 用于家庭自动化的智能助理
US11516537B2 (en) 2014-06-30 2022-11-29 Apple Inc. Intelligent automated assistant for TV user interactions
CN105960673A (zh) * 2014-10-09 2016-09-21 谷歌公司 多个设备上的热词检测
CN105960673B (zh) * 2014-10-09 2019-12-31 谷歌有限责任公司 多个设备上的热词检测
US10665239B2 (en) 2014-10-09 2020-05-26 Google Llc Hotword detection on multiple devices
US11024313B2 (en) 2014-10-09 2021-06-01 Google Llc Hotword detection on multiple devices
CN107004413A (zh) * 2014-11-28 2017-08-01 微软技术许可有限责任公司 扩展数字个人助理动作提供者
US10930282B2 (en) 2015-03-08 2021-02-23 Apple Inc. Competing devices responding to voice triggers
US11842734B2 (en) 2015-03-08 2023-12-12 Apple Inc. Virtual assistant activation
US11087759B2 (en) 2015-03-08 2021-08-10 Apple Inc. Virtual assistant activation
CN104731918A (zh) * 2015-03-25 2015-06-24 百度在线网络技术(北京)有限公司 一种语音搜索方法及装置
US11468282B2 (en) 2015-05-15 2022-10-11 Apple Inc. Virtual assistant in a communication session
US11070949B2 (en) 2015-05-27 2021-07-20 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on an electronic device with a touch-sensitive display
US11947873B2 (en) 2015-06-29 2024-04-02 Apple Inc. Virtual assistant for media playback
US11010127B2 (en) 2015-06-29 2021-05-18 Apple Inc. Virtual assistant for media playback
US11500672B2 (en) 2015-09-08 2022-11-15 Apple Inc. Distributed personal assistant
US11853536B2 (en) 2015-09-08 2023-12-26 Apple Inc. Intelligent automated assistant in a media environment
US11126400B2 (en) 2015-09-08 2021-09-21 Apple Inc. Zero latency digital assistant
US11809483B2 (en) 2015-09-08 2023-11-07 Apple Inc. Intelligent automated assistant for media search and playback
US11550542B2 (en) 2015-09-08 2023-01-10 Apple Inc. Zero latency digital assistant
US11526368B2 (en) 2015-11-06 2022-12-13 Apple Inc. Intelligent automated assistant in a messaging environment
US11886805B2 (en) 2015-11-09 2024-01-30 Apple Inc. Unconventional virtual assistant interactions
CN108369580B (zh) * 2015-12-11 2021-11-26 微软技术许可有限责任公司 针对屏幕上项目选择的基于语言和域独立模型的方法
CN108369580A (zh) * 2015-12-11 2018-08-03 微软技术许可有限责任公司 针对屏幕上项目选择的基于语言和域独立模型的方法
US11853647B2 (en) 2015-12-23 2023-12-26 Apple Inc. Proactive assistance based on dialog communication between devices
US11657820B2 (en) 2016-06-10 2023-05-23 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US11037565B2 (en) 2016-06-10 2021-06-15 Apple Inc. Intelligent digital assistant in a multi-tasking environment
CN107491468A (zh) * 2016-06-11 2017-12-19 苹果公司 具有数字助理的应用集成
US11152002B2 (en) 2016-06-11 2021-10-19 Apple Inc. Application integration with a digital assistant
US11809783B2 (en) 2016-06-11 2023-11-07 Apple Inc. Intelligent device arbitration and control
US11749275B2 (en) 2016-06-11 2023-09-05 Apple Inc. Application integration with a digital assistant
CN107491468B (zh) * 2016-06-11 2021-06-01 苹果公司 具有数字助理的应用集成
CN110168541B (zh) * 2016-07-29 2023-10-17 乐威指南公司 基于静态和时间知识图消除词语歧义的系统和方法
CN110168541A (zh) * 2016-07-29 2019-08-23 乐威指南公司 基于静态和时间知识图消除词语歧义的系统和方法
CN113504888A (zh) * 2016-12-30 2021-10-15 谷歌有限责任公司 用于序列相关数据消息整合的系统和方法
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US11656884B2 (en) 2017-01-09 2023-05-23 Apple Inc. Application integration with a digital assistant
US10741181B2 (en) 2017-05-09 2020-08-11 Apple Inc. User interface for correcting recognition errors
US11599331B2 (en) 2017-05-11 2023-03-07 Apple Inc. Maintaining privacy of personal information
US11405466B2 (en) 2017-05-12 2022-08-02 Apple Inc. Synchronization and task delegation of a digital assistant
US11580990B2 (en) 2017-05-12 2023-02-14 Apple Inc. User-specific acoustic models
US11380310B2 (en) 2017-05-12 2022-07-05 Apple Inc. Low-latency intelligent automated assistant
US11675829B2 (en) 2017-05-16 2023-06-13 Apple Inc. Intelligent automated assistant for media exploration
US11532306B2 (en) 2017-05-16 2022-12-20 Apple Inc. Detecting a trigger of a digital assistant
CN107274889A (zh) * 2017-06-19 2017-10-20 北京紫博光彦信息技术有限公司 一种根据语音生成业务单据的方法及装置
CN107452378A (zh) * 2017-08-15 2017-12-08 北京百度网讯科技有限公司 基于人工智能的语音交互方法和装置
CN108257601A (zh) * 2017-11-06 2018-07-06 广州市动景计算机科技有限公司 用于语音识别文本的方法、设备、客户端装置及电子设备
CN110111793A (zh) * 2018-02-01 2019-08-09 腾讯科技(深圳)有限公司 音频信息的处理方法、装置、存储介质及电子装置
US11710482B2 (en) 2018-03-26 2023-07-25 Apple Inc. Natural assistant interaction
CN110741362A (zh) * 2018-05-03 2020-01-31 谷歌有限责任公司 音频查询的重叠处理的协调
US11854539B2 (en) 2018-05-07 2023-12-26 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US11169616B2 (en) 2018-05-07 2021-11-09 Apple Inc. Raise to speak
US11487364B2 (en) 2018-05-07 2022-11-01 Apple Inc. Raise to speak
US11900923B2 (en) 2018-05-07 2024-02-13 Apple Inc. Intelligent automated assistant for delivering content from user experiences
CN110720098A (zh) * 2018-05-11 2020-01-21 谷歌有限责任公司 语音激活网络中的自适应接口
US10720160B2 (en) 2018-06-01 2020-07-21 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10984798B2 (en) 2018-06-01 2021-04-20 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11431642B2 (en) 2018-06-01 2022-08-30 Apple Inc. Variable latency device coordination
US11009970B2 (en) 2018-06-01 2021-05-18 Apple Inc. Attention aware virtual assistant dismissal
US11360577B2 (en) 2018-06-01 2022-06-14 Apple Inc. Attention aware virtual assistant dismissal
CN111309136A (zh) * 2018-06-03 2020-06-19 苹果公司 加速的任务执行
CN112416484A (zh) * 2018-06-03 2021-02-26 苹果公司 加速任务执行
CN111309136B (zh) * 2018-06-03 2021-10-26 苹果公司 加速的任务执行
US11076039B2 (en) 2018-06-03 2021-07-27 Apple Inc. Accelerated task performance
CN113867516A (zh) * 2018-06-03 2021-12-31 苹果公司 加速的任务执行
US10944859B2 (en) 2018-06-03 2021-03-09 Apple Inc. Accelerated task performance
CN110956967A (zh) * 2018-09-27 2020-04-03 上海博泰悦臻网络技术服务有限公司 基于声纹识别的车辆控制方法与车辆
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
CN111857636A (zh) * 2019-04-24 2020-10-30 本田技研工业株式会社 声音操作系统及装置、声音操作控制方法和记录介质
US11217251B2 (en) 2019-05-06 2022-01-04 Apple Inc. Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11705130B2 (en) 2019-05-06 2023-07-18 Apple Inc. Spoken notifications
US11888791B2 (en) 2019-05-21 2024-01-30 Apple Inc. Providing message response suggestions
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11657813B2 (en) 2019-05-31 2023-05-23 Apple Inc. Voice identification in digital assistant systems
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11237797B2 (en) 2019-05-31 2022-02-01 Apple Inc. User activity shortcut suggestions
US11360739B2 (en) 2019-05-31 2022-06-14 Apple Inc. User activity shortcut suggestions
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
CN110310631A (zh) * 2019-06-28 2019-10-08 北京百度网讯科技有限公司 语音识别方法、装置、服务器和存储介质
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
US11924254B2 (en) 2020-05-11 2024-03-05 Apple Inc. Digital assistant hardware abstraction
US11765209B2 (en) 2020-05-11 2023-09-19 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence

Also Published As

Publication number Publication date
EP2355093A3 (en) 2011-09-14
EP2355093A2 (en) 2011-08-10
KR101667006B1 (ko) 2016-10-24
US8626511B2 (en) 2014-01-07
JP5911669B2 (ja) 2016-04-27
AU2010214793B2 (en) 2014-09-18
EP2355093B1 (en) 2015-08-19
KR20110086492A (ko) 2011-07-28
US20110184730A1 (en) 2011-07-28
CN102137085B (zh) 2016-02-24
JP2011150682A (ja) 2011-08-04
AU2010214793A1 (en) 2011-08-11

Similar Documents

Publication Publication Date Title
CN102137085B (zh) 用于语音命令的多维消歧的系统和方法
US11341972B2 (en) Speech recognition using two language models
US11638059B2 (en) Content playback on multiple devices
RU2710984C2 (ru) Совершение задачи без монитора в цифровом персональном помощнике
AU2011209760B2 (en) Integration of embedded and network speech recognizers
KR101881985B1 (ko) 컨텍스트에 기초한 음성 인식 문법 선택
CN111670471B (zh) 基于对在线语音命令的使用来学习离线语音命令
CN100578614C (zh) 用语音应用语言标记执行的语义对象同步理解
CN110797022B (zh) 一种应用控制方法、装置、终端和服务器
CN103035240A (zh) 用于使用上下文信息的语音识别修复的方法和系统
CN110462647B (zh) 电子设备及执行电子设备的功能的方法
AU2014200663B2 (en) Integration of embedded and network speech recognizers
EP1635328B1 (en) Speech recognition method constrained with a grammar received from a remote system.
CN117894302A (zh) 基于对在线语音命令的使用来学习离线语音命令

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: American California

Patentee after: Google limited liability company

Address before: American California

Patentee before: Google Inc.