CN105408952A - 识别带口音的语音 - Google Patents

识别带口音的语音 Download PDF

Info

Publication number
CN105408952A
CN105408952A CN201480013019.8A CN201480013019A CN105408952A CN 105408952 A CN105408952 A CN 105408952A CN 201480013019 A CN201480013019 A CN 201480013019A CN 105408952 A CN105408952 A CN 105408952A
Authority
CN
China
Prior art keywords
accent
storehouse
voice
computing equipment
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201480013019.8A
Other languages
English (en)
Inventor
K·A·格雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google Technology Holdings LLC
Original Assignee
Google Technology Holdings LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google Technology Holdings LLC filed Critical Google Technology Holdings LLC
Priority to CN202111143050.1A priority Critical patent/CN113793603A/zh
Publication of CN105408952A publication Critical patent/CN105408952A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/174Form filling; Merging
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1807Speech classification or search using natural language modelling using prosody or stress
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology

Abstract

描述了用于识别带口音的语音的技术(300,400,500)和装置(100,200,700)。在一些实施例中,口音模块使用基于设备数据的口音库来识别(308)带口音的语音、基于识别的词语被设置为要提供到其中的应用字段而使用不同的语音识别校正水平、或者基于对未正确识别的语音做出的校正来更新(310)口音库。

Description

识别带口音的语音
背景技术
在识别带口音说出时的语音方面,当前的语音识别技术是相当差的。为了解决这一问题,一个部分解决方案跟踪由用户响应于当前技术未能正确地识别词语所做出的校正。这一部分解决方案可能对于带口音的用户来说是令人沮丧的,因为在这些当前技术改善它们的识别之前,用户往往必须校正许多未正确识别的词语,往往如此多次以至于用户完全放弃声音识别。即使对于那些花时间和经得起挫折的用户,当该用户带有口音时,当前的许多技术仍然未充分地识别用户的语音。
用于解决这一问题的另一部分解决方案要求用户去向专用用户接口并且说出特定词语的列表。要求带口音的用户找到这一专用用户接口并且说出词语列表无法提供优越的用户体验,并且因而往往将根本不会被用户执行。进一步地,要求来自用户的这一努力无法使得当前技术能够足够好地识别口音。再进一步地,即使拥有设备的用户向这方面努力,也不太可能由借用所有者的设备的另一用户来执行,诸如当设备的所有者在开车并且乘客使用所有者的设备时。
附图说明
参照附图描述用于识别带口音的语音的技术和装置。贯穿附图,相同的数字用于引用同样的特征和部件:
图1图示其中可以实现用于识别带口音的语音的技术的示例环境。
图2图示图1的示例语言和口音库。
图3图示用于使用基于设备数据确定的口音库来识别带口音的语音的示例方法。
图4图示用于更改口音库以更准确地识别带口音的语音的示例方法。
图5图示用于在基于应用字段的语音识别水平下识别语音的示例方法,其可以使用口音库。
图6图示具有应用字段的示例应用。
图7图示其可以实现用于识别带口音的语音的技术的示例装置的各种部件。
具体实施方式
在识别带口音说出时的语音方面,用于识别带口音的语音的当前技术往往是相当差的。本公开描述用于使用口音库来识别带口音的语音的技术和装置,并且在一些实施例中,使用基于应用字段的不同语音识别校正水平,识别的词语被设置为提供到该应用字段中。
以下讨论首先描述操作环境,其后是可以在这一环境中采用的技术、具有应用字段的示例应用、并且继续进行到示例装置。
图1图示其中可以实现用于识别带口音的语音的技术的示例环境100。示例环境100包括计算设备102,计算设备102具有一个或多个处理器104、计算机可读存储介质(存储介质)106、显示器108和输入机制110。
计算设备102被示出为具有集成麦克风112作为输入机制110的一个示例的智能电话。然而,可以使用各种类型的计算设备和输入机制,诸如具有分立独立麦克风的个人计算机、连接到具有麦克风的微微网(例如,BluetoothTM)耳机的蜂窝电话、或者具有集成立体声麦克风的平板和膝上型计算机(仅举几例)。
计算机可读存储介质106包括口音模块114、设备数据116、挖掘数据118和应用120。口音模块114包括语言库122和一个或多个口音库124。口音模块114可以在有语音识别引擎(未示出)的情况下操作、在无语音识别引擎的情况下操作、包括语音识别引擎、与语音识别引擎集成、和/或补充语音识别引擎。口音模块114能够识别带口音的语音,诸如通过基于设备数据116确定与语言库122结合用于识别语音的口音库124中的口音库。
语言库122与语言或其方言相关联,诸如澳大利亚英语、美国(US)英语、英国(皇家)英语等。语言库122和已知的语音识别引擎可以操作为执行已知的语音识别,虽然不要求使用任一者或两者。因而,在一些实施例中,口音模块114使用口音库124之一来补充使用已知类型的语言库122的已知语音识别引擎。
通过示例的方式,考虑图2,其图示图1的示例语言库122和口音库124。这里示出两个示例语言库:澳大利亚英语204和US英语206。与这些语言库204和206中的每个相关联的分别是众多口音库208和210。
口音库208包括八个示例(虽然本技术设想更多),包括澳大利亚(AU)英语-国语208-1、AU英语-新南(N.S.)威尔士208-2、AU英语-新西兰(NZ)奥克兰208-3、AU英语-NA克赖斯特彻奇208-4、AU英语-水肺-潜水员208-5、AU英语-内陆208-6、AU英语-佩斯208-7和AU英语-印度尼西亚208-8。如从名字清楚的,这些口音库中的每个口音库与大的语言组(澳大利亚英语)和该语言组内存在的口音相关联,无论其是最近说国语的移民还是参与水肺潜水的人。
相似地,口音库210包括八个示例:US英语-国语210-1、US英语-粤语210-2、US英语-波士顿210-3、US英语-冲浪者210-4、US英语-听力障碍210-5、US英语-农村210-6、US英语-南部210-7和US英语-阿拉斯加210-8。注意,国语口音库208-1和210-1可以不同,因为每个与不同语言库相关联。然而,无论以澳大利亚方言或US方言说出英语,由于说国语者的共同品质,在口音库之间可能存在一些共同元素。注意,这些口音库在数目和处理的口音方面几乎是无限的。地区口音,小的移民群体或大的移民群体、兴趣和亚文化、以及甚至共同的物理特性所共有的口音,诸如听力障碍的人在口音方面具有一些共性。
在图2的示例中,口音库124中的每个包含用于由语言库122使用的补充信息和算法。这里语言库122用于大语言组(例如,对于更大数目的人,其具有更多的、平均值或中值),其由口音库124中的一个或多个来补充。尽管图2的这一示例使口音库与语言库相关联,但是口音模块114可以放弃使用语言库或已知的语音识别引擎。代之,口音模块114可以提供其自己的算法和引擎,而不使用其它引擎或库,代之依靠口音库124而非语言库122,但是包括对于识别大量人的语音有用的算法或信息。
口音模块114可以基于设备数据116和/或挖掘数据118(图1的两者)来确定口音库124中的哪个要用于识别带口音的语音。设备数据116可以包括设备个人数据126以及特定于计算设备102的数据。特定于计算设备102的数据可以包括计算设备102的制造或购买日期(例如,最近发布的移动电话或平板)以及诸如制造商、硬件能力等之类的关于计算设备102的信息。
设备个人数据126包括基于用户与计算设备102的交互所创建或确定的数据,诸如联系人的姓名、安装的应用、消息的接收国家或地区、用户的姓名、联系信息、非标准键盘(例如,针对除了计算设备102针对其设置的语言之外的特定语言)、以及上下文应用信息(例如,搜索项)。因而,联系人的姓名可以指示用户的原籍国,或者非标准类型的键盘可以指示除了针对计算设备设置的语言之外的语言是用户的母语。进一步地,消息的接收国家或地区可以包括其中针对计算设备设置的语言不是说得最多的语言的国家中的地址,例如,在设置澳大利亚英语情况下(诸如,图2所示的在澳大利亚英语204和AU英语-印度尼西亚208-8的情况下)为印度尼西亚的接收国家。
更详细地,用户的联系方式中的电子邮件或地址可以指示用户的国籍或种族本源(例如,斯拉夫人的名或姓)。地址可以指示用户的出生位置或当前位置、以及关于用户的可以用于确定针对用户的口音库124的其它细节。电子邮件地址行中的名称或者那些电子邮件中的正文可以指示用户的朋友的国籍、出身、亚文化、或者用户的业务、或者用户的兴趣。如下面进一步指出的,这些兴趣可以指示口音,诸如用户在冲浪、水肺潜水或烹饪方面的兴趣。一些词语以及如何说出这些词语可以依赖于这些兴趣、并且因而亚文化。
例如,参与水肺潜水的人可以使用术语“换气器”和“气压伤”,如果没有与水肺潜水相关联的口音库,这些术语可能不能正确识别。相似地,参与冲浪的人可以使用术语“高飞脚(goofyfoot)”、“回冲浪峰”或者“一道浪整个同时踏掉(closedout)”,它们也可能未从用户的语音正确识别。最后,对于烹调爱好者,“LaCreuset”、“烧烤”和“炖”可能在无当前技术的情况下未正确识别。
设备个人数据126还可以包括在确定口音且因而口音库中有用的其它信息,诸如用户的电子书库中的斯拉夫语言的书、斯拉夫语言的新闻文章、关于波兰的文章和书、保存的波兰华沙的天气频道、关于在爱沙尼亚钓鱼的信息、针对手风琴音乐的web搜索条目、在用户的音乐库中的波尔卡音乐等。
挖掘数据118也可以或代之由口音模块114用于确定口音库124中的哪个要用于识别语音。挖掘数据118包括挖掘个人数据128,其可以包括可以通过因特网或其他方式找到的关于计算设备102的用户的任何个人数据。因而,挖掘个人数据128可以包括用户的搜索项、所购物、位置、人口统计特征、收入等。
如指出的,计算机可读存储介质106还包括应用120,诸如全部图1的电子邮件应用130、社交网络应用132或电子表格应用134。应用120中的每个应用包括一个或多个应用字段136,其在一些实施例中用于确定语音识别校正水平。通过示例的方式,考虑电子表格应用134。这里仅数字单元格138和一般文本单元格140均是应用字段136的示例。仅数字单元格138可以要求比一般文本单元格140更精确的文本、并且因而不同的语音识别校正水平。
图3图示用于使用基于设备数据确定的口音库来识别带口音的语音的示例方法300。描述这些和其它方法的块的顺序并不旨在被解释为限制,并且任何数目或组合的本文中这些和其它方法中描述的块可以以任何顺序组合,以实现方法或替代方法。
在块302处,接收针对计算设备的设备数据。设备数据可以响应于在块302处执行的主动检索而接收。因而,使用图1的环境100作为示例,口音模块114可以在块302处检索设备数据116,诸如通过搜索计算设备102上的联系人数据以及关于计算设备102的技术细节。
如上面部分指出的,设备数据116可以包括设备个人数据126以及与计算设备102相关联的其它非个人数据。通过一个进行中的示例的方式,假设设备数据116指示计算设备102是仅仅30天前发布的、具有显著计算能力的智能电话。这可以部分地用于基于人口统计特征指示至少当最近发布时这一智能电话的用户是早期采用者、精通技术、并且年龄在18和32之间,确定适当的口音库124。
假设设备个人数据126包括联系人姓名和地址,从而指示亚洲人的姓和亚洲人的名的统计相关数量。这一统计相关性可以以各种方式来确定,诸如通过与使用相同语言库122的典型的人的联系人列表进行比较。因而,尽管针对美国(US)英语语言库用户的联系人列表的亚洲人的名的平均数目可以是1.3%并且亚洲人的姓可以是11%,这里假设这一用户的联系人列表具有14%的亚洲人的名和29%的亚洲人的姓。基于它是从平均值的一个或多个标准偏差,统计分析考虑这一统计相关。这指示如下可能性,即用户可能不是以英语为母语者,或者用户的家庭成员很可能不是以英语为母语者,特别是亚洲人的名的统计相关数量,因为比起亚洲人的姓,亚洲人的名更可能指示第一代移民。
除了来自用户的联系人列表的这一信息,假设设备个人数据126指示用户的姓名是“MollyChin”、到海滩旅行的大量次数和持续时间、购买冲浪用具、以及用户住在南加州。
在块304处,基于接收的设备数据,确定口音库。这一口音库被确定用于在语音识别中使用。继续进行中的实施例,假设口音模块114使设备数据116与这一类型的设备数据相关联的已知口音关联,由此确定两个不同的口音库124是可能的,两者为图2的US英语-国语210-1和US英语-冲浪者210-4。假设基于针对用户推断的年轻年龄(如早期采用者等)、到海滩旅行、英国人的名(Molly)、基于冲浪者的购买等,冲浪者口音库被确定为更加可能的。在这一进行中的示例中,口音模块114基于设备数据116来确定口音库124,虽然口音模块114还可以或代之使这一确定基于挖掘数据118以及关于先前由计算设备102接收的语音的信息。
在块306处,在计算设备处接收语音。语音可以以各种方式接收,诸如上面描述的输入机制110。继续进行中的示例,假设用户讲出以下内容以进入向朋友的文本消息“Jean,isitclosedout?”
在块308处,基于口音库识别语音。结束进行中的示例,连同语音识别引擎,口音模块114使用基于设备数据选择的语言库US英语206和口音库US英语-冲浪者210-4,如上面指出的。这里假设如果没有口音库,语音识别引擎将会将Molly的语音“Jean,isitclosedout?”识别为“Jean,isitclosenow?”然而,由于口音库US英语-冲浪者210-4,口音模块114动作以将Molly的语音正确识别为“Jean,isitclosenow?”然后口音模块114将这一文本传递到文本字段。
在这一示例中,这一识别是由于口音模块114能够针对如何识别Molly的语音在多个选项之间进行选择,包括如下选项,如果没有口音库,相对于“closenow”、“hosedout”和“closet”的其它可能选项,将被认为是用于当前语音识别引擎的低概率选项。这里口音库US英语-冲浪者210-4添加词语、改变词语和短语的概率、并且更改算法,以改变如何解译某些声音(例如,冲浪者具有不同的语音模式,这是口音的一部分,不只是使用的词语)。
替代地或附加地,方法300继续进行到块310和/或块312-318。在块310处,基于在识别语音期间做出的校正的错误,更新口音库。块310可以与如下面描述的方法400结合或分立地工作。在上面的示例方法300中,校正识别了Molly的语音。如果不正确,通过用户(MollyChin)的校正可以被记录并且用于更新口音库。
在块312处,在计算设备接收其它语音,接收的该其它语音来自与在302处接收的语音不同的说话者。通过示例的方式,假设Molly将她的智能电话递给了她父亲,因为她在开车。假设Molly要她父亲请求好的泰国餐厅。还假设她父亲是以国语为母语者,并且英语是他的第二语言。进一步地,假设像许多以国语为母语者那样,Molly的父亲使用音调来区分词语,而说英语者使用语调(句子中的音高模式)。进一步地,假设Molly的父亲像许多说国语者那样具有在音节的结尾发“I”音的问题。因而,Molly的父亲将“why”发音为“wiw”、将“fly”发音为“flew”、并且将“pie”发音为“piw”。因而,当Molly的父亲通过讲出“FindThaiRestaurant”来要智能电话找到泰国餐厅时,但是由于他的口音,对于以US英语为母语者(或者仅使用US英语库的语音识别引擎)来说,其听起来像“FindTewRestaurant”。
在块314处,另一语音被动态确定为不与块304处确定的口音库相关联。口音模块114在接收语音“FindTewRestaurant”时实时地确定说话者不是Molly并且因而口音库US英语-冲浪者210-4不适用。口音模块114可以基于“Tew”或其它指示符来确定这点,诸如词语“Restaurant”内的音调变化,其是说国语者和说粤语者两者所共有的,或者简单地从Molly接收的语音历史指示不是Molly。这可以以众多方式来执行,诸如Molly具有通常高音高声音并且Molly的父亲不具有这一高音高、Molly和Molly的父亲之间的说话速度差异等。
在块316处,另一口音库或者没有口音库被确定用于该另一语音。继续这一示例,假设口音模块114基于词语“Restaurant”内的音调变化确定Molly的父亲是以国语为母语者或者以粤语为母语者。进一步地,假设口音模块114确定Molly的个人数据指示她有与其中国语是主导语言的中国地区(例如,北京)(而不是与粤语相关联的地区(例如,香港))更加密切相关联的朋友和地址。如上面指出的,这一信息可能已经在块304处确定。
在块318处,在另一口音库或没有口音库(如上面确定的)的情况下识别另一语音。结束进行中的示例,通过使用图2的口音库US英语-国语210-1,口音模块114将Molly的父亲的语音“FindTewRestaurant”识别为“FindThaiRestaurant”,而不是将这一语音不正确地识别为“FindTwoRestaurants”。
图4图示用于更改口音库以更准确地识别带口音的语音的示例方法400。
在块402处,接收对语音元素的校正。这一校正校正使用口音库未正确识别的语音元素。校正可以从远程计算设备接收,虽然这不是要求的。如块310中指出的,使用口音库的语音识别可能是不正确的,并且然后由用户进行校正。与口音库相关联的一个或多个校正可以诸如从数以千计的远程计算设备(例如,智能电话、膝上型计算机、平板计算机、台式计算机等)接收。计算设备可以是图1的计算设备102,但是在这一实施例中是与计算设备102远程的服务器计算机,并且在该处校正被记录并且口音库124被更新以改善识别。
在块404处,口音库被更改以提供更新的口音库,更新的口音库能够更准确地识别语音元素。为了说明使用上面的示例之一,假设口音库US英语-国语210-1将Molly的父亲的语音不正确地识别为“FindTheRestaurant”而非“FindThaiRestaurant”。还假设Molly的父亲将不正确的识别校正为“Thai”。这一校正以及相同口音库的像它那样的许多其它校正可以被发送到更新实体并且由更新实体接收。更新实体可以是计算设备102上的口音模块114,或者服务器计算机上的另一口音模块或其它实体。
在块406处,更新的口音库被提供到一个或多个远程计算设备,以有效使得一个或多个远程计算设备能够更准确地识别语音元素。因而,使用更新的口音库,语音元素“Tew”将更有可能被正确地识别为“Thai”而非“The”。
此外,还可以从一个或多个远程计算设备接收设备数据,该设备数据与远程计算设备的用户相关联,并且基于该设备数据来确定口音库以用于来自用户的语音的语音识别。因而,可以提供关于Molly的用于对口音库US英语-冲浪者210-4进行校正的信息或者关于Molly的父亲的用于对口音库US英语-国语210-1进行校正的信息。
然后可以为某些设备数据或其它数据定制对适当的口音库的更新。实际上,随着时间的推移这可以动作以提供口音库的子类别。因而,诸如与MollyChin具有相似性的人之类的说话者可以基于她在年龄(18-30)和地区(南加州)方面的相似性,接收US英语-冲浪者210-4的更新,而使用US英语-冲浪者210-4的另一说话者将不会接收,诸如生活在不同地区(佛罗里达州迈阿密)的男性(年龄45-60)。通过这样做,可以基于用户或他们的计算设备是否具有一个或多个与从其接收校正的远程计算设备的设备或挖掘数据相同的设备或挖掘数据的元素,向用户提供更新。
图5图示用于在基于应用字段的语音识别水平下识别语音的示例方法500,其可以使用口音库。
在块502处,在计算设备接收语音。这可以如上面各种示例中阐述的那样。
在块504处,基于识别的文本被设置为要提供到的应用字段,确定语音识别校正水平。这个的一个示例可以是图1的示例应用字段136,即电子表格应用134的仅数字单元格138和一般文本单元格140。如上面指出的,口音模块114可以基于应用字段来确定语音识别校正水平,诸如它可能需要高度准确的语音识别或者较不准确和/或更快的识别。
通过示例的方式,考虑图6,其图示具有应用字段604和606的示例电子邮件应用的用户界面602。应用字段604是地址字段,并且应用字段606是主体字段。例如假设来自上面示例的MollyChin讲出“SurfGirlSevenSevenSevenAtGeeMailDotCom”。
当打开要发送给朋友的新电子邮件时,假设电子邮件应用将首先将识别的文本接收到应用字段604处示出的电子邮件地址字段中。当说话时,并且在电子邮件地址完成之后,假设电子邮件应用将会将识别的文本接收到应用字段606处的电子邮件的主体中。在这一示例中,口音模块114确定最大校正水平应该用于地址字段。在这种情况下,口音模块114使用适当的口音库124或者做出改善准确性的其它细化。然而,改善准确性可能以识别文本的时间和计算资源(处理器和电池)方面为代价(仅举几例)。因此,更高的语音校正水平可能并不总是适当的。
例如,还要注意,通过确定使用零个、一个、或多个口音库114(诸如国语和冲浪者口音库两者),口音模块114可以应用不同的校正水平。进一步地,口音模块114可以确定不使用或缺乏使用口音库124的校正水平。例如,口音模块114可以使用不同的语言库122以用于一些应用字段,或者使用指向说出的数字而不是正常语音中的口音的口音库124。因而,语言库122之一可以指向识别其是数字或针对地址的语音,并且另一语言库122指向识别其是对话的语音。在本文中阐述的这些和其它方式中,技术可以动作以改善语音识别。
在块506处,在语音识别校正水平下识别接收的语音,以产生识别的文本。因而,对于应用字段604(电子邮件地址字段),使用指向预期语音的一个或多个口音库124和/或替代语言库122,口音模块114在确定的语音识别水平下识别语音,这里在最大水平下。
在块508处,识别的词语和其它文本被提供到应用字段。结束进行中的针对MollyChin的示例,在块508处,口音模块114不是将语音“SurfGirlSevenSevenSevenAtGeeMailDotCom”识别为词语,而是基于口音库124和/或语言库122识别为词语和文本的组合,并且还因为它是电子邮件的地址字段,“at”被识别为“”符号。因而,语音被识别为“surfgirl777GMail.com”。
尽管不要求,在一些实施例中,当应用字段是电子邮件、博客、社交联网入口、或文字处理文档的主体时,技术使用低于最大的语音校正水平。相反地,对于地址字段、电子表格中的仅数字字段、电话号码等,技术可以使用最大语音校正水平和/或替代语言库122或口音库124。
图7图示包括口音模块114的示例设备700的各种部件,口音模块114包括或具有对其它模块的访问,这些部件以硬件、固件和/或软件来实现,并且如参照先前的图1至图6中的任何一个所描述的。
示例设备700可以以作为以下设备之一或组合的固定或移动设备来实现:媒体设备、计算设备(例如,图1的计算设备102)、电视机顶盒、视频处理和/或渲染设备、器具设备(例如,封闭和密封的计算资源,诸如一些数字录像机或者全球定位卫星设备)、游戏设备、电子设备、车辆、和/或工作站。
示例设备700可以与运行整个设备所需的电子电路、微处理器、存储器、输入输出(I/O)逻辑控制、通信接口和部件、其它硬件、固件和/或软件集成。示例设备700还可以包括耦合计算设备的各种部件以用于部件之间的数据通信的集成数据总线(未示出)。
示例设备700包括各种部件,诸如输入输出(I/O)逻辑控制702(例如,用于包括电子电路)和(多个)微处理器704(例如微控制器或数字信号处理器)。示例设备700还包括存储器706,其可以是任何类型的随机存取存储器(RAM)、低延迟非易失性存储器(例如,闪速存储器)、只读存储器(ROM)、和/或其他合适的电子数据存储。存储器706包括或具有对口音模块114、语言库122和口音库124以及在一些实施例中对语音识别引擎(未示出)的访问。
示例设备700还可以包括各种固件和/或软件,诸如操作系统708,其连同其它部件可以是由存储器706保持并且由微处理器704执行的计算机可执行指令。示例设备700还可以包括其他各种通信接口和部件、无线LAN(WLAN)或无线PAN(WPAN)部件、其他硬件、固件和/或软件。
这些模块的其它示例性能和功能参照图1和图2所示的元素进行了描述。与其它模块或实体独立地或组合地,这些模块可以实现为由存储器706保持并且由微处理器704执行的计算机可执行指令,以实现本文中描述的各种实施例和/或特征。替代地或附加地,任何或所有这些部件可以实现为硬件、固件、固定逻辑电路、或它们的任何组合,其与I/O逻辑控制702和/或示例设备700的其它信号处理和控制电路结合实现。此外,这些部件中的一些部件可以与设备700分立地动作,诸如当远程(例如,基于云的)库执行口音模块114的服务时。
虽然本发明已经以特定于结构特征和/或方法动作的语言进行了描述,但是要理解的是,在所附权利要求中限定的本发明不必要限于所描述的具体特征或动作。更确切地说,具体特征和动作被公开作为实现所要求保护的发明的示例形式。

Claims (20)

1.一种方法,包括:
接收针对计算设备的设备数据;
基于所述设备数据,确定用于在语音识别中使用的口音库;
在所述计算设备处接收语音;以及
基于所述口音库,识别所述语音。
2.根据权利要求1所述的方法,其中接收针对所述计算设备的设备数据包括检索或者使得检索与所述计算设备的用户相关联的个人数据。
3.根据权利要求2所述的方法,其中所述个人数据包括联系人姓名,并且所述联系人姓名指示所述用户的原籍国。
4.根据权利要求2所述的方法,其中所述个人数据包括消息地址,并且所述消息地址包括其中说的母语与所述计算设备被设置在的语言不同的国家中的目的地。
5.根据权利要求1所述的方法,其中所述设备数据包括一个或多个安装的应用的身份、与所述计算设备被设置在的语言不同的语言相关联的键盘的类型、输入到搜索引擎中的搜索项、或者所述计算设备的类型。
6.根据权利要求1所述的方法,其中所述口音库与所述计算设备被设置在的语言以及以所述语言说出的口音相关联。
7.根据权利要求6所述的方法,其中以所述语言说出的所述口音与物理特性、文化或兴趣相关联。
8.根据权利要求1所述的方法,其中基于所述口音库识别所述语音使用与所述计算设备被设置在的语言相关联的语言库,并且所述口音库包括对所述语言库的算法的更改。
9.根据权利要求1所述的方法,进一步包括接收与所述计算设备相关联的用户的挖掘数据,所述挖掘数据包括与所述用户相关联的个人数据,并且其中确定所述口音库进一步基于所述挖掘数据。
10.根据权利要求1所述的方法,进一步包括:
在所述计算设备处接收其它语音;
基于所述其它语音,动态地确定所述其它语音不与所述口音库相关联;
确定针对所述其它语音的另一口音库或没有口音库;以及
利用所述另一口音库或没有口音库,来识别所述其它语音。
11.根据权利要求10所述的方法,其中动态地确定所述其它语音不与所述口音库相关联包括确定所述其它语音不是由与所述计算设备相关联的用户做出的。
12.根据权利要求1所述的方法,进一步包括基于从所述语音未正确识别的、由用户校正的词语,更新所述口音库。
13.一个或多个计算机可读存储介质,在其上具有处理器可执行指令,响应于由处理器的执行,所述指令执行操作,所述操作包括:
接收语音;
基于识别的文本被设置为要提供到的应用字段,确定语音识别校正水平;
在所述语音识别校正水平下识别所述语音,以产生所述识别的文本;以及
向所述应用字段提供所述识别的文本。
14.根据权利要求13所述的计算机可读存储介质,其中所述应用字段是地址字段,并且所述语音识别校正水平提供最大校正水平。
15.根据权利要求14所述的计算机可读存储介质,其中所述最大校正水平包括使用口音库,并且进一步包括基于以下项来确定所述口音库:
接收的所述语音;
与通过其接收所述语音的计算设备相关联的设备数据;或者
与所述计算设备的用户相关联的个人数据。
16.根据权利要求13所述的计算机可读存储介质,其中所述应用字段是仅数字字段,并且所述语音识别校正水平提供最大校正水平。
17.根据权利要求13所述的计算机可读存储介质,其中所述应用字段是电子邮件、博客、社交联网入口、或文字处理文档的主体,并且所述语音识别校正水平提供低于最大的校正水平。
18.根据权利要求17所述的计算机可读存储介质,其中所述语音识别引擎的所述低于最大的校正水平放弃使用口音库,并且使用比最大校正水平更少的计算资源。
19.一种方法,包括:
从远程计算设备接收对语音元素的校正,所述语音元素在所述远程计算设备处使用口音库未正确识别;
更改所述口音库以提供更新的口音库,所述更新的口音库能够更准确地识别所述语音元素;以及
向所述远程计算设备或另一远程计算设备提供所述更新的口音库,以有效地使得所述远程计算设备或所述另一远程计算设备能够使用所述更新的口音库比使用所述口音库更准确地识别所述语音元素。
20.根据权利要求19所述的方法,进一步包括:
从所述远程计算设备接收所述远程计算设备的设备数据,并且其中提供所述更新的口音库基于所述另一远程计算设备的至少一些设备数据与所述远程计算设备的所述设备数据相同或相似来向所述另一远程计算设备提供所述更新的口音库。
CN201480013019.8A 2013-02-21 2014-01-24 识别带口音的语音 Pending CN105408952A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111143050.1A CN113793603A (zh) 2013-02-21 2014-01-24 识别带口音的语音

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/772,373 US9734819B2 (en) 2013-02-21 2013-02-21 Recognizing accented speech
US13/772,373 2013-02-21
PCT/US2014/012922 WO2014130205A1 (en) 2013-02-21 2014-01-24 Recognizing accented speech

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202111143050.1A Division CN113793603A (zh) 2013-02-21 2014-01-24 识别带口音的语音

Publications (1)

Publication Number Publication Date
CN105408952A true CN105408952A (zh) 2016-03-16

Family

ID=50150774

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202111143050.1A Pending CN113793603A (zh) 2013-02-21 2014-01-24 识别带口音的语音
CN201480013019.8A Pending CN105408952A (zh) 2013-02-21 2014-01-24 识别带口音的语音

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202111143050.1A Pending CN113793603A (zh) 2013-02-21 2014-01-24 识别带口音的语音

Country Status (4)

Country Link
US (6) US9734819B2 (zh)
EP (3) EP3605528A1 (zh)
CN (2) CN113793603A (zh)
WO (1) WO2014130205A1 (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106098069A (zh) * 2016-06-21 2016-11-09 佛山科学技术学院 一种身份认证方法、及终端设备
CN106128477A (zh) * 2016-06-23 2016-11-16 南阳理工学院 一种口语识别校正系统
CN106328146A (zh) * 2016-08-22 2017-01-11 广东小天才科技有限公司 一种视频的字幕生成方法及装置
CN107452379A (zh) * 2017-08-17 2017-12-08 广州腾猴科技有限公司 一种方言语言的识别技术及虚拟现实教学方法和系统
CN107958666A (zh) * 2017-05-11 2018-04-24 小蚁科技(香港)有限公司 用于口音不变语音识别的方法
CN108288466A (zh) * 2016-12-30 2018-07-17 中国移动通信集团浙江有限公司 一种提高语音识别准确率的方法及装置
CN109036406A (zh) * 2018-08-01 2018-12-18 深圳创维-Rgb电子有限公司 一种语音信息的处理方法、装置、设备和存储介质
CN110619874A (zh) * 2019-08-30 2019-12-27 珠海格力电器股份有限公司 语音控制方法、装置、计算机设备和存储介质
CN110797009A (zh) * 2018-07-17 2020-02-14 上海航空电器有限公司 一种针对巴基斯坦口音英语的飞机座舱指令识别装置
CN111179928A (zh) * 2019-12-30 2020-05-19 上海欣能信息科技发展有限公司 一种基于语音交互的变配电站智能控制方法
CN111559675A (zh) * 2020-05-22 2020-08-21 云知声智能科技股份有限公司 语音控制电梯的方法
WO2021000068A1 (zh) * 2019-06-29 2021-01-07 播闪机械人有限公司 一种非母语人士使用的语音识别方法及装置

Families Citing this family (151)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10255566B2 (en) 2011-06-03 2019-04-09 Apple Inc. Generating and processing task items that represent tasks to perform
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
EP2954514B1 (en) 2013-02-07 2021-03-31 Apple Inc. Voice trigger for a digital assistant
US9734819B2 (en) * 2013-02-21 2017-08-15 Google Technology Holdings LLC Recognizing accented speech
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
WO2014200728A1 (en) 2013-06-09 2014-12-18 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US9646609B2 (en) * 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10008199B2 (en) * 2015-08-22 2018-06-26 Toyota Motor Engineering & Manufacturing North America, Inc. Speech recognition system with abbreviated training
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US20170109332A1 (en) * 2015-10-16 2017-04-20 Successfactors, Inc. Matching user input provided to an input method editor with text
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US20170337923A1 (en) * 2016-05-19 2017-11-23 Julia Komissarchik System and methods for creating robust voice-based user interface
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10395649B2 (en) * 2017-12-15 2019-08-27 International Business Machines Corporation Pronunciation analysis and correction feedback
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10650844B2 (en) * 2018-01-18 2020-05-12 Wipro Limited Method and response recommendation system for recommending a response for a voice-based user input
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
CN110415679B (zh) * 2019-07-25 2021-12-17 北京百度网讯科技有限公司 语音纠错方法、装置、设备和存储介质
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
US11043220B1 (en) 2020-05-11 2021-06-22 Apple Inc. Digital assistant hardware abstraction
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2323694A (en) * 1997-03-27 1998-09-30 Forum Technology Limited Adaptation in speech to text conversion
CN1558656A (zh) * 2004-01-20 2004-12-29 联想(北京)有限公司 一种基于voicexml的电话语音实时交互系统和方法
CN1643491A (zh) * 2002-02-15 2005-07-20 Sap股份公司 声控用户界面
CN1647023A (zh) * 2002-02-15 2005-07-27 Sap股份公司 语音控制的数据输入
CN1659624A (zh) * 2002-04-05 2005-08-24 英特尔公司 根据用于语音识别的呼叫语境动态地和自适应地选择词汇和声学模型
CN1997976A (zh) * 2002-02-07 2007-07-11 Sap股份公司 多模态同步结构中的用户接口和动态语法
CN101681484A (zh) * 2007-05-18 2010-03-24 速函移动公司 用于通过小数据速率通信系统的增强型通信的系统和方法
CN102047323A (zh) * 2008-04-07 2011-05-04 纽昂斯通讯公司 网页的自动化语音支持
US20110161075A1 (en) * 2009-12-01 2011-06-30 Eric Hon-Anderson Real-time voice recognition on a handheld device
US20110313767A1 (en) * 2010-06-18 2011-12-22 At&T Intellectual Property I, L.P. System and method for data intensive local inference

Family Cites Families (97)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6459910B1 (en) * 1995-06-07 2002-10-01 Texas Instruments Incorporated Use of speech recognition in pager and mobile telephone applications
DE19533541C1 (de) 1995-09-11 1997-03-27 Daimler Benz Aerospace Ag Verfahren zur automatischen Steuerung eines oder mehrerer Geräte durch Sprachkommandos oder per Sprachdialog im Echtzeitbetrieb und Vorrichtung zum Ausführen des Verfahrens
US5897616A (en) * 1997-06-11 1999-04-27 International Business Machines Corporation Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases
JP4267101B2 (ja) 1997-11-17 2009-05-27 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声識別装置、発音矯正装置およびこれらの方法
US6182039B1 (en) * 1998-03-24 2001-01-30 Matsushita Electric Industrial Co., Ltd. Method and apparatus using probabilistic language model based on confusable sets for speech recognition
US6665644B1 (en) 1999-08-10 2003-12-16 International Business Machines Corporation Conversational data mining
US6778959B1 (en) 1999-10-21 2004-08-17 Sony Corporation System and method for speech verification using out-of-vocabulary models
US20080147404A1 (en) * 2000-05-15 2008-06-19 Nusuara Technologies Sdn Bhd System and methods for accent classification and adaptation
CN1328321A (zh) * 2000-05-31 2001-12-26 松下电器产业株式会社 通过语音提供信息的装置和方法
US6424935B1 (en) 2000-07-31 2002-07-23 Micron Technology, Inc. Two-way speech recognition and dialect system
US7457750B2 (en) 2000-10-13 2008-11-25 At&T Corp. Systems and methods for dynamic re-configurable speech recognition
US7219058B1 (en) 2000-10-13 2007-05-15 At&T Corp. System and method for processing speech recognition results
US6876966B1 (en) 2000-10-16 2005-04-05 Microsoft Corporation Pattern recognition training method and apparatus using inserted noise followed by noise reduction
US6915262B2 (en) 2000-11-30 2005-07-05 Telesector Resources Group, Inc. Methods and apparatus for performing speech recognition and using speech recognition results
US6725198B2 (en) 2001-01-25 2004-04-20 Harcourt Assessment, Inc. Speech analysis system and method
US20050234727A1 (en) 2001-07-03 2005-10-20 Leo Chiu Method and apparatus for adapting a voice extensible markup language-enabled voice system for natural speech recognition and system response
US7953219B2 (en) 2001-07-19 2011-05-31 Nice Systems, Ltd. Method apparatus and system for capturing and analyzing interaction based content
WO2003019528A1 (fr) * 2001-08-22 2003-03-06 International Business Machines Corporation Procede de production d'intonation, dispositif de synthese de signaux vocaux fonctionnant selon ledit procede et serveur vocal
US6959276B2 (en) 2001-09-27 2005-10-25 Microsoft Corporation Including the category of environmental noise when processing speech signals
US6950796B2 (en) 2001-11-05 2005-09-27 Motorola, Inc. Speech recognition by dynamical noise model adaptation
US6898567B2 (en) * 2001-12-29 2005-05-24 Motorola, Inc. Method and apparatus for multi-level distributed speech recognition
US7177814B2 (en) * 2002-02-07 2007-02-13 Sap Aktiengesellschaft Dynamic grammar for voice-enabled applications
US7224981B2 (en) 2002-06-20 2007-05-29 Intel Corporation Speech recognition of mobile devices
DE10230983A1 (de) 2002-07-10 2004-01-22 Bayer Ag Mehrschichtiges Erzeugnis enthaltend Polycarbonat
JP4109063B2 (ja) 2002-09-18 2008-06-25 パイオニア株式会社 音声認識装置及び音声認識方法
US20040073425A1 (en) * 2002-10-11 2004-04-15 Das Sharmistha Sarkar Arrangement for real-time automatic recognition of accented speech
US7263486B1 (en) * 2002-10-25 2007-08-28 At&T Corp. Active learning for spoken language understanding
JP4352790B2 (ja) 2002-10-31 2009-10-28 セイコーエプソン株式会社 音響モデル作成方法および音声認識装置ならびに音声認識装置を有する乗り物
EP1418570B1 (en) * 2002-11-06 2007-03-21 Swisscom Fixnet AG Cross-lingual speech recognition method
US7457745B2 (en) 2002-12-03 2008-11-25 Hrl Laboratories, Llc Method and apparatus for fast on-line automatic speaker/environment adaptation for speech/speaker recognition in the presence of changing environments
US7593849B2 (en) * 2003-01-28 2009-09-22 Avaya, Inc. Normalization of speech accent
US7533023B2 (en) 2003-02-12 2009-05-12 Panasonic Corporation Intermediary speech processor in network environments transforming customized speech parameters
US7958443B2 (en) * 2003-02-28 2011-06-07 Dictaphone Corporation System and method for structuring speech recognized text into a pre-selected document format
US7809565B2 (en) * 2003-03-01 2010-10-05 Coifman Robert E Method and apparatus for improving the transcription accuracy of speech recognition software
US7392188B2 (en) 2003-07-31 2008-06-24 Telefonaktiebolaget Lm Ericsson (Publ) System and method enabling acoustic barge-in
US7369998B2 (en) 2003-08-14 2008-05-06 Voxtec International, Inc. Context based language translation devices and methods
JP4548646B2 (ja) 2003-09-12 2010-09-22 株式会社エヌ・ティ・ティ・ドコモ 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム
WO2005081508A1 (en) * 2004-02-17 2005-09-01 Voice Signal Technologies, Inc. Methods and apparatus for replaceable customization of multimodal embedded interfaces
US7634095B2 (en) 2004-02-23 2009-12-15 General Motors Company Dynamic tuning of hands-free algorithm for noise and driving conditions
JP2005292770A (ja) * 2004-03-10 2005-10-20 Advanced Telecommunication Research Institute International 音響モデル生成装置及び音声認識装置
US7392186B2 (en) * 2004-03-30 2008-06-24 Sony Corporation System and method for effectively implementing an optimized language model for speech recognition
US8204884B2 (en) 2004-07-14 2012-06-19 Nice Systems Ltd. Method, apparatus and system for capturing and analyzing interaction based content
JP2007024960A (ja) * 2005-07-12 2007-02-01 Internatl Business Mach Corp <Ibm> システム、プログラムおよび制御方法
US8156114B2 (en) 2005-08-26 2012-04-10 At&T Intellectual Property Ii, L.P. System and method for searching and analyzing media content
US7610278B2 (en) 2005-12-14 2009-10-27 Tyloon, Inc. Electronic business information system
US7698140B2 (en) 2006-03-06 2010-04-13 Foneweb, Inc. Message transcription, voice query and query delivery system
US7756708B2 (en) 2006-04-03 2010-07-13 Google Inc. Automatic language model update
US8041568B2 (en) 2006-10-13 2011-10-18 Google Inc. Business listing search
US7890326B2 (en) 2006-10-13 2011-02-15 Google Inc. Business listing search
JP2008134475A (ja) * 2006-11-28 2008-06-12 Internatl Business Mach Corp <Ibm> 入力された音声のアクセントを認識する技術
US7941189B2 (en) 2007-02-07 2011-05-10 Denso Corporation Communicating road noise control system, in-vehicle road noise controller, and server
US20090030687A1 (en) 2007-03-07 2009-01-29 Cerra Joseph P Adapting an unstructured language model speech recognition system based on usage
US20110054894A1 (en) 2007-03-07 2011-03-03 Phillips Michael S Speech recognition through the collection of contact information in mobile dictation application
US20080221880A1 (en) 2007-03-07 2008-09-11 Cerra Joseph P Mobile music environment speech processing facility
WO2008131388A2 (en) 2007-04-22 2008-10-30 Phone Through, Inc. Methods and apparatus related to content sharing between devices
US8041555B2 (en) 2007-08-15 2011-10-18 International Business Machines Corporation Language translation based on a location of a wireless device
US8521766B1 (en) * 2007-11-12 2013-08-27 W Leo Hoarty Systems and methods for providing information discovery and retrieval
CA2705133C (en) 2007-12-05 2014-09-23 Facebook, Inc. Community translation on a social network
US8660993B2 (en) 2007-12-20 2014-02-25 International Business Machines Corporation User feedback for search engine boosting
US20090164929A1 (en) 2007-12-20 2009-06-25 Microsoft Corporation Customizing Search Results
US20090204402A1 (en) 2008-01-09 2009-08-13 8 Figure, Llc Method and apparatus for creating customized podcasts with multiple text-to-speech voices
US8175882B2 (en) * 2008-01-25 2012-05-08 International Business Machines Corporation Method and system for accent correction
US7487096B1 (en) * 2008-02-20 2009-02-03 International Business Machines Corporation Method to automatically enable closed captioning when a speaker has a heavy accent
KR20090107365A (ko) * 2008-04-08 2009-10-13 엘지전자 주식회사 이동 단말기 및 그 메뉴 제어방법
US8121837B2 (en) 2008-04-24 2012-02-21 Nuance Communications, Inc. Adjusting a speech engine for a mobile computing device based on background noise
US8195460B2 (en) 2008-06-17 2012-06-05 Voicesense Ltd. Speaker characterization through speech analysis
US20090326939A1 (en) * 2008-06-25 2009-12-31 Embarq Holdings Company, Llc System and method for transcribing and displaying speech during a telephone call
US8583418B2 (en) 2008-09-29 2013-11-12 Apple Inc. Systems and methods of detecting language and natural language strings for text to speech synthesis
US20100082658A1 (en) 2008-09-30 2010-04-01 Yahoo! Inc. Systems and methods for surfacing contextually relevant information
US9418662B2 (en) * 2009-01-21 2016-08-16 Nokia Technologies Oy Method, apparatus and computer program product for providing compound models for speech recognition adaptation
US8548807B2 (en) 2009-06-09 2013-10-01 At&T Intellectual Property I, L.P. System and method for adapting automatic speech recognition pronunciation by acoustic model restructuring
US8190420B2 (en) 2009-08-04 2012-05-29 Autonomy Corporation Ltd. Automatic spoken language identification based on phoneme sequence patterns
US8255217B2 (en) * 2009-10-16 2012-08-28 At&T Intellectual Property I, Lp Systems and methods for creating and using geo-centric language models
US8589163B2 (en) 2009-12-04 2013-11-19 At&T Intellectual Property I, L.P. Adapting language models with a bit mask for a subset of related words
US8346549B2 (en) * 2009-12-04 2013-01-01 At&T Intellectual Property I, L.P. System and method for supplemental speech recognition by identified idle resources
US8892443B2 (en) 2009-12-15 2014-11-18 At&T Intellectual Property I, L.P. System and method for combining geographic metadata in automatic speech recognition language and acoustic models
US8265928B2 (en) 2010-04-14 2012-09-11 Google Inc. Geotagged environmental audio for enhanced speech recognition accuracy
US8468012B2 (en) * 2010-05-26 2013-06-18 Google Inc. Acoustic model adaptation using geographic information
CN101859425B (zh) * 2010-06-02 2014-11-05 中兴通讯股份有限公司 一种提供应用列表的方法及装置
US8417530B1 (en) 2010-08-20 2013-04-09 Google Inc. Accent-influenced search results
US9881050B2 (en) * 2010-10-29 2018-01-30 Orange Method and system to recommend applications from an application market place to a new device
US8676574B2 (en) * 2010-11-10 2014-03-18 Sony Computer Entertainment Inc. Method for tone/intonation recognition using auditory attention cues
CN103370701A (zh) * 2010-12-23 2013-10-23 诺基亚公司 用于提供自动和增量移动应用识别的方法、装置和计算机程序产品
TWI413105B (zh) * 2010-12-30 2013-10-21 Ind Tech Res Inst 多語言之文字轉語音合成系統與方法
US9274746B2 (en) * 2011-02-18 2016-03-01 Nuance Communications, Inc. Latency hiding techniques for multi-modal user interfaces
US20120222132A1 (en) * 2011-02-25 2012-08-30 Microsoft Corporation Permissions Based on Behavioral Patterns
US8856004B2 (en) * 2011-05-13 2014-10-07 Nuance Communications, Inc. Text processing using natural language understanding
US20120323574A1 (en) * 2011-06-17 2012-12-20 Microsoft Corporation Speech to text medical forms
US20140046891A1 (en) * 2012-01-25 2014-02-13 Sarah Banas Sapient or Sentient Artificial Intelligence
US9275635B1 (en) * 2012-03-08 2016-03-01 Google Inc. Recognizing different versions of a language
US9009049B2 (en) * 2012-06-06 2015-04-14 Spansion Llc Recognition of speech with different accents
US9231898B2 (en) * 2013-02-08 2016-01-05 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US9734819B2 (en) * 2013-02-21 2017-08-15 Google Technology Holdings LLC Recognizing accented speech
JP6585154B2 (ja) * 2014-07-24 2019-10-02 ハーマン インターナショナル インダストリーズ インコーポレイテッド 単一音響モデルと自動アクセント検出を用いたテキスト規則ベースの複数アクセントの音声認識
US20160253050A1 (en) * 2015-02-26 2016-09-01 Fingertips Lab, Inc. System and method for audio and tactile based browsing
US20180277132A1 (en) * 2017-03-21 2018-09-27 Rovi Guides, Inc. Systems and methods for increasing language accessability of media content
US10960782B2 (en) * 2018-02-19 2021-03-30 Power Hero Corp. Method and device for converting standalone EV charging stations into intelligent stations with remote communications connectivity and control

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2323694A (en) * 1997-03-27 1998-09-30 Forum Technology Limited Adaptation in speech to text conversion
CN1997976A (zh) * 2002-02-07 2007-07-11 Sap股份公司 多模态同步结构中的用户接口和动态语法
CN1643491A (zh) * 2002-02-15 2005-07-20 Sap股份公司 声控用户界面
CN1647023A (zh) * 2002-02-15 2005-07-27 Sap股份公司 语音控制的数据输入
CN1659624A (zh) * 2002-04-05 2005-08-24 英特尔公司 根据用于语音识别的呼叫语境动态地和自适应地选择词汇和声学模型
CN1558656A (zh) * 2004-01-20 2004-12-29 联想(北京)有限公司 一种基于voicexml的电话语音实时交互系统和方法
CN101681484A (zh) * 2007-05-18 2010-03-24 速函移动公司 用于通过小数据速率通信系统的增强型通信的系统和方法
CN102047323A (zh) * 2008-04-07 2011-05-04 纽昂斯通讯公司 网页的自动化语音支持
US20110161075A1 (en) * 2009-12-01 2011-06-30 Eric Hon-Anderson Real-time voice recognition on a handheld device
US20110313767A1 (en) * 2010-06-18 2011-12-22 At&T Intellectual Property I, L.P. System and method for data intensive local inference

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
常晋义等: "《管理信息系统第4版》", 31 August 2012, 北京:中国电力出版社 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106098069B (zh) * 2016-06-21 2019-12-20 佛山科学技术学院 一种身份认证方法、及终端设备
CN106098069A (zh) * 2016-06-21 2016-11-09 佛山科学技术学院 一种身份认证方法、及终端设备
CN106128477A (zh) * 2016-06-23 2016-11-16 南阳理工学院 一种口语识别校正系统
CN106128477B (zh) * 2016-06-23 2017-07-04 南阳理工学院 一种口语识别校正系统
CN106328146A (zh) * 2016-08-22 2017-01-11 广东小天才科技有限公司 一种视频的字幕生成方法及装置
CN108288466A (zh) * 2016-12-30 2018-07-17 中国移动通信集团浙江有限公司 一种提高语音识别准确率的方法及装置
CN108288466B (zh) * 2016-12-30 2020-10-16 中国移动通信集团浙江有限公司 一种提高语音识别准确率的方法及装置
CN107958666A (zh) * 2017-05-11 2018-04-24 小蚁科技(香港)有限公司 用于口音不变语音识别的方法
CN107452379A (zh) * 2017-08-17 2017-12-08 广州腾猴科技有限公司 一种方言语言的识别技术及虚拟现实教学方法和系统
CN107452379B (zh) * 2017-08-17 2021-01-05 广州腾猴科技有限公司 一种方言语言的识别方法及虚拟现实教学方法和系统
CN110797009A (zh) * 2018-07-17 2020-02-14 上海航空电器有限公司 一种针对巴基斯坦口音英语的飞机座舱指令识别装置
CN109036406A (zh) * 2018-08-01 2018-12-18 深圳创维-Rgb电子有限公司 一种语音信息的处理方法、装置、设备和存储介质
WO2021000068A1 (zh) * 2019-06-29 2021-01-07 播闪机械人有限公司 一种非母语人士使用的语音识别方法及装置
CN110619874A (zh) * 2019-08-30 2019-12-27 珠海格力电器股份有限公司 语音控制方法、装置、计算机设备和存储介质
CN111179928A (zh) * 2019-12-30 2020-05-19 上海欣能信息科技发展有限公司 一种基于语音交互的变配电站智能控制方法
CN111559675A (zh) * 2020-05-22 2020-08-21 云知声智能科技股份有限公司 语音控制电梯的方法

Also Published As

Publication number Publication date
US11651765B2 (en) 2023-05-16
EP4086897A2 (en) 2022-11-09
WO2014130205A1 (en) 2014-08-28
EP2959476B1 (en) 2019-09-25
US10832654B2 (en) 2020-11-10
US20140236595A1 (en) 2014-08-21
CN113793603A (zh) 2021-12-14
EP2959476A1 (en) 2015-12-30
US20170193989A1 (en) 2017-07-06
EP3605528A1 (en) 2020-02-05
US20210027763A1 (en) 2021-01-28
EP4086897A3 (en) 2022-11-30
US10347239B2 (en) 2019-07-09
US20170193990A1 (en) 2017-07-06
US20190341022A1 (en) 2019-11-07
US9734819B2 (en) 2017-08-15
US10242661B2 (en) 2019-03-26
US20230252976A1 (en) 2023-08-10

Similar Documents

Publication Publication Date Title
CN105408952A (zh) 识别带口音的语音
CN106201424B (zh) 一种信息交互方法、装置及电子设备
US20200265197A1 (en) Language translation device and language translation method
US8868409B1 (en) Evaluating transcriptions with a semantic parser
US9047868B1 (en) Language model data collection
US20150287408A1 (en) Systems and methods for supporting hearing impaired users
US20150019221A1 (en) Speech recognition system and method
US9894030B2 (en) Method, device, computer storage medium, and apparatus for providing candidate words
US20150199340A1 (en) System for translating a language based on user&#39;s reaction and method thereof
CN107430616A (zh) 语音查询的交互式再形成
US20130041666A1 (en) Voice recognition apparatus, voice recognition server, voice recognition system and voice recognition method
US11514916B2 (en) Server that supports speech recognition of device, and operation method of the server
US20180286389A1 (en) Conference system, conference system control method, and program
US11495209B2 (en) Information presentation device, and information presentation method
KR102371274B1 (ko) 음성과 메시지에 대한 텍스트 분석을 통해 획득되는 대화 키워드를 이용한 결혼 정보 매칭 방법 및 장치
US20190073994A1 (en) Self-correcting computer based name entity pronunciations for speech recognition and synthesis
US9280537B2 (en) Techniques for automatically selecting a natural language for configuring an input method editor at a computing device
KR20190074508A (ko) 챗봇을 위한 대화 모델의 데이터 크라우드소싱 방법
KR20160047244A (ko) 통번역 서비스 제공 방법, 휴대 단말 및 컴퓨터 판독 가능 매체
KR20130052800A (ko) 음성 인식 서비스를 제공하는 장치 및 그의 오류 발음 검출 능력 향상을 위한 음성 인식 방법
US20220199096A1 (en) Information processing apparatus and information processing method
JP2013250490A (ja) 処理装置、処理システム、音声認識方法及びプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160316

RJ01 Rejection of invention patent application after publication