CN1290076C

CN1290076C - 基于语音的不受语言限制的搜索系统和方法

Info

Publication number: CN1290076C
Application number: CNB018171397A
Authority: CN
Inventors: 周国军
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2000-10-10
Filing date: 2001-10-03
Publication date: 2006-12-13
Anticipated expiration: 2021-10-03
Also published as: ATE349056T1; DE60125397D1; JP4028375B2; DE60125397T2; KR100653862B1; HK1054813A1; CN1526132A; EP1330816A1; WO2002031814A1; KR20030046494A; AU2002211438A1; EP1330816B1; US6999932B1; JP2004511867A

Abstract

一种基于语音的不受语言限制的用户接口方法，包括：从用户那里接收语音输入数据；根据语音输入数据，识别用户所讲述的语言；至少部分以语言标识符为基础，通过识别语音输入数据中的用户语音，将语音输入数据转换为所识别语言的第一文本；对第一文本进行语法分析，提取出关键词；以及用提取出的关键词作为对应用软件的命令。其他操作还包括：接收对应于命令的结果；根据所识别的语言，将结果转换为自然语言格式的第二文本；以及提交第二文本，供用户感知。

Description

基于语音的不受语言限制的搜索系统和方法

发明背景

1.技术领域

本发明一般涉及Web(万维网)浏览器和搜索引擎，特别是涉及Web浏览器的利用不同语种语音的用户接口。

2.背景技术

目前，因特网为用户提供的信息量，多于其他任何一种信息源。但是，却经常难以找到所要寻找的信息。为此，开发了各种搜索引擎，以帮助查出所想要的信息的位置。要使用搜索引擎，用户通常要使用键盘键入一个搜索关键词或使用鼠标选择一个搜索类别。搜索引擎然后根据搜索关键词，搜索因特网或内连网(intranet)，找到相关信息。由于在键入英文搜索关键词方面感到有困难的那些用户(例如：那些仅仅会讲汉语或日语的人们)可能不使用这类搜索引擎，因此，这种用户接口约束条件大大限制了使用Web浏览器来确定信息在因特网或内连网上所处位置的潜在用户的数量。

当搜索引擎或Web网口支持多语种结果显示时，搜索引擎或Web网口通常显示的也是以一种特定语言事先准备好的Web网页，只有在用户利用鼠标选择语种之后，才会显示出所希望的语种。

最近，一些因特网入口已实现了语音输入服务，借此，用户能够使用一种语音识别应用软件和一个连接用户计算机系统的麦克风，来询问有关某些主题的信息，诸如天气、体育、股票行情等。在这些情况下，语音数据被转化为网口能够识别的预定命令，以选择要显示哪个Web网页。但是，英语通常是唯一受支持的语言，而且语音也不是对话式的。没有已知的搜索引擎直接支持语音搜索询问。

发明内容

根据本发明的一个方面，提供了一种为系统提供接口的方法，包括：从用户那里接收语音输入数据；根据语音输入数据，识别用户所讲述的语言；至少部分以语言标识符为基础，通过识别语音输入数据中的用户语音，将语音输入数据转换为所识别语言的第一文本；对第一文本进行语法分析，提取出关键词；将关键词翻译成除了所识别语言之外的多种选择的语言；用所翻译的关键词作为对应用软件的命令；接收对应于所述命令的结果；对结果进行自动概括；根据用户所讲述的语言，将所概括的结果转换为具有韵律模式的第二文本；以及提交第二文本，供用户感知。

根据本发明的另一个方面，提供了一种基于语音的不受语言限制的用户接口系统，包括：一个语言标识器，用来接收用户的语音输入数据并标识用户所讲述的语言；一个语音识别器，用来接收所述语音输入数据和语言标识符，并至少部分以语言标识符为基础，将所述语音输入数据转换为第一文本；一个自然语言处理模块，用于对所述第一文本进行语法分析，以提取出关键词；一个概括模块，用于对至少一个搜索引擎使用所提取的关键词根据搜索询问进行工作所获得的各种搜索结果进行自动概括；一个语言翻译器，用于将关键词翻译成除了所识别语言之外的多种选择的语言，以用作对应用软件的命令，并且将对应于不是用户所讲述语言的命令的结果翻译成用户所讲述的语言；以及一个自然语言生成器，根据用户所讲述的语言，将所概括的结果转换为具有韵律模式的第二文本。

根据本发明的另一个方面，提供了一种基于语音的不受语言限制的搜索系统，包括：一个语言标识器，用来接收用户的语音输入数据并标识用户所讲述的语言；一个语音识别器，用来接收所述语音输入数据和语言标识符，并至少部分以语言标识符为基础，将所述语音输入数据转换为第一文本；一个自然语言处理模块，用于对所述第一文本进行语法分析，以提取出关键词；一个搜索引擎，使用关键词作为搜索关键词并回送搜索结果；一个语言翻译器，用于在所述关键词输入所述至少一个搜索引擎以跨越多种语言进行搜索之前，将所述关键词翻译成多种选择的语言，并且将不是用户所讲述的语言的搜索结果翻译成用户所讲述的语言；一个自动概括模块，用于自动概括所翻译的搜索结果；一个自然语言生成器，根据用户所讲述的语言，将所概括的结果转换为具有韵律模式的第二文本。

附图说明

通过下面对本发明的详细说明，本发明的特点和优点将会变得明显易懂，附图中：

图1为方框图，表示本发明一个实施例的一种基于语音的不受语言限制的搜索系统；

图2为流程图，表示本发明一个实施例的一种基于语音的不受语言限制的搜索流程；

图3为方框图，表示一种示例性处理系统，能够用作本发明一个实施例的基于语音的不受语言限制的搜索系统。

详细说明

本发明的实施例是一种方法及装置，用于基于语音的不受语言限制的因特网或内连网搜索系统。本发明可用来丰富目前因特网或内连网的搜索框架(framework)，允许用户通过讲述本国语言来搜索所想要的信息。在一个实施例中，搜索系统可以接收用户会话式的话音输入数据，自动地确定用户所讲的语言，识别语音输入数据中的语音，并将语音作为对搜索引擎所提出搜索询问的输入数据，进行所希望的搜索。为了使这种基于语音的不受语言限制的搜索系统具备更为强大的功能，系统可以引入几项性能。自然语言处理(NLP)可用来从自然讲话询问中提取搜索关键词，从而，用户不必精确地讲出搜索关键词(因而支持会话式语音)。机器翻译可用来跨越多种语种来翻译搜索关键词及搜索结果，从而，可大大扩展搜索空间。如果搜索结果不能够被良好地组织起来或者不能够以用户喜欢方式提供出来，自动概括(summarization)技术可用来概括搜索结果。自然语言生成技术和文本—语音转换(TTS)技术，可用来以用户本国语言的话音形式，将搜索结果反馈给用户。本发明的全能语音搜索概念，一旦结合于因特网或内连网的搜索引擎，就会变为一种功能强大的工具，能够以最为便利的方式供讲述不同语言的人们来使用互连网或内连网上的信息。这种系统通过使搜索引擎或其他Web站点更加易于使用，可以在不是讲英语的那些人们当中，促进因特网利用率的提高。

在本说明书中，本发明的“一个实施例”(one embodiment)或“一实施例”(an embodiment)意味着：随同这个实施例所描述的具体性能、结构或特点，是包含在本发明的至少一个实施例中。因此，在整个说明书各个位置上出现的“在一个实施例中”这个术语，未必指的就是这个实施例。

本发明的实施例提供了至少几个特征。语音识别，使用户能够用最自然或最有效的媒介(即用户自己的话音)，来与因特网的搜索引擎进行相互联系(interact)。这在各亚洲国家可能特别实用，在那里，用户可能因为语言的书写特性而无法快速键入其本国语言。自动语音识别，使讲述不同语言的用户能够利用一个单一系统，通过自己的话音来搜索因特网或内联网，而无须专门告诉系统他们正在讲述的是什么语言。这项特点可大大促进因特网搜索引擎的用户数量的提高，从而，总的来说，大大促进环球网(World Wide Web，WWW)的用户数量的提高。自然语言处理，可用来使用户以自然会话方式在搜索询问中说出其搜索关键词。例如，如果用户说出“你能够为我搜索有关美国内战的文章吗？”，自然语言处理功能可将这个整个句子转换为搜索关键词“美国内战”，而并不要求用户仅仅精确地说出“美国内战”。

此外，语言的机器翻译可用来使搜索引擎进行跨语种的搜索。例如，如果用户说出中文搜索关键词，机器翻译可将这个搜索关键词翻译为其他语种(例如：英文、西班牙文、法文和德文等)，从而，在因特网上进行一个范围宽得多的搜索。如果找到了与搜索询问有关的任何信息，但Web网页却是用非中文所编写的，本发明可将搜索结果翻译回中文(最初语音搜索询问的语种)。如果搜索结果是分散在一个长文档内，或相反，难以确定搜索引擎所确定的信息是否与搜索关键词有关，则自动概括技术可用来帮助概括出搜索结果。如果搜索结果以用户不喜欢的一种格式出现，则本发明可以概括出搜索结果，并将搜索结果以其他格式呈现给用户。举例来说，如果搜索结果提供的是彩色图片，而用户难以区分某些颜色，本发明可以概括出图片的内容并将信息以纯文本格式提供给用户。

自然语言生成，有助于组织搜索结果并生成一个对应于所希望输出语种的自然语音响应。也就是说，搜索结果可以按照具体语言方式进行修改。如果用户选择音频输出模式，文本—语音转换(TTS)功能可用来以语音方式提交搜索结果。例如，用户的眼睛可能是处于忙碌状态或用户可能喜欢对应于语音搜索询问的语音响应。

图1示出了这种基于语音的不受语言限制的搜索系统的结构。用户(未示出)要配合输入10和输出12的各种能力。就输入能力而言，这种系统至少支持传统的键盘和鼠标14的功能，以及语音16的输入功能。可以用一种公知的方式，从与系统连接的麦克风来接收语音或其他音频声音，来支持语音输入。所接收的音频数据，可以被数字化并被转换为一种由语音识别模块或语言识别模块可接受的格式。就输出能力而言，系统可以用传统方式将搜索结果以文本或图像形式提供在显示器18上。此外，系统还可以利用公知的文本—语音转换功能20，以语音方式提交搜索结果。对本领域的普通技术人员来说，确定的输入或输出处理技术是公知的，因此，在这里，不再对此进行过多的描述。在其他实施例中，也可以使用其它的输入和/或输出处理技术，而不会限制本发明的范围。

当用户决定使用他的或她的声音来进行搜索时，用户对着与系统连接的麦克风讲话，要求系统查找用户感兴趣的信息。例如，用户可以用英文说：“hhhmm，find me information about who，uh，won the NFL Super Bowl in2000.”(啊，为我查找有关谁，嗯，赢得了2000年美国橄榄球联盟超级杯的信息)。此外，用户也可以用系统支持的任何一种语言说出这句话。例如，系统可以实现支持中文、日文、英文、法文、西班牙文和俄文作为输入语言。在不同实施例中，可以支持不同的语言设置。

一旦语音输入数据被捕获并被数字化，语音输入数据可以发送到语言识别模块22，以确定用户正在讲述的是何种语言，语言识别模块22设置在不受语言限制的用户接口24内。语言识别模块22，从语音输入数据中提取特征，识别用户正在讲述的是哪种语言，并输出一个所用语言的标识符(identifier)。根据语音数据来自动识别语言的各种算法在本领域是公知的。通常，可以在识别算法中使用隐藏式马尔可夫模块(Hidden Markov model)或神经网络。在本发明的一个实施例中，可以使用一种语音识别系统，例如，已在题为“利用大词汇量语音识别来实现健全语音识别”(Robust Spoken Language IdentificationUsing Large Vocabulary Speech Recognition)的文章中公开的语音识别系统，该文章发表在1997年IEEE国际声学、语音和信号处理会议上，作者为J.L.Hieronymus和S.Kadambe。在另一个实施例中，可以使用另一种语言识别系统，例如，已在题为“一种无监督语言识别方法”(A Unsupervised Approach to Language Identification)的文章中公开的语言识别系统，该文章发表在1999年IEEE国际声学、语音和信号处理会议上，作者为F.Pellegrino和R.Andre-Obrecht。在其他实施例中，也可以使用其他已公开的或尚在开发中的自动语言识别系统。无论使用哪种语言识别系统，系统的开发人员都可以训练语言识别系统中的模块，使其能够识别搜索系统所支持的整套选定语言。

在语言识别的基础上，至少是部分在语言识别的基础上，语音输入数据被传送给语音识别模块23，以转换为一种文本格式。在一些实施例中，这项处理的部分工作，可以与语言识别模块22同时进行。语音识别模块23，接受需要进行转换的语音数据和语言标识符，识别已讲述的单词，并将信息翻译成文本。因此，语音识别模块23提供了一种公知的语音—文本转换能力。在本发明中，可以使用任何一种商业性语音—文本转换软件应用，用于这种用途。例如，国际商用机器公司(IBM公司)出售的ViaVoice^TM软件，它使用户能够直接支配各种应用程序。不同版本的ViaVoice^TM软件，都支持多种语言(例如：英文、中文、法文和意大利文)。

在许多情况下，语音识别模块所确定的文本，可能存在语法错误。由于语音输入可能是用户的自发语音，因此，最终的文本可能会含有填充词、习语及重复等。自然语言处理模块26可用来从文本中提取关键词。自然语言处理模块含有一个语法分析程序，用于对语音识别模块的输出文本进行语法分析，以确定文本内的关键词以及丢弃文本内的非关键词。在前面所描述过的实例中，可以将单词和声音“hhmm findme information about who won uh won the in”(啊，为我查找有关谁，嗯，赢得的信息)丢弃，而将“NLF Super Bowl 2000”(2000年美国橄榄球联盟超级杯)确认为搜索关键词。对于用来从讲述语言中提取出所选定语音词汇的语法分析程序来说，用于实现语法分析程序的各种算法和系统在本领域是公知的。在本发明的一个实施例中，可以使用题为“在自发语音中提取信息(Extracting Information in SpontaneousSpeech)”的文章中所公开的语法分析程序，该文章发表在1994年语音处理国际会议(ICSLP)论文集上，作者为Wayne Ward。在另一个实施例中，可以使用题为“TINA：一种供语音应用使用的自然语言系统(TINA：A Natural Language System for Spoken LanguageApplications)”的文章中所公开的语法分析程序，该文章发表在1992年3月的《计算语言学》上，作者为S.Seneff。在其他实施例中，也可以使用其他已公开的或尚在开发中的自然语言处理系统。

一旦关键词从文本中提取出来，则关键词就可以由机器翻译模块28翻译成系统所支持的多种语言。通过将关键词翻译成多种语言并将这些关键词作为搜索关键词，能够实现不同语言的跨文档搜索，借此，大大扩展搜索空间。实现语言机器翻译的各种算法和系统，在本领域是公知的。在本发明的一个实施例中，可以使用题为“KANT机器翻译系统：从研究和开发到初步应用(The KANT Machine TranslationSystem：From R&D to Initial Deployment)”的文章中所公开的机器翻译系统，该文章发表在1997年LISA《集成先进翻译技术》专题研讨会的文献集上，作者为E.Nyberg、T.Mitamura和J.Carbonell。在其他实施例中，也可以使用其他已公开的或尚在开发中的机器翻译系统。

关键词可以作为搜索关键词，以不同的语言30，自动地输入搜索引擎32。可以使用任何一种或多种公知的搜索引擎[例如：雅虎(Yahoo)、埃克斯塞特(Excite)、虚拟空间(AltaVista)、古戈尔(Google)、北极光(Northern Lights)等]。搜索引擎搜索因特网或特定内联网，并将不同语言的搜索结果34回送给不受语言限制的用户接口24。取决于搜索结果，搜索结果可以是一种单一语言的或是多种语言的。如果搜索结果是多种语言的，则机器翻译模块28可用来将搜索结果翻译成用户所使用的语言。如果搜索结果是一种语言的，且这种语言并非是用户的语言，则可将搜索结果翻译成用户的语言。

如果需要的话，自动概括模块36可用来概括搜索结果。在本发明的一个实施例中，可以使用题为“用于会议索引和要点的单一基础结构框架(A Unified Structure-Based Framework for Indexing and Gistingof Meetings)”的文章中所公开的技术来实现自动概括，该文章发表在1999年IEEE国际多媒体计算和系统会议上，作者为T.Kristjansson、T.Huang、P.Ramesh和B.Juang。在其他实施例中，也可以使用其他已公开的或尚在开发中的信息概括技术。

自然语言生成模块36，可用来接收用户语言形式的概括搜索结果，并生成搜索结果的自然语音形式。可以使用一种选择的韵律模式，将搜索结果修改为符合可读要求的句子，从而，在将结果提供给用户时，能够实现发音自然和语法正确。在本发明的一个实施例中，可以使用题为“跨多域名的多语言生成(Multilingual Language GenerationAcross Multiple Domains)”文章中所公开的自然语言生成系统，该文章发表在1994年国际语音处理会议(ICSLP)的论文集上，作者为J.Glass、J.Polifroni和S.Seneff，不过，也可以使用其他已公开的或尚在开发中的自然语言生成处理技术。

自然语言生成模块的输出，可传送到文本—语音转换模块20，以将文本转换为音频格式并将音频数据提供给用户。此外，文本还可以以通常的方式显示在显示器18上。各种文本—语音转换工具，是本领域所公知的。在一个实施例中，可以使用IBM公司的ViaVoice^TM文本—语音转换(TTS)技术。此外，也可以使用诸如朗讯科技贝尔实验室(Lucent technologies Bell Laboratories)的多语言文本—语音转换系统之类的其他工具。在另一个实施例中，虽然搜索结果是以语音形式提供给用户，但还可以使用可视文本—语音转换来显示一个动画形式的、与合成语音同步的面部图像(例如一个会话头部图像)。会话头部图像的嘴部，不仅动作逼真，而且也与发音相匹配，这不仅能给用户提供一种图像正在讲话的感觉，而且还能提高语音的可理解性。动画工具，例如会话头部图像，可以提高用户等待搜索处理结果的意愿。

虽然前面的描述主要是集中在作为应用软件的搜索引擎上，用于基于语音的不受语言限制的输入，但是，其他已知的支持语音输入的自动语言识别应用软件，也可以受益于本发明。引入本发明的Web浏览器可用来与Web站点或搜索引擎之外的应用软件接口。例如，Web网口可以引入本发明，以支持不同语言的语音输入。电子商务网站可以接收不同语言的基于语音的订单，并用买主的语言，回复语音确认信息。例如，通过不受语言限制的用户接口发送给Web站点的关键词，可以是以任何一种系统支持语言所讲述的一个采购订单或一个产品信息请求。新闻网站可以从讲述不同语言的用户那里接收对于特定新闻内容的语音请求，并以用户的语言形式回复新闻内容。其他许多应用场所和Web站点，也可以利用本发明所提供的各种性能优点。

在其他实施例中，在不受语言限制的用户接口中，一些模块可以根据需要而省去。例如，可以省去自动概括模块，或者，如果仅支持一种语言，可以省去机器翻译模块。

图2为一个流程图，表示本发明一个实施例的基于语音的不受语言限制的搜索流程。在方块100中，可以从用户那里接收语音，并将语音转换为一种数字表示。在方框102中，可以对数字化语音进行分析，以识别用户所使用的语言。在方框104中，根据所识别的语言，可以将语音转换为文本。在方框106中，可以通过对文本进行语法分析，从文本中提取出关键词。在方框108中，可以将关键词翻译为多种语言。在方框110中，可以将多种语言的关键词作为对一个或多个搜索引擎提出询问的搜索关键词。在方框112中，可以将来自一个或多个搜索引擎的多种语言的搜索结果翻译成用户所使用的语言。下一步，在方框114中，可以将搜索结果进行概括(如果需要的话)。在方框116中，可以以文本格式来生成搜索结果，这种文本格式表现为用户语言的自然语言结构。在方框118中，可以使用一种文本—语音转换模块，将文本转换为语音，并将文本以语音方式提供给用户。

在前面所进行的描述中，已对本发明的各个方面进行了描述。出于解释的目的，设定了具体编号、系统和结构，以确保对本发明的全面了解。但显然，即使在没有具体详细说明的情况下，本领域的普通技术人员也能够得益于本说明书所公开的内容而实践本发明。在其他方面，为了避免使本发明含糊不清，对于众所周知的特征，进行了忽略或简化处理。

本发明的实施例，可以以硬件形式或软件形式来实现，也可以以硬件和软件的组合形式来实现。但是，本发明也可以以在可编程系统上执行的计算机程序形式来实现，可编程系统包括：至少一个处理器；一个数据存储系统(包括易失性存储器、非易失性存储器和/或存储元件)；至少一个输入装置；以及至少一个输出装置。程序代码可应用于输入数据，来实现在此所描述的各种功能并生产输出信息。输出信息可以以公知的形式，应用于一个或多个输出装置。为了这种应用目的，配置有放音部件的处理系统包括任何一种带有处理器的系统，处理器的例子如：数字信号处理器(DSP)、微控制器、专用集成电路(ASIC)或微处理器。

程序可以以高级过程语言或面向对象编程语言来实现，以便与处理系统通信。如果希望的话，程序也可以以汇编语言或机器语言来实现。实际上，本发明并不局限于任何特定的编程语言。在任何情况下，语言都可以是编译语言或解释语言。

程序可以存储在一种由通用或专用可编程处理系统可读的存储介质或存储装置上[(例如：硬盘驱动器、软盘驱动器、只读存储器(ROM)、只读光盘存储器(CD-ROM)、闪速存储器、数字通用盘(DVD)或其他存储装置)]，当存储介质或存储装置是通过处理系统来读取以执行在此所描述的步骤时，用程序来配置和操作处理系统。本发明的实施例还可以考虑以一种机器可读的存储介质来实现，这种机器可读的存储介质与处理系统一起配置使用，在此，这样配置的存储介质能够使处理系统以一种特定的和预定的方式来执行在此所描述的各种功能。

图3示出了这样一种类型的处理系统的一个实例，但也可以使用其他系统，而且并非图中所示系统的所有部件都是本发明所必需的。例如，可以使用示例性系统400来执行本发明的基于语音的不受语言限制的搜索系统(例如在此所描述的实施例)的处理。示例性系统400代表的是基于英特尔公司“奔腾”II(PENTIUMII)、“奔腾”III(PENTIUMIII)和“赛扬”(CELERON^TM)微处理器的处理系统，不过，也可以使用其他系统[包括采用其他处理器的个人计算机(PC)、工程工作站及其他机顶盒等]和结构。

图3为方框图，表示本发明一个实施例的系统400。系统400包括有一个处理器402，用于处理数据信号。处理器402可以连接到一条处理器总线404上，处理器总线404在处理器402与系统400中的其他部件之间传送数据信号。

系统400包含一个存储器406。存储器406可以存储指令和/或由数据信号所代表的数据，它们可由处理器402执行。为实现本发明的任何一项和/或所有技术，指令和/或数据可以含有代码。存储器406还可以含有附加的软件和/或数据(未示出)。一个超高速缓冲存储器408可以驻留在处理器402内部，它将数据信号存储在存储器406中。

一个桥接/存储控制器410，可以连接到处理器总线404和存储器406上。桥接/存储控制器410，在处理器402、存储器406和系统400的其他部件之间引导数据信号，并在处理器总线404、存储器406和第一输入/输出(I/O)总线412之间实现数据信号的桥接。在这个实施例中，图形控制器413与显示装置(未示出)接口，显示装置用于为用户显示由图形处理器413所提供的或者另外处理的图像。

第一输入/输出(I/O)总线412，可以由一根总线或多根总线组合而组成。第一输入/输出(I/O)总线412，在系统400的各个部件之间提供通信链接。网络控制器414可以连接到第一输入/输出(I/O)总线412上。在一些实施例中，显示装置控制器416可以连接到第一输入/输出(I/O)总线412上。显示装置控制器416允许将显示装置连接到系统400上，并且作为显示装置(未示出)与系统之间的一个接口。显示装置从处理器402经过显示装置控制器416来接收数据信号，并将数据信号中所包含的信息显示给系统400的用户。

第二输入/输出(I/O)总线420可以包括一根总线或多根总线的组合。第二输入/输出(I/O)总线420，在系统400的各个部件之间提供通信链接。数据存储装置422可连接到第二输入/输出(I/O)总线420上。键盘接口424可以连接到第二输入/输出(I/O)总线420上。用户输入接口425可以连接到第二输入/输出(I/O)总线420上。例如，用户输入接口可以连接到用户输入装置上，如遥控器、鼠标、游戏操纵杆或跟踪球，以将输入数据提供给计算机系统。总线桥接器428将第一输入/输出(I/O)桥412连接到第二输入/输出(I/O)桥420上。

本发明的实施例涉及使用系统400作为基于语音的不受语言限制的搜索系统。根据一个实施例，这种处理可以随着处理器402执行存储器404中的指令顺序，由系统400来进行。这类指令可以从其他计算机可读介质，例如数据存储装置422来读入存储器404，或者可以从另一个源头，例如通过网络控制器414来读入存储器404。指令顺序的执行使处理器402能够实现本发明实施例的不受语言限制的用户接口处理。在另一个实施例中，硬件电路可被软件指令取代或与软件指令结合，以实现本发明的实施例。因此，本发明并不局限于硬件电路和软件的任何一种具体组合。

系统400的各个元件，以本领域内所公知的方式，执行其普通功能。特别是，数据存储装置422可用来长时间存储本发明实施例的基于语音的不受语言限制的搜索系统的可执行指令和数据结构，而存储器406用来在处理器402执行过程中，较短时间地存储本发明实施例的基于语音的不受语言限制的搜索系统的可执行指令。

虽然参照示范性的实施例对本发明进行了描述，但这种描述并不是用来限定的。对示范性实施例的各种改进及本发明的其他实施例，均被认为是落在本发明的构思和保护范围之内，这是与本发明有关的技术领域内的普通技术人员显然都明白的道理。

Claims

1.一种为系统提供接口的方法，包括：

从用户那里接收语音输入数据；

根据语音输入数据，识别用户所讲述的语言；

至少部分以语言标识符为基础，通过识别语音输入数据中的用户语音，将语音输入数据转换为所识别语言的第一文本；

对第一文本进行语法分析，提取出关键词；

将关键词翻译成除了所识别语言之外的多种选择的语言；

用所翻译的关键词作为对应用软件的命令；

接收对应于所述命令的结果；

对结果进行自动概括；

根据用户所讲述的语言，将所概括的结果转换为具有韵律模式的第二文本；以及

提交第二文本，供用户感知。

2.根据权利要求1所述的方法，其中，所述的提交包括：将第二文本转换为语音，以及将语音提供给用户。

3.根据权利要求1所述的方法，还包括：用所述关键词作为对搜索引擎提出的搜索询问，其中，结果包括搜索引擎根据搜索询问进行工作所获得的各种搜索结果。

4.根据权利要求1所述的方法，还包括：将所述关键词翻译成除了识别语言之外的多种选择的语言，并且用所翻译的关键词作为对至少一个搜索引擎提出的搜索询问，其中，结果包括所述至少一个搜索引擎根据搜索询问进行工作所获得的多种语言的各种搜索结果。

5.根据权利要求4所述的方法，还包括：将不是用户所讲述的语言的搜索结果翻译成用户所讲述的语言。

6.根据权利要求1所述的方法，其中，应用包括Web浏览器。

7.根据权利要求6所述的方法，其中，所述Web浏览器与搜索引擎接口，而且所述命令包括搜索询问。

8.根据权利要求6所述的方法，其中，所述Web浏览器与商务网站接口，而且所述命令包括至少一个采购订单和一个产品信息请求。

9.根据权利要求1所述的方法，其中，语音包括会话式语音。

10.根据权利要求1所述的方法，其中，所述韵律模式能够使得所述第二文本发音自然和语法正确。

11.一种基于语音的不受语言限制的用户接口系统，包括：

一个语言标识器，用来接收用户的语音输入数据并标识用户所讲述的语言；

一个语音识别器，用来接收所述语音输入数据和语言标识符，并至少部分以语言标识符为基础，将所述语音输入数据转换为第一文本；

一个自然语言处理模块，用于对所述第一文本进行语法分析，以提取出关键词；

一个概括模块，用于对至少一个搜索引擎使用所提取的关键词根据搜索询问进行工作所获得的各种搜索结果进行自动概括；

一个语言翻译器，用于将关键词翻译成除了所识别语言之外的多种选择的语言，以用作对应用软件的命令，并且将对应于不是用户所讲述语言的命令的结果翻译成用户所讲述的语言；以及

一个自然语言生成器，根据用户所讲述的语言，将所概括的结果转换为具有韵律模式的第二文本。

12.根据权利要求11所述的系统，还包括：一个文本—语音转换模块，用于将所述第二文本以音频形式提供给用户。

13.根据权利要求11所述的系统，还包括：一个语言翻译器，用于将所述关键词翻译成多种选择的语言用作搜索询问，以及在概括所转换的结果和将所概括的结果转换为自然语言格式的第二文本之前，将不是用户所讲述的语言的搜索结果转换为用户所讲述的语言。

14.根据权利要求11所述的系统，其中，所述系统结合到Web浏览器上。

15.根据权利要求14所述的系统，其中，所述Web浏览器与搜索引擎接口，关键词包括搜索询问，而且所述第二文本包括来自搜索引擎的各种搜索结果。

16.根据权利要求14所述的系统，其中，所述Web浏览器与商务网站接口，而且所述命令包括至少一个采购订单和一个产品信息请求。

17.根据权利要求11所述的系统，其中，所述韵律模式使得所述第二文本发音自然和语法正确。

18.一种基于语音的不受语言限制的搜索系统，包括：

一个搜索引擎，使用关键词作为搜索关键词并回送搜索结果；

一个语言翻译器，用于在所述关键词输入所述至少一个搜索引擎以跨越多种语言进行搜索之前，将所述关键词翻译成多种选择的语言，并且将不是用户所讲述的语言的搜索结果翻译成用户所讲述的语言；

一个自动概括模块，用于自动概括所翻译的搜索结果；

19.根据权利要求18所述的系统，还包括：一个文本—语音转换模块，用于将所述第二文本以音频形式提供给用户。

20.根据权利要求18所述的系统，其中，所述韵律模式使得所述第二文本发音自然和语法正确。