当前位置: 新豪天地登录网址 > www.3559.com > 正文

智能助理,谷歌手机更新语音识别系统

时间:2019-10-11 21:01来源:www.3559.com
原标题:Google 智能助理,支持多种语言功能! 原标题:谷歌双语助理来了!中英夹杂也不怕,递归神经网络和随机森林显神威 姓名:杨凯航 学号:17101223381 文 / 副总裁 Johan Schalkwyk 和

原标题:Google 智能助理,支持多种语言功能!

原标题:谷歌双语助理来了!中英夹杂也不怕,递归神经网络和随机森林显神威

姓名:杨凯航 学号:17101223381

图片 1

文 / 副总裁 Johan Schalkwyk 和 Google Speech 工程师 Ignacio Lopez Moreno

来源:ai.googleblog、新智元

【嵌牛导读】 语音识别的梦想是一个能在不同的环境下、能应对多种口音和语言的、真正理解人类语言的系统。几十年来,对这个问题的尝试都没有成功。寻找一个能有效地创建这样的系统的策略看起来是不可能完成的任务。

图1/5

多语言家庭正变得越来越普遍,一些数据来源 [1][2][3] 表明,多语言使用者的人数已超过单语言使用者,而且这一数字还会继续增长。鉴于多语言使用者人群庞大且不断增加,与以往相比,我们更需要使 Google 开发产品能够同时支持多种语言,以便更好地为用户服务。

图片 2

【嵌牛鼻子】AI、深度学习、语音识别

大数据文摘出品

今天,我们将推出 “Google 智能助理” 的多语言支持功能,让用户在查询时可以切换两种不同的语言,而无需返回语言设置。用户从英语、西班牙语、法语、德语、意大利语和日语中选择两种受支持的语言后,便可使用其中任意一种语言与 “智能助理” 对话,而 “智能助理” 会以相同的语言回应。之前,用户需要为 “智能助理” 选择一种语言设置,而每当他们想使用另一种语言时,便需要更改设置,但现在,多语言家庭无需动手,即可享受简便的体验。

使用 Google Assistant 的 Google Home Mini

【嵌牛提问】语音识别应该考虑那种算法?在实际应用中遇到那些问题?如何解决?

编译:周素云、魏子敏

图片 3

多语家庭正变得越来越普遍,有一些研究发现多语人口已经超过单语人口,而且这个数字还将继续增长。随着多语用户数量的不断增加,开发能够同时支持多种语言的产品比以往任何时候都更加重要。

【嵌牛正文】

识别延迟一直是设备端语音识别技术需要解决的重大问题,谷歌手机今天更新了手机端的语音识别技术——Gboard,重磅推出了一款端到端、全神经、基于设备的语音识别器,支持Gboard中的语音输入。通过谷歌最新的技术训练的模型,该模型精度超过CTC,并且只有80M,可直接在设备上运行。

“Google 智能助理” 现在能够识别语言、解读查询内容,并使用正确的语言作出回应,而且用户无需触摸 “智能助理” 设置,便可完成这些操作

今天,谷歌的智能助理 Google Assistant 开启了多语言支持,允许用户同时使用两种不同的语言进行查询,而无需返回语言设置。一旦用户选择了两种支持的语言(目前支持的语言包括英语、西班牙语、法语、德语、意大利语和日语),他们就可以使用其中任一种语言与 Google Assistant 进行对话,智能助理也会以同一种语言做出回复。

语音识别的梦想是一个能在不同的环境下、能应对多种口音和语言的、真正理解人类语言的系统。几十年来,对这个问题的尝试都没有成功。寻找一个能有效地创建这样的系统的策略看起来是不可能完成的任务。  然而,在过去的几年间,人工智能和深度学习领域的突破已经颠覆了对语音识别探索的一切。深度学习技术在语音识别领域的运用已经取得了显著的进步。现在我们已经在非常多样的产品(比如Amazon Echo、Apple Sir等)里面看到了展示出来的发展的跃升。在这篇博文里,我会回顾一下近期语音识别的发展,检视带来这些快速进步的因素,并会讨论一下未来的发展以及我们离完全解决这个问题还有多远。  

2012年,语音识别研究获得新突破——深度学习可以提高识别的准确性,最早探索这项技术的产品便是谷歌语音搜索了。这标志这语音识别革命的开始,从深层神经网络到递归神经网络,长短期记忆网络,卷积网络等等,新的架构和开发质量每年都在快速提升。在发展过程中,识别延迟仍然是攻关难点。

然而,实现这项强大的功能却并非易事。事实上,我们付出多年的努力解决了诸多难题。最终,我们将问题拆分成三个独立的部分:识别多种语言、理解多种语言,以及为 “Google 智能助理” 用户优化多语言识别。

在此之前,用户必须为智能助理选择一种语言设置,每次想要使用另一种语言时都必须更改设置。但现在,对于多语家庭来说,与谷歌助理交流的体验变得更加简单方便了。

一点背景知识  

图片 4

识别多种语言

图片 5

多年以来,人工智能的主要任务之一就是去理解人类。人们希望机器不仅能理解人说了什么,还能理解他们说的是什么意思,并基于这些理解的信息采取相应的动作。这个目标就是对话人工智能的精髓。  

图1/5

当有人在说另一种语言时,即使我们自己并不说这种语言,也能够识别出来,只要注意语言的声学效果(语调、音域等),便可做到这一点。但是,即便有了完整自动语音识别系统的帮助,定义自动口语识别的计算框架也非常具有挑战性 1。在 2013 年,Google 开始使用深度神经网络 [4][5] 来研究口语识别 (LangID) 技术。如今,借助递归神经网络,我们最先进的 LangID 模型可以在超过 2000 个备选语言对中识别各种语言对。作为其中一类神经网络,递归神经网络在解决序列建模问题上尤为有效,例如语音识别、语音检测、语者识别等方面的问题。我们遇到的挑战之一是如何处理更大的音频集,这需要获取能够自动大规模理解多种语言的模型,并且达到可以让这些模型正常运作的质量标准。

Google Assistant 现在能够识别语言、解释查询并使用正确的语言提供回复,而无需用户手动设置设置。

对话人工智能包括两个主要类别:人机交互界面和人与人交互界面。在人机界面里,人类主要是通过语音和文字与机器交互。机器能理解人类的意思(即使只是在一个有限的形式下)并采取某个动作。如图1所示,这个机器可以是个人助理(比如Siri、Alexa等),或是某种聊天机器人。

大数据文摘出品

理解多种语言

然而,实现这一功能并非易事。事实上,研究人员努力了多年,解决了许多具有挑战性的问题。最后,我们将问题分解为三个独立的部分:识别多种语言,理解多种语言,以及为 Google Assistant 用户优化多语言识别

图片 6

编译:周素云、魏子敏

要同时理解多种语言,便需要并行运行多个进程,且每个进程产生增量结果,从而使 “智能助理” 不仅能够识别用户提出查询时所使用的语言,还可以解析查询以创建可操作指令。举例来说,即使是在单语言环境中,如果用户要求 “设定下午 6 点的闹钟”,则 “Google 智能助理” 必须理解 “设定闹钟” 的意思是打开闹钟应用,输入 “下午 6 点” 的显式参数,而且还要推断出闹钟应该设在今天。要对受支持语言的任何给定语言对执行这项操作可谓一项挑战,因为 “智能助理” 执行与在单语言情况中相同的工作,但现在必须额外启用 LangID,并且不只是一个,而是同时运行两个单语言语音识别系统(在本篇博文的稍后部分,我们会进一步说明当前两种语言的限制)。

识别多种语言

在人和人交互里,人工智能形成了两个或多个人之间对话的桥梁,进行交互或是创造一些洞察(如图2所示)。一个这样的例子可能是人工智能参与一个电话会议,然后产生一个会议的纪要,并交付给相关的人

识别延迟一直是设备端语音识别技术需要解决的重大问题,谷歌手机今天更新了手机端的语音识别技术——Gboard,重磅推出了一款端到端、全神经、基于设备的语音识别器,支持Gboard中的语音输入。通过谷歌最新的技术训练的模型,该模型精度超过CTC,并且只有80M,可直接在设备上运行。

重要的是,我们需要在几毫秒的时间内评估 “Google 智能助理” 和用户查询中提及的其他服务异步生成的实时增量结果。我们借助另一种算法来完成这项工作。该算法使用由 LangID 产生的候选语言概率、我们的转录置信度和用户偏好(例如最喜欢的艺术家),对两个语音识别系统中每个系统提供的转录假设进行排名。

人类是有能力识别出别人在说另一种语言的,即使他们自己不会说这种语言,只需要注意语音的声学特征(语调、音域等等)。但是,即使借助于全自动语音识别系统,定义一个自动口语语言识别的计算框架也是很有挑战性的。

图片 7

2012年,语音识别研究获得新突破——深度学习可以提高识别的准确性,最早探索这项技术的产品便是谷歌语音搜索了。这标志这语音识别革命的开始,从深层神经网络到递归神经网络,长短期记忆网络,卷积网络等等,新的架构和开发质量每年都在快速提升。在发展过程中,识别延迟仍然是攻关难点。

图片 8

研究者通常认为,口语识别比基于文本的语言识别更具挑战性,对于文本语言识别来说,相对简单的基于字典的技术已经可以做得很好。口语词汇的时间 / 频率模式很难比较,口语词汇很难划界,因为口语可以毫无停顿地以不同的节奏说话,而且麦克风可能会记录除了语音之外的背景噪音。

机器感知和认知

今天,谷歌官方宣布,推出一款端到端、全神经、基于设备的语音识别器,支持Gboard中的语音输入。

我们用于 “Google 智能助理” 的多语言语音识别系统与标准单语言语音识别系统示意图。排名算法用于根据有关用户和增量 LangID 结果的相关信息,从两个单语言语音识别器中选择最佳识别假设

在 2013 年,谷歌开始使用深度神经网络开发口语识别(LangID)技术。今天,谷歌最先进的 LangID 模型已经可以使用递归神经网络区分超过 2000 种可供选择的语言对。递归神经网络特别适用于序列建模问题,例如语音识别、语音检测、说话人识别等。研究人员遇到的挑战之一是使用更大的音频集——获取能够自动理解多种语言的模型,并达到允许这些模型正常工作的质量标准。

  为了能更好地理解对话人工智能所面临的挑战和背后的技术,我们必须先看看人工智能里的基本概念:机器感知和机器认知。

图片 9

当用户停止讲话时,模型不仅可确定用户所说的语言,还能解读用户的说话内容。当然,这个流程需要复杂的架构,因而会增加处理开销,而且可能会造成不必要的延迟。

理解多种语言

  机器感知是机器所具有和人类使用他们的感官去感知世界所类似的形式来分析数据的能力。换句话说,就是给予机器类似人的感官。很多使用计算机相机(例如目标检测和识别)的人工智能算法都可以归到计算机感知这一类里,他们关注的是视觉。语音识别和画像是机器使用听觉的感知技术。

图2/5

优化多语言识别

要同时理解一种以上的语言,需要并行地运行多个进程,每个进程都会产生增量结果,这样智能助理不仅可以识别查询所使用的语言,还可以解析查询以创建可操作的命令。

  机器认知是在机器感知产生的元数据上的推理能力。机器认知包括决策、专家系统、采取行动、用户倾向等。通常如果没有机器认知不会对机器感知的输出产生影响。机器感知为决策和采用什么动作提供合适的元数据信息。

在谷歌最近的论文“移动设备的流媒体端到端语音识别”中,提出了一种使用RNN传感器技术训练的模型,并且可以在手机上实现。这意味着即使你的手机网络延迟,甚至处于离线状态,新的识别器也始终可用。

为了尽可能降低这些不良影响,系统能越快确定所说的语言就越好。如果系统在用户查询结束前就可以确定所说的语言,则系统会忽略识别器以停止处理用户的语音并舍弃忽略的假设,进而降低处理开销,并减少任何潜在的延迟。考虑到这一点,我们发现了几种优化系统的方法。

例如,即使是单语环境,如果用户要求 “设一个下午 6 点的闹铃”,谷歌助理必须理解“设置闹铃” 意味着打开时钟 app,完成 “6pm” 的显式参数,并推断闹钟应该设在今天。为任何一对支持的语言实现这个功能都是一项挑战,因为智能助理需要执行与单语环境时相同的工作,但现在还必须另外启用 LangID。这不仅是一个语言识别系统,而是相当于两个单语言识别系统。

在对话人工智能里,机器感知包括所有的语音分析技术,比如识别和画像;机器认知包括所有和理解语言相关的技术,它们是自然语言处理(Natural Language Processing, NLP)技术的一部分。

我们考虑的一个用例是人们通常在查询中使用同一种语言(用户通常也希望 “智能助理” 使用该语言作出回应),除非所查询实体的名称使用不同语言。这意味着,在大多数情况下,即使句子中包含使用不同语言的实体,“智能助理” 也可以通过关注查询的第一部分来对所说的语言作出初步猜测。借助这种早期识别,我们可以通过切换到单个单语言语音识别器来简化任务,这与我们处理单语言查询一样。然而,快速决定如何以及何时切换为单一语言需要最终的技术整合:具体来说,我们使用随机森林技术来结合多个情境信号,例如所使用的设备类型、所发现的语音假设数量、我们接收类似假设的频率、单个语音识别器的不确定性,以及每种语言的使用频率。

更重要的是,Google Assistan 以及在用户查询中异步引用的其他服务会生成需要在几毫秒内评估的实时增量结果。这是借助另外一种算法实现的,该算法使用 LangID 生成的候选语言的概率、我们对转录的信心以及用户的偏好(例如,最喜欢的艺术家)对两个语音识别系统提供的转录假设进行排序。

  语音识别领域的演进

该模型以单词级别运行,也就是说,当你说话时,它会逐个字符地输出单词,就像是你自己在敲键盘一样。

我们用来简化和提升系统质量的另一个方法是限制用户可以选择的候选语言列表。用户可以在我们的家居设备目前支持的六种语言中选择两种,如此一来,我们就可以支持大部分多语言使用者。不过,我们还在继续改进技术,希望接下来可以解决三语支持问题,因为我们深知这会进一步提升不断增长的用户群的体验。

图片 10

  语音识别技术的研究和发展主要包括三个时期:

图片 11

从双语支持到三语支持

Google Assistant 使用的多语言语音识别系统与标准单语语音识别系统的示意图。排序算法用于从两个单语语音识别器中选择最佳的识别假设,利用了用户的相关信息和增量的 langID 结果。

  2011年之前

图3/5

从一开始,我们的目标就是让 “智能助理” 可以自然地与所有用户对话。多语言支持是用户翘首以待的功能,也是我们团队几年前就提上日程的项目。然而,现在全球不只有许多双语使用者,还有使用三种语言的用户,或使用两种以上语言的家庭,我们也想让他们的生活更加便利。

当用户停止说话时,该模型不仅确定了用户所讲的语言,还确定了所讲的内容。当然,这个过程需要一个复杂的架构,增加了处理成本,并可能造成不必要的延迟。

  语音识别的研究已经有几十年了。实际上,甚至是在上世纪50和60年代,就已经有了构建语音识别系统的尝试了。不过,在2011年前,深度学习、大数据、云计算的进步尚未发生,这个时期的系统离能被广泛采用和商业化都很远。本质上,算法都不够好、没有足够的数据来训练算法、缺少必要的高性能计算机硬件都在妨碍研究人员尝试更复杂的试验。

语音识别的历史

今天的更新让我们走上正轨,是我们先进的机器学习技术、语音和语言识别技术,以及我们团队为优化 LangID 模型所作出的努力让这一切成为可能。目前,我们正在努力教导 “Google 智能助理” 如何同时处理两种以上的语言,并致力于在日后添加更多受支持的语言 — 敬请期待!

优化多语识别模型

2011-2014年

最初,语音识别系统由这样几个部分组成,将音频片段映射到音素的声学模型,将音素连接在一起形成单词的发音模型,语言模型给出相应的短语。这些组件在早期系统中都是相互独立的。

1:人们通常认为,口语识别比基于文本的语言识别更具挑战性,后者只需要基于字典的相对简单技术就能出色地完成工作。语音内容的时间/频率模式很难加以比较,而且由于用户在讲话时可以不加停顿,语速也有所不同,并且麦克风除了录制语音以外还会保留背景噪声,因此确定语音内容也更加困难。返回搜狐,查看更多

为了最大限度地减少这些不良影响,系统决定使用哪种语言的速度越快越好。如果系统在用户完成查询之前确定了所使用的语言,那么它将停止通过 losing recognizer 运行用户的语音,并丢弃 losing hypothesis,从而降低处理成本,减少任何潜在的延迟。

  深度学习(在语音识别里)的第一个主要影响发生在2011年。一组来自微软的研究人员——Li Deng、Dong Yu和Alex Acero——与Geoffrey Hinton和他的学生George Dahl创造了第一个基于深度学习的语音识别系统,并立刻就产生了影响:错误率降低了25%多。这个系统是语音识别领域繁盛发展和提升的起点。凭借更多的数据、可用的云计算资源以及被诸如Apple(Siri)、Amazon(Alexa)和Google这样的公司重视,语音识别的性能得到了显著的提升,并伴随着不少商业化产品被投放到市场。

大约在2014年,研究人员开始专注于训练单个神经网络,将输入音频波形直接映射到输出句子。

责任编辑:

考虑到这一点,我们尝试了优化系统的几种方法。

  2015年至今

也就是说,通过给定一系列音频特征,生成一系列单词或字形来建立学习模型,这种seq2seq模型的出现促进了“attention-based ”和“listen-attend-spell” 模型的进展。

我们考虑的一个用例是,人们通常在一个完整查询过程中使用相同的语言(这个语言通常也是用户希望智能助理回复使用的语言),除了询问某个东西用不同语言怎样说之外。这意味着,在大多数情况下,关注查询的开头部分就可以让智能助理对所使用的语言进行初步猜测,甚至在包含不同语言实体的句子中也是如此。

  到2014年底,循环神经网络获得了更多的关注。它与关注模型、记忆网络和其他的技术一起,形成了第三波的进展。现在,几乎每种类型的算法和解决方案都使用某种类型的神经网络模型。实际上,几乎所有的语音研究都在转向使用深度学习。

这些模型期望在识别准确度上做出突破,但其需要通检查整个输入序列来工作,并且在输入时不允许输出,这就很难实现实时语音转录了。

有了这种早期识别,我们就可以像处理单语查询那样,通过切换到单语语音识别器来简化任务。然而,快速决定如何以及何时切换到一个单语言,在最后会需要一个技术转折:具体来说,我们使用随机森林(random forest)方法,结合多个上下文信号,例如正在使用的设备类型、发现的语音假设的数量、多久收到类似的假设、各个语音识别器的不确定性、以及每种语言的使用频率等。

近期语音领域里神经网络模型的进展

几乎同一时间,一个被称为CTC的独立技术出现了,成功解决了识别延时的问题,采用CTC技术也就成为迈向RNN-T架构最重要一步。

另外一种简化和改进系统质量的方法是限制用户可以选择的候选语言列表。用户可以谷歌智能助理设备目前支持的六种语言中选择两种语言,这已经能够支持大多数多语使用者。

  语音识别领域在过去6年里的突破比之前40多年加起来还要多。这些非凡的进展主要是来源于神经网络。为了更好地理解深度学习的影响和它的作用,我们需要先理解一下语音识别是如何工作的。

递归神经网络传感器

不过,随着 LangID 技术的不断改进,谷歌希望接下来能够解决三语支持的问题,这将进一步提升多语用户群的体验。而且,谷歌负责产品的副总裁 Nick Fox 此前表示,接下来的几个月里 Google Assistant 将增加支持丹麦语、荷兰语、印地语、印度尼西亚语、挪威语、瑞典语和泰语。到今年年底,谷歌助理将支持超过 30 种语言,覆盖 Android 手机使用语言的 95%。返回搜狐,查看更多

  虽然语音识别作为一个活跃的研究领域已经存在几乎50年了,构建可以理解人类语言的机器依然是最具挑战的任务之一。它比看起来要困难得多。语音识别有一个清晰明确定义的任务:对于一些人类的语言,尽量把语音转化成文字。然而,语音可能是一个噪声信号的一部分,这就需要先把语音从噪音里面抽取出来,然后再转化成相应的有意义的文字。

RNN-Ts是一种非注意机制的seq2seq模型。与大多数seq2seq模型(通常需要处理整个输入序列(在我们的例子中是波形)以产生输出不同,RNN-T可以连续处理输入样本和流输出符号,这种属性对于语音识别尤其友好。在实现过程中,输出符号是字母表的字符。RNN-T识别器会逐个输出字符,并在适当的位置输入空格。它通过反馈循环执行此操作,该循环将模型预测的符号反馈到其中,以预测下一个符号,如下图所示。

责任编辑:

  语音识别系统的基本构造模块

图片 12

  基本上语音识别可以被分为三个层面:

图4/5

  信号层面:信号层面的目标是从信号里抽取出语音,增强它(如果需要),进行适当的预处理和清理,再提取出特征。这一层面的内容与其他机器学习任务很类似。换句话说就是对于一些数据,我们需要进行预处理和特征提取。

训练这样一只有效运行的模型已经很困难,并且随着我们开发的进展——进一步将单词错误率降低了5%,模型变得更加计算密集。为了解决这个问题,我们开发了并行实现,使得RNN-T损失功能可以在Google的高性能Cloud TPU v2硬件上大批量运行。这在训练中实现了约3倍的加速。

声音层面:声音层面的主要目标是把特性分到不同的声音类。另外一种说法就是,声音自身并没能提供足够精确的标准,而是有时被称为声音状态的音素来提供。

离线识别

  语言层面:因为我们假定这些不同类型的音是由人类产生的并有意义,我们需要把音组合成字和词,再把词组合成句子。这些语言层面的技术通常是一些不同类型的NLP技术。

图片 13

  深度学习带来的提升

图5/5

  深度学习对语音识别领域带来了显著的影响。这一影响是如此深远,以至于语音识别领域的几乎每个解决方案里都可能有一个或多个基于神经网络的算法嵌在其中。

在传统的语音识别引擎中,我们上面描述的声学、发音和语言模型会被“组合”成一个大的图搜索算法。当语音波形被呈现给识别器时,“解码器”在给定输入信号的情况下,会在该图中搜索相似度最高的路径,并读出该路径所采用的字序列。

  通常,对语音识别系统进行的评估都是基于一个叫做Swithboard(SWBD)的行业标准。SWDB是一套语音库,由一些电话通话的内容所组成。SWDB包括语音和人工生成的文字记录。

通常,解码器采用基础模型的有限状态传感器表示。然而,尽管有复杂的解码技术,图搜索算法仍然非常之大,以我们的模型为例,可以达到了2GB。如此大的模型根本无法在移动设备上运行,因此这种方法需要在连线时才能正常工作。

语音识别系统的评估是基于一个叫词错误率(WER)的指标。WER是指识别系统错误地识别出来的词的数量。图3显示了从2008到2017年期间WER的提升情况。

为了提高语音识别的有效性,我们试图通过直接在设备上运行新模型,来避免通信网络的延迟和不可靠性。因此,我们的端到端方法不需要在大型解码器图上进行搜索。

图片 14

相反,只通过单个神经网络的波束搜索进行。我们训练的RNN-T提供与传统的基于服务器的模型相同的精度,但只有450MB,可以更加智能地使用参数和打包信息。然而,即使在今天的智能手机上,450MB也不小了,并且,通过如此庞大的网络传输信号依然很慢。

 从2008年到2011年,WER处于一个比较稳定的状态,在23%到24%左右。深度学习在2011年出现,把WER从23.6%降到5.5%。这一改进是颠覆性的,取得了77%的提升。现在语音识别已经有了非常广泛的应用,比如Apple的Siri、Amazon的Alexa、微软的Cortana和Google的Now。我们也看到了由语音识别所激活的种类繁多的应用设备的出现,比如Amazon的Echo和谷歌的Home。

进一步的,我们通过使用参数量化和混合内核技术来缩小模型,我们在2016年开发了这一技术并在TensorFlow精简版库上公开提供了模型优化工具包。

  秘方

模型量化相对于训练的浮点模型提供4倍压缩,在运行时提供4倍加速,使我们的RNN-T比单核上的实时语音运行得更快。压缩后,我们模型的最终大小达到了80MB。

  是什么带来了系统性能的显著提升?是某个技术把WER从23.6%降到5.5%吗?不幸的是,并不是一个单一的技术。深度学习和语音识别交织得非常紧密,它创造了一个涉及非常多种、不同的技术和方法的先进系统。

终于,当当当,我们的新型设备端神经网络Gboard语音识别器上线了。最初的版本,我们仅提供英语语言,适配所有Pixel手机。鉴于行业趋势,随着专业硬件和算法改进的融合,我们希望这里介绍的技术可以很快用于更多语言和更广泛的应用领域。

  例如在信号层面,有不同的基于神经网络的模型来提取和增强语音里面的信号(如图4所示)。而且,还有使用复杂和高效的基于神经网络的方法替换掉经典的特征抽取的方法。

相关报道:

图片 15

语音层面和语言层面也包括了多种深度学习技术,从使用不同的神经网络架构的声音状态分类,到语言层面的基于神经网络的语言模型。

点「好看」的人都变好看了哦

图片 16

版权声明:本文仅代表作者观点,不代表手机腾讯网立场。版权归自媒体所有,未经许可不得转载。

创造一个最前沿的系统并不是件容易的事情,包括实现和集成上面所说的不同的技术。

  最前沿的研究

  看到语音识别领域在近期有如此多的突破,读者可能会很自然地问:下一步会发生什么?下面三个领域看起来会是近期主要受关注的研究领域:算法、数据和可扩展性。

  算法

  随着Amazon的Echo和Google的Home的成功,很多公司都在开发和投放能理解语音的智能音箱和家用设备。然而这些设备带来了一个新的问题,即用户不会像和手机通话那样靠近麦克风,而是离的比较远。应对远距离语音已经成为很多研究组正在挑战的一个问题了。现在,创新性的深度学习和信号处理技术已经能提升识别的质量了。

  当前最有趣的研究主题之一就是找到新的、奇特的神经网络拓扑结构。我们已经在应用语言和语音模型方面看到一些有希望的结果。其中的两个例子是语音模型里的Grid-LSTM和基于注意力的记忆网络的语言模型。

数据

  语音识别系统的一个关键问题就是缺乏真实世界的数据。例如,很难获得高质量的远距离语音数据。不过有很多其他来源的数据可用。一个问题就是,我们能创造合适的合成器来生成训练数据吗?产生合成的数据并用它来训练系统目前正在获得很多的关注。

  为了训练一个语言识别系统,语音和标注数据我们都需要。人工标注是一项繁琐的工作,对于海量语音数据进行标注有时候会带来问题。相应的,使用半监督训练和构建恰当的识别器的置信测量就成为了一个活跃的研究主题。

可扩展性

  由于深度学习和语音识别是高度交织的,它会使用非常多的计算资源(CPU和内存)。当用户广泛采用了语音识别系统后,如何构造一个高效的云端解决方案就成为一个有挑战性的重要问题。正在进行的研究就包括如何降低计算花销和开发更有效的解决方案。现在大部分的语音识别系统都是基于云端的,这就带来两个需要解决的主要问题:网络延迟和长时间连接。网络延迟是那些需要立刻反应的设备(比如机器人)面对的关键问题。对于一个需要持续监听的系统,因为带宽的费用,长时间连接就是一个问题。对此,已经有研究关注面向边缘设备的、和云端系统有一样质量的语音识别能力的系统。

完全解决语音识别问题

  近几年,语音识别领域无论是性能还是商用都取得了跨越式的提升。那么离完全解决这个问题还有多远?我们能在5年或许10年内宣布最终胜利?答案是:有可能,不过还是有不少挑战性的问题需要时间来解决。

  第一个问题是对于噪音的敏感性。语音识别系统对于靠近麦克风的无噪音环境可以工作的很好。但是远距离语音加上噪音数据会很快地降低系统性能。第二个问题是语言的扩展问题。人类世界有大约7000种语言,目前的大部分语音识别系统支持了大概80种。扩展到更多的语言带来了大量的挑战。另外,对很多语言我们缺乏数据,而语音识别系统在数据源很少的情况下很难被构建出来。

结论

  深度学习已经在语音识别和对话式人工智能领域留下了烙印。因为近期的突破,我们已经处在革命的前沿。现在最大的问题就是,我们能取得最终的胜利,解决语音识别的问题,从而可以像其他很多商业化的技术那样使用语音识别吗?或者是还有一个新的解决方案在等待被发现?毕竟,语音识别近期的进步仅仅只是整个问题的一个部分的答案。这个问题就是理解语言,它本身是一个复杂的谜题,甚至是一个更大的问题。

编辑:www.3559.com 本文来源:智能助理,谷歌手机更新语音识别系统

关键词: www.3559.com