能够快速理解人类并模仿人类语音的准确语音 AI 或语音 AI 界面对于服务机器人的易用性至关重要。开发人员正在将自动语音识别 (ASR) 和文本到语音转换 (TTS) 与服务机器人集成,以实现基本技能,例如理解和回答自然语言中的人类问题。这些基于语音的技术构成了语音AI。
从在餐厅接受订单和为您提供食物到与您一起玩扑克,服务机器人变得越来越普遍。在全球范围内,您可以在医院、机场和零售店找到这些服务机器人。
根据Gartner的数据,到2030年,由于智能机器人在智能,社交互动和人类增强能力方面的进步,80%的人类将每天与智能机器人互动,高于今天的不到10%。
能够快速理解人类并模仿人类语音的准确语音 AI 或语音 AI 界面对于服务机器人的易用性至关重要。开发人员正在将自动语音识别 (ASR) 和文本到语音转换 (TTS) 与服务机器人集成,以实现基本技能,例如理解和回答自然语言中的人类问题。这些基于语音的技术构成了语音AI。
服务机器人就像元宇宙中的数字人类,只是它们在物理世界中运行。这些服务机器人可以帮助支持仓库工人,在遵循人类指示的同时执行危险任务,甚至协助需要非接触式服务的活动。例如,酒店业的服务机器人可以迎接客人、搬运行李和接受订单。
为了使所有这些服务机器人以类似人类的方式理解和响应,开发人员必须结合实时运行的高精度语音AI。
如今,服务机器人已广泛应用于各行各业。
在线送餐服务在全球范围内越来越受欢迎。为了在不影响质量的情况下处理不断增长的客户需求,服务机器人可以协助员工完成诸如接受订单或亲自向客户交付食物等任务。
在环境辅助生活环境中,技术主要用于支持老年人或弱势成年人的独立性和安全性。服务机器人可以协助日常活动,例如将食物托盘从一个位置运输到另一个位置,或使用智能机器人药丸分配器及时管理药物。借助语音AI技能,服务机器人还可以提供情感支持。
服务机器人通过多种方式帮助企业改善质量保证并提高生产力:
在这些设置中,机器人必须能够准确地处理和理解用户正在传递的内容。对于可能存在危险或严重伤害的情况尤其如此,例如医院。可以自然地与人类交谈的服务机器人也有助于为应用程序提供积极的整体用户体验。
图 1 显示,服务机器人使用语音识别来理解用户在说什么,并使用 TTS 通过合成语音响应用户。其他组件(如NLP和对话管理器)用于帮助服务机器人理解上下文并为用户的问题生成适当的答案。
此外,机器人任务下的模块,如感知、导航和映射,帮助机器人了解其物理环境并朝着正确的方向移动。
语音用户界面包括两个主要组件:自动语音识别和文本到语音转换。自动语音识别,也称为语音转文本,是将原始语音转换为文本的过程。文本到语音转换,也称为语音合成,是将文本转换为类似人类的语音的过程。
开发语音 AI 管道有其自身的挑战。例如,如果在餐馆中部署服务机器人,它应该能够理解抹茶、卡布奇诺和里斯特雷托等词。它甚至应该在嘈杂的环境中转录,因为大多数与这些应用程序交互的人都在开放空间中。
机器人不仅要理解所说的内容,而且还应该能够正确地说出这些话。同样,每个行业都有自己的术语,这些机器人必须实时理解和响应。
ASR 管道中每个模型或模块的角色如下所示:
TTS 管道中每个模型或模块的角色如下所示:
NVIDIA 提供各种数据集、工具和 SDK,帮助您构建端到端语音 AI 管道。根据您所在行业的特定词汇、语言和方言自定义管道,并在几毫秒内运行,以实现自然且引人入胜的交互。
为了使语音AI技术民主化和多样化,NVIDIA与Mozilla Common Voice(MCV)合作。MCV是一个众包项目,志愿者将语音数据贡献给公共数据集,任何人都可以使用该数据集来训练语音技术。您可以从 MCV 下载各种语言音频数据集来开发 ASR 和 TTS 模型。
NGC提供了几个在各种开放和专有数据集上训练的预训练模型。所有模型都在 NVIDIA DGX 服务器上进行了数十万小时的优化和训练。
如果您正在寻找开源工具,NVIDIA 提供了 NeMo,这是一个开源框架,用于构建和训练最先进的 AI 语音和语言模型。NeMo 建立在 PyTorch 和 PyTorch Lightning 之上,使您可以轻松开发和集成已经熟悉的模块。
使用 NVIDIA Riva(一款免费的 GPU 加速语音 AI SDK)构建和部署完全可定制的实时 AI 管道。丽娃通过NGC提供最先进、高精度的预训练模型:
日语、阿拉伯语和意大利语即将推出。
借助 NeMo,您可以根据行业特定的行话、语言、方言和口音微调这些预训练模型,并优化语音 AI 技能以实时运行。
您可以在所有云、本地、边缘和嵌入式设备上以流式传输或离线方式部署 Riva 技能。
在本节中,我将向您展示如何在嵌入式设备上使用 Riva 运行开箱即用的 ASR 和 TTS 技能。为了获得更好的准确性和性能,Riva 还使您能够在特定领域数据集上自定义或微调模型。
您可以在流媒体和离线模式下运行 Riva 语音 AI 技能。首先,在嵌入式服务器上设置并运行 Riva 服务器。
有关详细信息,请参阅支持矩阵。
通过运行以下命令从 NGC 下载脚本:ngc registry resource download-version nvidia/riva/riva_quickstart_arm64:2.7.0
有关最新步骤的详细信息,请参阅快速入门指南。
对于嵌入式,Riva 服务器附带示例客户端,您可以无缝地使用这些客户端进行推理。
有关针对行业特定术语、语言、方言和口音自定义 Riva ASR 模型和管道的更多信息,请参阅 Riva 文档中有关模型概述的说明。
有关在域特定数据集上自定义 TTS 模型和流水线的更多信息,请参阅 Riva 用户指南中的模型概述。
语音 AI 使服务机器人和其他交互式应用程序能够理解细微的人类语言并轻松响应。
它正在为从呼叫中心的真人到各行各业的服务机器人提供支持。若要了解如何将语音 AI 技能与现实生活中可以获取饮料的机器狗集成,请参阅语音 AI 机器人的低代码构建基块。
或者,浏览语音 AI 帖子,了解语音 AI 概念、语音识别部署挑战和技巧或独特的 ASR 应用程序。
还可以访问开发人员电子书,例如端到端语音 AI 管道,以了解有关语音 AI 管道中的模型和模块的详细信息,并访问生成语音 AI 应用程序以深入了解如何为应用程序生成和部署实时语音 AI 管道。