语音技术实现与服务机器人的自然交互

能够快速理解人类并模仿人类语音的准确语音 AI 或语音 AI 界面对于服务机器人的易用性至关重要。开发人员正在将自动语音识别 (ASR) 和文本到语音转换 (TTS) 与服务机器人集成,以实现基本技能,例如理解和回答自然语言中的人类问题。这些基于语音的技术构成了语音AI。

从在餐厅接受订单和为您提供食物到与您一起玩扑克,服务机器人变得越来越普遍。在全球范围内,您可以在医院、机场和零售店找到这些服务机器人。

根据Gartner的数据,到2030年,由于智能机器人在智能,社交互动和人类增强能力方面的进步,80%的人类将每天与智能机器人互动,高于今天的不到10%。

能够快速理解人类并模仿人类语音的准确语音 AI 或语音 AI 界面对于服务机器人的易用性至关重要。开发人员正在将自动语音识别 (ASR) 和文本到语音转换 (TTS) 与服务机器人集成,以实现基本技能,例如理解和回答自然语言中的人类问题。这些基于语音的技术构成了语音AI。

服务机器人就像元宇宙中的数字人类,只是它们在物理世界中运行。这些服务机器人可以帮助支持仓库工人,在遵循人类指示的同时执行危险任务,甚至协助需要非接触式服务的活动。例如,酒店业的服务机器人可以迎接客人、搬运行李和接受订单。

为了使所有这些服务机器人以类似人类的方式理解和响应,开发人员必须结合实时运行的高精度语音AI。

如今,服务机器人已广泛应用于各行各业。

在线送餐服务在全球范围内越来越受欢迎。为了在不影响质量的情况下处理不断增长的客户需求,服务机器人可以协助员工完成诸如接受订单或亲自向客户交付食物等任务。

在环境辅助生活环境中,技术主要用于支持老年人或弱势成年人的独立性和安全性。服务机器人可以协助日常活动,例如将食物托盘从一个位置运输到另一个位置,或使用智能机器人药丸分配器及时管理药物。借助语音AI技能,服务机器人还可以提供情感支持。

服务机器人通过多种方式帮助企业改善质量保证并提高生产力:

在这些设置中,机器人必须能够准确地处理和理解用户正在传递的内容。对于可能存在危险或严重伤害的情况尤其如此,例如医院。可以自然地与人类交谈的服务机器人也有助于为应用程序提供积极的整体用户体验。

图 1 显示,服务机器人使用语音识别来理解用户在说什么,并使用 TTS 通过合成语音响应用户。其他组件(如NLP和对话管理器)用于帮助服务机器人理解上下文并为用户的问题生成适当的答案。

此外,机器人任务下的模块,如感知、导航和映射,帮助机器人了解其物理环境并朝着正确的方向移动。

语音用户界面包括两个主要组件:自动语音识别和文本到语音转换。自动语音识别,也称为语音转文本,是将原始语音转换为文本的过程。文本到语音转换,也称为语音合成,是将文本转换为类似人类的语音的过程。

开发语音 AI 管道有其自身的挑战。例如,如果在餐馆中部署服务机器人,它应该能够理解抹茶、卡布奇诺和里斯特雷托等词。它甚至应该在嘈杂的环境中转录,因为大多数与这些应用程序交互的人都在开放空间中。

机器人不仅要理解所说的内容,而且还应该能够正确地说出这些话。同样,每个行业都有自己的术语,这些机器人必须实时理解和响应。

ASR 管道中每个模型或模块的角色如下所示:

TTS 管道中每个模型或模块的角色如下所示:

NVIDIA 提供各种数据集、工具和 SDK,帮助您构建端到端语音 AI 管道。根据您所在行业的特定词汇、语言和方言自定义管道,并在几毫秒内运行,以实现自然且引人入胜的交互。

为了使语音AI技术民主化和多样化,NVIDIA与Mozilla Common Voice(MCV)合作。MCV是一个众包项目,志愿者将语音数据贡献给公共数据集,任何人都可以使用该数据集来训练语音技术。您可以从 MCV 下载各种语言音频数据集来开发 ASR 和 TTS 模型。

NGC提供了几个在各种开放和专有数据集上训练的预训练模型。所有模型都在 NVIDIA DGX 服务器上进行了数十万小时的优化和训练。

如果您正在寻找开源工具,NVIDIA 提供了 NeMo,这是一个开源框架,用于构建和训练最先进的 AI 语音和语言模型。NeMo 建立在 PyTorch 和 PyTorch Lightning 之上,使您可以轻松开发和集成已经熟悉的模块。

使用 NVIDIA Riva(一款免费的 GPU 加速语音 AI SDK)构建和部署完全可定制的实时 AI 管道。丽娃通过NGC提供最先进、高精度的预训练模型:

日语、阿拉伯语和意大利语即将推出。

借助 NeMo,您可以根据行业特定的行话、语言、方言和口音微调这些预训练模型,并优化语音 AI 技能以实时运行。

您可以在所有云、本地、边缘和嵌入式设备上以流式传输或离线方式部署 Riva 技能。

在本节中,我将向您展示如何在嵌入式设备上使用 Riva 运行开箱即用的 ASR 和 TTS 技能。为了获得更好的准确性和性能,Riva 还使您能够在特定领域数据集上自定义或微调模型。

您可以在流媒体和离线模式下运行 Riva 语音 AI 技能。首先,在嵌入式服务器上设置并运行 Riva 服务器。

有关详细信息,请参阅支持矩阵。

通过运行以下命令从 NGC 下载脚本:ngc registry resource download-version nvidia/riva/riva_quickstart_arm64:2.7.0

有关最新步骤的详细信息,请参阅快速入门指南。

对于嵌入式,Riva 服务器附带示例客户端,您可以无缝地使用这些客户端进行推理。

有关针对行业特定术语、语言、方言和口音自定义 Riva ASR 模型和管道的更多信息,请参阅 Riva 文档中有关模型概述的说明。

有关在域特定数据集上自定义 TTS 模型和流水线的更多信息,请参阅 Riva 用户指南中的模型概述。

语音 AI 使服务机器人和其他交互式应用程序能够理解细微的人类语言并轻松响应。

它正在为从呼叫中心的真人到各行各业的服务机器人提供支持。若要了解如何将语音 AI 技能与现实生活中可以获取饮料的机器狗集成,请参阅语音 AI 机器人的低代码构建基块。

或者,浏览语音 AI 帖子,了解语音 AI 概念、语音识别部署挑战和技巧或独特的 ASR 应用程序。

还可以访问开发人员电子书,例如端到端语音 AI 管道,以了解有关语音 AI 管道中的模型和模块的详细信息,并访问生成语音 AI 应用程序以深入了解如何为应用程序生成和部署实时语音 AI 管道。

THE END
0.字母大小写转换拼音大小写转换英文大写转小写,英文小写转大写,在线英文字母大小写转换,首字母大写转换工具jvzquC41|ojyz7ozilz{0lto1
1.英文大小写转换英文大小写转换器可以帮助您快速转换英文字母的大小写格式。它支持将所有字母转换为大写或小写,将每个单词的首字母转换成大写,或者将每句首字母改成大写,以及转换为标题大小写格式。同时还支持英文字数统计。这个大小写转换器工具非常适用于需要快速更改文本格式的情况,例如在撰写电子邮件或文档时。 英文大小写转换器如何jvzquC41yy}/fj}kcq~jg7hqo0io1lfug/ippjtv1
2.字母大小写转换在线英文字母大小写转换工具iP138在线工具程序上的字母大小写转换函数 1、PHP:strtolower($str) 字符串转换为小写,strtoupper($str) 字符串转换为大写;ucfirst($str) 将第一个字符转换为大写,ucwords($str) 将每个单词的首字母转换为大写。 2、JavaScript:toLowerCase()返回一个字符串,其中所有的字母字符都被转换为小写;tojvzquC41vqum0ru35:4dqv4ngvzft8
3.蓝桥杯:大小写转换(异或转换)使用异或求转换大小写蓝桥杯:大小写转换(异或转换) 一、题目要求 输入一个字符串,将其中的大写字母转换为小写字母,小写字母转换为大写字母,其他字符不变,输出转换后的字符。 示例: 输入:Aa/.+-a 输出:aA/.+-A 二、代码展示 public static void main(String[] args) {jvzquC41dnuh0lxfp0tfv87523e8;?5223;0c{ykenk0fnyckny03=:5:2?42
4.掌握这几个函数,轻松搞定Python大小写字母转换!本文介绍了Python中处理大小写字母的几种常见方法,包括`upper()`、`lower()`、`capitalize()`、`title()`和`swapcase()`,并提供了使用ASCII表进行转换的示例。同时,文章还分享了Python学习路线、工具、视频教程和实战练习等内容。 python大小写字母转换的方法有好几种,掌握以下这些字符串函数,就可以轻松搞定所有大jvzquC41dnuh0lxfp0tfv8r2a7?35?;241gsvrhng1jfvjnnu1748;8559:
5.英文字母大小写转换英文大写转小写首页>英文字母大小写转换 (提示:请把你需要转换的内容粘贴在这里!) 关于英文字母 英文字母,即英文(English)所基于的字母,共26个。 英文字母渊源于拉丁字母,拉丁字母渊源于希腊字母,而希腊字母则是由腓尼基字母演变而来的。 大约公元前13世纪,腓尼基人创造了人类历史上第一批字母文字,共22个字母(无元音)。这是腓尼基jvzquC41dkmuq|rcnn4col}0eqs0
6.英文字母大小写英文字母大小写工具是一种能够自动将英文单词或句子转换为大写或小写形式的实用工具。 请输入相关内容 方式 全部转换为大写 全部转换为小写 每个单词首字母大写 单词首字母大写 提交jvzquC41tgsfkwx0eqs0kwigz1gqr8jpia€i
7.Jellyfin/JellyfinGlossary—葡萄牙语(巴西)@Weblate语言 葡萄牙语(巴西) 语言代码 pt_BR 文字方向 从左至右 区分大小写 区分大小写 语言使用者数量 200247320 复数数量 3 复数类型 一个/许多/其他 复数形式 单个 0、1 很多 1000000、2000000 其他 2、3、4、5、6、7、8、9、10、11、… 复数公式 (n == 0 || n == 1) ? 0 : ((n != 0 &&jvzquC41vtgouufvg0pfnu~hkp4ptp4rtqpfe}x1lgrm{onp1irpu|ft{1vuaKW1
8.流畅的Python第二版(GPT重译)(二)(4)超出Unicode 标准中的规范化和大小写折叠之外,有时候进行更深层次的转换是有意义的,比如将'café'改为'cafe'。我们将在下一节看到何时以及如何进行。 极端的“规范化”:去除变音符号 谷歌搜索的秘密酱包含许多技巧,但其中一个显然是忽略变音符号(例如,重音符号、锐音符等),至少在某些情况下是这样。去除变音符号并jvzquC41fg|fnxugt0gmk‚zp0eun1jwvkerf1:9:6673
9.codecs当从线路接收主机名时(例如反向名称查找),到 Unicode 的转换不会自动被执行:希望向用户提供此种主机名的应用应当将它们解码为 Unicode。 encodings.idna 模块还实现了 nameprep 过程,该过程会对主机名执行特定的规范化操作,以实现国际域名的大小写不敏感特性与合并相似的字符。 如果有需要可以直接使用 nameprep 函数jvzquC41fqit0y~vjqt/q{l1|j3dp88091rjd{ft{1ipfnhu0jznn
10.MicrosoftSQLServer2005中的国际功能|MicrosoftLearn例如,可对同一列进行大小写转换,并将结果放到两个不同列中。 字符映射表转换支持以下映射操作: 展开表 操作 说明 Byte reversal 反转字节顺序。 Full width 将半角字符映射到全角字符。 Half width 将全角字符映射到半角字符。 Hiragana 将片假名字符映射到平假名字符。 Katakana 将平假名字符映射到片假名字符。 jvzquC41oujo0vnetqyph}3eqo5{j6hp1noctjw{1dh459>84
11.最佳实践:如何选择合适的Analyzer|Cloud|ZillizCloud开发这些过滤器在大多数以空格分隔的语言(英语、法语、德语、西班牙语等)中至关重要,并能显著提升搜索质量: 📘说明 对于东亚语言(中文、日语、韩语等),请重点使用语言特定的过滤器。这些语言的文本处理方式不同,通常不需要或无法从词干提取中获益。 文本规范化过滤器​ jvzquC41fqit0ƒnnnk€/exr0ep5eqlx1ejupun2vjg3skpmv/ctbn‚gt/lpt6~qwt3vun2ecuk
12.JellyfinAndroid/JellyfinAndroid—葡萄牙语(巴西)@Weblate语言葡萄牙语(巴西) 语言代码pt_BR 文字方向从左至右 区分大小写区分大小写 语言使用者数量200247320 复数数量3 复数类型一个/许多/其他 复数形式单个0、1 很多1000000、2000000 其他2、3、4、5、6、7、8、9、10、11、… 复数公式(n == 0 || n == 1) ? 0 : ((n != 0 && n % 1000000 == 0jvzquC41vtgouufvg0pfnu~hkp4ptp4rtqpfe}x1lgrm{onp/ctetxnf1lkmn‚kkp/gof{tkf1vuaKW1
13.文本操作引用将文本的大小写更改为大写、小写、首字母大写或句首字母大写。 输入参数 展开表 参数可选接受默认值说明 Text to convert 是 文本值 要转换的文本 Convert to 不适用 大写、小写、首字母大写、句首字母大写 大写 指定要使用的文本大小写样式 生成的变量 展开表 参数类型​​说明 TextWithNewCase 文本值 新的 jvzquC41nggsp7rketutqoy0eqs0|q2ep1vpynw/cwzpojyg1fktm}tr/hrpy|4cevopp|2tghksgwhg1vkyv
14.西班牙语翻译西班牙语在线翻译英文大小写转换 中文转拼音 英语翻译 日语翻译 韩语翻译 维吾尔语翻译 粤语翻译 藏语翻译 德语翻译 法语翻译 俄语翻译 西班牙语翻译 阿拉伯语翻译 意大利语翻译 马来语翻译 拉丁语翻译 泰语翻译 缅甸语翻译 图片文字识别 图片文字识别 单张快速识别 图片文字识别 jvzquC41crv/z~slkgveh7hqo1lbp‚ngu4iiu
15.创新互联Python教程:codecs—编解码器注册和相关基类这些优化机会对于 CPython 来说仅能通过一组有限的别名(大小写不敏感)来识别:utf-8, utf8, latin-1, latin1, iso-8859-1, iso8859-1, mbcs (Windows 专属), ascii, us-ascii, utf-16, utf16, utf-32, utf32, 也包括使用下划线替代连字符的的形式。 使用这些编码格式的其他别名可能会导致更慢的执行jvzq<84esy€k|7hp1cxuklqg1fnpfriu0jznn
16.发行说明对于tar.gz 文件中的驱动程序:中文(简体) | 中文(繁体) | 英语(美国) | 法语 | 德语 | 意大利语 | 日语 | 韩语 | 葡萄牙语(巴西) | 俄语 | 西班牙语13.2 中的新功能展开表 功能/ 特点详细信息 JSON 数据类型支持 本机支持 SQL Server 的新 JSON 数据类型,并提供用于插入、选择、存储过程和大容量复jvzquC41vgiipny0okisq|thv0ipo8j/et0nrgtct0cj864586
17.TowardsDataScience博客中文翻译2020(五百二十三)如果你认为GPT-3 让编码员过时了,你可能就不会写代码了 原文:https://towardsdatascience.com/if-you-think-gpt-3-makes-coders-obsolete-you-probably-do-not-write-code-25fbc6461362?source=collection_archive---14--- 意见 反驳数据科学家和开发人员过时 来自PexelsjvzquC41dnuh0lxfp0tfv8|k|cxehxwegn5bt}neng5eg}fknu526;<56496
18.发送消息内容结构服务端API开发文档id_ID(印尼语) vi_VN(越南语) th_TH(泰语) pt_BR(葡萄牙语) es_ES(西班牙语) ko_KR(韩语) de_DE(德语) fr_FR(法语) it_IT(意大利语) ru_RU(俄语) ms_MY(马来语) 注意: 语言类型大小写敏感,传值时请保持与上述枚举值完全一致。 每种语言下(若有)文本则不能为空。 文本长度不能超过 20 个jvzquC41qrko0ojkuj{/ew4fqe{ngwy1ugxwg{2fqey0kv2x31sfu|fig/ipp}jpv/jfulwkrvopp8htgczfasxqp