pendoc语音转文字腾讯云开发者社区

音频 API 提供了两个语音转文本的端点,即转录和翻译,基于我们先进的开源大型-v2 Whisper 模型。它们可用于:

目前,文件上传限制为 25 MB,并支持以下输入文件类型:mp3、mp4、mpeg、mpga、m4a、wav 和 webm。

转录 API 的输入是您想要转录的音频文件和音频转录的所需输出文件格式。我们目前支持多种输入和输出文件格式。

默认情况下,响应类型将为包含原始文本的 json。

音频 API 还允许您在请求中设置附加参数。例如,如果您想将 response_format 设置为文本,您的请求将如下所示:

API 参考包括可用参数的完整列表。

翻译 API 接受任何支持的语言的音频文件作为输入,并在必要时将音频转录成英文。这与我们的 /Transcriptions 终点不同,因为输出不是原始输入语言,而是转译成英文文本。

在这种情况下,输入的音频是德语,输出的文本如下所示:

我们目前仅支持将文本翻译成英文。

我们目前通过转录和翻译终点支持以下语言:

南非荷兰语、阿拉伯语、亚美尼亚语、阿塞拜疆语、白俄罗斯语、波斯尼亚语、保加利亚语、加泰罗尼亚语、中文、克罗地亚语、捷克语、丹麦语、荷兰语、英语、爱沙尼亚语、芬兰语、法语、加利西亚语、德语、希腊语、希伯来语、印地语、匈牙利语、冰岛语、印度尼西亚语、意大利语、日语、卡纳达语、哈萨克语、韩语、拉脱维亚语、立陶宛语、马其顿语、马来语、马拉地语、毛利语、尼泊尔语、挪威语、波斯语、波兰语、葡萄牙语、罗马尼亚语、俄语、塞尔维亚语、斯洛伐克语、斯洛文尼亚语、西班牙语、斯瓦希里语、瑞典语、他加禄语、泰米尔语、泰语、土耳其语、乌克兰语、乌尔都语、越南语和威尔士语。

虽然底层模型是在 98 种语言上进行训练的,但我们只列出了超过 50% 单词错误率(WER)的语言,这是语音转文本模型准确性的行业标准基准。模型将返回未在上述列表中列出的语言的结果,但质量将较低。

默认情况下,Whisper API 将以文本形式输出所提供音频的转录内容。timestamp_granularities[] 参数可以启用更结构化和带有时间戳的 json 输出格式,时间戳可以在段落级别、单词级别或两者都有。这使得转录和视频编辑可以达到单词级别的精度,从而可以删除与个别单词相关联的特定帧。

默认情况下,Whisper API 仅支持小于 25 MB 的文件。如果您有一个超过这个大小的音频文件,您需要将其分割成小于或等于 25 MB 的块,或者使用压缩的音频格式。为了获得最佳性能,我们建议您避免在句子中间分割音频,因为这可能会导致一些上下文丢失。

处理这个问题的一种方法是使用 PyDub 开源 Python 包来分割音频:

OpenAI 不对 PyDub 等第三方软件的可用性或安全性作任何保证。

您可以使用提示来提高 Whisper API 生成的转录质量。模型将尝试匹配提示的风格,因此如果提示中使用了大写字母和标点符号,它更有可能也会使用。然而,当前的提示系统比我们的其他语言模型要受限得多,并且只提供有限的控制生成的音频。以下是提示在不同情况下如何帮助的一些示例:

正如我们在提示部分中所探讨的,使用 Whisper 时面临的最常见挑战之一是模型通常无法识别不常见的单词或首字母缩略词。为了解决这个问题,我们已经强调了几种不同的技术,可以在这些情况下提高 Whisper 的可靠性:

第一种方法涉及使用可选的提示参数来传递正确拼写的单词的字典。

由于 Whisper 并未使用指令遵循技术进行训练,它的运作方式更像是一个基本的 GPT 模型。需要牢记的是,Whisper 只考虑提示的前 244 个标记。

虽然这将提高可靠性,但该技术仅限于 244 个字符,因此您的 SKU 列表需要相对较小,以便这成为一种可扩展的解决方案。

第二种方法涉及使用 GPT-4 或 GPT-3.5-Turbo 进行后处理。

我们首先通过 system_prompt 变量为 GPT-4 提供指令。类似于我们之前使用提示参数所做的,我们可以定义我们公司和产品的名称。

如果您尝试对自己的音频文件使用这种方法,您会发现 GPT-4 能够纠正转录中的许多拼写错误。由于其更大的上下文窗口,这种方法可能比使用 Whisper 的提示参数更具可扩展性,并且更可靠,因为相较于 Whisper,GPT-4 可以通过指令和引导来进行指导,而 Whisper 由于缺乏指令遵循功能,无法做到这一点。

THE END
0.意大利语学习经验:从零基础到流畅交流句型模板:背诵 “Mi chiamo…(我叫…)”“Come si dice… in italiano?(… 用意大利语怎么说?)” 等基础句型,搭配《意大利语 900 句》进行替换练习。 (三)语法入门:聚焦基础规则 名词阴阳性:意大利语名词阴阳性无自然规律,需强制记忆,如“il libro(书,阳性)”“la penna(笔,阴性)”,可通过 “冠词 + 名jvzquC41z{€/zmk0ep5zkmfnk{{0zrsisw~vgn142862>4365?16@<0jvsm
1.你好!意大利语《你好!意大利语》共分为三部分,第一部分为DVD视频材料“旅行”的相关练习,初学者可以通过对视频材料的观看了解意大利生活、城市面貌等整体概况;也可以在对《你好!意大利语》各个主题的学习中,选择对应的主题进行观看,并配以相关的练习,进一步提高视听说水平;还可以单独作为视听说教程的材料,脱离课本使用。第二部分为jvzquC41o0sbp‚twlkth0wjv1dupm8xcng58:>=433916A;29783
2.附录A:支持的语言和语音下表说明了最新版本的Windows 中提供了哪些语言和文本转语音 (TTS) 语音。 注意: 讲述人为少数常用语言和口音提供男性和女性自然声音,请参阅自然语音部分。 语言,国家或地区 男性TTS 语音 女性TTS 语音 阿拉伯语 不适用 Hoda 阿拉伯语(沙特阿拉伯) Naayf 不适用 保加利亚语 Ivan 不适用 加泰jvzquC41uwvqq{y0okisq|thv0ipo8mgnr534A571yoofx|u/36.u~urqtzff6scttguq{2ncpmvcpju/xujenx
3.意大利语文字转语音神器,轻松操作无难度,多样语种任你选!意大利语文字转语音神器,轻松操作无难度,多样语种任你选!上滑查看更多视频 -- 我是有底线的 --意大利语文字转语音神器,轻松操作无难度,多样语种任你选!2025-01-10 09:24 · 0次播放 发布于:广东省 作者声明 奶牛猫猫 +订阅 +1 评论 全部 还没有人评论过,快来抢首评 抢首评相关jvzquC41o0ypj~3eqo5tc8=696772:6a3477:>:68
4.智能語音助手品牌(智能語音助手都叫什么名字)在阅读外文长文档时,只需跟小艺说“翻译屏幕”,瞬间外文就变成了中文。目前AI滚屏翻译已支持英语、日语、法语、俄语、葡萄牙语、西班牙语、德语、意大利语、韩语与中文的互译,走遍全球都不用怕。 有用(0) 回复 xupingzi 华为的智能语音助手叫什么 华为手机语音助手叫“小艺”,使用方法如下:设备:华为nova 8 SE jvzquC41ycv/|xq0eqs/ew4cum5ya;>;3;6:67mvon
5.在线语音合成API文档|讯飞开放平台文档中心目前新增:韩语、日语、维吾尔语、藏语、法语、俄语、西班牙语、印地语、德语、越南语、巴西葡萄牙语、意大利语、葡萄牙语、泰语、乌尔都语; 使用小语种时上传文本编码推荐使用UTF8的编码方式; 需先在控制台开启小语种发音人才可合成小语种,否则报错11200。 jvzquC41yy}/zo~wp0io1mte1vzt1xsnkpk`v}x1CRO/j}rn
6.‎翻译语音拍照和文字翻译器App支持语音到语音和语音到文本的翻译: 阿拉伯语、保加利亚语、加泰罗尼亚语、中文、克罗地亚语、捷克语、丹麦语、荷兰语(荷兰)、英语(澳大利亚、加拿大、英国、美国)、菲律宾语、芬兰语、法语、法语(加拿大)、德语、希腊语、希伯来语、印地语、匈牙利语、冰岛语、印度尼西亚语、意大利语、日语、韩语、立陶宛语、马来语jvzquC41kv{og|3crrrf0lto1et0cyu1kf775>627;?5
7.AppStore上的“照片翻译器和相机”• 以男声或女声收听语音翻译器。 • 不同方言之间切换。 • 键盘扩展。 • 音译、分享、收藏夹、历史等等。 • 易于学习任何语言,如说、翻译、注意。 更多细节 更少的数据,更快的翻译 * 专业发音,方便日常使用 * Al相机翻译 * 适用于多种语言的多语言应用程序,例如意大利语、法语、英语、葡萄牙语、jvzquC41crvt0jurng4dqv4ep1gqr8nf86:5:=::33
8.标准意大利语语音U讲堂主讲人:李婧敬《标准意大利语语音》数字课程共13讲,主要针对意大利语零基础学习者,逐一讲解意大利语的元音、辅音、半元音、重音、省音、断音等语音知识和现象。每讲从元音或辅音的发音要领讲解开始,针对中国人jvzquC41weuvt|j0wpoqw|3ep1ipw{xg1:8
9.意大利语语音及声乐作品选(附MP3)/21世纪音乐教育丛书歌谱简谱网第二部分是意大利声乐作品选。这部分内容可供学生进一步学习意大利语的表达方式,学习如何通过歌唱语言来塑造作品人物形象。 目录引语 一、意大利美声唱法发展简况与意大利语 二、意大利语的语音特点第一部分 意大利语发音规则及演唱提示 第一章 元音 第一节 闭口元音和开口元音 1.元音的发音规则及演唱提示 2.朗诵并jvzq<84yyy4kkjsrw0io1ktqm1905;70jvs
10.有没有意大利语的语音练习软件?随着人们对学习意大利语的兴趣增加,市场上出现了许多帮助学习意大利语的应用程序,其中也包括一些专注于语音练习的软件。这些软件旨在帮助用户提高发音准确性和口语流利度。下面介绍几个常见的意大利语语音练习软件: 1. Rosetta Stone:这是一款非常受欢迎的语言学习软件,其中包括意大利语课程。它采用交互方式帮助用户学习语音jvzq<84o0nkxn3eqo5ngvggt1734;7/ctzjeuj14781:
11.意大利语语音及作品选(豆瓣)副标题:意大利语语音及作品选 出版年:2012-7 页数:210 定价:28.00元 ISBN:9787562156215 豆瓣评分 评价人数不足 评价: 写笔记 写书评 加入购书单 分享到 推荐 内容简介· ··· 本书共分为三部分,主要内容包括:意大利语发音指南、音乐术语、意大利语声乐作品及歌词对译。 意大利jvzquC41dqul0mtwdct/exr1uwhkgly13;?94953