iniax语音模型上新!种语言真人级生成,喜马拉雅网易已接入声线语种音色马来语知名企业minimax

智东西8月7日报道,今天,MiniMax推出新一代语音生成模型Speech 2.5。

相比5月发布的Speech 02,Speech 2.5有三大新突破:多语种表现更自然、音色复刻更像、40个语种覆盖更广。

▲Speech 2.5主页

用户可以在Speech 2.5主页选择想要的音色,在对话框内输入文字描述,也可以上传文件,就可以一键生成所需音频。下文呈现了官方公布的Speech 02生成音频的Demo和智东西实测案例:

一、多语种自然表达,减小机械感

MiniMax Speech 2.5提高了生成音频的相似度和自然韵律度,降低了字错率、减小了AI生成的商务会议、日常对话、英文播客的机械感。

智东西实测,其还可以给音频添加场景氛围音,例如美国女高中生在广播中演讲:

音频内容:Two years is nothing, but at the same time a lot can be accomplished in two years. You can try a sport you’ve always wanted to start, and become great at it. You can start a morning routine and affect your mood and stress at a deep level. You can meditate for a few minutes per day, become more self-aware and change the way you react to problems. You can start a business and make it a big success.

生成的音频不但可以清晰准确地念出文字,还有母语者很地道的停顿、语调。

立下复仇誓言的哈姆雷特:

音频内容:Remember? Yea, from the tables of my memory, I’ll wipe away all trivial fond records. All saws of books, all forms, all pressures past, that youth and observation copied there. And then commandment all alone shall live within the book and volume of my brain, unmixed with baser matter. Yes, yes by heaven.

再比如,充满激情的西班牙体育赛事解说员:

音频内容:¡Arranca el genio por la derecha, deja atrás a uno, se saca de encima al segundo, entra al área, prepara el remate…¡GOLAZO MONUMENTAL! ¡Una obra de arte que sella la victoria y desata la locura total!

二、跨语种复刻口音,还原声线

Speech 2.5还可以跨语种复刻口音,保留同语种不同地区的口音,还能保留特殊年龄的声线特点,用户可以自由选择自己想要的音色。

智东西实测,用霸道总裁的声线说甄嬛传中皇上的经典台词:

音频内容:嬛嬛一袅楚宫腰,那更春来香减玉消。紫禁城的风水养人,必不会叫你玉减香消。

用英国女王的经典发音来介绍最新的Speech 2.5会是什么样?

音频内容:Hello everyone. We’re thrilled to introduce the next generation of our voice model: MiniMax Speech 2.5. Building on its predecessor, Speech 2.0, this new version is more powerful than ever. But where it truly shines is in its incredible realism. The model masterfully captures the subtle nuances of the human voice——from trailing intonation and vocal style, to the full spectrum of emotion, all reproduced with stunning authenticity.

从停顿、节奏、到发音处理,模型生成的语音保持了纯正的“女王腔”。

跨语种复刻也可以办到,智东西让Speech 2.5用热血韩漫男主的音色说“美美桑内”歌词,在韩语和英语中切换:

音频内容:매일매일 설레,이리저리 바빠,never stop burn it,참 예쁜 날이야 oh you know?

同一音色在意大利语、英语间的切换:

音频内容:Questa è la mia vera voce. I find speaking English a bit difficult. It’s like trying to speak Italian without using hand gestures.

在不同的语言中切换,Speech 2.5生成的内容依旧可以保留口音特色细节。

三 、新增多个小语种,语种类型增至40个

Speech 2.5新增了保加利亚语、丹麦语、希伯来语、马来语、波斯语、斯洛伐克语等多个小语种,语种类型扩充到了40个。跨境电商、出海客服、本地化营销,全球化内容可以一键创作。

比如马来语:

音频内容:Selamat datang, semoga hari anda indah.

希伯来语:

音频内容:.הקשיבו למנגינה היפה הזו

四、促进跨境业务,喜马拉雅、网易都用了

目前,MiniMax Speech语音模型已在全球被广泛采用。在海外,Vapi、Pipecat等Agent平台选择使用MiniMax Speech提供服务,Hedra、Icon、Syllaby等头部AI应用也已接入MiniMax Speech。

国内,高途教育、喜马拉雅、网易、Rokid眼镜等头部平台及产品都选择了MiniMax Speech。

结语:MiniMax在AI音频赛道继续深耕

MiniMax在AI音频赛道并非初出茅庐,其今年5月发布的Speech 02在Artificial Analysis和Hugging Face TTS Arena两项语音基准测评榜单中超越 OpenAI、ElevenLabs等知名模型,获得双料第一。

Speech 2.5可视为Speech 02的进阶版本,在继承前代优势的基础上,进一步在多语种、音色复刻及语种覆盖上深入优化。

当下,众多企业和研究机构纷纷布局,AI音频赛道竞争愈发激烈,MiniMax Speech 2.5的发布为市场注入了新的活力。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

THE END
0.连夺4项第一!AI常识推理和人类又近了3%就拿下面两篇相似度极高的新闻稿件举个例子吧。 首先,参赛队伍需要将文中相似的主要元素剥离出来并逐一分析,比如地理信息、叙事技巧、实体、语气、时间及风格。并最终判断出两则新闻的相似程度,以1-4分打分。 比赛共涉及10种语言,分别为阿拉伯语、德语、英语、西班牙语、法语、意大利语、波兰语、俄语、土耳其语和中jvzq<84yyy4489iqe0ipo8hqpvkov87412:3:86613732?=5a363:@67:79/uqyon
1.意大利硕士留学的申请条件是什么2.专业课程匹配要求:所申请的硕士专业须和你的本科背景专业相关,相似度需要达到80%以上,意大利的硕士专业申请是不允许跨专业申请的。我们在申请的时候,会准备本科专业的课程描述用于申请,主要内容包括大学本科各个课程的名称,学时,学分,以及课程内容的简要概述。 jvzquC41yy}/gxq0ep5mk~}wg1wjvj4sv46359:443;72=80jvsm
2.Java代码工具之中英文语句分词腾讯云开发者社区上面有封装好的各种功能代码工具。该网站上的“语句分词及相似度对比”java代码工具可以直接使用,中文语句分词支持的分词算法包括Lucene、Ansj、corenlp、HanLP、IKAnalyzer、Jcseg、Jieba、mmseg4j、MYNLP、Word等10种;英文语句分词支持的分词算法包括IKAnalysis、StanfordNlp等两种主流算法。jvzquC41enuvf7ygpekov7hqo1jfxnqqrgx0c{ykenk04;729;;
3.TowardsDataScience博客中文翻译2020(二百五十九)结果在English onlySTS任务上,STS 是自然语言处理中句子意义相似度的竞争。越高越好。 上表显示了英语语言的基准。然而,激光嵌入不仅适用于英语,还适用于多种语言 随着NLP 的所有最新创新,特别是 BERT 和多语言 BERT (mBERT ),人们可能会认为他们会放弃激光业务。然而,有趣的是,对于纯英语句子相似性任务,RoBERTa jvzquC41dnuh0lxfp0tfv8|k|cxehxwegn5bt}neng5eg}fknu526;<433>6
4.测了词汇量之后,我决定又得回去学英文了下面是这个网站收集的2011年时候的数据,针对的是非英语母语的地区的人的平均英语词汇量。可以看到北欧那边的词汇量是最大的,可能跟他们常年的阅读习惯有关。(这里没有讨论语言结构的相似度,语言词源的相似度和历史之类的)最高的国家是丹麦,16291,相当于是英语母语水平的平均线的低位偏上。在亚洲地区里面,我选取了3jvzquC41yy}/fxzdcp4dqv4pqvk09B;;6;:56