微软出品,自动朗读古腾堡万本电子书,还能用自己声音定制化ai科学家财务报表财务会计视频文件

【新智元导读】微软MIT等机构用AI将古腾堡计划的电子书转录为语音书,免费向公众开放,还公开了制作流程。而且用户还可以用自己的声音来进行配音。

世界上最大的电子书库正被AI转录为有声书,免费向所有人开放!

这个项目由微软,谷歌和古腾堡计划共同发起,有望将古腾堡计划包含的接近6万本电子书库,利用AI文本转语音技术,全部转化为有声读物。

任何用户都可以通过以下5个平台,免费获取到生成的语音书。

古腾堡计划是全球最大的开源电子书库,目前书库中包含超过70000本已经进入共有领域的电子书。

古腾堡计划于1971年发起。当时Hart是美國伊利诺伊大学的学生,他获得了学校材料研究实验室中Xerox Sigma V大型计算机的使用权限。

这台计算机是阿帕网(全球互联网的鼻祖)的15个节点之一。Hart认为有朝一日大部分民众会接触计算机,因而他决定将书籍电子化,供人们自由阅读。

其中主要是西方文化传统中的文学作品,比如小说、诗歌、小故事、戏剧,除此之外,书库也收录食谱、书目以及期刊。另外还包括一些非文本内容,比如音频文件、乐谱文件等。

收录中主要是英文作品,但也有相当数量的德语、法语、意大利语、西班牙语、荷兰语、芬兰语以及中文等语言的著作。

大部分的书以纯文本的格式发布,主要使用ASCII字符集,而中文书籍几乎全部都是以Big5(大五码)纯文本格式发布。志愿者提交时也可能会采用其他格式,最常见的是HTML。

而将电子书转录为有声书的计划,则是通过微软的文本转语音AI完成的。为此,微软和谷歌的研究人员还专门写了一篇论文介绍转化的整个过程。

在这个项目中,研究人员结合了机器学习、自动文本选择(哪些文本可以大声朗读,哪些不可以)和自然语音合成系统的突破。

首先,研究人员开发了一种算法,可以理解基于HTML的电子书的结构,并区分主要文本和不重要的元素,如脚注、页码或表格。

这个解析之后,是文本到语音的实际转换(文本到语音,TTS)的过程。在这个项目中,使用了谷歌的WaveNet, 英伟达的Tacotron和微软的FastSpeech,来产生自然的和人类相似的语音输出。

此外,为了研究团队开发了一个能够区分叙述者和对话的系统,甚至可以区分单个角色和情绪,并相应地调整生成的声音。

团队目前为止上线了5000多本有声读物,总计约三万五千小时的有声内容。

而且团队还提供了一个演示应用程序,允许用户创建自己的有声读物。用户只需要几秒钟的示例音频,就可以用自己的声音大声朗读集合中的书籍。

主要技术细节

自动化处理HTML格式的电子书

研究团队的一切工作都始于古腾堡计划提供的数千本免费电子书。这些电子书以多种不同的格式呈现出来,团队的工作重点是去自动解析的HTML格式的电子书。

但是由于HTML格式构成非常多样化,解析这些文件是一个非常复杂的工作。

而且古腾堡计划并未使用标准化的HTML文件,电子书包含大量与音频阅读器无关的文本,包括序言、目录、表格、插图、文本页码、脚注、抄写员笔记和其他奇怪的内容。

为了创建高质量的电子书数据集,研究团队首先结合使用自动化(HTML组件的TF-IDF统计)和手工制作的 HTML功能两种方法来对每本电子书的HTML文档对象模型 (DOM) 树进行特征化处理。

这让研究团队对古腾堡计划HTML文件的整个集合进行聚类和可视化,并使得研究团队找到几大组通用结构的文件。

研究团队使用这些HTML文件集群构建了一个基于规则的HTML标准化工具,将最大的电子书类别转换为可以自动解析的标准表征格式。

这种解析过程使研究团队能够创建一个可以快速、确定地解析大量书籍的系统。使得研究团队能将注意力集中在读取后可以生成高质量录音的文件任务上来。

下图显示了该聚类过程的结果,表明古腾堡计划收藏中自然出现了几个结构相似的电子书集群。完成解析之后,研究团队可以提取纯文本流以提供给文本转语音算法。

生成高质量语音

不同的有声书需要不同的朗读风格来演绎。非小说作品适合使用清晰、中性的声音,而有对话的小说作品则从情感化的朗读中得到更好地诠释。

对于大部分书籍,研究团队使用清晰、中性的神经文本到语音的声音。但在研究团队的演示程序中,研究团队还为用户提供自定义语音、速度、音调和语调的能力。

为了克隆用户的声音,研究团队利用零样本学习的文本到语音方法,高效地从有限的录音中传输语音特征。这就使得用户可以使用很少量的录音资料,就能快速创建一本用他们自己的声音朗读出来的有声书。

为了创建情感化的文本朗读,研究团队使用了一个自动的朗读者情感推断系统,根据上下文动态地改变朗读声音和语调。

这使得有多个角色和情感对话的段落表现的效果更加生动。

研究团队首先将文本分段为叙述和对话,并确定每个对话中的说话角色。

然后,研究团队使用自监督的方式预测每个对话的情感基调。最后,使用多风格和基于上下文的文本到语音模型,为叙述者和角色对话分配不同的声音和情感。

Demo

研究团队计划上线一个Demo应用,允许会议参与者使用研究团队的系统创建他们自己的定制有声书。

用户可以从研究团队的5000本书籍中选择一本书。接着,他们可以从大量现有的中性和情感感知语音中选择他们想要用于录制的语音,或者使用他们自己的语音来录制。

如果用户想用自己的声音创建定制的有声书,只需要说几句话,就能快速训练一个定制的语音配置文件。

用户将能够实时听到他们有声书的预览,并在提交一个读整本书的任务之前添加一个可选的定制题词。

一旦流程完成,研究团队会通过电子邮件发送一个链接给用户,让他们下载他们定制的有声书。

参考资料:

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

THE END
0.‎德语Readle:每日阅读、听力、语法、背单词,德语学习必备App【 量身打造德语内容 】 - 文章标示适合阅读程度A1,A2,B1,B2,C1,让你理解及适应语言程度,增强逐渐语感。 【 德语真人发音 】 - 文章搭配母语外教德语朗读,让你边读边听,增强听力能力。 【 即时德语词典】 - 即点即查的中德词典翻译,让你随时查单词,完整理解内容。 【 重点语法与单词 】 - jvzquC41crvt0jurng4dqv4ui1gqr8*G7'HF'K<'G:+BH.FFtggenn2'G8+BH.=H'G<&;@*C7'K:'B=':7+F:.FH'DH.'N:';2+BE.J7':G&;K2'G:+BH.FF'G<&D<*;7/+F:.=5':I&G>*:F'?6'N='CH+9F6*G7'HF'K<'G:+BH.FF'G;&CM*C8'K5'K>'C2+F7.GH':;&G>*C6'>81ri36:967;839Ar>|q
1.免费下载开源项目OpenTTS的安装与使用指南文本朗读器: 集成OpenTTS可以实现将长篇文字转换成音频, 如用于电子书阅读器中自动朗读文本. 自动客服: 结合自然语言理解和对话管理技术, 可以构建出具备语音交互能力的虚拟客服机器人. 教育辅助工具: 在教育领域, OpenTTS可以帮助制作听写材料或为视觉障碍的学生提供音频版教材. jvzquC41dnuh0lxfp0tfv8lkvdrpih52;870c{ykenk0fnyckny03=6235939
2.德语三百句磁带2盒开封全加配套书外籍人士朗读最优惠价德语三百句磁带2盒开封全加配套书外籍人士朗读最优惠价,德语三百句磁带2盒开封全加配套书外籍人士朗读最优惠价,,磁带/卡带,se108956622,磁带/卡带,其他音频卡带,标准型卡带,年代不详,学习教材,国外语言,,,价格:38,7788锡器收藏jvzquC4199>9zz3;;9=9:7hqo1vs1rygoa<43n5Eigkcs7mvon
3.朗读女官方版下载朗读女app下载v2.0.17安卓版朗读女官方版是主打语音文字转换的一款智能语音合成工具,该软件以移动互联网技术为核心基础,拥有智能语音合成、MP3文件导出、蓝牙播放、背景音乐定制等一系列实用功能,可帮助用户快速实现文字与语音的相互转换,一键录制高清稳定的语音文件,自主添加海量背景音乐。jvzquC41o0jeqxt0eqs0uxkvfq}o1:576;?/j}r
4.专业朗读亭设计智慧朗读亭一体机价格批发厂家为了给语言爱好者一个练习的平台,朗读亭提供了包括德语,法语,西班牙语,韩语,朝鲜语,日语,泰语等需求比较大的小语种资源,给读者提供一个练习小语种的专业场所。 3.2.朗读亭使用流程介绍 步骤一:通过微信扫码认证读者方法进入朗读页面。 3.3.支持手机微信客户端jvzquC41{3>39B63526/ew3ejktb0ls1uwvqn‚4653<15992:0nuou
5.BernhardSchlinkDerVorleser(朗读者)外文.pdfIngeborg Henze-Kletterer, Wichtrach/Bern Alle Rechte vorbehalten Copyright © 1995 Diogenes Verlag AG Zürich www.diogenes.ch ISBN 3 257 22953 4 =-=-=-=-=-=-=-=-=-=-=-=-=-=- 中国德语界 -=-=-=-=-=-=-=-=-=-=-=-=-=-=jvzquC41oc~/dxtm33>/exr1jvsm1;53:16:4=4:29<13@6452623;90ujzn
6.speechify:免费文本转语音阅读器超过500,000个五星好评Speechify 为你朗读任何内容。用自然人声随时收听书籍、PDF、网页、邮件与文档,解放双眼,提升效率,让学习、工作与无障碍阅读更轻松。支持 iOS、Android、Chrome 与网页端,立即免费试用 Speechify。jvzquC41urkfeqnh{0ipo8j/jgou8