许多年以后,坐在电脑前的奶酪,一定会想起年轻时自己手敲字幕敲到手抽筋的那个下午。
如何将 200G 的视频,压缩为 20M 的文字,如何提取视频里说话人的台词,
如何将视频会议转录为文字,如何一键语音转文字。
今天,它们都成为了现实!
那为什么还要开一个新项目呢?因为“命令行软件”更方便。
我们电脑里的大多数软件,是“图形化软件”。
比如 Word、Excel、Photoshop,它们的一大特点是「所见即所得」。
软件的所有内容,都放在我们眼前,只需要用鼠标点几下,就能完成任务,上手非常容易。
还有一种软件,叫“命令行软件”。
它的特点是「所想即所得」,可以将我们大脑里想的内容「逻辑文本化」。
通过不同的命令组合,可以实现任务的批处理和自动化,因此命令行软件的上手难度也较大。
下面是本文内容的极简安装流程,没有 What,没有 Why,只有 How。
这么多转录工具,我要怎么选择?由于 CapsWriter 只支持中英文,Whisper 支持 100 种语言。
所以,结论就是。
· 最快中文转录:CapsWriterCli· 最快英文转录:CapsWriterCli· 最快多语言转录:WhisperCli
· 最佳中文转录:CapsWriterCli_Full· 最佳英文转录:WhisperCli· 最佳多语言转录:WhisperCli· 最佳转录并翻译:WhisperCli
奶酪的这个项目,已经更新了多个版本,久经考验,它就是目前的最快语音转文字,没有之一。
也许,你现在还感觉不到它的好。
但随着大家电脑性能越来越好,奶酪的配置包一定会火。
它也一定会成为了你装机必备。
上面的内容还只是“前戏”,真正的“爽点”,是接下来“一键识别”的操作实现。
它不但支持所有平台,相比原版 Whisper,速度更是快了 4-45 倍。
支持核显、支持独显、ARM 芯片也同样支持。
而不久前,OpenAI 还发布了 Large V3 模型的 Turbo 版本,在同等效果下,速度快了 8 倍。
即使在一般的电脑,也能用上 Whisper 的最顶级模型了。
Whisper 真正开始走向平民化。
但是,到了这一步,要使用还是太麻烦了,因为还只是个“毛坯房”。
奶酪的 Whisper 配置包,可以说是目前最快的 Whipser 部署方法,没有之一。
你需要做的,就只是点击一下“开始.bat”。
实际测试:
我用的是 AMD R7 7735HS 核显,一个 2:30 秒的文件,Large V3 Turbo 模型用了不到 40 秒。
而如果用 4060 显卡,也就是5 秒钟的事。
PS:新版本的奶酪配置包,只保留了 Turbo 模型一个版本,配置包总大小 1.32G。
首先,下载压缩包,解压到任意位置。
接着,点击“开始.bat”,Whisper “语音识别”的一键操作,就会自动添加到右键的“发送到”菜单。
从此,你的电脑从此就拥有了“离线语音一键识别”功能。
最后,选择任意单个文件、多个文件,又或者文件夹,即可进行一键或批量转录。
生成的转录文件,默认会保存在“原文件”所在目录。
默认只添加了“中文”和“英语”两个独立的菜单。
需要转录其它语言,可以点击第三个选项“语音转录_语言选择”进行选择,然后输入语言编号。
Whisper 支持超过 100 种语言。
常用编码:1 简体中文、2 德语、3 西语、4 俄语、5 韩语、6 法语、7 日语、8 葡语、99 粤语...
输入 all,则可以查看支持的所有语言,
直接回车,则默认选择 100 繁体中文。
如果你需要一键转录网上的视频。
就会先下载该视频,然后自动调用 Whisper 来一键转录,全程自动!
奶酪系列浏览器,均已支持。
需要注意的是,
你需要在扩展 ContextSearch web-ext 里修改你的 WhisperCli 实际路径,一共有两处要修改。
否则无法一键下载及转录。
如果你没有使用“奶酪浏览器”,可以导入扩展 ContextSearch web-ext 的奶酪配置。
1、不支持 2012 年以前的 CPU。
支持 Win 7 系统,但模型渲染需要 F16C 指令集,因此不支持 2012 年以前生产的 CPU。
2、部分文件格式不支持。
3、超长音频/视频,可能会出现字幕重复的问题。
可以分段后再进行转录,奶酪写了一个自动分段脚本,将文件拖入到 bat 脚本上即可一键分段。
Mac 能不能也实现类似 Windows 那样的一键语音识别呢?能!而且思路也大致相同。
支持 Intel 和 ARM 芯片,而且解决了 Mac 下 Whisper 调用 GPU 的问题,转录速度大为提升。
安装方法:
首先,安装 Vibe。
安装后,下载最新的 Large-V3-Turbo 模型文件,放在 Vibe 的“模型文件夹”里。
因此,它也是可以实现类似 Windows 下的一键操作。
具体方法是通过“Automator 自动操作”来实现,首先是打开“自动操作”,新建一个“快捷操作”。
输入以下代码:
不想操作也没关系。
奶酪已经把脚本准备好了,只需要双击安装,脚本就会自动存放在 ~/Library/Services 下。
之后,选择任意单个文件、多个文件,又或者文件夹。
在右键菜单里的“快速操作”,选择“使用 Whisper 转录” 即可一键调用转录。
要设置“快速操作”菜单的显示内容,你可以在“设置—>隐私与安全性—>扩展—>访达”里修改。
同样,如果你需要一键转录网上的视频。
就会先下载该视频,然后自动调用 Whisper 来一键转录,全程自动!
奶酪系列浏览器,均已支持。
需要注意的是,
如果你没有使用奶酪浏览器,则需要安装扩展 ContextSearch web-ext,导入奶酪配置即可。
1、也支持 Intel CPU。
支持 ARM 芯片,也支持 2019 年前 Intel 芯片,具体我没有测试,你可以试试,原理一样。
2、部分文件格式不支持。
3、超长音频/视频,可能会出现字幕重复的问题。
可以分段后再进行转录,奶酪写了一个自动分段脚本,将文件拖入到 bat 脚本上即可一键分段。
与此同时,阿里的开源语音识别工具 FunASR,把国产「语音识别」带到了前所未有的高度。
Whisper 支持超过 109 种语言。
30 分钟的音频,转录只需要 15 秒,是 15 秒 啊!
因为是纯手工标注,因为 FunASR 的“中英文”识别准确率也非常高。
考虑到使用上的便捷性,奶酪在 CapsWriter 的基础上整合了 CLI 版本:CapsWriterCli。
你需要做的,也是点击一次 “开始.bat”,然后就可以一键使用了。
奶酪的 CapsWritherCli 分成了两个版本。
标准版:只有语音识别功能,速度极快,加载模型只需要 3 秒。
完整版:语音识别+自动标点,第一次加载模型需要 30 秒左右。
之后,你可以选择单个文件、多个文件、又或者文件夹,转录后文件,会保存在原文件旁边。
需要注意的是:
1、CapWriterCli 只支持中、英两种语言。
2、在使用 CapWriterCli_Full 完整版时,第一次加载模型大概需要 30 秒,后续将不再需要。
3、然后,你还需要「再次」在右键菜单里,调用一键转录。
还需要注意的是,
如果你先使用了 CapWriterCli 极速版,要切换到 CapWriterCli_Full 完整版时.
然后再开启 CapWriterCli 完整版。
同样,如果你需要一键转录网上的视频。
就会先下载该视频,然后自动调用 CapsWriterCli 来一键转录,全程自动!
奶酪系列浏览器,均已支持。
需要注意的是,
你需要在扩展 ContextSearch web-ext 里修改你的 CapsWriterCli 实际路径,一共有两处。
同时,CapsWriterCli_Full 完整版的菜单,默认是隐藏的,你需要手动打开。
如果你没有使用“奶酪浏览器”,可以导入扩展 ContextSearch web-ext 的奶酪配置。
需要强调的是。
如果只要文字内容,使用 CapWriterCli 极速版 已经足够。
如果需要转录的内容带有“标点符号”,则需要使用 CapWriterCli_Full 完整版。
第一次加载标点模型,大概需要 30 秒,后续将不再需要。
然后,你需要「再次」在右键菜单里,调用一键转录。
如果你无法安装,又或者配置不够,奶酪还准备了“在线转录”的版本,同样“全自动一键转录”。
当然,也还有很多其它免费的“在线转录”应用,不过就是需要手动上传音频或者视频文件。