一、VOSK是什么?Vosk是言语识别工具包。Vosk最好的事情是:1.支持二十+种语言 - 中文,英语,印度英语,德语,法语,西班牙语,葡萄牙语,俄语,土耳其语,越南语,意大利语,荷兰人,加泰罗尼亚语,阿拉伯, 希腊语, 波斯语, 菲律宾语,乌克兰语, 哈萨克语, 瑞典语, 日语, 世界语2.移动设备上脱机工作-Raspberry Pi,Android,iOS3.使用简单的 pip3 install vosk 安装4.每种语言的手提式模型只有是50Mb, 但还有更大的服务器模型可用提供流媒体API,以提供最佳用户体验(与流行的语音识别python包不同)5.还有用于不同编程语言的包装器-java / csharp / javascript等6.可以快速重新配置词汇以实现最佳准确性7.支持说话人识别
二、使用步骤1.环境准备因为该资源底层是c开发的,所以需要下载vcredist;
项目需要,要实现类似小爱同学的语音控制功能,并且要离线,不能花公司一分钱。第一步就是需要把音频文字化。经过各种资料搜集后,选择了vosk。这是vosk的官方介绍:
Vosk is a speech recognition toolkit. The best things in Vosk are:
本次使用springboot +maven实现,官方demo为springboot+gradle。
1、pom文件如下:
特别说明一下,vosk的包在常见的maven仓库里面是没有的,所以需要指定下载地址。
2、工程结构:
3、语音识别工具类
有几点需要说明一下,官方demo里面对采集率是写死了的,为16000。这是以16KHz来算的,所以我把所有拿到的音频都转成了16KHz。还有采集率的设置,需要设置为声道数的倍数。
THE END