OpenAI-whisper折腾
OpenAI-whisper折腾
好用的AI语音转录,最重要的是:免费
安装记录
Python版本(官方版)
Git地址:
启动环境
1 | pdm init |
1 | pdm add torch torchvision torchaudio |
检测一下显卡是否正常,显示为True即可适用
1 | import torch |
麻了,GTX1650还跑不了medium(显存不够大),但跑个small还是可以的
这里有个WebUI的版本,这次没用上,这边先记录上
1 | https://huggingface.co/spaces/aadnk/whisper-webui |
C++版本
可以跑medium和large的版本,但速度慢肯定是没办法的
目前只提供民间支持,但由于其可以放在树莓派,手机上面跑,适用范围更广了
Git地址:
按照指示编译文件即可
但用之前需要先手动ffmpeg进行转换
1 | ffmpeg -i input.mp3 -ar 16000 -ac 1 -c:a pcm_s16le output.wav |
直接下载模型
1 | https://huggingface.co/datasets/ggerganov/whisper.cpp/tree/main |
使用6线程进行转录
1 | ./main -m models/ggml-medium.en.bin -f output.wav -t 6 -osrt |
效果
结语
原本计划着是做熟肉翻译的,结果发现Whisper只支持其他语言翻译成英语,外加学校老师临近假期给考试添堵,导致一系列计划直接泡汤。先记录下,有空再更新,可能后续考虑尝鲜opus-mt模型。
参考资料
本博客所有文章除特别声明外,均采用 CC BY-NC 4.0 许可协议。转载请注明来自 Mox的笔记库!
评论