OpenAI-whisper折腾
OpenAI-whisper折腾
好用的AI语音转录,最重要的是:免费
安装记录
Python版本(官方版)
Git地址:
启动环境
pdm init
pdm add torch torchvision torchaudio
(国内特供)
pdm add git+https://gitee.com/mirrors/openai-whisper.git
检测一下显卡是否正常,显示为True即可适用
import torch
print(torch.__version__)
print(torch.cuda.is_available())
麻了,GTX1650还跑不了medium(显存不够大),但跑个small还是可以的
这里有个WebUI的版本,这次没用上,这边先记录上
https://huggingface.co/spaces/aadnk/whisper-webui
C++版本
可以跑medium和large的版本,但速度慢肯定是没办法的
目前只提供民间支持,但由于其可以放在树莓派,手机上面跑,适用范围更广了
Git地址:
按照指示编译文件即可
但用之前需要先手动ffmpeg进行转换
ffmpeg -i input.mp3 -ar 16000 -ac 1 -c:a pcm_s16le output.wav
直接下载模型
https://huggingface.co/datasets/ggerganov/whisper.cpp/tree/main
使用6线程进行转录
./main -m models/ggml-medium.en.bin -f output.wav -t 6 -osrt
效果
结语
原本计划着是做熟肉翻译的,结果发现Whisper只支持其他语言翻译成英语,外加学校老师临近假期给考试添堵,导致一系列计划直接泡汤。先记录下,有空再更新,可能后续考虑尝鲜opus-mt模型。