OpenAI-whisper折腾

好用的AI语音转录,最重要的是:免费

安装记录

Python版本(官方版)

Git地址:

https://github.com/openai/whisper

启动环境

pdm init

pSV7IaQ.md.png

pdm add torch torchvision torchaudio
(国内特供)
pdm add git+https://gitee.com/mirrors/openai-whisper.git

检测一下显卡是否正常,显示为True即可适用

import torch
print(torch.__version__)
print(torch.cuda.is_available())

麻了,GTX1650还跑不了medium(显存不够大),但跑个small还是可以的

这里有个WebUI的版本,这次没用上,这边先记录上

https://huggingface.co/spaces/aadnk/whisper-webui

C++版本

可以跑medium和large的版本,但速度慢肯定是没办法的

目前只提供民间支持,但由于其可以放在树莓派,手机上面跑,适用范围更广了

Git地址:

https://github.com/ggerganov/whisper.cpp.git

按照指示编译文件即可

但用之前需要先手动ffmpeg进行转换

ffmpeg -i input.mp3 -ar 16000 -ac 1 -c:a pcm_s16le output.wav

直接下载模型

https://huggingface.co/datasets/ggerganov/whisper.cpp/tree/main

使用6线程进行转录

./main -m models/ggml-medium.en.bin -f output.wav -t 6 -osrt

效果

结语

原本计划着是做熟肉翻译的,结果发现Whisper只支持其他语言翻译成英语,外加学校老师临近假期给考试添堵,导致一系列计划直接泡汤。先记录下,有空再更新,可能后续考虑尝鲜opus-mt模型。

参考资料

OpenAI 开源音频转文字模型 Whisper 尝鲜