OpenAI-whisper折腾

好用的AI语音转录，最重要的是：免费

安装记录

Git地址：

https://github.com/openai/whisper

启动环境

1
pdm init

1
pdm add torch torchvision torchaudio
2
(国内特供)
3
pdm add git+https://gitee.com/mirrors/openai-whisper.git

检测一下显卡是否正常，显示为True即可适用

1
import torch
2
print(torch.__version__)
3
print(torch.cuda.is_available())

麻了，GTX1650还跑不了medium（显存不够大），但跑个small还是可以的

这里有个WebUI的版本，这次没用上，这边先记录上

1
https://huggingface.co/spaces/aadnk/whisper-webui

可以跑medium和large的版本，但速度慢肯定是没办法的

目前只提供民间支持，但由于其可以放在树莓派，手机上面跑，适用范围更广了

Git地址:

https://github.com/ggerganov/whisper.cpp.git

按照指示编译文件即可

但用之前需要先手动ffmpeg进行转换

1
ffmpeg -i input.mp3 -ar 16000 -ac 1 -c:a pcm_s16le output.wav

直接下载模型

1
https://huggingface.co/datasets/ggerganov/whisper.cpp/tree/main

使用6线程进行转录

1
./main -m models/ggml-medium.en.bin -f output.wav -t 6 -osrt

原本计划着是做熟肉翻译的，结果发现Whisper只支持其他语言翻译成英语，外加学校老师临近假期给考试添堵，导致一系列计划直接泡汤。先记录下，有空再更新，可能后续考虑尝鲜opus-mt模型。