Whisper 能识别声音,将其变成文字,是 OpenAI 为数不多的开源产品。你甚至可以在自己的电脑上运行部署它,这样你也就拥有了自己的第一款本地AI。
只需要给它提供音频,它就能给你文字。甚至 PotPlayer 已经内置了 Whisper(需要自己动手安装)。
是的!
是的!
我不知道你想问什么,但是,我觉得:不用问了,可以!
…
但是,也没那么容易。

Whisper 是根据普通人的语音进行训练的,所以可以高精度识别短、干净、上下文明确的日常对话、演讲、影视作品、录音等等。
但有一种声音,非常即兴、也非常嘈杂,里面几乎没有真正的语言,更多的是连续的呼吸声、叹气声,大片的空白、大量语义不明的声音片段,音量在极低与极高之间频繁变化,还有大量戏剧化、夸张的拟声词,这些内容在通用语料库中几乎不存在。
这都让 Whisper 原地崩溃!识别效果稀烂。
终于可以引出主角了:WhisperJAV,这是一款日本成人视频字幕生成器。
针对声学地狱,WhisperJAV 的解决方案是:
把一段视频拆成小段,只让模型去听那些相对安静、内容一致的部分,避免把乱七八糟的声音混在一起。
针对特定场景的说话方式和表达习惯进行适配,规范特定领域的术语,并保留拟声词,特别纠正方言引起的标记化错误(例如, 关西话 )。
不要求字幕“越多越好”, 一旦模型自己都不太确定,就干脆不输出,不再胡说八道。
为了让用户满意,WhisperJAV 提供了5种模式,可以针对不同的视频进行识别:
| 模式 | 处理后端 | 场景切分 | 语音检测(VAD) | 推荐使用场景 | 备注 |
|---|---|---|---|---|---|
| faster | stable-ts(turbo) | 否 | 否 | 多人场景、对速度要求高 | 更快,精度较低 |
| fast | stable-ts | 是 | 否 | 音质不稳定、业余或自制内容 | 通用、速度与稳定性折中 |
| balanced | faster-whisper | 是 | 是 | 对话多、背景复杂、背景音乐明显 | 默认推荐 |
| fidelity | OpenAI Whisper | 是 | 是(Silero) | 低音量、细节多、需要高准确率 | 较慢但更稳 |
| transformers | HuggingFace | 可选 | 内置检测 | 日语优化、特殊需求、自定义场景 | 适合高级用户 |
| ensemble | 多流程组合 | 是 | 是 | 追求极致准确率 | 双流程识别,耗时较长 |
使用方式也很简单:
whisperjav video.mp4 --mode fidelity
就行了(上述除了 HuggingFace transformers 都是基于 whisper 的)
终于到这里了,你需要有经典的 AI 环境,包括 Python、torch、git、FFmpeg(你看,连这种时候,都离不开它)。
另外,你需要有 NVIDIA CUDA、Apple MPS 或者 AMD ROCm。
Windows 最简单,只需要下载 WhisperJAV-1.7.4-Windows-x86_64.exe 然后运行就行了。
macOS 与 Linux 需要从源码安装,就自己研究哈。
针对1小时视频,不同硬件的处理时间:
| Platform | Time |
|---|---|
| NVIDIA 显卡 (CUDA) | 5-10 分钟 |
| Apple Silicon (MPS) | 8-15 分钟 |
| AMD 显卡 (ROCm) | 10-20 分钟 |
| 纯 CPU | 30-60 分钟 |
差不多就是这样了。
虽然这是一篇不太靠谱的文章,但青小蛙觉得,很有教育意义。
只需要凭借本能的兴趣爱好,跟着项目走一遍,就完成了一个完整的本地、大模型的部署与应用!
这不比问:你是什么模型?强大100倍?
当然了,请根据实际年龄,选择合适的视频进行测试。
原文:https://www.appinn.com/whisperjav/