
如果你平时主要在推特发视频,或者是习惯用达芬奇(DaVinci Resolve)剪辑的 Indie Hacker,在做字幕这件事上,估计都有过这种“想骂人”的时刻:
最近在 GitHub 挖到了一个很符合“极客精神”的开源项目:Auto-Subs。
它不是什么花里胡哨的新概念,就是简单粗暴地解决了一个问题:把那个大家都知道很准的 Whisper 模型,塞进你的达芬奇里,用你自己的显卡跑字幕。
简单说:不用云端 API 计费、不限时长、也不用担心隐私泄露。
试用了两周,我觉得它能替代市面上大部分收费工具。不是因为它“免费”,而是因为它的工作流(Workflow)真的很顺手:
这是我最看重的一点。市面上很多开源工具只能给你吐一个 SRT 文件,你还得手动拖进时间轴、费劲对齐,很断节奏。
Auto-Subs 是直接作为脚本插件嵌入到 DaVinci Resolve 内部的。你在剪辑软件里点一下“生成”,字幕就会自动出现在时间轴上,时间码卡得非常准。对于剪辑流来说,这才是真正的省时间。

有些访谈素材或者内部演示,其实并不适合上传到第三方云端服务器(毕竟谁也不知道这些数据会被怎么用)。
我自己就是那种:能本地跑的东西,尽量不传云端的人。
这个工具是完全离线 (On-Device) 运行的。从语音识别到字幕生成,所有数据都不出你的本地显卡。对于比较介意数据隐私的朋友,这是目前最稳妥的方案。
既然我们为了剪视频都买了不错的显卡,为什么还要去买云端的算力?只要你的显卡跑得动,想转多少小时都可以,这才是“一次性投入”的正确用法。
它的核心是 Whisper 模型,准确率大家心里都有数,基本是目前开源界的第一梯队。
部署逻辑其实很简单,不用怕全是代码:
直接去 GitHub 的 Releases 页面下对应的安装包(Windows / macOS / Linux)。开发者对 Mac 的 Apple Silicon (M1/M2) 芯片也做了优化,甚至比 PC 还快。
Workspace -> Scripts 菜单下就能找到它。选中时间轴上的音频,一键生成。💡 硬件小建议:
因为是本地跑 AI 模型,建议你的电脑至少有一张 NVIDIA 显卡 (建议 4GB+ 显存)。首次运行建议选 “Small” 或 “Medium” 模型,这就够用了。”Large” 模型虽然最准,但对显存要求高,速度也会慢很多。
在 AI 时代,我们看过太多包装精美但核心只是套壳 API 的收费工具。Auto-Subs 是那种典型的“Indie Hacker 风格”产物——不玩虚的,直接解决问题。
如果你手头有硬件,完全没必要为基础的字幕识别持续付费。把这个工具加入你的工作流,既能省下订阅费,又能把数据的控制权拿回自己手里,哪怕你一个月只剪几条视频,用它都比交订阅费划算。
如果你对这个项目感兴趣,或者在使用过程中遇到问题,建议直接访问官方渠道获取最新版本和详细文档: