大战一触即发：OpenAI转录超过100万小时的YouTube视频来训练模型

本周早些时候纽约时报发布了一篇内容描述人工智能公司 OpenAI 在收集高质量训练数据方面遇到的困难，昨夜纽约时报发布新内容描述 OpenAI 如何处理这些问题。

OpenAI 一开始迫切需要海量的训练数据，报道称为了解决训练数据问题 OpenAI 开发了语音转录模型 Whisper。

该模型并用于转录 OpenAI 获取的超过 100 万小时的 YouTube 视频，也就是将 YouTube 视频中的音频内容转录文字，然后再拿去训练 GPT-4。

OpenAI 显然知道自己的这种做法存在法律上的争议，不过该公司相信这是合理使用的，而且 OpenAI 总裁 Greg Brockman 亲自参与了上述所使用视频的收集工作。

在被纽约时报报道后，OpenAI 发言人表示，该公司为其每个模型策划了独特的数据集，以帮助该公司了解世界并保持其全球研究竞争力，该公司使用了众多数据源，包括公开数据和非公开数据的合作伙伴，并且 OpenAI 在考虑生成自己的合成数据。

不过早在 2021 年 OpenAI 就耗尽了有用的数据供应，包括转录的超过 100 万小时的 YouTube 视频、播客和其他有声读物，那时候 OpenAI 已经使用这些数据进行训练，模型数据也包括 GitHub 上的计算机代码、国际象棋走棋数据库以及 Quizlet 等。

谷歌称相关行为已经违规：

对于上述报道谷歌自然不会坐视不理的，毕竟对谷歌来说，YouTube 内容库现在就是个金山，谷歌自己能用，但绝对不能给其他公司用。

谷歌发言人称已经注意到有关 OpenAI 活动的未经证实的报告，谷歌的 robots.txt 文件和服务条款都禁止未经授权的抓取或下载 YouTube 内容，这与谷歌相关的条款相符。

本周 YouTube CEO 也就 OpenAI 使用 YouTube 数据来训练 Sora 模型的可能性发布了类似言论，同时她警告称当有明确的法律或技术依据时，谷歌会采取技术和法律措施来防止此类未经授权的使用。

谷歌自己使用 YouTube 数据训练 AI：

虽然谷歌强调保护创作者的内容，不过谷歌也承认他们也使用 YouTube 视频来训练 AI，谷歌此前已经透露该公司与创作者的协议中，可以使用一些 YouTube 内容来训练模型。

数据收集方法也是类似的，即将 YouTube 的音频内容转换为文字内容后，再拿去训练模型，对谷歌来说 YouTube 的内容库可以提供海量数据，是个不可多得的几乎不用花钱的数据源。

接下来是否会出现法律诉讼：

考虑到 OpenAI 对数据的迫切需求，OpenAI 通过各种方式抓取受版权保护的内容不足为奇，在初期也就是 2021 年前后这种情况估计还不会引起关注，但现在情况已经不同了。

如果谷歌找到证据表明 OpenAI 抓取 YouTube 内容用于训练，那么谷歌肯定会起诉 OpenAI，毕竟 OpenAI 的行为确实可能已经违反了 YouTube 相关协议。

所以或许在不久之后我们就能看到各种因为内容版权问题引起的法律大战，到时候牵涉进来的自然也不只是谷歌和 OpenAI，可能还有更多 AI 公司和内容提供商牵涉进来。