哈佛大学宣布发布由近百万公有领域书籍构成的免费 AI 训练数据集,但问题是哈佛还没找到公司来托管该数据集,所以该数据集尚未提供下载。数据集由哈佛新成立的 Institutional Data Initiative 创建,得到了微软和 OpenAI 的资助,包含了 Google Books 项目扫描的部分已进入公有领域的图书。该项目希望 Google 合作公开发布,但搜索巨人尚未同意托管。哈佛大学对 Google 托管持乐观态度,Google 则对此未予置评。项目执行理事 Greg Leppert 表示希望打造一个公平的竞争环境,让任何人都能访问此前只有科技巨头才有资源去汇集高质量、深度加工和精心筛选的内容库。
https://slashdot.org/story/24/12/12/0734228/harvard-is-releasing-a-massive-free-ai-training-dataset-funded-by-openai-and-microsoft
https://www.wired.com/story/harvard-ai-training-dataset-openai-microsoft/