哈佛大学与谷歌将发布包含100万本公共领域书籍的数据集用于AI训练
哈佛大学与谷歌宣布将联合发布一个包含100万本公共领域书籍的数据集,用于AI训练。这一数据集由哈佛大学的“机构数据计划(Institutional Data Initiative, IDI)”主导,并得到了微软和OpenAI的资金支持。该数据集涵盖了多种类型、语言和作者的书籍,包括莎士比亚、狄更斯、但丁等经典作家的作品,以及一些较为冷门的捷克数学教科书和威尔士词典等。
数据集的背景与目标
- 数据来源:这些书籍主要来自谷歌的长期项目“谷歌图书(Google Books)”,并且已经不再受版权保护。
- 目标:IDI的执行董事格雷格·莱佩特(Greg Leppert)表示,该数据集的目的是“让竞争环境更加公平”,通过向包括研究机构、AI初创公司和个人研究人员在内的各类机构开放,帮助他们训练大型语言模型(LLM)。
数据集的规模与特点
- 规模:该数据集的规模约为Meta的Llama模型所使用的“Books3数据集”的五倍,涵盖了广泛的类型、年代和语言。
- 质量:莱佩特强调,该数据集经过了严格的筛选和精心策划,确保其高质量和多样性。
发布方式与合作
- 发布方式:目前尚未确定具体的发布方式和时间,但哈佛大学已邀请谷歌参与公共分发,双方正在商讨细节。
- 合作扩展:除了书籍数据集,IDI还与波士顿公共图书馆合作,扫描了数百万篇公共领域的报纸文章,并计划未来与更多机构进行类似合作。
意义与影响
- 公平竞争:该数据集的发布旨在为AI领域提供一个公平的竞争环境,特别是为小型AI公司和个人研究人员提供高质量的训练数据。
- 版权问题:随着AI训练中版权问题的争议不断增加,类似哈佛这一公共领域数据集的项目正在成为AI训练数据的重要来源,帮助企业避免版权相关的法律风险。
哈佛大学与谷歌的这一合作项目不仅为AI训练提供了丰富的公共领域数据,还通过开放数据集的方式,推动了AI领域的公平竞争和创新发展。未来,随着更多公共领域数据集的发布,AI公司将有更多的选择来训练其模型,同时减少版权相关的法律风险。