哈佛大学与谷歌将发布包含100万本公共领域书籍的数据集用于AI训练

Heping 12月 13, 2024 4.15k 浏览 0

哈佛大学与谷歌宣布将联合发布一个包含100万本公共领域书籍的数据集，用于AI训练。这一数据集由哈佛大学的“机构数据计划（Institutional Data Initiative, IDI）”主导，并得到了微软和OpenAI的资金支持。该数据集涵盖了多种类型、语言和作者的书籍，包括莎士比亚、狄更斯、但丁等经典作家的作品，以及一些较为冷门的捷克数学教科书和威尔士词典等。

数据集的背景与目标

数据来源：这些书籍主要来自谷歌的长期项目“谷歌图书（Google Books）”，并且已经不再受版权保护。
目标：IDI的执行董事格雷格·莱佩特（Greg Leppert）表示，该数据集的目的是“让竞争环境更加公平”，通过向包括研究机构、AI初创公司和个人研究人员在内的各类机构开放，帮助他们训练大型语言模型（LLM）。

数据集的规模与特点

规模：该数据集的规模约为Meta的Llama模型所使用的“Books3数据集”的五倍，涵盖了广泛的类型、年代和语言。
质量：莱佩特强调，该数据集经过了严格的筛选和精心策划，确保其高质量和多样性。

发布方式与合作

发布方式：目前尚未确定具体的发布方式和时间，但哈佛大学已邀请谷歌参与公共分发，双方正在商讨细节。
合作扩展：除了书籍数据集，IDI还与波士顿公共图书馆合作，扫描了数百万篇公共领域的报纸文章，并计划未来与更多机构进行类似合作。

意义与影响

公平竞争：该数据集的发布旨在为AI领域提供一个公平的竞争环境，特别是为小型AI公司和个人研究人员提供高质量的训练数据。
版权问题：随着AI训练中版权问题的争议不断增加，类似哈佛这一公共领域数据集的项目正在成为AI训练数据的重要来源，帮助企业避免版权相关的法律风险。

哈佛大学与谷歌的这一合作项目不仅为AI训练提供了丰富的公共领域数据，还通过开放数据集的方式，推动了AI领域的公平竞争和创新发展。未来，随着更多公共领域数据集的发布，AI公司将有更多的选择来训练其模型，同时减少版权相关的法律风险。

版权声明：除特殊说明外，本站所有文章均为字节点击原创内容，采用 BY-NC-SA 知识共享协议。原文链接：https://byteclicks.com/63505.html 转载时请以链接形式标明本文地址。转载本站内容不得用于任何商业目的。本站转载内容版权归原作者所有，文章内容仅代表作者独立观点，不代表字节点击立场。报道中出现的商标、图像版权及专利和其他版权所有的信息属于其合法持有人，只供传递信息之用，非商务用途。如有侵权，请联系 gavin@byteclicks.com。我们将协调给予处理。

哈佛大学与谷歌将发布包含100万本公共领域书籍的数据集用于AI训练

数据集的背景与目标

数据集的规模与特点

发布方式与合作

意义与影响

文章推荐：

标签