OpenDataLab为国产大模型提供高质量的开放数据集

xiaoyong 8月 24, 2023 4.35k 浏览 0

OpenDataLab为人工智能研究者提供免费开源的数据集，通过OpenDataLab，研究者可以获得格式统一的各领域经典数据集。通过平台的搜索功能，研究者可以迅速便捷地找到自己所需数据集；通过平台的统一格式，研究者可以便捷地对跨数据集任务进行开发。

书生·万卷1.0为书生·万卷多模态语料库的首个开源版本，包含文本数据集、图文数据集、视频数据集三部分，数据总量超过2TB。目前，书生·万卷1.0已被应用于书生·多模态、书生·浦语的训练。通过对高质量语料的“消化”，书生系列模型在语义理解、知识问答、视觉理解、视觉问答等各类生成式任务表现出的优异性能。“书生・万卷” 将为学术界及产业界提供更符合主流中文价值对齐的高质量大模型多模态预训练语料。

版权声明：除特殊说明外，本站所有文章均为字节点击原创内容，采用 BY-NC-SA 知识共享协议。原文链接：https://byteclicks.com/51967.html 转载时请以链接形式标明本文地址。转载本站内容不得用于任何商业目的。本站转载内容版权归原作者所有，文章内容仅代表作者独立观点，不代表字节点击立场。报道中出现的商标、图像版权及专利和其他版权所有的信息属于其合法持有人，只供传递信息之用，非商务用途。如有侵权，请联系 gavin@byteclicks.com。我们将协调给予处理。

OpenDataLab为国产大模型提供高质量的开放数据集

文章推荐：

标签