LAION-5B：开放大规模多模态数据集的新时代

xiaoyong 4月 04, 2022 6.79w 浏览 0

一个包含 5850 亿个 CLIP 过滤的图像-文本对的数据集，比 LAION-400M 大 14 倍，LAION-400M 是以前世界上最大的可公开访问的图像-文本数据集。

ALIGN、BASIC、Turing Bletchly、FLORENCE 和 GLIDE 等大型图文模型与 CLIP 和 DALL-E 等之前的先进模型相比，表现出越来越好的性能。大多数都接受过数十亿图像-文本对的训练，不过，直到现在还没有公开可用的这种规模的数据集。为了解决这个问题， LAION 5B，这是一个用于研究目的的大型数据集，由 5,85B CLIP 过滤的图像-文本对组成。2,3B 包含英语，2,2B 样本来自 100 多种其他语言，1B 样本包含无法检测特定语言分配的文本（例如名称）。此外，该数据集提供了几个最近邻索引、用于探索和子集创建的改进 Web 界面以及水印和 NSFW 的检测分数。并且在open_clip上完整地复制了一个在LAION-400M上训练的片段。在搜索演示中探索数据集。

下载数据

laion2B-en其中 23.2 亿个包含英语文本
laion2B-multi 22.6 亿包含来自 100 多种其他语言的文本
laion1B-nolang 12.7 亿有无法清楚检测到特定语言的文本。

可以使用img2dataset轻松下载数据。

对于训练使用，建议阅读训练使用指南。

另外还发布了这些数据：

laion2B-en laion2B-multi laion1B-nolang (800GB)上的 58.5 亿对图像 URL 和相应的元数据
可在数据集中快速搜索的knn 索引(1.6TB)
LAION-5B剪辑检索图像文本搜索的 Web 演示
laion2B-en-safety 安全标签laion2B-multi-safety laion1B-nolang-safety (50GB)
laion2B-en-watermark 处的水印标签laion2B-multi-watermark laion1B-nolang-watermark (50GB)

元数据文件是 parquet 文件，包含以下属性：URL、TEXT、文本和图像嵌入之间的余弦相似度得分以及图像的高度和宽度。使用此脚本可以在下载之前将水印和安全标签与元数据连接起来。完成后，您可以使用您选择的概率阈值轻松过滤它们（建议安全性为 0.5，水印为 0.8）。

您还可以在laion2B-en-joined laion2B-multi-joined laion1B-nolang-joined (800GB)中找到预加入文件。

版权声明：除特殊说明外，本站所有文章均为字节点击原创内容，采用 BY-NC-SA 知识共享协议。原文链接：https://byteclicks.com/36302.html 转载时请以链接形式标明本文地址。转载本站内容不得用于任何商业目的。本站转载内容版权归原作者所有，文章内容仅代表作者独立观点，不代表字节点击立场。报道中出现的商标、图像版权及专利和其他版权所有的信息属于其合法持有人，只供传递信息之用，非商务用途。如有侵权，请联系 gavin@byteclicks.com。我们将协调给予处理。

文章推荐：

标签