LAION-5B:开放大规模多模态数据集的新时代
一个包含 5850 亿个 CLIP 过滤的图像-文本对的数据集,比 LAION-400M 大 14 倍,LAION-400M 是以前世界上最大的可公开访问的图像-文本数据集。
ALIGN、BASIC、Turing Bletchly、FLORENCE 和 GLIDE 等大型图文模型与 CLIP 和 DALL-E 等之前的先进模型相比,表现出越来越好的性能。大多数都接受过数十亿图像-文本对的训练,不过,直到现在还没有公开可用的这种规模的数据集。为了解决这个问题, LAION 5B,这是一个用于研究目的的大型数据集,由 5,85B CLIP 过滤的图像-文本对组成。2,3B 包含英语,2,2B 样本来自 100 多种其他语言,1B 样本包含无法检测特定语言分配的文本(例如名称)。此外,该数据集提供了几个最近邻索引、用于探索和子集创建的改进 Web 界面以及水印和 NSFW 的检测分数。并且在open_clip上完整地复制了一个在LAION-400M上训练的片段。在搜索演示中探索数据集。
下载数据
- laion2B-en其中 23.2 亿个包含英语文本
- laion2B-multi 22.6 亿包含来自 100 多种其他语言的文本
- laion1B-nolang 12.7 亿有无法清楚检测到特定语言的文本。
可以使用img2dataset轻松下载数据。
对于训练使用,建议阅读训练使用指南。
另外还发布了这些数据:
- laion2B-en laion2B-multi laion1B-nolang (800GB)上的 58.5 亿对图像 URL 和相应的元数据
- 可在数据集中快速搜索的knn 索引(1.6TB)
- LAION-5B剪辑检索图像文本搜索的 Web 演示
- laion2B-en-safety 安全标签laion2B-multi-safety laion1B-nolang-safety (50GB)
- laion2B-en-watermark 处的水印标签laion2B-multi-watermark laion1B-nolang-watermark (50GB)
元数据文件是 parquet 文件,包含以下属性:URL、TEXT、文本和图像嵌入之间的余弦相似度得分以及图像的高度和宽度。使用此脚本可以在下载之前将水印和安全标签与元数据连接起来。完成后,您可以使用您选择的概率阈值轻松过滤它们(建议安全性为 0.5,水印为 0.8)。
您还可以在laion2B-en-joined laion2B-multi-joined laion1B-nolang-joined (800GB)中找到预加入文件。