好望角:让你的每次点击都有价值:byteclicks.com | 搜索引擎正在被AI污染信息源,中文优质信息越来越少了 |

LAION-5B:开放大规模多模态数据集的新时代

一个包含 5850 亿个 CLIP 过滤的图像-文本对的数据集,比 LAION-400M 大 14 倍,LAION-400M 是以前世界上最大的可公开访问的图像-文本数据集。

ALIGN、BASIC、Turing Bletchly、FLORENCE 和 GLIDE 等大型图文模型与 CLIP 和 DALL-E 等之前的先进模型相比,表现出越来越好的性能。大多数都接受过数十亿图像-文本对的训练,不过,直到现在还没有公开可用的这种规模的数据集。为了解决这个问题, LAION 5B,这是一个用于研究目的的大型数据集,由 5,85B CLIP 过滤的图像-文本对组成。2,3B 包含英语,2,2B 样本来自 100 多种其他语言,1B 样本包含无法检测特定语言分配的文本(例如名称)。此外,该数据集提供了几个最近邻索引、用于探索和子集创建的改进 Web 界面以及水印和 NSFW 的检测分数。并且在open_clip上完整地复制了一个在LAION-400M上训练的片段。在搜索演示中探索数据集。

下载数据

  • laion2B-en其中 23.2 亿个包含英语文本
  • laion2B-multi 22.6 亿包含来自 100 多种其他语言的文本
  • laion1B-nolang 12.7 亿有无法清楚检测到特定语言的文本。

可以使用img2dataset轻松下载数据。

对于训练使用,建议阅读训练使用指南

另外还发布了这些数据:

元数据文件是 parquet 文件,包含以下属性:URL、TEXT、文本和图像嵌入之间的余弦相似度得分以及图像的高度和宽度。使用此脚本可以在下载之前将水印和安全标签与元数据连接起来。完成后,您可以使用您选择的概率阈值轻松过滤它们(建议安全性为 0.5,水印为 0.8)。 

您还可以在laion2B-en-joined laion2B-multi-joined   laion1B-nolang-joined  (800GB)中找到预加入文件。

上一篇:

下一篇:


标签