世界上最大的公开可用图像文本对数据集4亿个样本
LAION-4 亿开放数据集世界上最大的公开可用图像文本对数据集,LAION-400M 数据集中的所有图像和文本都使用 OpenAI 的CLIP通过计算文本和图像嵌入之间的余弦相似度进行过滤,并将相似度低于 0.3 的那些丢弃。0.3 的阈值是通过人工评估确定的,似乎是一个用于估计语义图像-文本-内容匹配的良好启发式。 图像-文本对是从Common Crawl网络数据转储中提取的,来自2014 年至 2021 年间抓取的随机网页。
下载资料
你可以找到
- CLIP 图像嵌入(NumPy 文件)
- Parquet格式文件
- 图像嵌入的 KNN 索引
通过使用 KNN 索引,还可以按感兴趣的域提取专用数据集。它们的大小足以(或将)足以训练领域专用模型。