好望角:让你的每次点击都有价值:byteclicks.com | 搜索引擎正在被AI污染信息源,中文优质信息越来越少了 |

世界上最大的公开可用图像文本对数据集4亿个样本

LAION-4 亿开放数据集世界上最大的公开可用图像文本对数据集,LAION-400M 数据集中的所有图像和文本都使用 OpenAI 的CLIP通过计算文本和图像嵌入之间的余弦相似度进行过滤,并将相似度低于 0.3 的那些丢弃。0.3 的阈值是通过人工评估确定的,似乎是一个用于估计语义图像-文本-内容匹配的良好启发式。 图像-文本对是从Common Crawl网络数据转储中提取的,来自2014 年至 2021 年间抓取的随机网页。

下载资料

你可以找到

  • CLIP 图像嵌入(NumPy 文件)
  • Parquet格式文件
  • 图像嵌入的 KNN 索引

通过使用 KNN 索引,还可以按感兴趣的域提取专用数据集。它们的大小足以(或将)足以训练领域专用模型。

上一篇:

下一篇:


标签