好望角:让你的每次点击都有价值:byteclicks.com | 搜索引擎正在被AI污染信息源，中文优质信息越来越少了 |

首页 > 找数据 > 世界上最大的公开可用图像文本对数据集4亿个样本

世界上最大的公开可用图像文本对数据集4亿个样本

TechRanger 9月 13, 2021 2.31w 浏览 0

LAION-4 亿开放数据集世界上最大的公开可用图像文本对数据集，LAION-400M 数据集中的所有图像和文本都使用 OpenAI 的CLIP通过计算文本和图像嵌入之间的余弦相似度进行过滤，并将相似度低于 0.3 的那些丢弃。0.3 的阈值是通过人工评估确定的，似乎是一个用于估计语义图像-文本-内容匹配的良好启发式。图像-文本对是从Common Crawl网络数据转储中提取的，来自2014 年至 2021 年间抓取的随机网页。

下载资料

你可以找到

CLIP 图像嵌入（NumPy 文件）
Parquet格式文件
图像嵌入的 KNN 索引

通过使用 KNN 索引，还可以按感兴趣的域提取专用数据集。它们的大小足以（或将）足以训练领域专用模型。

版权声明：除特殊说明外，本站所有文章均为字节点击原创内容，采用 BY-NC-SA 知识共享协议。原文链接：https://byteclicks.com/26864.html 转载时请以链接形式标明本文地址。转载本站内容不得用于任何商业目的。本站转载内容版权归原作者所有，文章内容仅代表作者独立观点，不代表字节点击立场。报道中出现的商标、图像版权及专利和其他版权所有的信息属于其合法持有人，只供传递信息之用，非商务用途。如有侵权，请联系 gavin@byteclicks.com。我们将协调给予处理。

上一篇: 新型掺糖锂硫电池储能能力可为现锂离子电池的五倍

下一篇: Paragon Soar eVTOL计划用氢燃料获取超长续航里程

文章推荐：

大型叶子库帮助科学家识别植物,对古植物学家尤其重要 2022-03-16

2020年12月美国制造业前景调查 2020-12-29

数据库“J-STAGE Data”启用 2021-06-10

含氟试剂数据库 2024-04-03

最大的海洋微生物遗传数据库可以帮助药物发现 2024-01-18

SOCAT海洋表层二氧化碳观测质量数据集 2020-09-24

标签