
Pile是一个由22个较小的高质量数据集组合而成的825 GiB多样化的开源语言建模数据集。它是一个用于训练大规模语言模型的数据集,具有广泛的覆盖范围和多样性。

OpenDataLab为人工智能研究者提供免费开源的数据集,通过OpenDataLab,研究者可以获得格式统一的各领域经典数据集。通过平台的搜索功能,研究者可以迅速便捷地找到自己所需数据集;通过平台的统一格式,研究者可以便捷地对跨数据集任务进行开发。

本文介绍了生命科学,医疗保健和医学数据集。机器学习在医疗保健中具有许多潜在的应用,并且已经被用于提供经济的解决方案和医疗诊断软件系统。在许多第一世界国家正面临人口老龄化和衰退的时代,机器学习可以帮助我们为老年人提供更好的护理。

自然科研旗下《科学数据》近日在线发布一份生态学报告,其呈现的一份数据集,首度发布了生物入侵对全球造成的经济成本,迄今为止,这一可更新的数据集中囊括了1945年至2017年与90个国家的343个物种有关的2419项估算成本。

AWS公共数据集一站式访问,可以无缝集成到基于AWS云的应用程序中。AWS免费托管这些数据,用户只需为自己应用所使用的计算和存储付费。此前,人类基因组图谱和美国人口普查数据等大型数据集需要数小时或数天的时间来定位、下载、定制和分析。

Bifrost Data Search 是一个将世界上的图像数据集直接汇总、分析并提供给开发者的图像数据集搜索工具,该搜索工具完全免费使用。用户可以从近 2000 个数据集列表中进行搜索,搜索结果并具有丰富数据集属性及来源和相对应出版物。有助于为你的机器学习项目提供一个无缝的搜索图片数据集的方法。

在数据圈,Kaggle是数据科学家和机器学习工程师寻求有趣的数据集的最大宝藏之地:这里有各种notebook和竞赛,相关从业者和研究人员可以利用Kaggle提供的数据探索工具,轻松地与他人共享相关脚本和输出。为帮助使arXiv更加易于访问,aixiv近日宣布,向Kaggle提供机器可读的arXiv数据集!