Meta发布图像分割的SAM大模型可一键分离图和视频中所有东西
Meta发布图像分割的SAM大模型, Segment Anything https://segment-anything.com 用于图像分割的大模型,SAM 学会了物体的一般概念,它可以为任何图像或视频中的任何物体生成掩码,包括训练中没有遇到过的类型。这让它无论是识别水下照片还是显微镜里的细胞,都可开箱即用,不需额外训练。
SAM 可以成为更大的 AI 系统中的一个组成部分,以实现对世界多模态的理解,例如在 AR/VR 领域,SAM 可以根据用户的目光来选择一个物体,然后将其 “提升” 成为 3D 元素。
SAM 还可以用于理解网页的视觉和文本内容,对于内容创作者来说,SAM 可以改善创意应用,如提取图像区域进行拼贴或视频编辑,只需为模型设计合适的提示(点击、方框、文本等)就能实现广泛而通用的图像分割任务。
SAM 的图像 Encoder 为图像产生一次性的嵌入,而轻量级 Decoder 将任何 Prompt 实时转换为矢量嵌入。这两个信息源在一个预测分割掩码的轻量级 Decoder 中结合起来。在计算出图像嵌入后,SAM 可以在短短 50 毫秒内产生一个分段,并在网络浏览器中给出任何提示。
SAM 的数据集 SA-1B 包括超过 11 亿个分割掩码,这些掩码收集至大约 1100 万张拥有许可的图像,它拥有比任何现有的分割数据集多 400 倍的遮罩。在某些情况下其质量甚至可以与以前更小的、完全人工注释的数据集的遮罩相媲美。 开源模型地址 https://github.com/facebookresearch/segment-anything
在未来,SAM 可以通过 AR 眼镜来识别日常用品,可以给用户提醒和指示。
SAM 也有可能影响广泛的领域,也许有一天会帮助到农业生产,或协助生物学家的研究!