计算机行业AIGC系列之13Meta发布SAM分割模型或成CV大模型第一步-23041015页.pdf

下载文档

0
0
约2.5万字
约 15页
2024-05-07 发布于中国
举报
版权申诉
保障服务

计算机行业AIGC系列之13Meta发布SAM分割模型或成CV大模型第一步-23041015页.pdf

1、本文档共15页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

行

业

及

产

计算机

业

2023年04月10日Meta发布SAM分割模型，或成

行

业CV大模型第一步

研

究

行看好——AIGC系列之13

业

点

评

相关研究

本期投资提示：

"不仅华为+阿里，SAM图像模型或为更

证重磅AI发布！-计算机行业周报根据Meta官方发布，2023年4月6日推出了一个AI模型SegmentAnythingModel

券20230407"2023年4月8（SAM，分割一切模型），能够根据文本指令等方式实现图像分割。

研日

究"chatGPTplus政策：或不仅为算力，SAM任务目的：零样本（zero-shot）或者简单prompt下，就对任意图片进行精细分

报全面考虑安全+隐私+AGI！-TMT领域

割。SAM证明，多种多样的分割任务是可以被一个通用大模型涵盖的。

告点评"2023年4月6日

模型方法：整体轻便高效。包括三个部分：两个encoder和一个轻量级maskdecoder

直接输出有效的mask。在单块V100上，1200x800图生成所有的mask仅需2-3秒。

证券分析师

洪依真A0230519060003开源了SA-1B数据集，包含11亿个mask，1100万张图片，而且可能会大幅改变原有

hongyz@标注范式。SAM团队使用了更加高效的标注方式，一个mask标注平均只需要14秒时间，

施鑫展A0230519080002

shixz@比COCOmask标注快6.5倍。目前这一数据库已经开源。

刘洋A0230513050006

liuyang2@SAM应用，可能包括AR/VR、科学等多个领域。Meta预计与专门为一组固定任务训练

联系人的系统相比，基于prompt工程等技术的可组合系统设计将支持更广泛的应用。SAM可

洪依真以成为AR、VR、内容创建、科学领域和更通用AI系统的组件。比如SAM可以通过AR

(8621

hongyz@眼镜识别日常物品，为用户提供提示。

目前应用于工业和自动驾驶等场景仍需要提升。在背景相对简单、物体逻辑关系也并不复

杂的环境下，SAM表现出较好效果。而在工业或自动驾驶等场景中，物体运动速度快、背

景复杂、物体逻辑关系复杂，则zero-shot效果可能并不理想。

我们最终期待怎样的CV大模型？语言大模型和小模型最大区别在于更好的泛化能力。在

自然语言理解NLP中，常见任务包括翻译、问答、文本填空等小模型任务，GPT-3等大

规模预训练模型不再规定任务，而是对以上不同任务都有较好效果。同样的，我们期待用

同一个模型，完成分割、识别、检测、追踪等各种类型的常见CV任务。可以是单目标，

也可以是多目标。同时在Zero-shot、Few-shot下也可以获得较好的效果。

SAM做到的分割一切并不是CV大模型的终点，我们期待一个模型可以无监督完成分割、

检测、识别、跟

您可能关注的文档

文档评论（0）

hw + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

计算机行业AIGC系列之13Meta发布SAM分割模型或成CV大模型第一步-23041015页.pdf