计算机行业AIGC系列之13Meta发布SAM分割模型或成CV大模型第一步-23041015页.pdf

计算机行业AIGC系列之13Meta发布SAM分割模型或成CV大模型第一步-23041015页.pdf

  1. 1、本文档共15页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

计算机

2023年04月10日Meta发布SAM分割模型,或成

业CV大模型第一步

/

行看好——AIGC系列之13

相关研究

本期投资提示:

"不仅华为+阿里,SAM图像模型或为更

证重磅AI发布!-计算机行业周报根据Meta官方发布,2023年4月6日推出了一个AI模型SegmentAnythingModel

券20230407"2023年4月8(SAM,分割一切模型),能够根据文本指令等方式实现图像分割。

研日

究"chatGPTplus政策:或不仅为算力,SAM任务目的:零样本(zero-shot)或者简单prompt下,就对任意图片进行精细分

报全面考虑安全+隐私+AGI!-TMT领域

割。SAM证明,多种多样的分割任务是可以被一个通用大模型涵盖的。

告点评"2023年4月6日

模型方法:整体轻便高效。包括三个部分:两个encoder和一个轻量级maskdecoder

直接输出有效的mask。在单块V100上,1200x800图生成所有的mask仅需2-3秒。

证券分析师

洪依真A0230519060003开源了SA-1B数据集,包含11亿个mask,1100万张图片,而且可能会大幅改变原有

hongyz@标注范式。SAM团队使用了更加高效的标注方式,一个mask标注平均只需要14秒时间,

施鑫展A0230519080002

shixz@比COCOmask标注快6.5倍。目前这一数据库已经开源。

刘洋A0230513050006

liuyang2@SAM应用,可能包括AR/VR、科学等多个领域。Meta预计与专门为一组固定任务训练

联系人的系统相比,基于prompt工程等技术的可组合系统设计将支持更广泛的应用。SAM可

洪依真以成为AR、VR、内容创建、科学领域和更通用AI系统的组件。比如SAM可以通过AR

(8621

hongyz@眼镜识别日常物品,为用户提供提示。

目前应用于工业和自动驾驶等场景仍需要提升。在背景相对简单、物体逻辑关系也并不复

杂的环境下,SAM表现出较好效果。而在工业或自动驾驶等场景中,物体运动速度快、背

景复杂、物体逻辑关系复杂,则zero-shot效果可能并不理想。

我们最终期待怎样的CV大模型?语言大模型和小模型最大区别在于更好的泛化能力。在

自然语言理解NLP中,常见任务包括翻译、问答、文本填空等小模型任务,GPT-3等大

规模预训练模型不再规定任务,而是对以上不同任务都有较好效果。同样的,我们期待用

同一个模型,完成分割、识别、检测、追踪等各种类型的常见CV任务。可以是单目标,

也可以是多目标。同时在Zero-shot、Few-shot下也可以获得较好的效果。

SAM做到的分割一切并不是CV大模型的终点,我们期待一个模型可以无监督完成分割、

检测、识别、跟

您可能关注的文档

文档评论(0)

hw + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档