世界通讯！新模型接连炸场AI视觉迎来GPT-3时刻，微美全息(WIMI.US)先声夺人进入爆发期

2023-04-24 11:53:47 中关村在线

短短一周不到，视觉领域接连迎来新模型“炸场”，图像识别门槛大幅降低——这场AI热潮中鲜见动静的Meta(META.US)终于出手，推出Segment Anything工具，可准确识别图像中的对象，模型和数据全部开源。

(资料图片仅供参考)

据悉，Meta的项目包括模型Segment Anything Model(SAM)、数据集Segment Anything 1-Billion mask dataset(SA-1B)，公司称后者是有史以来最大的分割数据集。

引起业内轰动的便是这一SAM模型，正如名字“Segment Anything”一样，该模型可以用于分割图像中的一切对象，包括训练数据中没有的内容。

在交互方面，SAM可使用点击、框选、文字等各种输入提示(prompt)，指定要在图像中分割的内容，这也意味着，用于自然语言处理的Prompt模式也开始被应用在计算机视觉领域。并且对于视频中物体，SAM也能准确识别并快速标记物品的种类、名字、大小，并自动用ID为这些物品进行记录和分类。

AI视觉迎来GPT-3时刻

对于SAM工具，英伟达(NVDA.US)人工智能科学家Jim Fan将Meta的这项研究称作计算机视觉领域的“GPT-3时刻”之一——其分割方法可以通用，可对不熟悉的物体和图像进行零样本泛化，初步验证了多模态技术路径及其泛化能力。

进一步来说，SAM可以灵活集成于更大的AI系统。例如，理解网页的视觉和文本内容;在AR/VR领域，将头显用户视线作为提示来选择对象，然后将其“提升”到3D中;对于内容创作者，SAM可提取图像区域以进行拼贴或视频编辑;SAM还可通过定位动物或物体在视频中进行研究和跟踪。

AI视觉有望飞跃式提升

公开资料显示，计算机视觉模拟大脑完成对图像的处理和解释，实现对相应场景的多维理解。以图像、视频为代表的视觉数据是互联网时代信息的主要载体之一，赋以人工智能模型感知并理解这些海量的视觉数据的能力，有助于提高人工智能自主适应环境的能力。

作为人工智能(AI)和深度学习的子领域，计算机视觉可训练卷积神经网络(CNN)，以便针对各种应用场合开发仿人类视觉功能，利用图像和视频进行数据分割、分类和检测。

国盛证券预计，预计1-5年内，多模态发展将带来AI泛化能力提升，通用视觉、通用机械臂、通用物流搬运机器人、行业服务机器人、真正的智能家居会进入生活;5-10年内，结合复杂多模态方案的大模型有望具备完备的与世界交互的能力，在通用机器人、虚拟现实等领域得到应用。

首创证券翟炜在研报中指出，META发布了视觉大模型SAM，紧接着智源研究院视觉团队也推出通用分割模型SegGPT，通用视觉大模型之战也打响。视觉大模型能把任意图像从像素阵列解析为视觉结构单元，像人类视觉那样理解各类场景，这对自动驾驶、安防、智能家居、工业视觉等众多行业都将带来飞跃式提升。

西部证券指出，Meta此次推出SAM，预示着大模型在多模态发展方面更进一步，布局计算机视觉/视频的厂商有望持续受;还有券商补充称，SAM模型突破了机器视觉底层技术。

微美全息(WIMI.US)有望进入爆发期

目前，中国计算机视觉厂商具有基于基础算法进行改进和优化并形成各自特有算法的技术能力，而作为全球领先的AI视觉解决方案提供商微美全息(WIMI.US)将成为受益者之一，据悉，该公司专注于计算机视觉全息云服务，为全球规模、覆盖产业链、业绩等方面较优秀的全息云产业综合实体之一，目标是成为有潜力、有国际影响力的全息云平台。

公开资料显示，微美全息(WIMI.US)目前已经将计算机视觉技术与虚拟现实技术相结合，开发了基于计算机视觉的三维人机交互系统。在人机之间构建自然直观的三维交互环境，并构造三维用户界面，实现和谐的、“以人为中心”的人机交互界面。

在微美全息的三维人机交互系统中，采用了视觉作为有效的输入模态。计算机视觉是一种引导系统并与视觉世界交互的人工智能技术，其从获取的输入中识别对象并提供最终结果。计算机视觉中包含了获取、转换和分析数字图像等任务，可协助人类完成识别任务、启用交互等，并基于训练数据集进行评估。使人机通讯信息交换量更大、形式更丰富，发挥人机彼此不同的认知潜力。

在AI视觉算法技术能力方面，微美全息开发了聚和聚类算法，用于支持新一代互联网的算法处理需求。聚类算法是一种机器学习算法，它将相似的数据点组合在一起形成簇(Cluster)，聚合聚类新型算法能够自适应地根据图像特征进行聚类，能够处理不同类型、尺寸和分辨率的图像，并且能够结合机器学习和深度学习技术，实现更高级别的图像处理和分析。

随着深度学习、计算机视觉算法和虚拟现实技术的迅猛发展，微美全息开发的AI视觉相关应用在许多行业中都有广泛的应用，如金融、医疗、制造业、社交网络、市场营销等。同时，由于市场需求也在不断扩大，微美全息的AI视觉应用前景将进入新的爆发期。

AI视觉市场规模快速增长

国海证券陈梦竹在研报中表示，2021年中国计算机视觉技术核心产品、带动相关产业市场规模达990亿元、3079亿元，预计2025年分别达1873亿元、5771亿元。

从全球来看，2022年全球视觉人工智能市场销售额达到了113.51亿美元，预计2029年将达到218.10亿美元，年复合增长率(CAGR)为10.51%(2023-2029)。中国市场在过去几年变化较快，2022年市场规模为28.12亿美元，约占全球的24.77%，预计2029年将达到61.72亿美元，届时全球占比将达到28.30%。

总之，随着视觉技术、深度学习、高精度成像等技术的持续发展，视觉人工智能的应用场景将持续扩展。视觉人工智能无论在速度、精度、还是环境要求方面都存在着显著优势，能够替代人类视觉，更好的助力工业自动化、各行各业智能化的发展。

关键词：

责任编辑：宋璟

世界通讯！新模型接连炸场AI视觉迎来GPT-3时刻，微美全息(WIMI.US)先声夺人进入爆发期

相关新闻

世界通讯！新模型接连炸场AI视觉迎来GPT-3时刻，微美全息(WIMI.US)先声夺人进入爆发期

360抢票王网页版 360抢票王官网登录|当前速读

非全日制用工是临时工吗？不是！要签合同，单位应缴工伤保险_世界微速讯

【新要闻】超高能量吸收密度力学超材料制成

南都电源中标约4.87亿新型电力储能项目锂电电芯产能已达7GWh|全球新动态

大一高数期末考试试题_大一高数

不启动车辆可以开空调吗?_不启动

天天热消息：足总杯半决赛：曼城3-0谢菲尔德联马赫雷斯上演帽子戏法

营业利润利润总额净利润公式_净利润公式全球关注

【当前热闻】芦笋种子煮熟后冒充人参果种子，四川公安公布3起制售假劣农资案例

焦点短讯！喜迎传统节日都安瑶山妹文创园好戏连台

出口产品责任保险的概念_出口产品责任保险

关键三分杀死比赛！孙铭徽：四强见一步一步的向前走-世界即时看

世界气象组织：2015年至2022年是有记录来最暖的八年|天天观焦点

为什么高速会堵车 _拿别人的驾照扣分流程是什么_焦点热文

今日要闻!有人日薪超11万，有的年入0元！这些上市公司董事长薪酬公布

大湾区青年科技人才对接会生物医药专场在广州举办_快播

粤桂股份:000833粤桂股份业绩说明会、路演活动信息20230423

拾光文学社

儿童坐火车多高需要买票_儿童坐火车多高要买票

越换越差！戴维斯伤退马内破门难救主拜仁客场1-3美因茨丢榜首

【当前独家】山西证券：给予华利集团买入评级

国家药监局公布召回信息二级召回涉碧迪等品牌最新资讯

天天动态:兄妹与父母面前交配_兄妹与父母面前交

逃出鬼屋2游戏攻略（逃出鬼屋2中文版攻略）世界消息

汽车制造商宣布向全国无家可归者收容所一揽子捐赠_速讯

焦点报道:2023中国网络媒体论坛宣传片：我们在场

助力推行“稻-稻-油”种植模式作物也有“成长日记”了

焦点热门:天津渤化试剂产业建设项目落户天津经开区，拟投资6亿元生产电子化学品等

个人学术专著评职称怎么出书? 世界头条

千年前一场对话，让我明白了VR的意义_速递

最资讯丨撬电动车投币箱偷硬币长沙两男子被判刑

国际长途区号141是哪国的（国际长途区号）天天最新

湖北能源：公司年度长协煤正在逐步签订和落实中，公司省内煤电长协覆盖率现已达到接近80% 每日焦点

好医生第一医院携手社区开展关爱慢性病患者公益活动