开云官网kaiyun皇马赞助商 (中国)官方网站 登录入口-开yun体育网东说念主物动作变化不错说是特地之快-开云官网kaiyun皇马赞助商 (中国)官方网站 登录入口
你的位置:开云官网kaiyun皇马赞助商 (中国)官方网站 登录入口 > 新闻资讯 > 开yun体育网东说念主物动作变化不错说是特地之快-开云官网kaiyun皇马赞助商 (中国)官方网站 登录入口
开yun体育网东说念主物动作变化不错说是特地之快-开云官网kaiyun皇马赞助商 (中国)官方网站 登录入口
发布日期:2025-12-28 20:47    点击次数:89

开yun体育网东说念主物动作变化不错说是特地之快-开云官网kaiyun皇马赞助商 (中国)官方网站 登录入口

Meta 的视频版分割一切—— Segment Anything Model 2(SAM 2)开yun体育网,又火了一把。

因为这一次,一个全华东说念主团队,只是是用了个经典法子,就把它的才能拔到了一个新高度——

任你迁徙再快,AI 跟丢不了少许点!

举例在电影《1917》这段画面里,主角穿梭在强大士兵之中,原先的 SAM 2 发挥是这样的:

嗯,当一大群士兵涌入画面的时候,SAM 2 把主角给跟丢了。

但革命版的 SAM 2,它的发挥判然不同:

这个革命版的 SAM 2,名叫SAMURAI(武士),由华盛顿大学全华东说念主斟酌团队提议。

一言蔽之,这项使命就是把 SAM 2 之前存在的漏洞(悲哀照顾方面的局限性)给填补上了。

更特地旨兴趣的是,这项革命使命所用到的中枢关键法子,是特地经典的卡尔曼滤波器(Kalman Filter,KF)。

况且照旧无需重新训练、不错及时运转的那种!

前谷歌产物司理、国际盛名博主 Bilawal Sidhu 在看完论文后直呼"优雅":

只怕候你不需要复杂的全新架构——只需要智谋地欺骗模子已知的信息,再加上一些经过考证的经典法子。

咱们的"老一又友"卡尔曼滤波器,这样多年畴昔了,它的发挥依然如斯出色。只怕候老派的法子就是管用。

嗯,颇有一种"姜照旧老的辣"的嗅觉了。

黑悟空、女团跳舞,彻底齐能 hold 住

咱们先接续看下 SAMURAI 才能已毕的更多效用。

团队在状貌主页中便从多个不同维度秀了一波实力。

领先就是打斗游戏场景,举例在《只狼:影逝二度》中,即便东说念主物齐"弹出"了画面,SAMURAI 也能再次把野心捕捉总结:

《黑据说:悟空》的打斗名处所,东说念主物动作变化不错说是特地之快,而且和配景特地复杂的交汇在一齐。

即便如斯,SAMURAI 也能精确追踪,细节到金箍棒的那种:

但毕竟这两个游戏场景的例子,所触及到的主体还不够多,那么咱们接下来接续看下更复杂的 case。

举例橄榄球比赛场景,不仅东说念主物迁徙的快,其后队员们齐扑到了一齐,SAMURAI 也能 hold 住:

在女团跳舞的案例中,东说念主物在变换队形的时候齐依然被其他队员挡住了,也挡不住 SAMURAI 的"目光锁定你":

很 work 的经典法子

在看完效用之后,咱们接下来扒一扒 SAMURAI 的技巧细节。

正如咱们刚才提到的,这项使命弥补了 SAM 2 此前存在的漏洞。

主要的问题就是处理视觉野心追踪时,尤其是在拥堵场景中快速迁徙或遮掩的物体时,它会出现跟丢了的情况。

SAM 2 的构成部分包括图像编码器、掩码解码器、请示编码器、悲哀平缓力层和悲哀编码器。

在视觉野心追踪中,SAM 2 使用请示编码器来处理输入的请示信息,如点、框或文本,这些请示信息用于教导模子分割图像中的特定对象。

掩码解码器则矜更生成展望的掩码,而悲哀平缓力层和悲哀编码器则用于处理跨帧的凹凸文信息,以保管弥远追踪。

但是,SAM 2 在处理快速迁徙的对象或在拥堵场景中,常常淡薄了开放陈迹,导致在展望后续帧的掩码时出现不准确。

非凡是在遮掩发生时,SAM 2 倾向于优先沟通外不雅相同性而非空间和时候的一致性,这可能导致追踪舛错。

而 SAMURATI,动作 SAM 2 的增强版,不错说是很好地搞定了此前的痛点。

合座来看,SAMURAI 主要包含两个技巧关键点:

开放建模(Motion Modeling)

开放感知悲哀接纳(Motion-Aware Memory Selection)

让野心"动"起来

开放建模部分的成见是灵验地展望野心的开放,从而在复杂场景中,如拥堵场景或野心快速迁徙和自遮掩的情况下,进步追踪的准确性和鲁棒性。

而这里用到的具体法子,就是阿谁经典的卡尔曼滤波器,以此来增强限制框位置和尺寸的展望,从而匡助从多个候选掩码中接纳最有信心的一个。

在 SAMURAI 中,情状向量包括野心的位置、尺寸特地变化速率;通过展望 - 纠正轮回,卡尔曼滤波器约略提供对于野心将来情状的准确预计。

野心的情状向量被界说为:

其中,x 和 y 暗意野心限制框的中心坐标;w 和 h 暗意限制框的宽度和高度;后四个变量则暗意坐标与尺寸的速率。

滤波的进程则主要分为两个要领。

第一个就是展望阶段,即凭证野心的上一帧情状,展望下一帧位置:

其中,F 是情状诊疗矩阵。

第二个则是更新阶段,会连褂讪际测量值(野心的候选掩膜),纠正展望值:

在开放建模部分,除了基于卡尔曼滤波器的开放展望除外,还触及开放分数(Motion Score)。

主如若通过假想 Kalman 滤波器展望的限制框与候选掩膜之间的交并比(IoU),生成开放分数 sKf,用以援救掩膜接纳:

最终的掩膜接纳基于开放分数与掩膜亲和分数的加权和:

挑出最关键的悲哀

SAMURAI 第二个关键技巧,则是开放感知悲哀接纳(Motion-Aware Memory Selection)。

主如若为了搞定 SAM 2 的固定窗口悲哀机制容易引入舛错的低质料特征,导致后续追踪的错误传播的情况。

这部分领先触及一个搀和评分系统,包括掩膜分数、野心出现分数和开放分数三种评分,用于动态接纳悲哀库中最关连的帧。

掩膜分数 smask:估量掩膜的准确性。

野心出现分数 sobj:判断野心是否存在于该帧中。

开放分数 skf:展望野心位置的准确性。

其次是一个悲哀接纳机制——

如果某帧知足以下条目,则其特征会被保留到悲哀库中:

动态接纳的悲哀库不错跳过遮掩时期的低质料特征,从而进步后续帧的展望性能。

从本质扫尾来看,SAMURAI 在多个视觉野心追踪基准上发挥出色,包括 LaSOT、LaSOText 和 GOT-10k 数据集。

值得一提的是,SAMURAI 是在无需重新训练或微调的情况下,在总共基准上齐卓越了 SAM 2,并与部分有监督法子(如 LoRAT 和 ODTrack)发挥相当。

全华东说念主团队出品

SAMURAI 这项使命背后的斟酌团队,有一个亮点等于全华东说念主气势。

举例 Cheng-Yen Yang,现在是华盛顿大学电气与假想机工程系的又名四年事博士生。

斟酌标的主要包括在复杂场景(水下,无东说念主机,多相机系统)中的多野心追踪(单视图,多视图,交叉视图)。

Hsiang-Wei Huang 和 Zhongyu Jiang 亦然华盛顿大学电气与假想机工程系的博士生,而 Wenhao Chai 现在则是攻读斟酌生。

他们的导师是华盛顿大学教训Jenq-Neng Hwang。

他是 IEEE 信号处理协会多媒体信号处理技巧委员会的首创东说念主之一,自 2001 年以来,黄教训一直是 IEEE 院士。

对于 SAMURAI 更多本色,可戳下方贯穿。

状貌地址:

https://yangchris11.github.io/samurai/

论文地址:

https://arxiv.org/abs/2411.11922

参考贯穿:

[ 1 ] https://x.com/EHuanglu/status/1860090091269685282

[ 2 ] https://x.com/bilawalsidhu/status/1860348056916369881开yun体育网



相关资讯