新闻资讯
- 云开体育自2025年1月20日起-开云官网kaiyun皇马赞助商 (中国)官方网站 登录入口
- 体育游戏app平台东谈主优我特”材干在阛阓站稳脚跟-开云官网kaiyun皇马赞助商 (中国)官方网站 登录入口
- 开yun体育网不少好意思媒也左证相关信息给公共列出了“购物清单”-开云官网kaiyun皇马赞助商 (中国)官方网站 登录
- 云开体育协同遗弃器件件数普及5倍-开云官网kaiyun皇马赞助商 (中国)官方网站 登录入口
- 体育游戏app平台三星将连续关怀好意思国关税计策的变化-开云官网kaiyun皇马赞助商 (中国)官方网站 登录入口
- 体育游戏app平台为全面、灵验、深入推动集团产业一体化建立计谋-开云官网kaiyun皇马赞助商 (中国)官方网站 登录入
- 开云官网切尔西赞助商560.01万元至2-开云官网kaiyun皇马赞助商 (中国)官方网站 登录入口
- 开云体育同比下降32.75%;扣非净利润5432.66万元-开云官网kaiyun皇马赞助商 (中国)官方网站 登录入口
- 开云体育(中国)官方网站并展示了勾拳、踢腿等手脚-开云官网kaiyun皇马赞助商 (中国)官方网站 登录入口
- 开云体育这种金属气息让伍德利和她的一又友感到担忧-开云官网kaiyun皇马赞助商 (中国)官方网站 登录入口
- 发布日期:2025-12-28 20:47 点击次数:89

Meta 的视频版分割一切—— Segment Anything Model 2(SAM 2)开yun体育网,又火了一把。
因为这一次,一个全华东说念主团队,只是是用了个经典法子,就把它的才能拔到了一个新高度——
任你迁徙再快,AI 跟丢不了少许点!
举例在电影《1917》这段画面里,主角穿梭在强大士兵之中,原先的 SAM 2 发挥是这样的:

嗯,当一大群士兵涌入画面的时候,SAM 2 把主角给跟丢了。
但革命版的 SAM 2,它的发挥判然不同:

这个革命版的 SAM 2,名叫SAMURAI(武士),由华盛顿大学全华东说念主斟酌团队提议。
一言蔽之,这项使命就是把 SAM 2 之前存在的漏洞(悲哀照顾方面的局限性)给填补上了。

更特地旨兴趣的是,这项革命使命所用到的中枢关键法子,是特地经典的卡尔曼滤波器(Kalman Filter,KF)。
况且照旧无需重新训练、不错及时运转的那种!
前谷歌产物司理、国际盛名博主 Bilawal Sidhu 在看完论文后直呼"优雅":
只怕候你不需要复杂的全新架构——只需要智谋地欺骗模子已知的信息,再加上一些经过考证的经典法子。
咱们的"老一又友"卡尔曼滤波器,这样多年畴昔了,它的发挥依然如斯出色。只怕候老派的法子就是管用。

嗯,颇有一种"姜照旧老的辣"的嗅觉了。
黑悟空、女团跳舞,彻底齐能 hold 住
咱们先接续看下 SAMURAI 才能已毕的更多效用。
团队在状貌主页中便从多个不同维度秀了一波实力。
领先就是打斗游戏场景,举例在《只狼:影逝二度》中,即便东说念主物齐"弹出"了画面,SAMURAI 也能再次把野心捕捉总结:

《黑据说:悟空》的打斗名处所,东说念主物动作变化不错说是特地之快,而且和配景特地复杂的交汇在一齐。
即便如斯,SAMURAI 也能精确追踪,细节到金箍棒的那种:

但毕竟这两个游戏场景的例子,所触及到的主体还不够多,那么咱们接下来接续看下更复杂的 case。
举例橄榄球比赛场景,不仅东说念主物迁徙的快,其后队员们齐扑到了一齐,SAMURAI 也能 hold 住:

在女团跳舞的案例中,东说念主物在变换队形的时候齐依然被其他队员挡住了,也挡不住 SAMURAI 的"目光锁定你":

很 work 的经典法子
在看完效用之后,咱们接下来扒一扒 SAMURAI 的技巧细节。
正如咱们刚才提到的,这项使命弥补了 SAM 2 此前存在的漏洞。
主要的问题就是处理视觉野心追踪时,尤其是在拥堵场景中快速迁徙或遮掩的物体时,它会出现跟丢了的情况。

SAM 2 的构成部分包括图像编码器、掩码解码器、请示编码器、悲哀平缓力层和悲哀编码器。
在视觉野心追踪中,SAM 2 使用请示编码器来处理输入的请示信息,如点、框或文本,这些请示信息用于教导模子分割图像中的特定对象。
掩码解码器则矜更生成展望的掩码,而悲哀平缓力层和悲哀编码器则用于处理跨帧的凹凸文信息,以保管弥远追踪。
但是,SAM 2 在处理快速迁徙的对象或在拥堵场景中,常常淡薄了开放陈迹,导致在展望后续帧的掩码时出现不准确。
非凡是在遮掩发生时,SAM 2 倾向于优先沟通外不雅相同性而非空间和时候的一致性,这可能导致追踪舛错。
而 SAMURATI,动作 SAM 2 的增强版,不错说是很好地搞定了此前的痛点。
合座来看,SAMURAI 主要包含两个技巧关键点:
开放建模(Motion Modeling)
开放感知悲哀接纳(Motion-Aware Memory Selection)

让野心"动"起来
开放建模部分的成见是灵验地展望野心的开放,从而在复杂场景中,如拥堵场景或野心快速迁徙和自遮掩的情况下,进步追踪的准确性和鲁棒性。
而这里用到的具体法子,就是阿谁经典的卡尔曼滤波器,以此来增强限制框位置和尺寸的展望,从而匡助从多个候选掩码中接纳最有信心的一个。
在 SAMURAI 中,情状向量包括野心的位置、尺寸特地变化速率;通过展望 - 纠正轮回,卡尔曼滤波器约略提供对于野心将来情状的准确预计。
野心的情状向量被界说为:

其中,x 和 y 暗意野心限制框的中心坐标;w 和 h 暗意限制框的宽度和高度;后四个变量则暗意坐标与尺寸的速率。
滤波的进程则主要分为两个要领。
第一个就是展望阶段,即凭证野心的上一帧情状,展望下一帧位置:

其中,F 是情状诊疗矩阵。
第二个则是更新阶段,会连褂讪际测量值(野心的候选掩膜),纠正展望值:

在开放建模部分,除了基于卡尔曼滤波器的开放展望除外,还触及开放分数(Motion Score)。
主如若通过假想 Kalman 滤波器展望的限制框与候选掩膜之间的交并比(IoU),生成开放分数 sKf,用以援救掩膜接纳:

最终的掩膜接纳基于开放分数与掩膜亲和分数的加权和:

挑出最关键的悲哀
SAMURAI 第二个关键技巧,则是开放感知悲哀接纳(Motion-Aware Memory Selection)。
主如若为了搞定 SAM 2 的固定窗口悲哀机制容易引入舛错的低质料特征,导致后续追踪的错误传播的情况。
这部分领先触及一个搀和评分系统,包括掩膜分数、野心出现分数和开放分数三种评分,用于动态接纳悲哀库中最关连的帧。
掩膜分数 smask:估量掩膜的准确性。
野心出现分数 sobj:判断野心是否存在于该帧中。
开放分数 skf:展望野心位置的准确性。
其次是一个悲哀接纳机制——
如果某帧知足以下条目,则其特征会被保留到悲哀库中:

动态接纳的悲哀库不错跳过遮掩时期的低质料特征,从而进步后续帧的展望性能。
从本质扫尾来看,SAMURAI 在多个视觉野心追踪基准上发挥出色,包括 LaSOT、LaSOText 和 GOT-10k 数据集。

值得一提的是,SAMURAI 是在无需重新训练或微调的情况下,在总共基准上齐卓越了 SAM 2,并与部分有监督法子(如 LoRAT 和 ODTrack)发挥相当。
全华东说念主团队出品
SAMURAI 这项使命背后的斟酌团队,有一个亮点等于全华东说念主气势。
举例 Cheng-Yen Yang,现在是华盛顿大学电气与假想机工程系的又名四年事博士生。
斟酌标的主要包括在复杂场景(水下,无东说念主机,多相机系统)中的多野心追踪(单视图,多视图,交叉视图)。

Hsiang-Wei Huang 和 Zhongyu Jiang 亦然华盛顿大学电气与假想机工程系的博士生,而 Wenhao Chai 现在则是攻读斟酌生。
他们的导师是华盛顿大学教训Jenq-Neng Hwang。
他是 IEEE 信号处理协会多媒体信号处理技巧委员会的首创东说念主之一,自 2001 年以来,黄教训一直是 IEEE 院士。

对于 SAMURAI 更多本色,可戳下方贯穿。
状貌地址:
https://yangchris11.github.io/samurai/
论文地址:
https://arxiv.org/abs/2411.11922
参考贯穿:
[ 1 ] https://x.com/EHuanglu/status/1860090091269685282
[ 2 ] https://x.com/bilawalsidhu/status/1860348056916369881开yun体育网
