UAVMOT

论文:Multi-Object Tracking Meets Moving UAV(CVPR2022)

代码:https://github.com/LiuShuaiyr/UAVMOT(空仓库,暂未更新)

动机

运动的无人机拍摄的视频中的目标,检测阶段存在类别不平衡;关联阶段存在视角变化、相机运动导致的目标不规则运动。
motivation

方法

method

是在FairMOT基础上改的。提出三个创新点:ID feature update (IDFU)模块、adaptive motion filter (AMF)、gradient balanced focal (GBF) loss。IDFU用于增强相邻帧之间的reID特征联系,AMF用于解决运动无人机视频中复杂的运动,GBF用于训练heatmap,缓解类别不平衡问题和增强对小目标的检测能力。

  1. IDFU
    reID特征在轨迹关联时是非常重要的,但是在运动无人机中视角的变化会改变reID特征,这对训练ID特征embedding和推理时的轨迹关联都不利。
    作者提出IDFU模块,提取上一帧的物体特征与当前帧特征进行关联,以达到动态更新ID特征的目的。具体做法如图所示
    IDFU

    共分为三个阶段:首先提取上一帧的topk个物体的reID特征,并从128维压缩到16维;然后将128维的topk的特征与当前帧的特征进行相关操作,得到attention权重$W_A$,将$W_A$和$FC_{ID}^{t-1}$相乘得到$FA_{ID}^{t-1}$,然后将加权后的上一帧$FA_{ID}^{t-1}$和当前帧的特征$F_{ID}^{t}$拼接起来过一个卷积得到更新后的特征。
  2. AMF

    在UAV视频中物体的运动不再是线性的,而是UAV运动和物体运动共同形成的非线性运动。传统的卡尔曼滤波器难以处理这种不规则运动。

    作者提出AMF,根据UAV不同的运动模式切换不同的滤波器,当UAV一般平稳地飞行时,目标为普通运动模式;当UAV旋转或突然加速时,目标为非普通运动模式。

    先用卡尔曼滤波基于IoU进行一次关联,如果匹配上的数量超过阈值,则判断当前为普通运动模式,否则为非平常运动模式。

    对于非平常运动模式,观察到在一个局部区域内,相邻两帧物体之间的位置关系是基本保持不变的,使用local relation filter,设计了一个相对关系向量$v$,如图所示,定义为以当前目标为中心,半径为R的圆圈内距离最远的目标、距离最近的目标、两个目标之间的角度构成的向量。
    AMF

    对于非平常运动模式,首先对检测出的目标计算相对关系向量$v$并和embedding特征结合构建相似度矩阵,用该矩阵做匈牙利匹配。

  3. GBF loss

    相比传统的行人跟踪,UAV视频更复杂,有类别不平衡问题和小尺寸目标检测问题。为此问题提出了GBF loss监督heatmap。GBF loss是在原本的交叉熵损失基础上增加了两个自适应的权重,用于类平衡的$W_b$和小目标的$W_s$,即$GBF=W_b\cdot W_s \cdot L_{Hm}$,$W_s$给小尺寸物体更大的权重,计算方式为$W_s=e^{-(w\cdot h-\mu)}+1$,$w$和$h$分别为物体边界框的宽和高,$\mu=5$为超参数。$W_b$根据梯度给正负样本不同的权重,计算方式为$W_b=pos_w \cdot Hm+neg_w \cdot (1-Hm)$,其中$pos_w$ 和$neg_w$ 分别代表正负样本的权重,由CVPR2021的方法 Equalization loss v2: A new gradient balance approach for long-tailed object detection 计算得到。

实验结果

使用VisDrone2019和UAVDT两个数据集进行实验。

VisDrone2019有训练集56个视频,验证集7个,测试集33个(test-challenge: 16,test-dev: 17),包括十个类别:pedestrian, person, car, van, bus, truck, motor, bicycle, awning-tricycle, and tricycle.本文只考虑了其中5类:car, bus, truck, pedestrian, and van.

UAVDT数据集用于机动车检测和跟踪,有训练集30个视频,测试集20个。包括3个类别:car, truck, and bus。本文只考虑car类别。

在VisDrone2019的验证集上进行的消融实验,baseline是FairMOT
ablation
可视化的结果如下,分别是UAV悬停、突然上升、突然左转:
hover
up
left

运行效率:在UAV可以搭载的设备上(未指明型号),使用DLA34骨干网络,输入分辨率为1920x1080时,为12FPS。未能达到实时,这也是作者提出的本文的局限性。

请我喝杯咖啡吧~

支付宝
微信