目标检测-DETR

DETR (Detection Transformer)

🛠更新中……

论文:End-to-End Object Detection with Transformers

代码:https://github.com/facebookresearch/detr

(前置知识:看懂本文需要了解Transformer,不懂的可以参考这位同学的博文

关于整片论文的介绍,这位已经讲得很详细了:

https://zhuanlan.zhihu.com/p/144974069

总体介绍

bipartite matching loss 二分图匹配损失

用于代替nms的作用。

首先,一张图片预测出的框的个数是固定的,是一个设置好的超参数N。所以输出有N个(c, b),表示一个box的类别和边界框的位置,则ground truth也要是N个(c,b)。然后两者计算本文提出的二分图匹配损失。步骤如下:

  1. 使用匈牙利算法,计算一个 predict result—ground truth 的最佳匹配
  2. 计算损失L

框架细节

object queries通俗解释就是,训练N个人,每个人对不同的事物感兴趣,包括不同的类别信息和不同的区域,然后这些人都将输出他们感兴趣的内容的最佳预测。由于transformer的decoder端也有self-attention,因此各个位置之间可以互相通信和协作。

object queries代替了传统检测中bounding box的作用,但是设计地很妙,像人类分辨时的方式,判断一个物体时只关注这个物体所在的区域范围。即这里用query做attention。

但是根据论文中可视化的散点图,猜测是不是这里造成了模型只对大物体有效,对小物体效果差。

youtube频道中一个老哥的奇思妙想:

https://www.youtube.com/watch?v=T35ba_VXkMY

image-20210117235900420

用8个GPU训了6天。。

请我喝杯咖啡吧~

支付宝
微信