计算机视觉的转变

颠覆自然语言处理的transformer架构可能会取代对象检测网络中的循环层。Transformer正在改变机器学习模型在NLP及其他领域处理顺序数据的方式。

由Nicolas Carion和Francisco Massa领导的Facebook团队通过使用transformer简化了对象检测管道,产生了Detection Transformer(DETR)。

图像可以显示多个对象。一些对象检测网络使用递归层每次预测一个对象,直到考虑到所有对象为止。语言模型使用transformers一次评估一个单词序列。同样,DETR使用它们在一个过程中预测图像中的所有对象。

DETR预测每幅图像固定数量的物体边界框和类别。首先,它使用卷积层提取图像特征。然后,transformer会预测与可能包含对象的区域关联的特征。前馈层将对象特征处理成类和边界框。(“No object”是一个可能的类。)

  • 转换器以序列的形式生成对象边框和标签,但是它们的顺序是任意的。
  • loss函数使用Hungarian algorithm将每个对象类(除了“no object”)与一个唯一的标签匹配。这样就不需要预测锚点(框中心点)和复杂的匹配算法。
  • 在训练过程中,每个transformer层都会做出自己的预测。评估这个输出,可以确保所有的transformers都能学习到同等的贡献–这种技术是从语言模型中借鉴来的,是循环层所没有的。额外的损失函数特别有助于系统预测正确的对象数量。

研究人员在典型的目标检测数据集Coco{}上比较了DETR和更快的Faster R-CNN。在大约4,000万个参数的模型尺寸下,DETR将Faster R-CNN的平均精度(从0.02%改进为0.420)改善了真实正值。 而且DETR的处理速度更快,与Faster R-CNN的每秒26张图像相比,每秒能发现28张图像。