iGPT:图像领域的 GPT 模型

像Bert、Ernie和Elmo这样的语言模型基于巧妙的预训练方法已经取得了惊人的效果。最近的新研究将这些经验应用到图像处理中。由Mark Chen领导的OpenAI研究人员推出了用于图像分类的模型 iGPT(Image Generative Pre-Training),他们在iGPT中采用了为处理文字而开发的像素技术。该模型生成的特征在多个分类数据集上实现了当前 SOTA 性能,并且实现了良好的图像补全效果。

基于transformer架构的语言模型通过在大量语料库上进行无监督的预训练,然后进行有监督的微调,从而学会预测文本中的下一个单词或缺失的单词。同样的方法可以训练模型来预测图像中的下一个像素。iGPT使用在自然语言处理中引起轰动的GPT-2体系结构。然而,它从像素序列而不是单词序列中学习。方法包含两个阶段:预训练和微调。

  • 研究人员通过将图像扁平化为一维向量对其进行预处理。
  • 研究人员对iGPT进行了训练,以预测序列中的下一个像素(一种自回归任务)或预测序列中缺失的一组像素(他们称之为Bert)。
  • 预先训练好的NLP模型通常会在监督任务上进行微调,比如回答问题。同样,研究人员也在图像分类上对iGPT进行了微调。他们发现,在微调过程中隐藏像素可以提高性能。
  • 研究人员将所有中间层的特征和标签提供给一个新的输出层,但只训练该层的参数。

利用自回归任务中中间层提取的特征,iGPT在ImageNet上的准确率达到了72%,仅次于SimCLR(一种流行的无监督方法)的76.5%。当对CIFAR数据集进行微调和评估时,iGPT优于SimCLR。

遮蔽掉了 15% 的像素,然后训练模型基于未遮蔽的像素进行预测。研究者发现,尽管 BERT 模型的 linear probe 性能明显较差,但在微调方面 BERT 模型仍然表现亮眼:

iGPT 可实现较好的图像补全效果。不管是动物、建筑物、风景、运动场面、艺术作品,甚至表情包,它都可以实现不错的补全效果。

iGPT不是卷积神经网络。它甚至不使用卷积滤波器,而卷积滤波器是当前图像处理方法的基础。这项工作显示了将一个领域中证明的架构应用于其他领域的价值。