Visiolinguistic Attention Learnin:带文本反馈的图像搜索,更聪明的在线商城

当照片和“那件衬衫,但灰色”这样的字样可以解决问题时,为什么要搜索“带有纽扣领子,胸袋,袖口有扣,纽扣是灰色的棉衬衫”呢?来自亚马逊的一个新的网络可以理解图像-文本组合,这是其在IEEE计算机视觉和模式识别会议(CVPR)上发表的三篇论文中的其中一篇。

在线商店提供各种各样的衣服,但搜索引擎可能会推荐与你想要的颜色或款式不同的商品。Visiolinguistic Attention Learning(VAL),由 Chen Yanbei Chen与Queen Mary University of London和亚马逊研究人员合作开发,根据购物者输入的文字来优化产品搜索。

VAL提供了一种新的方法来同时解释图像和文本,在单独的任何一方都不明确的领域是一种有用的技能。如果你可以创建一张与理想产品近似的图片,你就能搜索到类似的图片。生成逼真的图像很难,但是比较提取的特征要容易得多。

VAL会根据文本输入学习修改从产品图片中提取的特征,比如 “我希望它有一个浅色的花纹”。然后它搜索与修改后的产品特征相似的其他产品。

  • VAL从数据集中学习,这些数据集提供了与文本配对的图像作为输入,以及相应产品的照片作为输出。
  • VAL包含一个文本编码器网络和一个图像编码器网络。图像编码器在几个细节层次上提取图像特征,例如形状和纹理。
  • 一对transformer将每个细节层次的文本和图像特征融合在一起。
  • 一个transformer是自注意力变换器的一个变种。它识别图像和文本特征之间的关系,并调整图像特征,使其与文本特征一致。
  • 第二个transformer学习识别新产品中没有变化的特征,并不加修改地复制它们。
  • 两个变换器的元素相加就构成了所需产品的特征。VAL将它们与数据库中从产品图像中提取的特征进行比较,并返回最匹配的特征

研究人员将VAL与TIRG{}进行了正面的比较,TIRG是利用Fashion200K服装照片数据集和文本描述进行图像搜索的最新技术。VAL对前十大推荐产品的召回率为53.8%,而TIRG的召回率为43.7%。VAL在ShoesFashionIQ数据集上的表现也优于TIRG。