RL的视觉策略

强化学习可以在电子游戏中击败人类,但人类更擅长提出策略来掌握更复杂的任务。

Ge Yang 和 Amy Zhang带领Facebook、麦吉尔大学和加州大学伯克利分校的研究人员创建了Plan2Vec。该方法通过将给定任务的每个观测值表示为表面上的一个点,帮助强化学习系统制定策略。[Github]

思想要点:强化学习任务一般涉及尽可能高效地达到目标。如果一个模型可以将手头的任务表示为空间中点的加权图,那么传统的规划算法就可以找到任意两点之间的最短路径。Plan2Vec 观察迷宫的解,并扭曲其表示,使路径上的点更接近。

工作原理:强化学习任务的训练数据由状态和动作的序列组成。一般来说,任何两个状态之间的距离是不知道的,但序列中状态之间的距离是已知的。

  • Plan2Vec首先学习使用噪声对比估计(noise-contrastive estimation)来区分状态是否是邻居。此方法教导网络将连续状态按顺序标记为最接近的状态,将非连续状态标记为最远的状态。
  • Plan2Vec从预测的邻域状态中推断出来自不同序列的状态是否是邻域,生成一个连接已识别邻域的图。
  • 规划算法使用该图生成一个连续曲面,该曲面捕获所有状态之间的预测距离。
  • 要解决任务,Plan2Vec在表面上表示开始和目标状态。然后用规划算法找出它们之间的最短路径。

研究结果:Plan2Vec完成二维迷宫的时间为80%,而变分自动编码器(VAE)方法为53%。它解决了StreetLearn的问题,后者需要根据路径上的场景而不是地图进行导航,成功率为92%,而VAE的成功率为26%。

VAE擅长从图像中提取低维特征,但是这些特征的含义可能不容易解释。 Plan2Vec创建一个表面,该表面代表任务中各种状态之间的关系。 这种表示使学习和解释有效的解决方案变得更加容易。