公众号/将门创投
From:VentureBeat 编译: Ace
人类每天都在进行高层次的规划来指导自己的各种活动,但对于机器人来说这并不容易。幸运的是,越来越多的工作表明,层级抽象(即视觉运动子程序)可以提高强化学习中的样本效率,这是一种人工智能训练技术,它利用奖励来推动智能体实现目标。
传统上,这些层次结构必须通过端到端训练进行手动编程或者获取,这需要大量的时间、持续的注意力和足够的耐心。但是在 Arxiv.org 上新发布的论文「通过观看视频学习导航子程序」中,FacebookAI Research、加州大学伯克利分校和伊利诺伊大学厄巴纳 – 香槟分校的科学家描述了一个通过使用逆机器学习模型摄取视频“伪标记”来学习层次结构。
这让人想起去年 Facebook 开源的一对模型Talk the Walk。该模型可以使用 360 度图像、自然语言以及具有标志性地标(如银行、餐厅等)的地图来指导纽约市的街道,能够在不知道用户位置的情况下提供步行路线。
早上来杯咖啡成为很多都市白领每天必不可少的“自我唤醒”环节。坐在办公室的人类如果想去茶水间倒杯咖啡,你会从门厅走到底,拐向左边的走廊,然后再进入右边的房间。当人类在做这一系列思考与动作的时候,我们不是决定具体需要调动哪块肌肉,而是通过组合这些可重复使用的低级视觉运动子程序来达到目标,从而达成更高抽象水平的规划。
研究人员表示,这些视觉运动子程序,使规划能够减轻传统规划中的高计算成本和强化学习中的高样本复杂性等已知问题。
Facebook的系统包含两个阶段。第一阶段,研究人员通过运行训练模型,使用随机勘探数据的自我监督来生成伪标签。模型学习了分布在四个不同环境中的1500个位置点,然后随机执行30个步骤的动作,产生45,000个交互样本。
在第二阶段,大约217,000个伪标记视频被切成220万个互相独立的剪辑片段然后被输入一个模型,这个模型预测参考视频中采取的相应动作的模型,而一个单独的网络检查参考视频中的动作序列并将行为编码为矢量(例如数学表示)。另一个模型通过预测来自第一帧的轨迹的推断编码,针对任何给定视频帧选择调用哪些学习子例程。
在一个实验中,机器人被部署在真实的办公环境中。研究表明,学习视频(比如如何最有效的方式前往目标位置)能够让机器人的表现比用纯交互方法学习达到更好的效果,至少能够顾及到以前看不见的环境。
也许最令人印象深刻的是,这个训练有素的模型学会了有利于前进导航并避免障碍物,导航任务比曾经的最佳基准快4倍,这使得它能够完全自主地进行长距离行进。
Ref: https://venturebeat.com/2019/05/30/facebooks-ai-learns-how-to-get-around-an-office-by-watching-videos/