让机器人通过观察人类的操作来学会操作新的物体.pdf

让机器人通过观察人类的操作来学会操作新的物体.pdf

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
让机器人通过观察人类的操作来学会操作新的物体 模仿能力是智能重要的组成部分,人和动物常常通过观察其他个体来学习新 的技能。 那么我们能不能将这种能力赋予机器人呢?是否可以像下图一样, 让机器人通过 观察人类的操作来学会操作新的物体呢? 机器人在观察人类行为后学会了将桃子放到了红色的碗里 如果拥有这样的能力,将极大地简化部署机器人完成新任务的过程。我们只需要展示给机 器人需要进行的任务,而无须进行遥操作或设计复杂的奖励函数。 很多工作探索了机器人 可以从本身的专业经验中很好的学习,这样的学习方式称为模仿学习。 然而基于视觉技能的模仿学习需要大量专业的示范数据。 例如利用原始像素输入来靠近单 一固定物体的任务就需要 200 次表现良好的示范才能达到。 如果只提供一个示范样本, 要 完成这样的模仿对于机器人来说十分困难。 除此之外,如果机器人需要模仿人类的示范的特定操作技能还需要面临额外的挑战。除了 机械臂与人类手臂的构造差异外, 在人类示范和机器人示范之间建立起正确的对应关系是 一件十分困难的事情。这并不仅仅是对运动简单的跟踪和重映射, 其中最主要的部分在于 运动对环境中物体的影响,并且我们需要建立一个以这种相互作用为中心的对应关系。 为了使得机器人可以模仿视频中人类的技能, 可以结合一系列先验经验而不是从零开始学 习。通过结合先前的经验,机器人可以迅速学会对于新物体的操作而在域的移动中保持不 变性,就像在观察了人类的示范后机器人可以在不同背景和视角下学会操纵物体。 研究人 员的目标是通过从示范数据中学会学习, 来实现少样本的模仿和域不变性。 这种被称为元 学习的技术是赋予机器人通过观察模仿人类的关键。 One-Shot 模仿学习 那么如何利用元学习来帮助机器人快速的适应不同的物体呢?研究人员们采用结合元学 习和模仿学习的方式来实现一次模仿学习。 关键的想法在于给机器人提供某一特定任务的 当个示范,机器人就能迅速的识别任务,并在不同的情形下成功解决。早先的一个工作通 过从成千上万个示范中学会学习来实现一次学习, 并给出了优秀的结果。如果我们希望一 个实际的机器人能够模仿人类并操纵各种各样的新物体, 就需要开发一个能从视频数据集 的示范中学会学习的系统,而这些数据可以在真实环境中收集。接下来的部分首先讨论了 通过遥操作收集的单个示范来实现的视觉模仿, 随后展示了这种方法是如何拓展到向人类 视频中学习的范畴中去的。 One-Shot 视觉模仿学习 为了让机器人可以从视频中学习, 研究人员将模仿学习与一种高效的元学习算法 (未知模 型元学习, MAML )结合起来。通过标准的神经网络来作为策略表示,在每个时间步长将 机器人输入的图像 ot 和状态信息 xt (例如关节的角度和速度)映射到了机器人的行动上 at (比如夹爪的线速度和角速度) 。下图展示了算法三个主要的步骤。 首先人们对于不同任务 (操作不同物体 )收集了大量操作示范构建了大型数据集;随后利用 MAML 学习了策略参数 θ的初始状态。随后提供某一特定物体的示范时,我们可以基于 这一示范来运行梯度下降法来寻找对于这一物体的一般化策略 θ’。当使用遥操作示范时, 策略可以通过比较预测行动 π θ(ot)和专家行为 a*t 来更新策略: 随后通过促使策略 π θ’的值来匹配同一物体其他示例的行为,实现对于参数 θ的更新。 在元训练后, 我们就可以利用这一任务的单一示范来计算梯度步骤,从而让机器人去操纵 完全没有见过的物体了。这一步骤称为

文档评论(0)

171****9186 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档