请选择 进入手机版 | 继续访问电脑版
MSIPO技术圈 首页 IT技术 查看内容

【论文笔记】Guided Skill Learning and Abstraction for Long-Horizon Manipulation

2023-07-13

【论文笔记】Guided Skill Learning and Abstraction for Long-Horizon Manipulation

更多笔记(在耕):这里

Abstract

  1. 研究背景?

    To assist with everyday human activities, robots must solve complex long-horizon tasks and generalize to new settings.

    为了协助日常人类活动,机器人必须解决复杂的长期任务并推广到新环境。

    Recent deep reinforcement learning (RL) methods show promises in fully autonomous learning, but they struggle to reach long-term goals in large environments.

    最近的深度强化学习方法在完全自主学习方面表现出了一定的优势,但在大型环境中很难达到长期目标。

    On the other hand, Task and Motion Planning (TAMP) approaches excel at solving and generalizing across long-horizon tasks, thanks to their powerful state and action abstractions.

    另一方面,任务和动作规划(TAMP)方法在解决和推广长期任务方面表现出色,这要归功于它们强大的状态和动作抽象化。

  2. 任务和动作规划(TAMP)的不足之处是什么?

    But they assume predefined skill sets, which limits their real-world applications.

    它们需要假设预定义好的的技能集

  3. 针对这个不足,本文的研究思路是什么?

    In this work, we combine the benefits of these two paradigms and propose an integrated task planning and skill learning framework named LEAGUE.

    作者将强化学习和 TAMP 这两种范式相结合,提出一个集成任务规划和技能学习的框架 LEAGUE。

  4. 作者的具体技术路线是什么?

    LEAGUE leverages symbolic interface of a task planner to guide RL-based skill learning and creates abstract state space to enable skill reuse.

    首先,LEAGUE 利用任务规划器的符号接口来指导基于强化学习的技能学习,并创建抽象状态空间以实现技能重用。

    More importantly, LEAGUE learns manipulation skills in-situ of the task planning system, continuously growing its capability and the set of tasks that it can solve.

    更重要的是,LEAGUE 在任务规划系统的运行中能持续学习操纵技能,不断增强其能力和可以解决的任务集合。

  5. 作者的实验设置?

    three challenging simulated task domains built on the Robosuite simulation framework

  6. 作者的实验指标?

    在摘要中暂无提到

  7. 作者的结论?

    • LEAGUE在基线测试中表现优异。
    • 学习到的技能可以被重复使用,以加速在新任务和领域中的学习。
  8. 作者是否有效果展示?

    有,但是没有开放源代码。总体网站

I. INTRODUCTION

  • 基于强化学习的家庭机器人目前还有哪些不足?

    作者认为主要存在两点困难。

    First, complex real-world tasks are often long-horizon. This requires a learning agent to explore a prohibitively large space of possible action sequences that scales exponentially with the task horizon.

    首先,复杂的现实世界任务通常具有长期的。强化学习要求智能体探索可能的行动序列空间,而该空间随任务广度增长而呈指数级增长。

    Second, effective home robots must carry out diverse tasks in varying environments.

    其次,有效的家庭机器人必须在不同环境中执行各种任务,这就意味着必须具有泛化能力。

    所以作者的结论:A learner must generalize or quickly adapt its knowledge to new settings.

  • 针对作者提出的困难,作者做了哪些综述?

    1. 课程学习:课程学习中的自动生成目标通过中间子目标指导学习过程,使智能体能够有效地探索并朝着长期目标不断取得进展。

      “Automatic goal generation for reinforcement learning agents,” the 35th ICML.

    2. 分层+运动基元学习:使用预定义的行为基元或学习分层策略,以实现时域的决策制定。

      因为想了解技能相关的论文,正好这里列举了很多,那就展示出来~

      名称列表
      Augmenting reinforcement learning with behavior primitives for diverse manipulation tasks
      Accelerating reinforcement learning with learned skill priors
      Accelerating robotic reinforcement learning via parameterized action primitives
      Bottom-up skill discovery from unsegmented demonstrations for long-horizon robot manipulation
      Discovery of options via meta-learned subgoals
      Skill-based meta-reinforcement learning (读过啦)
      Reset-free lifelong learning with skill-space planning
      Data-efficient hierarchical reinforcement learning
      The option-critic architecture
      Opal: Offline primitive discovery for accelerating offline reinforcement learning
      Learning to coordinate manipulation skills via skill behavior diversification
      Efficient bimanual manipulation using learned task schemas
    3. 作者的点评:low sample effificiency, lack of interpretability, and fragile generalization; task-specifific and fall short in cross-task and cross-domain generalization.

  • 作者是如何介绍自己的源方法 TAMP 呢?

    作者先阐述了 TAMP 的概念:“leverages symbolic action abstractions to enable tractable planning and strong generalization”——利用符号行动抽象实现可处理的规划和强大的泛化能力。“Specifically, the symbolic action operators divide a large planning problem into pieces that are each easier to solve.”——具体而言,符号动作运算符将一个大型规划问题分成多个更容易解决的部分。“The ‘lifted’ action abstraction allows skill reuse across tasks and even domains.”——“被重点强化/强调”的行动抽象允许在任务甚至领域之间重复使用技能。

    Comments: 感觉也是一种拆分任务和动作的方法,相比于上一篇《Skills Regularized Task Decomposition for Multi-task Offline Reinforcement Learning》这一篇的任务/动作拆分更强调 symbolic 。

    作者给出的例子是:grasp 这个操作符被抽象之后,可以用在不同的任务和不同的领域上。


    作者分析了 TAMP 方法的特征:强调 symbolic 同时还强调了 complete set of skills ,需要一个完备的技能集

    但是,这样的完备技能集导致在部署时候变得很不切实际:首先,为所有可能的任务准备技能很难;机器人必须能够按任务需求扩展其技能集。其次,在复杂或接触丰富的任务(即插入/轴孔装配)手工设计操作技能很困难,像这种 插入/轴孔装配 动作,除了末端位姿要考虑,机械臂末端力矩也要考虑,而“力”这种东西在实践性的强化学习论文中比较难设计/处理。

  • 作者分析完强化和 TAMP ,作者的创新点是?

    LEAGUE (LEarning and Abstraction with GUidancE) —— an integrated task planning and skill learning framework that learns to solve and generalize across long-horizon tasks

    从装备了易于实现的技能(例如 reach)的任务规划器开始,LEAGUE 使用基于深度强化学习的学习器在现场持续扩展技能集。任务计划中的中间目标被指定为奖励,以便学习器获取和完善技能,并且掌握的技能用于到达新技能的初始状态。

    此外,LEAGUE 利用行动运算符的定义,即前置条件 precondition 和效果 effect,为每个学习的技能确定减少的状态空间,类似于联邦学习中信息隐藏的概念。

    联邦学习我比较少见,这里列举他的引用论文~

    Feudal reinforcement learning;

    Feudal networks for hierarchical reinforcement learning;

    关键思想是将与任务无关的特征抽象出来,使学习的技能具有模块化和可重用性。总体而言,这形成了一个良性循环,其中任务规划器指导技能学习和抽象,而学习器不断扩展整个系统可以执行的任务集。

    Comments: 经过作者的介绍感觉想法是不错的,考虑到了技能集的不完备性,并通过强化学习不断扩展技能集。想到了《Skill-based Meta Reinforcement Learning》,从当前文章的视角看,《Skill-based》默认了技能集是完备的(from 离线数据集),然后强化学习不处理技能集合,而是对技能集增、删、改和查,最后实际得到的是针对当前任务的子集~~~

  • 作者最后得到了什么结论?

    We show that LEAGUE is able to outperform state-of-the-art hierarchical reinforcement learning methods by a large margin.

    Augmenting reinforcement learning with behavior primitives for diverse manipulation tasks

    Comments: 它最后是跟分层强化学习比,那么就应该拿分层的视角看这个方法。

    We also highlight that our method can achieve strong generalization to new task goals and even task domains by reusing and adapting learned skills.

    LEAGUE can solve a challenging simulated coffee making task where competitive baselines fall flat.

II. RELATED WORK

TAMP and Learning for TAMP.

作者在此处继续补充了第一部分关于 TAMP 的阐述: TAMP方法需要高级技能,和其运动学或动力学模型先验知识,这些假设导致在手工工程操纵技能困难的领域,例如接触丰富的任务,使用 TAMP 是很困难的。

通过描述技能前置条件效果来学习TAMP的动力学模型,也就是让模型学到 ”这个基础技能要在什么条件下实施“ 以及 ”实施这些技能后有什么效果?“。

Comments: 学习这两部分内容其实有点像一些游戏的描述。比如说xx英雄他有一些技能,然后在英雄介绍技能描述页面就会说,这个技能在什么时候触发,会造成多少伤害/控制等等。那么对于我们玩家来说,了解/学习这些技能的前置条件造成的效果是最关键的,而英雄技能机理,也就是怎么利用这些技能造成这样的效果,这些对于玩家来说不必可知

作者列举了相关的工作,还是指出了这种方法的不足:技能集是静态的,难以在开放任务上做泛化适应。相反,我们的工作旨在逐步学习新技能,以扩展类似TAMP系统的能力。

Curriculum for RL.

关键思想是在掌握目标任务之前,让学习代理逐渐接触到更加困难的中间任务。这些中间任务可以采用状态初始化、环境和子目标的形式。现有的课程计划侧重于教授任务特定领域的策略。相比之下,作者的方法利用任务规划器的符号抽象来学习一系列模块化和可组合的技能。

State and Action Abstractions.

State abstraction allows agents to focus on task-relevant features of the environment. Action abstraction enables temporally-extended decision-making for long-horizon tasks.

状态抽象使智能体能够专注于环境的任务相关特征。行为抽象使得智能体能够进行时间上扩展的决策,以完成长期任务。

状态动作抽象,这个技术在基于技能的强化学习上看起来挺重要的,这里列举工作:

Jonschkowski explores different representation learning objectives for effective state abstraction.

Learning state representations with robotic priors, Autonomous Robots, 2015

Abel introduces a theory for value preserving state-action abstraction.

Value preserving state-action abstractions, ICAIS, 2020

作者指出了不足之处:自主发现合适的抽象仍然是一个未解决的挑战。

作者分析了自己的模型,动作运算符的符号接口定义了前置条件和效果(动作抽象),以及与动作相关的状态子空间(状态抽象)。这些抽象使我们能够训练与任务规划器兼容的技能,并防止学习到的技能被无关对象分散注意力,从而实现跨任务和领域的技能重用。

Hierarchical Modeling in Robot Learning.

本文工作的关系:Our method inherits the bi-level hierarchy of a TAMP framework.

TAMP 在分层上的技术路线是:hierarchical task networks 分层任务网络、logical-geometric programming 逻辑几何规划 和 hierarchical reinforcement learning (HRL) 分层强化学习


关于 分层强化学习 + TAMP符号运动表征,有一些小的工作:

Peorl: Integrating symbolic planning and hierarchical reinforcement learning for robust decision-making;

Symbolic plans as high-level instructions for reinforcement learning;

然而,这些方法需要使用表格化状态表示,因此仅限于简单的网格世界领域。


关于 分层强化学习 + TAMP符号运动表征 + 机器人学习,有一些小的工作(其实就是基于运动原语):

Augmenting reinforcement learning with behavior primitives for diverse manipulation tasks;

Accelerating robotic reinforcement learning via parameterized action primitives;

作者与上述文章的相比,优势在于,他能自己不断的扩展运动原语集合。

III. METHOD

A. Background

MDP

其实就是一般的强化学习MDP框架啦
< χ , A , R ( x , a ) , T ( x ′ ∣ x , a ) , p ( x 0 ) , γ > <\chi,A,R(x,a),T(x^{\prime}|x,a),p(x^{0}),\gamma> <χ,A,R(x,a),T(xx,a),p(x0),γ>

J = E x 0 , a 0 , a 1 , ⋯   , a t − 1 , s T ∼ π , p ( x 0 ) [ ∑ t γ t R ( x t , a t ) ] J=E_{x^{0},a^{0},a^{1},\cdots,a^{t-1},s^{T}\sim\pi,p(x^{0})}\big[ \sum_{t}\gamma^{t}R(x^{t},a^{t}) \big] J=Ex0,a0,a1,,at1,sTπ,p(x0)[tγtR(xt,at)]

Task planning space

< O , Λ , Ψ ^ , Ω ^ , G > <O,\Lambda,\hat{\Psi},\hat{\Omega},G> <O,Λ,Ψ^,Ω^,G>

O O O 对象集; Λ \Lambda Λ 对象类型的有限集合; 对于每一个对象 o ∈ O o\in O oO ,都存在一个向量 λ ∈ Λ \lambda\in\Lambda λΛ ;向量的维度 dim ( λ ) \text{dim}(\lambda) dim(λ) 是这个对象携带的特征信息的含量(3维的位置、rpy角度等等…)

存在以下映射: x ∈ χ x\in\chi xχ 则存在 x ( o ) ∈ R dim ( type ( o ) ) x(o)\in R^{\text{dim}(\text{type}(o))} x(o)Rdim(type(o)) ,其实可以用条件概率风格这样改写公式: x ∣ o = x ( o ) ∈ R dim ( type ( o ) ) x|o=x(o)\in R^{\text{dim}(\text{type}(o))} xo=x(o)Rdim(type(o)) 这就说明,当一个对象 o ∈ O o\in O oO 作用于环境的某个状态 x ∈ χ x\in\chi xχ 时,环境状态信息会被表征为与对象 o ∈ O o\in O oO 种类维度相一致的实数向量。

Ψ ^ \hat{\Psi} Ψ^ 描述多个对象之间的关系。谓词 ψ ∈ Ψ ^ \psi\in\hat{\Psi} ψΨ^ 描述了多个对象 o ∈ O o\in O oO 之间的关系。每个谓词 ψ ∈ Ψ ^ \psi\in\hat{\Psi} ψΨ^ (例如,Holding)由一个对象类型元组 ( λ 1 , ⋯   , λ m ) (\lambda_{1},\cdots,\lambda^{m}) (λ1,,λm) 和一个二元分类器组成,确定关系是否成立。
c ϕ : χ × O m → { T r u e , F a l s e } c_{\phi}:\chi\times O^{m}\rightarrow \{True,False\} cϕ:χ×Om{True,False}
其中每个下标 o i ∈ O o_{i}\in O oiO 都有自己的向量 λ i ∈ Λ \lambda_{i}\in\Lambda λiΛ

通过替换相应的对象实体,在状态上评估谓词将产生一个基本组件(例如,Holding(peg1) ),其中一个被强调的组件是将映射到类型化对象变量的谓词,可以被视为占位符placeholder(例如, Holding(?object))。

一个任务目标 g ∈ G g \in G gG 可以表示为一组基本组件,其中符号状态 x Ψ x_{\Psi} xΨ 可以通过评估一组谓词 Ψ ^ \hat{\Psi} Ψ^ 并保留所有正向组件来获得。

在这里插入图片描述

Comments: 分析到这里,其实也比较好理解一些了。

每一个对象 o ∈ O o\in O oO 实际就是场景中的物体,比如轴、孔以及小物块这样的,那么这些物体在场景中必然有其自身的属性,于是就有了向量 λ ∈ Λ \lambda\in\Lambda λΛ 来描绘这个物体的属性(位姿…),因为不同物体需要使用的属性信息不一样,那么每个向量 λ ∈ Λ \lambda\in\Lambda λΛ 的维度也就不一样。

接下来,映射关系也好分析了。物体在MDP里面的状态中,都会映射出一个当前时刻的属性表现,也就是 R dim ( type ( o ) ) R^{\text{dim}(\text{type}(o))} Rdim(type(o)) 。接下来就是考虑谓词,这里强调了“多个目标之间的关系”,我的理解为“A目标+谓词&

相关阅读

热门文章

    手机版|MSIPO技术圈 皖ICP备19022944号-2

    Copyright © 2024, msipo.com

    返回顶部