Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Visual Reinforcement Learning with Imagined Goals #231

Closed
TMats opened this issue Sep 18, 2018 · 1 comment
Closed

Visual Reinforcement Learning with Imagined Goals #231

TMats opened this issue Sep 18, 2018 · 1 comment

Comments

@TMats
Copy link
Owner

TMats commented Sep 18, 2018

https://arxiv.org/abs/1807.04742

blog

website

@TMats
Copy link
Owner Author

TMats commented Sep 18, 2018

1. どんなもの?

  • goal-conditionalなRLは,goalとの距離(マハラノビス距離)を報酬として利用することで,タスクごとにわざわざ報酬を設定しなくてもいいメリットがある
    • 例えば,目標状態の画像を与える
    • この論文では学習した(beta)VAEのzの距離を用いる
  • 遡ってゴールをリラベリングする手法も提案
    • 半分のゴールはpriorから生成,もう半分はtrajectoryから持って来る

2. 先行研究と比べてどこがすごい?

  • 初めて画像のみのgoal-conditionalなRLを実現
  • サンプル効率を高めるためにリラベリングを導入

3. 技術や手法のキモはどこ?

  • VAEを用いてゴールとの潜在空間上の距離を測り報酬に用いる
  • ゴールをpriorからサンプルして,自身でゴールを生成してtrain

screen shot 2018-09-18 at 15 39 13

4. どうやって有効だと検証した?

アームでマニピュレーションタスク

  • mujocoのpusherと実機
  • 画像のみのRLで実験
  • 物体の位置,アームの状態は入力に含めない

screen shot 2018-09-18 at 15 52 18

5. 議論はある?

将来来るべき方向性

  • 違うモダリティによるゴール表現(マルチモーダル)
  • 効率的な探索手法
    • e.g) curiosity
  • ダイナミクスを考慮した潜在状態表現学習
  • 状態表現のむずかしいタスクへの応用
    • e.g) ロープなど不定形のものによるタスク
  • マルチタスク学習・meta-learning

6. 次に読むべき論文は?

ゴールのリラベリング

7. メモ

  • マルチモーダルでsharedなzでconditionされたRLはやったほうがいいと思う
  • disentangleな表現の利用すると良い?
    • 生成するimagined goalのバリエーション的に?
    • 単にVAEでエンコードするより良い距離になるかもしれない?
    • すでにこの論文でbeta-VAE使ってた. ただしdisentangleの効果に関する記述が欠けている (betaに関する実験がない)気がする.

@TMats TMats closed this as completed Sep 18, 2018
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

1 participant