9. Continuous control with deep reinforcement learning(DDPG)

Lillicrap, Timothy P., et al. “Continuous control with deep reinforcement learning.” arXiv preprint arXiv:1509.02971 (2015).

Paper Link: https://ar5iv.labs.arxiv.org/html/1509.02971

Abstract에 있는 내용이 본 알고리즘을 아주 잘 요약하고 있다.

“an actor-critic, model-free algorithm based on the deterministic policy gradient that can operate over continuous action spaces.”

말 그대로 연속적인 action이 가능한 DQN 알고리즘이다.

1. Introduction

고차원의 observation spaces 에서 문제를 풀 수 있는 알고리즘인 DQN은 이산화된 저차원의 action spaces 만 다룰 수 있다는 한계가 있다. 하지만 대부분의 물리적인 제어가 필요한 수행동작에는 연속적이고 고차원의 action space 가 필요하다.

DQN 은 Action-value function $q_{π} (s, a) = E_{π} [G_{t} ∣ S_{t} = s, A_{t} = a]$ , 보통 Q-value 라고 불리는 값을 최대화하는 action 을 선택하고, 이를 연속적으로 얻기 위해서 반복적인 최적화 과정을 매 timestep 마다 수행해야한다.

혹은 연속적인 공간을 discretization 하여도 되지만, 시스템의 자유도가 높을 수록 연산이 너무 많아지는 문제가 있다. 예를 들어 7 자유도를 가지는 시스템에 $a_{i} \in {- k, 0, k}$ 의 action 을 정의하면 $3^{7} = 2187$ 의 경우의 수가 생간다.

Deep DPG(DDPG) 은 model-free, off-policy actor-critic algorithm, deep function approximators 를 가지는 알고리즘이다.

DDPG 은 actor-critic 방식에 neural function approximators 를 사용한 Determinisitc Policy Gradient(DPG) 알고리즘Silver et al., 2014에 DQN 방식(Mnih et al., 2013; 2015)을 합쳤다.

DQN 은 replay buffer 를 활용한 off-policy 방식으로 학습하는 네트워크와 target Q 네트워크를 이용하여 TD backup 중에는 target value 를 고정시키도록 하여 기존에 발생하는 딥러닝을 통한 Q-function approximation 에서 발생하는 문제들을 해결하였다.

그래서 DDQN 은 이러한 방식을 그대로 취하되, batch normalization (Ioffe & Szegedy, 2015)도 도입하였다.

⇒ DPG + network with a relay buffer and target Q-network + batch normalization

2. Background

Action-value function 은 어떤 state $s_{t}$ 에서 취한 action $a_{t}$ 로 얻을 기댓값이고 그 이후의 policy $π$ 에 대해 아래와 같이 정의한다.

Q^{π} (s_{t}, a_{t}) = E_{r_{i \geq t}, s_{i > t} \sim E, a_{i > t} \sim π} [R_{t} ∣ s_{t}, a_{t}] (1)

$t$ 이후 모든 시간에 대해 정의된 위 수식을 Bellman equation 과 discount factor $γ$ 로 다음과 같이 회귀적으로 정리한다.

Q^{π} (s_{t}, a_{t}) = E_{r_{t}, s_{t + 1} \sim E} [r (s_{t}, a_{t}) + γ E_{a_{t + 1} \sim π} [Q^{π} (s_{t + 1}, a_{t + 1}]] (2)

목적 policy 가 deterministic 하면 이를 $μ : S \leftarrow A$ 로 표현하고 위 수식에 있는 미래 기댓값을 제거해줄 수 있다.

Q^{μ} (s_{t}, a_{t}) = E_{r_{t}, s_{t + 1} \sim E} [r (s_{t}, a_{t}) + γ Q^{μ} (s_{t + 1}, μ (s_{t + 1})] (3)

이렇게 되면 기댓값은 environment 에만 오로지 의존하게 된다. 즉, $Q^{μ}$ 를 off-policy 방식으로 학습할 수 있게 된다.

off-policy 방식에서 주로 사용되는 Q-learning (Watkins & Dayan, 1992) 은 greedy 한 policy $μ (s) = ar g max_{a} Q (s, a)$ 를 사용한다.

function approximators 를 $θ^{Q}$ 로 표현하여 최적화할 loss 함수는 아래와 같다.

L (θ^{Q}) = E [(Q (s_{t}, a_{t} ∣ θ^{Q}) - y_{t})^{2}] (4)

이 때 $y_{t}$ 는 아래와 같다.

y_{t} = r (s_{t}, a_{t}) + γ Q (s_{t + 1}, μ (s_{t + 1}) ∣ θ^{Q}) (5)

이러한 Q-value 를 얻기 위해 학습 기반의 function approximators 는 크고 비선형적인 데이터를 다루기 어려웠지만 Q-learning 에서 사용한 replay buffer 와 target network 로 문제들을 해결할 수 있었다.

그리고 다음 알고리즘에서는 해당 내용들을 차용하였다.

3. Algorithm

Q-learning 방식을 그대로 연속적인 action 공간에 도입하면 $a_{t}$ 를 매 timestep 마다 최적화해야하고, 이는 실제 환경에서 사용하기에 너무 느리다. 그래서 DPG 의 actor-critic 방식을 도입하였다.

DPG 는 state 와 특정 action 을 결정적으로 맵핑하여 현재의 policy 를 구하는 parameterized actor $μ (s ∣ θ^{μ})$ 를 사용한다.

critic $Q (s, a)$ 는 Q-learning 에서처럼 Bellman equation 을 이용해 학습한다. actor는 아래 chain rule 을 이용해 업데이트 한다.

▽_{θ μ} J \approx E_{s_{t} \sim ρ^{β}} [▽_{θ μ} Q (s, a ∣ θ^{Q}) ∣_{s = s_{t}, a = μ (s_{t} ∣ θ^{μ})}] = E_{s_{t} \sim ρ^{β}} [▽_{a} Q (s, a ∣ θ^{Q}) ∣_{s = s_{t}, a = μ (s_{t})} ▽_{θ^{μ}} μ (s ∣ θ^{μ}) ∣_{s = s_{t}}] (6)

Silver et al.(2014) 에서 policy gradient 임을 증명하였다.

따라서 이러한 DPG 에 NN function approximators 를 사용하여 큰 state 와 실시간의 action 공간에서 학습할 수 있도록 하였다.

RL 에서 NN 을 사용하는 것의 문제점 중 하나는 대부분의 최적화에서 샘플들이 독립적이고, 균일하게 분포되어 있음을 가정한다.

이러한 문제를 해결하기 위해 DQN 에서처럼 replay buffer 를 사용한다. replay buffer 는 고정된 크기의 캐시 $R$ 로 정의한다.

exploration policy 로 얻어진 transitions 과 tuple $(s_{t}, a_{t}, r_{t}, s_{t + 1})$ 가 replay buffer 에 저장된다. 가득차면 예전 것을 버린다.

매 timestep 마다 버퍼에서 균일하게 minibatch 를 샘플링하여 actor 와 critic 을 업데이트한다.

DDPG 는 off-policy 알고리즘이어서 큰 크기의 replay buffer 를 가질 수 있고 이는 관련성이 적인 transitions 조합간에서도 학습이 가능하게 한다.

수식 (4) 의 Q-learning 을 NN 에 적용하는 것은 unstable 하다. 이는 수식 (4)에서 업데이트되는 $Q (s, a ∣ θ^{Q})$ 가 수식 (5)의 target value 를 구하는데도 사용되어 쉽게 발산하기 때문이다.

그래서 본 논문에서는 DQN의 target network 와 유사하지만 actor-critic 을 위해 약간의 수정을 가하고 “soft” target 업데이트를 하였다.

부드럽게(=천천히) target value 를 업데이트 하기 위해 actor-critic 을 복제한 $Q^{'} (s, a ∣ θ^{Q^{'}})$ 와 $μ^{'} (s, a ∣ θ^{μ^{'}})$ 를 이용하였다. 이 네트워크들은 target value 를 계산하기 위해 사용되고, 이 때의 가중치 $θ^{'}$ 는 학습된 네트워크의 가중치 $θ$ 를 천천히 따라가도록 하였다. $θ^{'} \leftarrow τ θ + (1 - τ) θ^{'} with τ ≪ 1$

이로써, target value 가 천천히 변하게 되어 학습의 안정성이 커질 수 있었다.

본 연구에서는 critic 이 발산하지 않고 학습되려면 $μ^{'}$ 와 $Q^{'}$ 모두 안정적인 target $y_{i}$ 를 가져야 했다. 이때문에 학습은 느려질 수 있지만, 안정성이 크게 향상되었다고 한다.

그리고 observation 에서 서로 다른 물리 단위가 있고, 이는 environment 에 따라 매번 다를 것이다. 이를 해결하기 위해 Ioffe & Szegedy, 2015 에서 사용한 batch normalization 을 도입하였다.

이 방식은 minibatch 에 있는 샘플들의 dimension 을 정규화하는 것이다. 본 연구에서는 state input 과 $μ$ 네트워크와 $Q$ 네트워크의 모든 레이어들을 정규화하였다.

연속적인 action space 에서는 exploration 이 가장 중요한데, off-policy 방식을 통해서 학습 알고리즘과 독립적으로 exploration 을 수행할 수 있다. 본 논문에서는 actor policy 에 noise 를 더해 exploration policy $μ^{'}$ 를 구성하였다.

μ^{'} (s_{t}) = μ (s_{t} ∣ θ_{t}^{μ}) + N (7)

Value function approximator : https://sumniya.tistory.com/17

ChanJoon

Recent notes

[Sci. Robot '21] Learning high-speed flight in the wild

[T-RO '22] Model Predictive Contouring Control for Time-Optimal Quadrotor Flight

VSCode Remote on Ubuntu18.04

Build Issue Note (Agile Autonomy, ERRT, mav_voxblox_planning)

[CS285] 10. Optimal Control and Planning

[CS285] 9. Advanced Policy Gradients

9. Continuous control with deep reinforcement learning(DDPG)

9. Continuous control with deep reinforcement learning(DDPG)

1. Introduction

2. Background

3. Algorithm

Recent notes

[Sci. Robot '21] Learning high-speed flight in the wild

[T-RO '22] Model Predictive Contouring Control for Time-Optimal Quadrotor Flight

VSCode Remote on Ubuntu18.04

Build Issue Note (Agile Autonomy, ERRT, mav_voxblox_planning)

[CS285] 10. Optimal Control and Planning

[CS285] 9. Advanced Policy Gradients

Table of Contents

Backlinks