9. Continuous control with deep reinforcement learning(DDPG)
Lillicrap, Timothy P., et al. βContinuous control with deep reinforcement learning.βΒ arXiv preprint arXiv:1509.02971Β (2015).
Paper Link: https://ar5iv.labs.arxiv.org/html/1509.02971
Abstractμ μλ λ΄μ©μ΄ λ³Έ μκ³ λ¦¬μ¦μ μμ£Ό μ μμ½νκ³ μλ€.
βan actor-critic, model-free algorithm based on the deterministic policy gradient that can operate over continuous action spaces.β
λ§ κ·Έλλ‘ μ°μμ μΈ actionμ΄ κ°λ₯ν DQN μκ³ λ¦¬μ¦μ΄λ€.
1. Introduction
κ³ μ°¨μμ observation spaces μμ λ¬Έμ λ₯Ό ν μ μλ μκ³ λ¦¬μ¦μΈ DQNμ μ΄μ°νλ μ μ°¨μμ action spaces λ§ λ€λ£° μ μλ€λ νκ³κ° μλ€. νμ§λ§ λλΆλΆμ 물리μ μΈ μ μ΄κ° νμν μνλμμλ μ°μμ μ΄κ³ κ³ μ°¨μμ action space κ° νμνλ€.
DQN μ Action-value function , λ³΄ν΅ Q-value λΌκ³ λΆλ¦¬λ κ°μ μ΅λννλ action μ μ ννκ³ , μ΄λ₯Ό μ°μμ μΌλ‘ μ»κΈ° μν΄μ λ°λ³΅μ μΈ μ΅μ ν κ³Όμ μ λ§€ timestep λ§λ€ μνν΄μΌνλ€.
νΉμ μ°μμ μΈ κ³΅κ°μ discretization νμ¬λ λμ§λ§, μμ€ν μ μμ λκ° λμ μλ‘ μ°μ°μ΄ λ무 λ§μμ§λ λ¬Έμ κ° μλ€. μλ₯Ό λ€μ΄ 7 μμ λλ₯Ό κ°μ§λ μμ€ν μ μ action μ μ μνλ©΄ μ κ²½μ°μ μκ° μκ°λ€.
Deep DPG(DDPG) μ model-free, off-policy actor-critic algorithm, deep function approximators λ₯Ό κ°μ§λ μκ³ λ¦¬μ¦μ΄λ€.
DDPG μ actor-critic λ°©μμ neural function approximators λ₯Ό μ¬μ©ν Determinisitc Policy Gradient(DPG) μκ³ λ¦¬μ¦Silver et al., 2014μ DQN λ°©μ(Mnih et al., 2013; 2015)μ ν©μ³€λ€.
DQN μ replay buffer λ₯Ό νμ©ν off-policy λ°©μμΌλ‘ νμ΅νλ λ€νΈμν¬μ target Q λ€νΈμν¬λ₯Ό μ΄μ©νμ¬ TD backup μ€μλ target value λ₯Ό κ³ μ μν€λλ‘ νμ¬ κΈ°μ‘΄μ λ°μνλ λ₯λ¬λμ ν΅ν Q-function approximation μμ λ°μνλ λ¬Έμ λ€μ ν΄κ²°νμλ€.
κ·Έλμ DDQN μ μ΄λ¬ν λ°©μμ κ·Έλλ‘ μ·¨νλ, batch normalization (Ioffe & Szegedy, 2015)λ λμ νμλ€.
β DPG + network with a relay buffer and target Q-network + batch normalization
2. Background
Action-value function μ μ΄λ€ state μμ μ·¨ν action λ‘ μ»μ κΈ°λκ°μ΄κ³ κ·Έ μ΄νμ policy μ λν΄ μλμ κ°μ΄ μ μνλ€.
μ΄ν λͺ¨λ μκ°μ λν΄ μ μλ μ μμμ Bellman equation κ³Ό discount factor λ‘ λ€μκ³Ό κ°μ΄ νκ·μ μΌλ‘ μ 리νλ€.
λͺ©μ policy κ° deterministic νλ©΄ μ΄λ₯Ό λ‘ νννκ³ μ μμμ μλ λ―Έλ κΈ°λκ°μ μ κ±°ν΄μ€ μ μλ€.
μ΄λ κ² λλ©΄ κΈ°λκ°μ environment μλ§ μ€λ‘μ§ μμ‘΄νκ² λλ€. μ¦, λ₯Ό off-policy λ°©μμΌλ‘ νμ΅ν μ μκ² λλ€.
off-policy λ°©μμμ μ£Όλ‘ μ¬μ©λλ Q-learning (Watkins & Dayan, 1992) μ greedy ν policy λ₯Ό μ¬μ©νλ€.
function approximators λ₯Ό λ‘ νννμ¬ μ΅μ νν loss ν¨μλ μλμ κ°λ€.
μ΄ λ λ μλμ κ°λ€.
μ΄λ¬ν Q-value λ₯Ό μ»κΈ° μν΄ νμ΅ κΈ°λ°μ function approximators λ ν¬κ³ λΉμ νμ μΈ λ°μ΄ν°λ₯Ό λ€λ£¨κΈ° μ΄λ €μ μ§λ§ Q-learning μμ μ¬μ©ν replay buffer μ target network λ‘ λ¬Έμ λ€μ ν΄κ²°ν μ μμλ€.
κ·Έλ¦¬κ³ λ€μ μκ³ λ¦¬μ¦μμλ ν΄λΉ λ΄μ©λ€μ μ°¨μ©νμλ€.
3. Algorithm
Q-learning λ°©μμ κ·Έλλ‘ μ°μμ μΈ action 곡κ°μ λμ νλ©΄ λ₯Ό λ§€ timestep λ§λ€ μ΅μ νν΄μΌνκ³ , μ΄λ μ€μ νκ²½μμ μ¬μ©νκΈ°μ λ무 λ리λ€. κ·Έλμ DPG μ actor-critic λ°©μμ λμ νμλ€.
DPG λ state μ νΉμ action μ κ²°μ μ μΌλ‘ λ§΅ννμ¬ νμ¬μ policy λ₯Ό ꡬνλ parameterized actor λ₯Ό μ¬μ©νλ€.
critic λ Q-learning μμμ²λΌ Bellman equation μ μ΄μ©ν΄ νμ΅νλ€. actorλ μλ chain rule μ μ΄μ©ν΄ μ λ°μ΄νΈ νλ€.
Silver et al.(2014) μμ policy gradient μμ μ¦λͺ νμλ€.
λ°λΌμ μ΄λ¬ν DPG μ NN function approximators λ₯Ό μ¬μ©νμ¬ ν° state μ μ€μκ°μ action 곡κ°μμ νμ΅ν μ μλλ‘ νμλ€.
RL μμ NN μ μ¬μ©νλ κ²μ λ¬Έμ μ μ€ νλλ λλΆλΆμ μ΅μ νμμ μνλ€μ΄ λ 립μ μ΄κ³ , κ· μΌνκ² λΆν¬λμ΄ μμμ κ°μ νλ€.
μ΄λ¬ν λ¬Έμ λ₯Ό ν΄κ²°νκΈ° μν΄ DQN μμμ²λΌ replay buffer λ₯Ό μ¬μ©νλ€. replay buffer λ κ³ μ λ ν¬κΈ°μ μΊμ λ‘ μ μνλ€.
exploration policy λ‘ μ»μ΄μ§ transitions κ³Ό tuple κ° replay buffer μ μ μ₯λλ€. κ°λμ°¨λ©΄ μμ κ²μ λ²λ¦°λ€.
λ§€ timestep λ§λ€ λ²νΌμμ κ· μΌνκ² minibatch λ₯Ό μνλ§νμ¬ actor μ critic μ μ λ°μ΄νΈνλ€.
DDPG λ off-policy μκ³ λ¦¬μ¦μ΄μ΄μ ν° ν¬κΈ°μ replay buffer λ₯Ό κ°μ§ μ μκ³ μ΄λ κ΄λ ¨μ±μ΄ μ μΈ transitions μ‘°ν©κ°μμλ νμ΅μ΄ κ°λ₯νκ² νλ€.
μμ (4) μ Q-learning μ NN μ μ μ©νλ κ²μ unstable νλ€. μ΄λ μμ (4)μμ μ λ°μ΄νΈλλ κ° μμ (5)μ target value λ₯Ό ꡬνλλ°λ μ¬μ©λμ΄ μ½κ² λ°μ°νκΈ° λλ¬Έμ΄λ€.

κ·Έλμ λ³Έ λ Όλ¬Έμμλ DQNμ target network μ μ μ¬νμ§λ§ actor-critic μ μν΄ μ½κ°μ μμ μ κ°νκ³ βsoftβ target μ λ°μ΄νΈλ₯Ό νμλ€.
λΆλλ½κ²(=μ²μ²ν) target value λ₯Ό μ λ°μ΄νΈ νκΈ° μν΄ actor-critic μ 볡μ ν μ λ₯Ό μ΄μ©νμλ€. μ΄ λ€νΈμν¬λ€μ target value λ₯Ό κ³μ°νκΈ° μν΄ μ¬μ©λκ³ , μ΄ λμ κ°μ€μΉ λ νμ΅λ λ€νΈμν¬μ κ°μ€μΉ λ₯Ό μ²μ²ν λ°λΌκ°λλ‘ νμλ€.
μ΄λ‘μ¨, target value κ° μ²μ²ν λ³νκ² λμ΄ νμ΅μ μμ μ±μ΄ μ»€μ§ μ μμλ€.
λ³Έ μ°κ΅¬μμλ critic μ΄ λ°μ°νμ§ μκ³ νμ΅λλ €λ©΄ μ λͺ¨λ μμ μ μΈ target λ₯Ό κ°μ ΈμΌ νλ€. μ΄λλ¬Έμ νμ΅μ λλ €μ§ μ μμ§λ§, μμ μ±μ΄ ν¬κ² ν₯μλμλ€κ³ νλ€.
κ·Έλ¦¬κ³ observation μμ μλ‘ λ€λ₯Έ 물리 λ¨μκ° μκ³ , μ΄λ environment μ λ°λΌ λ§€λ² λ€λ₯Ό κ²μ΄λ€. μ΄λ₯Ό ν΄κ²°νκΈ° μν΄ Ioffe & Szegedy, 2015 μμ μ¬μ©ν batch normalization μ λμ νμλ€.
μ΄ λ°©μμ minibatch μ μλ μνλ€μ dimension μ μ κ·ννλ κ²μ΄λ€. λ³Έ μ°κ΅¬μμλ state input κ³Ό λ€νΈμν¬μ λ€νΈμν¬μ λͺ¨λ λ μ΄μ΄λ€μ μ κ·ννμλ€.
μ°μμ μΈ action space μμλ exploration μ΄ κ°μ₯ μ€μνλ°, off-policy λ°©μμ ν΅ν΄μ νμ΅ μκ³ λ¦¬μ¦κ³Ό λ 립μ μΌλ‘ exploration μ μνν μ μλ€. λ³Έ λ Όλ¬Έμμλ actor policy μ noise λ₯Ό λν΄ exploration policy λ₯Ό ꡬμ±νμλ€.
Value function approximator : https://sumniya.tistory.com/17