Lecture 1. Introduction - Lecture 2. Imitation Learning Part 2
Lecture 1. Introduction
https://rail.eecs.berkeley.edu/deeprlcourse/deeprlcourse/static/slides/lec-1.pdf

RL κ³Ό μ μ΄, μ΅μ νλ₯Ό κ²°ν©νμ¬ λ₯λ¬λ λ°©μμ κ°ννμ΅μ μ¬λμ μν΄ μνλλ μ΅κ·Όμ AI (Generative AI) λ³΄λ€ μμ ν μλ‘μ΄ ν΄λ΅ / λ°©μμ μ°ΎμλΌ μ μλ€.
κ°ννμ΅μ΄ λ€λ₯Έ λ¨Έμ λ¬λκ³Ό λ€λ₯Έμ
κΈ°μ‘΄ λ¨Έμ λ¬λ(supervised) λ μ λ΅μ§κ° μλ λ°μ΄ν°μ μ κ°μ§κ³ inputμ λν μ λ΅μ μ»μ΄λ΄λ ν¨μλ₯Ό μ°Ύλ κ²
κ°ννμ΅μ μ λ΅μ§ λμ μ 보μ κ°λ μ μ΄μ©ν΄ μ±κ³΅μ μΌλ‘ μ΄λ ν λͺ©μ μ μνν μ μκ² νλ€.
κ²°λ‘ μ μΌλ‘, μ΅λμ 보μ( return )μ μ»μ μ μλ μΌλ ¨μ νλ( action )μ μ ννλ ν¨μ( policy )λ₯Ό μ°Ύλ κ²
κ°ννμ΅μ λ°°μμΌ νλ μ΄μ ?
μμμ μ²λΌ μλ‘μ΄ ν΄λ΅μ΄λ μ κ·Όμ μ°ΎμλΌ μ μλ€. λ°μ΄ν°λ₯Ό μ΄μ©ν AI λ€μ μΈκ°λ³΄λ€ λ μνκΈ°λ νλ€λ€(μλ―Έμ μΌλ‘). μ£Όμ΄μ§ λ°μ΄ν°μμ μ νλ κ²μ΄ μ΅μ μ΄λ€.
RLμ λμ μ λͺ©μ μ μ°Ύμλ΄λλ° μ§μ€νκΈ° λλ¬Έμ μ΅μ νμ κ΄λ ¨μλ€.

κ·Έλμ R.Sutton μ λ§λλ‘ LearningμΌλ‘ λ°μ΄ν°λ₯Ό μ΄μ©ν΄ μ°λ¦¬κ° 보λ λ°©μκ³Όλ λ€λ₯Ό μ μμ§λ§ νκ²½μ μ΄ν΄ν μ μκ² ν΄μ£Όκ³ μ΄ν΄ν λ΄μ©μ λ°νμΌλ‘ Searchμ μνν΄μΌ ν κ²μ΄λ€. (data + optimization )
Reward λ₯Ό μ΄λ»κ² ν κ²μΈκ°
μμ μλ λ¬Όμ λ°λ₯΄λ κ² μ²λΌ μΈμμ΄ μ΄λ €μ΄ λ¬Έμ λ μμ§λ§, μμ£Ό κΈ΄ μκ° λμ ν λλ² λ°μ μ΄λ£¨μ΄μ§μ§ μλ 보μλ€ (μ‘Έμ , μ·¨μ§ λ±λ±)μ μ μ νκ² μ€μ νκΈ°λ μ΄λ ΅κ³ μ΄νμ κ³Όμ μμ 보μμ΄ μ΄λ£¨μ΄μ§λ κ²½μ°κ° λ§λ€.
λ, λλ¬Όλ€ κ°μ κ²½μ°λ μ¬λ¬ μλλ₯Ό ν΅ν΄ μ¬λ₯μ λ°°μ°λ κ²μ΄ μλλΌ λ³Έλ₯μ νΉμ λ€λ₯Έ λλ¬Όλ€μ κ΄μ°°νλ©° μ¬λ₯λ²μ μ΅λνλ€.
κ·Έλμ μ΅κ·Όμλ Imitation Learning μ΄λ Inverse Learning κΈ°λ²λ€μ μ¬μ©νλ€.

μ΅κ·Όμ λ§μ΄ λ°μ ν Pre-train λͺ¨λΈμ μ¬μ©νκΈ°λ νλ€. LLM μ ν΅ν΄ μ΄λ―Έμ§λ₯Ό μ²λ¦¬νκ³ μ΄λ₯Ό ν΅ν΄ μ»μ μ§μμ λ‘λ΄μ λ£μ΄μ€λ€.
λ¨μμλ Challenges
λ§μ λ°μ΄ν°λ₯Ό νμ΅μν€λ λ°©λ²κ³Ό RLμ μ¬μ©νλ λ°©μ λͺ¨λ κ·Όλμ λ§μ μ°κ΅¬κ° μ§νλμμ§λ§, λ°μ΄ν°μ RL μ λͺ¨λ μ¬μ©νλ νμ μ μΈ κ΅¬μ‘°λ μμ§ μμ.
deep RL μ λ³΄ν΅ λλ¦¬κ³ λ³΄μν¨μλ μμΈ‘μ΄ μ΄λ€ λ°©μμ΄μ΄μΌ νλμ§ μμ§ λͺ ννμ§ μλ€.

Lecture 2. Imitation Learning
https://rail.eecs.berkeley.edu/deeprlcourse/deeprlcourse/static/slides/lec-2.pdf
Supervised Learning of Behaviors

λ³΄ν΅ observation κ³Ό state λ₯Ό νΌμ©νμ¬ μ¬μ©νμ§λ§ state λ ν΄λΉ μμ μμμ λͺ¨λ μ 보λ₯Ό ν¬ν¨νκ³ μλ μͺ½μ κ°κΉκ³ observation μ κ·Έλ¬ν state μμ μ»μ μ μλ μ λ³΄λ‘ κ΅¬λΆν΄μΌ νλ€.
κ·Έλ¦Όμμμ λ observation λ‘λΆν° μ΄λ ν action λ₯Ό μ ννκ² νλ policy μ΄λ€.
Markov property μ μν΄ λ κΉμ§μ λͺ¨λ μ 보λ₯Ό λ΄κ³ μλ€κ³ κ°μ νλ€.
Imitation Learning

μ λ¬Έκ°μ νλμ κΈ°λ°μΌλ‘ 보μν¨μλ₯Ό μ€μ νμ¬ policy λ₯Ό μ°Ύλ λ°©λ²
ALVINN: https://proceedings.neurips.cc/paper/1988/file/812b4ba287f5ee0bc9d43bbf5bbe87fb-Paper.pdf
νμ§λ§ μ΄λ¬ν λ°©μμ μ½κ² μ€ν¨νλ€. μκ°μ΄ μ§λ¨μ λ°λΌ μλͺ»λ μ ν ( mistakes ) κ° λμ λκΈ°λ νκ³ , μ΄λ€ λ²μκΉμ§ μ λ¬Έκ°μ νλμ λͺ¨λ°©ν΄μΌ νλμ§ λͺ¨νΈνκ³ λ³μΉμ μΈ μν©μ μ·¨μ½νλ€.

supervised learning μμλ μ΄λ¬ν μ±ν₯μ΄ λνλμ§ μλλ€. 3 κ°μ μΉ΄λ©λΌλ₯Ό μ΄μ©ν΄ μ’/μ°μΈ‘μ μ΄λ―Έμ§κ° λ€μ΄μ€λ κ²½μ°μλ μ°¨λμ steering μ μ‘°μ νλλ‘ ν λ°©μμ μ λλ‘λ₯Ό λ°λΌκ° μ μμλ€. λν, μ΄μ μμλ mistake κ° μκΈ°λ©΄ κ΄μΈ‘νμ§ λͺ»ν μλ‘μ΄ νκ²½μ λμλ λ¬Έμ λ₯Ό data λ₯Ό augment νμ¬ ν΄κ²°νμλ€.
Why does behavioral cloning fail? A bit of theory
μ΄λ»κ² ν΄μΌ νμ΅λ λ₯Ό μ’κ² λ§λ€ μ μμκΉ?
νμ΅ν action μ likelihood λ₯Ό μ΅λν νλ κ²μ μλ κ²μ΄λ€.
μ΄λ κ² νλ©΄ μ΄μ μκ° μ€μ λ‘ λ³΄μλ observation μμ μ·¨νλ action μ λμ νλ₯ λΆν¬λ₯Ό ν λΉνκ² λκ³ , μ΄λ μ½κ°μ λ€λ₯Έ μν©μμ mistake λ₯Ό μ λ°νλ€.
κ·Έλμ μ°λ¦¬λ μλμ κ°μ΄ cost ν¨μλ₯Ό μ μν΄λ³Ό μ μλ€.
μ·¨ν action μ΄ μ΄μ μκ° μ·¨νλ action κ³Ό λμΌνλ©΄ cost λ₯Ό 0μΌλ‘ νκ³ , μ΄ μΈμ κ²½μ°μλ 1λ‘ λλ κ²μ΄λ€. μ΄ κ²½μ° μ΄μ μκ° deterministic policy μμ κ°μ νλ€.
μ½κ²νμλ©΄, mistake λ₯Ό μΌμΌν€λ©΄ cost λ₯Ό λ°κ²λλ κ²μ΄λ€.
μ΄μ λͺ©νλ state μ νλ₯ λΆνμμ κΈ°λλλ cost λ₯Ό μ΅μν νλ κ²μ΄λ€.
Some analysis

μ 체 horizon μκ°μ λΌκ³ νμ. κ·Έλ¦¬κ³ νμ΅λ state λΌλ©΄ () μ΄μ μμ λ€λ₯Έ action μ μ·¨ν νλ₯ μ μ΄νλΌκ³ νμ.
κ·Έλ λ€λ©΄ μΈμ€νκΈ°μ²λΌ κ΅μ₯ν μ’μ§ μμ κ²°κ³Όκ° λνλ κ²μ΄λ€.
ν λ²μ mistake λ₯Ό μ μ§λ₯΄λ©΄ λμ΄μ μ΄μ μκ° λ³΄μλ state μ μμ§ μκΈ° λλ¬Έμ λμ΄μ μ΄λ»κ² ν μ§ λͺ¨λ₯΄κΈ° λλ¬Έμ΄λ€.
μ΄λ cost κ° unbounded λμ΄ μλ νλ₯ μ΄κΈ° λλ¬Έμ μ 체 cost μ λν΄ bound λ₯Ό μ€μ ν΄μ£Όμ΄μΌ νλ€.

첫 λΈλ‘μμλ(첫 λ²μ§Έ timestamp) μ μ΄λ μ mistake λ₯Ό μ μ§λ₯΄κ² λ κ²μ΄λ€. mistake λ₯Ό μ μ§λ₯΄μ§ μμΌλ©΄ λ€μ λΈλ‘μΌλ‘ λμ΄κ°κ² λκ³ , μ΄λ¬ν κ³Όμ μ΄ λ°λ³΅λλ©° κΈμλ₯Ό ꡬμ±ν μ μκ² λλ€.
κ° κ° κ° μμΌλ―λ‘ μ 체 order λ κ° λλ€. μ΄λ μ΅μ μ κ²½μ°, μκ°μ΄ μ§λ¨μ λ°λΌ quadratic (μ κ³±)μΌλ‘ μ€μλ₯Ό μ μ§λ₯Ό νλ₯ μ΄ μ¬λΌκ°μ μλ―Ένλ€.
More general analysis
μ΄μ λͺ¨λ state κ° training set μ μλ κ²()μ΄ μλλΌ training set μ νλ₯ λΆν¬λ‘λΆν° μνλ§λμλ€κ³ νμ.
κ·Έλ¬λ©΄ κΈ°λκ°μ κ³μ°νλ κ²μΌλ‘λ μΆ©λΆνκ³ λ νμ€μ μΈ μ κ·Όμ΄λ€.
DAgger λ₯Ό μ¬μ©νλ©΄ λ‘ λ§λ€μ΄μ£Όκ³ λ₯Ό μ»κ²λλ€.
λ§μ½ μΈ κ²½μ°μλ mistake λ₯Ό μ μ§λ₯΄μ§ μμ νλ₯ κ³Ό μ μ§λ₯Ό νλ₯ λ‘ λλκ² λλ€.
첫 λ²μ§Έ term μ ꡬνκΈ° μ½μ§λ§ λ λ²μ§Έ term μ λ κ½€ 볡μ‘νλ€.
μ΄μ μλ μμμ΄ μ μ΄ν΄λμ§ μμλ€. κ° νλ₯ λΆν¬μ μ΅λ μ°¨μ΄λ₯Ό λͺ¨λ state μ λν΄ λνλ©΄ 2 μ¬μ λ€μκ³Ό κ°μ΄ μ 리λλ€κ³ νλ€.
λ₯Ό μ΄μ©νλ©΄ κ²°κ΅ λ μ΄νκ° λλ€.
μ΄λ₯Ό λ°νμΌλ‘ μ°λ¦¬κ° μ§μ§ μ΄ν΄λ³΄κ³ μΆμ cost μ κΈ°λκ°μ μμ보μ.
λͺ¨λ μμ μ·¨ν action μ cost λ₯Ό λͺ¨λ λν κ²μ μμμΌλ‘ ννν κ²μΈλ°, λ₯Ό λ‘ λ°κΎΈκ³ μ μ κ³±μ λ°κΉ₯μΌλ‘ λΉΌλ΄μ΄ bound λ₯Ό ꡬν΄λ³΄μ.
μ μ 쑰건과 μν΄μ ꡬν΄λμ λΆλ±μμΌλ‘ λ°λ‘ μ»μ΄λΌ μ μλ€. μ΄λ₯Ό μ λν΄ κ³μ°ν΄μ£Όλ©΄ μ΄ λλ€.
κ²°λ‘ μ μΌλ‘λ λ§μ°¬κ°μ§λ‘ μ μκ°λ³΅μ‘λκ° λ¨μ μ μ μλ€.
μ μ΄λ° μ’μ§ μμ κ²°κ³Όκ° λνλ κΉ? Imitation learning μμλ mistake λ₯Ό λ€μ 볡ꡬνλ λ°©λ²μ λ°°μ°μ§ μκΈ° λλ¬Έμ΄λ€.
λ§μ½ νμ΅ν state μ λΆν¬κ° λ λλ€λ©΄, μ½κ°μ mistake λ₯Ό νλλΌλ μ¬μ ν μ΄λ¬ν λΆν¬ μμ μμ κ²μ΄λ―λ‘ μ‘°κΈ λ μ λ°°μ΄λλ‘ λμκ° μ μμ κ²μ΄λ€.
μ¬κΈ°μμ μκΈ°λ λͺ¨μμ μ imitation learning μ΄ λ°μ΄ν°κ° mistake λ₯Ό κ°μ΄ κ°μ§κ³ μμ λ λ μ’μ μ±λ₯μ λΌ μ μλ€λ κ²μ΄λ€.