1. κ°ννμ΅ μν
리μ€νΈμ λ λ΄μ©μ κ°λ³κ² μ΄ν΄λ³΄κ³ μ λͺ¨λ₯΄λ λ΄μ©μ κΉκ² μ΄ν΄νκΈ°
ν λ²μ© μ΄ν΄λ³Έ ν pdf μλ£ μ°Έκ³ νμ¬ λ³΅μ΅
01, 02 μκ³ λ¦¬μ¦μ μ΄ν΄νκΈ° μν μν λ΄μ©
- νλ₯ κ³Ό λλ€ λ³μ
νλ₯ : μ΄λ€ μ¬κ±΄μ΄ μΌμ΄λ κ°λ₯μ±
λλ€ λ³μ: νλ₯ μ μΈ μ¬κ±΄μ κ²°κ³Όλ₯Ό μμΉλ‘ ννν λ³μ
-
μ΄μ° λλ€ λ³μ(Discrete Random Variable)
-
μ°μ λλ€ λ³μ(Continuous Random Variable)
- κΈ°λκ°κ³Ό λΆμ°
κΈ°λκ°(Expectation): λλ€ λ³μμ νκ· μ μΈ κ°
λΆμ°(Variance): λλ€ λ³μκ° κΈ°λκ°μΌλ‘λΆν° μΌλ§λ λ¨μ΄μ Έ μλμ§ μΈ‘μ νλ μ§ν
- λλ€ λ²‘ν°
λλ€ λ²‘ν°: μ¬λ¬ κ°μ λλ€ λ³μλ₯Ό λ²‘ν° ννλ‘ ννν κ²
- κ°μ°μμ λΆν¬
κ°μ°μμ λΆν¬: νκ· κ³Ό νμ€νΈμ°¨λ‘ μ μν μ μλ μ°μ νλ₯ λΆν(μ κ· λΆν¬)
- λλ€ μνμ€
λλ€ μνμ€: μκ°μ λ°λΌ λ³νλ λλ€ λ³μμ μμ΄
- μ ν νλ₯ μ°¨λΆλ°©μ μ(Linear Stochastic Differential Equation)
μμ€ν μ΄ νκ· μ μΌλ‘ μ΄λ»κ² μμ§μ΄λ μ§ λνλ΄λ Drift Term κ³Ό μμ€ν μ λλ€μ±μ λνλ΄λ Diffusion Term , Wiener Process λ₯Ό ν΅ν΄ μμ€ν μ λμ μΈ νλμ λͺ¨λΈλ§ ν¨.
-
Wiener Process(or Brownian motion)
νλ₯ κ³Όμ μ ν μ’ λ₯
- μΌλ‘ μ΄κΈ°κ°μ 0μ΄λ€.
- λ 립 μ¦λΆ: μκ° κ°κ²©μ΄ λ€λ₯΄λ©΄ μ¦λΆλ€μ΄ λ 립μ μ΄λ€.
- Stationarity: μ¦λΆμ λΆν¬λ μκ°μ λ°λΌ λ³νμ§ μλλ€.
- μ°μμ±: λͺ¨λ μκ° μ λν΄ κ° μ°μμ΄λ€.
-
λ―Έμ μ¦λΆ(Infinitesimal Increment)
λ°λΌμ λ―Έμ μ¦λΆ λ νκ· μ΄ 0μ΄κ³ , λΆμ°μ΄ μ΄λ€.
μ΄ λμ κ³±μ μμ€ν μ λλ€μ±μ μλ―Ένλ€.
- μ€μ μνλ§
μνλ§μ΄ μ΄λ €μ΄ λΆν¬ λμ λΉκ΅μ μνλ§μ΄ μ¬μ΄ λ₯Ό ν΅ν΄ μ κΈ°λκ°μ μΆμ νλ λ°©λ²
-
μνΈλ‘νΌ: μ 보μ λΆνμ€μ±μ μΈ‘μ νλ μ²λ. λμ μνΈλ‘νΌλ λμ λΆνμ€μ±μ μλ―Ένλ€.
-
KL λ°μ°(Kullback-Leibler Divergence)
λ νλ₯ λΆν¬ Pμ Q μ¬μ΄μ μ°¨μ΄λ₯Ό μΈ‘μ νλ μ²λμ΄λ€. μλ₯Ό λ€μ΄ λ°μ΄ν°μ νλ₯ λΆν¬μμ λͺ¨λΈμ΄ μμΈ‘ν νλ₯ λΆν¬ κ°μ 거리λ₯Ό μΈ‘μ ν λ μ¬μ©λ μ μλ€.
μ΄ κ°μ΄ μμ μλ‘ λ λΆν¬κ° μ μ¬νλ€κ³ ν μ μλ€.
- κ²½μ¬νκ°λ²(Gradient Descent)
λͺ©μ ν¨μλ₯Ό μ΅μννλ λ₯Ό μ°Ύλ μκ³ λ¦¬μ¦ μ€ νλ
- μμ€ν¨μμ νλ₯ λ‘ μ ν΄μ
Loss Functionμ λͺ¨λΈμ νλΌλ―Έν°λ₯Ό μΆμ νλ Maximum Likelihood Estimation(MLE)μ μΌν
μνμΌλ‘ νμ΄λ³΄λ κ°ννμ΅ μ리μ μκ³ λ¦¬μ¦ 1μ₯
1.1.5 μ‘°κ±΄λΆ νλ₯ ν¨μ
Aμ Bμ κ³±μ¬κ±΄ νλ₯ κ³Ό Bλ§ λ°μν νλ₯ μ λΉ
μ 체 νλ³Έκ³΅κ° Sμ νλ₯ μ 1μ΄λ―λ‘ μ΄λ€. κ·Έλ¬λ―λ‘ μ 체 ν본곡κ°μ΄ μ¬κ±΄ Bλ‘ μΆμλ κ²μΌλ‘ μκ°ν μ λ μλ€.
λλ€ λ³μ Yκ° yλ‘ μ£Όμ΄μ§ Xμ μ‘°κ±΄λΆ νλ₯ λ°λν¨μ(conditional probability density function) λ μλμ κ°μ΄ ννλλ€.
μ΄λ λ₯Ό κ° λ―Έμκ΅¬κ° μ μνλ€κ³ ν΄μνλ€.
κ·Έλ¬λ©΄ chain ruleμ μ λν μ μλ€.
- λμ νλ₯ λ°λν¨μ(cdf; cumulative probability density function)
μ£Όλ‘ F(x)μ κ°μ κΈ°νΈλ‘ νννλ€. μ΄λ λ³μ xλ λ²μμ λμ λ»νλ©° λ²μμ μμμ μ μλ―Ένλ€.
μΈ κ²μ΄λ€.
- νλ₯ λ°λν¨μ(probability density function)
μ΄λ¬ν λμ νλ₯ λ°λν¨μλ₯Ό λ―ΈλΆν λν¨μκ° νλ₯ λ°λν¨μ μ΄λ€. λμ νλ₯ λ°λν¨μλ κ΅¬κ° λ§λ€μ νλ₯ μ μκΈ° νλ€κΈ° λλ¬Έμ μ΄λ€ κ°μ΄ λ μμ£Όλμ¨λ€ λ±μ μ 보λ₯Ό μν΄ νλ₯ λ°λν¨μλ₯Ό μ¬μ©νλ€.
μ£Όλ‘ f(x)μ κΈ°νΈλ₯Ό μ¬μ©νλ€.
λλ μ κ°λ€.
Reference: νλ₯ λΆν¬ν¨μμ νλ₯ λ°λν¨μμ μλ―Έ
1.1.8 Bayesβ theorem
μ νλ₯ (total probability) μ 리λ₯Ό νλ₯ λ°λν¨μλ‘ νννλ©΄ μλμ κ°λ€.
μ΄ λ, μ΄λ€. dyμ λνμ¬ λͺ¨λ λ²μλ₯Ό μ λΆνλ©΄ Xμ Yμ κ΅μ§ν©μΈ μ¬κ±΄μ νλ₯ μ 0μ΄λ―λ‘ Xμ νλ₯ μ΄ λλ€.
μ‘°κ±΄λΆ νλ₯ μ μ νλ₯ μ 리μ λμ νλ©΄ μλμ κ°λ€.
λΆλͺ¨ λ μ κ°λ€.
μ μμ λ² μ΄μ¦ μ 리(Bayesβ theorem)μ΄λΌκ³ νλ€.
1.1.9 μνλ§
κ° μνμ΄ μ΄λ€ νλ₯ μ νΉμ±μ κ°λ λͺ¨μ§λ¨μμ λ 립μ μ΄κ³ 곡ννκ² μΆμΆλ κ²½μ° μΆμΆλ μνμ λ 립λμΌλΆν¬(iid, independent and identically distributed) μνμ΄λΌκ³ νλ€.
1.5 λλ€ μνμ€
λλ€ λ³μ λ νλ₯ μ€νμ κ²°κ³Όμ μ€μ«κ°μ λμμν€λ ν¨μλ‘ μ μνλ€.
discrete-time random process or random sequenceλ νλ₯ μ€νμ κ²°κ³Όμ μκ° ν¨μλ₯Ό λμμν€λ ν¨μλ‘ μ μνλ€. β
λλ€ μνμ€λ μκ°μ λ°λΌ λ³νλ νλ₯ μ€νμ λͺ¨λΈλ§νλλ° μ΄μ©λλ€.(e.g. μ£Όμ κ°κ²©, μΌμμ λ Έμ΄μ¦ λ±)
μν ν¨μ λ time step tμμμ stateλ₯Ό μλ―Ένλ©°, deterministic & ensemble νλ€.
continuous timeμμλ random processλΌκ³ νλ€.
1.5.3 Markov sequence(or process)
νμ¬μ νλ₯ μ λ³΄κ° μ£Όμ΄μ§ 쑰건 νμμ, λ―Έλμ κ³Όκ±°λ 무κ΄ν(νΉμ μ‘°κ±΄λΆ λ 립μΈ) λλ€ μνμ€(λλ νλ‘μΈμ€)
μ¦, κ³Όκ±°μ λͺ¨λ νλ₯ μ 보λ νμ¬μ νλ₯ μ 보μ ν¬ν¨λμ΄ μλ€λ μλ―Έμ΄λ€.
1.10 Kullback-Leibler divergence
μλ μνΈλ‘νΌ(relative entropy)λΌκ³ λ νλ€.
거리μ μ²λ νΉμ± 4κ°μ§ μ€ 3κ°μ§ λ§μ λ§μ‘±νκ³ , λμΉμ±μ λ§μ‘±νμ§ λͺ»ν΄ semi distance metricμ΄λΌκ³ νλ€.
μ΄ λ λ κ΅μ°¨ μνΈλ‘νΌ(cross entropy)λΌκ³ νλ©° νλ₯ λ°λν¨μ q(x)μ μ 보λμ p(x)μ κ΄μ μμ κΈ°λκ°μΌλ‘ ννν κ²μ΄λ€.
Reference: KL-divergence
1.12 벑ν°μ νλ ¬μ λ―ΈλΆ
μΈ λ²‘ν°μ΄κ³ , Aλ μΈ νλ ¬μ΄κ³ μ€μΉΌλΌ ν¨μ λ‘ μ£Όμ΄μ‘μ λ
λ²‘ν° ν¨μ μΌ λ λ―ΈλΆνλ©΄ μ΄λ€.
λ₯Ό Hessian matrixλΌκ³ νλ€. (symmetric)
1.14 κ²½μ¬νκ°λ²
νμ΅ λ°μ΄ν°λ₯Ό ν λ²μ μΌκ΄μ μΌλ‘ μ²λ¦¬ν΄ κ²½μ¬νκ°λ²μ μ μ©νλ λ°©λ²μ batch gradient descentλΌκ³ νλ€.
μ΄λ¬ν λ°©μμ νμ΅ λ°μ΄ν°κ° λ§μ κ²½μ° μ°μ°λμ΄ λ§€μ° ν¬λ―λ‘, μ΄λ₯Ό κ°μ νκΈ° μν΄ SGD(Stochastic Gradient Descent)κ° κ³ μλμλ€.
무μμλ‘ μΆμΆλ νμ΅ λ°μ΄ν° ν κ°λ₯Ό μ΄μ©ν΄ λ₯Ό μ λ°μ΄νΈ νλ€.
μ λ°μ΄νΈ μλκ° λ§€μ° λΉ λ₯Έ λμ λ Έμ΄μ¦κ° μ¬νλ€.
mini-batchλ μ 2κ°μ λ°©λ²μ μ μΆ©μμΌλ‘ bκ°μ νμ΅ λ°μ΄ν°λ₯Ό 무μμλ‘ μΆμΆν΄ μ λ°μ΄νΈ νλ€.
1.15 κ²½μ¬νκ°λ²μ κ°μ
Gradient descentμ λ¨μ μ step size λ₯Ό μ μ ν μ ν΄μΌ νκ³ , global optimumμ΄ λ³΄μ₯λ μ μλ€.(saddle point)
μ΄λ₯Ό κ°μ νκΈ° μν΄ GD w/ momentum, RMSprop, Adam λ±μ΄ μλ€.
- λͺ¨λ©ν
νλΌλ―Έν°λ₯Ό λ°λ‘ μ΄λμν€μ§ μκ³ , κΈ°μ‘΄μ μ΄λνλ λ°©ν₯μΌλ‘μ μμ§μμ μΌμ λΆλΆ μ μ§νλ©΄μ(momentum) κ·ΈλλμΈνΈκ° κ°λ¦¬ν€λ λ°©ν₯μ λ°λ λ°©ν₯μ μ λΉν νΌν©ν΄ μ΄λνλ κ²μ΄λ€.
μ΄ λμ λ₯Ό λͺ¨λ©ν κ³μλΌκ³ νλ€. κ·ΈλλμΈνΈμ μ΄λ ꡬκ°μ μΌλΆ μ·¨ν΄ μ¬μ©νλ―λ‘, κ΄μ± λ°©ν₯μ κ·ΈλλμΈνΈλ₯Ό μΌμ μκ°λμ λμ μν¨ νκ· μΌλ‘ ν΄μν μ μλ€.
- RMSprop
κ° νλΌλ―Έν° μ κ΅¬μ± μμλ§λ€ μ€ν μ¬μ΄μ¦ λ₯Ό λ€λ₯΄κ² μ£Όλ κ²μ΄λ€. ν¬κ² λ³νν λ λ₯Ό μκ² νκ³ , κ·Έλ μ§ μμΌλ©΄ ν¬κ² νμ¬ μ΅μμ μΌλ‘ λΉ λ₯΄κ² μ΄λμν€κ² λ€λ κ²μ΄λ€.
λ§μ΄ λ³ννλ μ§μ νλ¨ κΈ°μ€μ κ·ΈλλμΈνΈ μ κ³± ν¬κΈ°μ μ΄λ κ΅¬κ° νκ· κ°μΌλ‘ νλ¨νλ€.
- Adam (Adaptive moment estimation)
Adamμ λͺ¨λ©ν κ³Ό RMSpropμ ν©μΉ λ°©λ²μ΄λ€.
κ° timestep kμ λν΄ κ·ΈλλμΈνΈμ μ΄λ κ΅¬κ° νκ· μ κ΅¬ν΄ λ₯Ό μ λ°μ΄νΈ νκ³ , RMSprop μ²λΌ νλΌλ―Έν°μ μμλ³ κ·ΈλλμΈνΈ μ κ³± ν¬κΈ°μ μ΄λ κ΅¬κ° νκ· μ κ΅¬ν΄ λ₯Ό μ λ°μ΄νΈ νλ€.
κ·Έλ¦¬κ³ μΌλμ νΈν₯μ 보μ νμ¬ λ₯Ό μ λ°μ΄νΈ νλ€.
Original Link : μ°μΈλλ‘ 4κΈ° RL μ€ν°λ