1. κ°•ν™”ν•™μŠ΅ μˆ˜ν•™

λ¦¬μŠ€νŠΈμ—… 된 λ‚΄μš©μ„ κ°€λ³κ²Œ μ‚΄νŽ΄λ³΄κ³  잘 λͺ¨λ₯΄λŠ” λ‚΄μš©μ€ 깊게 μ΄ν•΄ν•˜κΈ°

ν•œ λ²ˆμ”© μ‚΄νŽ΄λ³Έ ν›„ pdf 자료 μ°Έκ³ ν•˜μ—¬ 볡슡

01, 02 μ•Œκ³ λ¦¬μ¦˜μ„ μ΄ν•΄ν•˜κΈ° μœ„ν•œ μˆ˜ν•™ λ‚΄μš©

  1. ν™•λ₯ κ³Ό 랜덀 λ³€μˆ˜

ν™•λ₯ : μ–΄λ–€ 사건이 일어날 κ°€λŠ₯μ„±

랜덀 λ³€μˆ˜: ν™•λ₯  적인 μ‚¬κ±΄μ˜ κ²°κ³Όλ₯Ό 수치둜 ν‘œν˜„ν•œ λ³€μˆ˜

  • 이산 랜덀 λ³€μˆ˜(Discrete Random Variable)

  • 연속 랜덀 λ³€μˆ˜(Continuous Random Variable)

  1. κΈ°λŒ“κ°’κ³Ό λΆ„μ‚°

κΈ°λŒ“κ°’(Expectation): 랜덀 λ³€μˆ˜μ˜ 평균적인 κ°’

λΆ„μ‚°(Variance): 랜덀 λ³€μˆ˜κ°€ κΈ°λŒ“κ°’μœΌλ‘œλΆ€ν„° μ–Όλ§ˆλ‚˜ λ–¨μ–΄μ Έ μžˆλŠ”μ§€ μΈ‘μ •ν•˜λŠ” μ§€ν‘œ

  1. 랜덀 벑터

랜덀 벑터: μ—¬λŸ¬ 개의 랜덀 λ³€μˆ˜λ₯Ό 벑터 ν˜•νƒœλ‘œ ν‘œν˜„ν•œ 것

  1. κ°€μš°μ‹œμ•ˆ 뢄포

κ°€μš°μ‹œμ•ˆ 뢄포: 평균과 ν‘œμ€€νŽΈμ°¨λ‘œ μ •μ˜ν•  수 μžˆλŠ” 연속 ν™•λ₯  λΆ„ν‘œ(μ •κ·œ 뢄포)

  1. 랜덀 μ‹œν€€μŠ€

랜덀 μ‹œν€€μŠ€: μ‹œκ°„μ— 따라 λ³€ν•˜λŠ” 랜덀 λ³€μˆ˜μ˜ μˆœμ—΄

  1. μ„ ν˜• ν™•λ₯  차뢄방정식(Linear Stochastic Differential Equation)

μ‹œμŠ€ν…œμ΄ ν‰κ· μ μœΌλ‘œ μ–΄λ–»κ²Œ μ›€μ§μ΄λŠ” μ§€ λ‚˜νƒ€λ‚΄λŠ” Drift Term κ³Ό μ‹œμŠ€ν…œμ˜ λžœλ€μ„±μ„ λ‚˜νƒ€λ‚΄λŠ” Diffusion Term , Wiener Process λ₯Ό 톡해 μ‹œμŠ€ν…œμ˜ 동적인 행동을 λͺ¨λΈλ§ 함.

  • Wiener Process(or Brownian motion)

    ν™•λ₯  κ³Όμ •μ˜ ν•œ μ’…λ₯˜

    • 으둜 μ΄ˆκΈ°κ°’μ€ 0이닀.
    • 독립 증뢄: μ‹œκ°„ 간격이 λ‹€λ₯΄λ©΄ 증뢄듀이 독립적이닀.
    • Stationarity: μ¦λΆ„μ˜ λΆ„ν¬λŠ” μ‹œκ°„μ— 따라 λ³€ν•˜μ§€ μ•ŠλŠ”λ‹€.
    • 연속성: λͺ¨λ“  μ‹œκ°„ 에 λŒ€ν•΄ κ°€ 연속이닀.
  • λ―Έμ†Œ 증뢄(Infinitesimal Increment)

    λ”°λΌμ„œ λ―Έμ†Œ 증뢄 λŠ” 평균이 0이고, 뢄산이 이닀.

이 λ‘˜μ˜ 곱은 μ‹œμŠ€ν…œμ˜ λžœλ€μ„±μ„ μ˜λ―Έν•œλ‹€.

  1. μ€‘μš” μƒ˜ν”Œλ§

μƒ˜ν”Œλ§μ΄ μ–΄λ €μš΄ 뢄포 λŒ€μ‹  비ꡐ적 μƒ˜ν”Œλ§μ΄ μ‰¬μš΄ λ₯Ό 톡해 의 κΈ°λŒ“κ°’μ„ μΆ”μ •ν•˜λŠ” 방법

  1. μ—”νŠΈλ‘œν”Ό: μ •λ³΄μ˜ λΆˆν™•μ‹€μ„±μ„ μΈ‘μ •ν•˜λŠ” 척도. 높은 μ—”νŠΈλ‘œν”ΌλŠ” 높은 λΆˆν™•μ‹€μ„±μ„ μ˜λ―Έν•œλ‹€.

  2. KL λ°œμ‚°(Kullback-Leibler Divergence)

두 ν™•λ₯  뢄포 P와 Q μ‚¬μ΄μ˜ 차이λ₯Ό μΈ‘μ •ν•˜λŠ” 척도이닀. 예λ₯Ό λ“€μ–΄ λ°μ΄ν„°μ˜ ν™•λ₯  뢄포와와 λͺ¨λΈμ΄ μ˜ˆμΈ‘ν•œ ν™•λ₯  뢄포 κ°„μ˜ 거리λ₯Ό μΈ‘μ •ν•  λ•Œ μ‚¬μš©λ  수 μžˆλ‹€.

이 값이 μž‘μ„ 수둝 두 뢄포가 μœ μ‚¬ν•˜λ‹€κ³  ν•  수 μžˆλ‹€.

  1. κ²½μ‚¬ν•˜κ°•λ²•(Gradient Descent)

λͺ©μ  ν•¨μˆ˜λ₯Ό μ΅œμ†Œν™”ν•˜λŠ” λ₯Ό μ°ΎλŠ” μ•Œκ³ λ¦¬μ¦˜ 쀑 ν•˜λ‚˜

  1. μ†μ‹€ν•¨μˆ˜μ˜ ν™•λ₯ λ‘ μ  해석

Loss Function은 λͺ¨λΈμ˜ νŒŒλΌλ―Έν„°λ₯Ό μΆ”μ •ν•˜λŠ” Maximum Likelihood Estimation(MLE)의 μΌν™˜


μˆ˜ν•™μœΌλ‘œ ν’€μ–΄λ³΄λŠ” κ°•ν™”ν•™μŠ΅ 원리와 μ•Œκ³ λ¦¬μ¦˜ 1μž₯

1.1.5 쑰건뢀 ν™•λ₯ ν•¨μˆ˜

A와 B의 곱사건 ν™•λ₯ κ³Ό B만 λ°œμƒν•  ν™•λ₯ μ˜ λΉ„

전체 ν‘œλ³Έκ³΅κ°„ S의 ν™•λ₯ μ€ 1μ΄λ―€λ‘œ 이닀. κ·ΈλŸ¬λ―€λ‘œ 전체 ν‘œλ³Έκ³΅κ°„μ΄ 사건 B둜 μΆ•μ†Œλœ κ²ƒμœΌλ‘œ 생각할 수 도 μžˆλ‹€.

랜덀 λ³€μˆ˜ Yκ°€ y둜 μ£Όμ–΄μ§„ X의 쑰건뢀 ν™•λ₯ λ°€λ„ν•¨μˆ˜(conditional probability density function) λŠ” μ•„λž˜μ™€ 같이 ν‘œν˜„λœλ‹€.

μ΄λ•Œ λ₯Ό κ°€ λ―Έμ†Œκ΅¬κ°„ 에 μ†ν•œλ‹€κ³  ν•΄μ„ν•œλ‹€.

그러면 chain rule을 μœ λ„ν•  수 μžˆλ‹€.

  • λˆ„μ  ν™•λ₯  λ°€λ„ν•¨μˆ˜(cdf; cumulative probability density function)

주둜 F(x)와 같은 기호둜 ν‘œν˜„ν•œλ‹€. μ΄λ•Œ λ³€μˆ˜ xλŠ” λ²”μœ„μ˜ 끝을 λœ»ν•˜λ©° λ²”μœ„μ˜ μ‹œμž‘μ€ 을 μ˜λ―Έν•œλ‹€.

인 것이닀.

  • ν™•λ₯  λ°€λ„ν•¨μˆ˜(probability density function)

μ΄λŸ¬ν•œ λˆ„μ  ν™•λ₯  λ°€λ„ν•¨μˆ˜λ₯Ό λ―ΈλΆ„ν•œ λ„ν•¨μˆ˜κ°€ ν™•λ₯  λ°€λ„ν•¨μˆ˜ 이닀. λˆ„μ  ν™•λ₯  λ°€λ„ν•¨μˆ˜λŠ” ꡬ간 λ§ˆλ‹€μ˜ ν™•λ₯ μ„ μ•ŒκΈ° νž˜λ“€κΈ° λ•Œλ¬Έμ— μ–΄λ–€ 값이 더 μžμ£Όλ‚˜μ˜¨λ‹€ λ“±μ˜ 정보λ₯Ό μœ„ν•΄ ν™•λ₯  λ°€λ„ν•¨μˆ˜λ₯Ό μ‚¬μš©ν•œλ‹€.

주둜 f(x)의 기호λ₯Ό μ‚¬μš©ν•œλ‹€.

λ˜λŠ” 와 κ°™λ‹€.

Reference: ν™•λ₯ λΆ„ν¬ν•¨μˆ˜μ™€ ν™•λ₯ λ°€λ„ν•¨μˆ˜μ˜ 의미

1.1.8 Bayes’ theorem

μ „ν™•λ₯ (total probability) 정리λ₯Ό ν™•λ₯ λ°€λ„ν•¨μˆ˜λ‘œ ν‘œν˜„ν•˜λ©΄ μ•„λž˜μ™€ κ°™λ‹€.

이 λ•Œ, 이닀. dy에 λŒ€ν•˜μ—¬ λͺ¨λ“  λ²”μœ„λ₯Ό μ λΆ„ν•˜λ©΄ X와 Y의 ꡐ집합인 μ‚¬κ±΄μ˜ ν™•λ₯ μ€ 0μ΄λ―€λ‘œ X의 ν™•λ₯ μ΄ λœλ‹€.

쑰건뢀 ν™•λ₯ μ„ μ „ν™•λ₯  정리에 λŒ€μž…ν•˜λ©΄ μ•„λž˜μ™€ κ°™λ‹€.

λΆ„λͺ¨ λŠ” 와 κ°™λ‹€.

μœ„ 식을 베이즈 정리(Bayes’ theorem)이라고 ν•œλ‹€.

1.1.9 μƒ˜ν”Œλ§

각 μƒ˜ν”Œμ΄ μ–΄λ–€ ν™•λ₯ μ  νŠΉμ„±μ„ κ°–λŠ” λͺ¨μ§‘λ‹¨μ—μ„œ 독립적이고 κ³΅ν‰ν•˜κ²Œ μΆ”μΆœλœ 경우 μΆ”μΆœλœ μƒ˜ν”Œμ„ 독립동일뢄포(iid, independent and identically distributed) μƒ˜ν”Œμ΄λΌκ³  ν•œλ‹€.

1.5 랜덀 μ‹œν€€μŠ€

랜덀 λ³€μˆ˜ λŠ” ν™•λ₯  μ‹€ν—˜μ˜ 결과에 μ‹€μˆ«κ°’μ„ λŒ€μ‘μ‹œν‚€λŠ” ν•¨μˆ˜λ‘œ μ •μ˜ν–ˆλ‹€.

discrete-time random process or random sequenceλŠ” ν™•λ₯  μ‹€ν—˜μ˜ 결과에 μ‹œκ°„ ν•¨μˆ˜λ₯Ό λŒ€μ‘μ‹œν‚€λŠ” ν•¨μˆ˜λ‘œ μ •μ˜ν•œλ‹€. β‡’

랜덀 μ‹œν€€μŠ€λŠ” μ‹œκ°„μ— 따라 λ³€ν•˜λŠ” ν™•λ₯  μ‹€ν—˜μ„ λͺ¨λΈλ§ν•˜λŠ”λ° μ΄μš©λœλ‹€.(e.g. 주식 가격, μ„Όμ„œμ˜ λ…Έμ΄μ¦ˆ λ“±)

μƒ˜ν”Œ ν•¨μˆ˜ λŠ” time step tμ—μ„œμ˜ stateλ₯Ό μ˜λ―Έν•˜λ©°, deterministic & ensemble ν•˜λ‹€.

continuous timeμ—μ„œλŠ” random process라고 ν•œλ‹€.

1.5.3 Markov sequence(or process)

ν˜„μž¬μ˜ ν™•λ₯  정보가 μ£Όμ–΄μ§„ 쑰건 ν•˜μ—μ„œ, λ―Έλž˜μ™€ κ³Όκ±°λŠ” λ¬΄κ΄€ν•œ(ν˜Ήμ€ 쑰건뢀 독립인) 랜덀 μ‹œν€€μŠ€(λ˜λŠ” ν”„λ‘œμ„ΈμŠ€)

즉, 과거의 λͺ¨λ“  ν™•λ₯  μ •λ³΄λŠ” ν˜„μž¬μ˜ ν™•λ₯  정보에 ν¬ν•¨λ˜μ–΄ μžˆλ‹€λŠ” μ˜λ―Έμ΄λ‹€.

1.10 Kullback-Leibler divergence

μƒλŒ€ μ—”νŠΈλ‘œν”Ό(relative entropy)라고도 ν•œλ‹€.

거리의 척도 νŠΉμ„± 4κ°€μ§€ 쀑 3κ°€μ§€ λ§Œμ„ λ§Œμ‘±ν•˜κ³ , λŒ€μΉ­μ„±μ„ λ§Œμ‘±ν•˜μ§€ λͺ»ν•΄ semi distance metric이라고 ν•œλ‹€.

이 λ•Œ λŠ” ꡐ차 μ—”νŠΈλ‘œν”Ό(cross entropy)라고 ν•˜λ©° ν™•λ₯ λ°€λ„ν•¨μˆ˜ q(x)의 μ •λ³΄λŸ‰μ„ p(x)의 κ΄€μ μ—μ„œ κΈ°λŒ“κ°’μœΌλ‘œ ν‘œν˜„ν•œ 것이닀.

Reference: KL-divergence

1.12 벑터와 ν–‰λ ¬μ˜ λ―ΈλΆ„

인 벑터이고, AλŠ” 인 행렬이고 슀칼라 ν•¨μˆ˜ 둜 μ£Όμ–΄μ‘Œμ„ λ•Œ

벑터 ν•¨μˆ˜ 일 λ•Œ λ―ΈλΆ„ν•˜λ©΄ 이닀.

λ₯Ό Hessian matrix라고 ν•œλ‹€. (symmetric)

1.14 κ²½μ‚¬ν•˜κ°•λ²•

ν•™μŠ΅ 데이터λ₯Ό ν•œ λ²ˆμ— μΌκ΄„μ μœΌλ‘œ μ²˜λ¦¬ν•΄ κ²½μ‚¬ν•˜κ°•λ²•μ„ μ μš©ν•˜λŠ” 방법을 batch gradient descent라고 ν•œλ‹€.

μ΄λŸ¬ν•œ 방식은 ν•™μŠ΅ 데이터가 λ§Žμ€ 경우 μ—°μ‚°λŸ‰μ΄ 맀우 ν¬λ―€λ‘œ, 이λ₯Ό κ°œμ„ ν•˜κΈ° μœ„ν•΄ SGD(Stochastic Gradient Descent)κ°€ κ³ μ•ˆλ˜μ—ˆλ‹€.

λ¬΄μž‘μœ„λ‘œ μΆ”μΆœλœ ν•™μŠ΅ 데이터 ν•œ 개λ₯Ό μ΄μš©ν•΄ λ₯Ό μ—…λ°μ΄νŠΈ ν•œλ‹€.

μ—…λ°μ΄νŠΈ 속도가 맀우 λΉ λ₯Έ λŒ€μ‹  λ…Έμ΄μ¦ˆκ°€ μ‹¬ν•˜λ‹€.

mini-batchλŠ” μœ„ 2개의 λ°©λ²•μ˜ μ ˆμΆ©μ•ˆμœΌλ‘œ b개의 ν•™μŠ΅ 데이터λ₯Ό λ¬΄μž‘μœ„λ‘œ μΆ”μΆœν•΄ μ—…λ°μ΄νŠΈ ν•œλ‹€.

1.15 κ²½μ‚¬ν•˜κ°•λ²•μ˜ κ°œμ„ 

Gradient descent의 단점은 step size λ₯Ό 적절히 μ •ν•΄μ•Ό ν•˜κ³ , global optimum이 보μž₯될 수 μ—†λ‹€.(saddle point)

이λ₯Ό κ°œμ„ ν•˜κΈ° μœ„ν•΄ GD w/ momentum, RMSprop, Adam 등이 μžˆλ‹€.

  • λͺ¨λ©˜ν…€

νŒŒλΌλ―Έν„°λ₯Ό λ°”λ‘œ μ΄λ™μ‹œν‚€μ§€ μ•Šκ³ , 기쑴에 μ΄λ™ν•˜λ˜ λ°©ν–₯으둜의 μ›€μ§μž„μ„ 일정 λΆ€λΆ„ μœ μ§€ν•˜λ©΄μ„œ(momentum) κ·Έλž˜λ””μ–ΈνŠΈκ°€ κ°€λ¦¬ν‚€λŠ” λ°©ν–₯의 λ°˜λŒ€ λ°©ν–₯을 μ λ‹Ήνžˆ ν˜Όν•©ν•΄ μ΄λ™ν•˜λŠ” 것이닀.

이 λ•Œμ˜ λ₯Ό λͺ¨λ©˜ν…€ κ³„μˆ˜λΌκ³  ν•œλ‹€. κ·Έλž˜λ””μ–ΈνŠΈμ˜ 이동 ꡬ간을 일뢀 μ·¨ν•΄ μ‚¬μš©ν•˜λ―€λ‘œ, κ΄€μ„± λ°©ν–₯은 κ·Έλž˜λ””μ–ΈνŠΈλ₯Ό 일정 μ‹œκ°„λ™μ•ˆ λˆ„μ μ‹œν‚¨ ν‰κ· μœΌλ‘œ 해석할 수 μžˆλ‹€.

  • RMSprop

각 νŒŒλΌλ―Έν„° 의 ꡬ성 μš”μ†Œλ§ˆλ‹€ μŠ€ν… μ‚¬μ΄μ¦ˆ λ₯Ό λ‹€λ₯΄κ²Œ μ£ΌλŠ” 것이닀. 크게 λ³€ν™”ν•œ λŠ” λ₯Ό μž‘κ²Œ ν•˜κ³ , κ·Έλ ‡μ§€ μ•ŠμœΌλ©΄ 크게 ν•˜μ—¬ μ΅œμ†Œμ μœΌλ‘œ λΉ λ₯΄κ²Œ μ΄λ™μ‹œν‚€κ² λ‹€λŠ” 것이닀.

많이 λ³€ν™”ν–ˆλŠ” μ§€μ˜ νŒλ‹¨ 기쀀은 κ·Έλž˜λ””μ–ΈνŠΈ 제곱 크기의 이동 ꡬ간 ν‰κ· κ°’μœΌλ‘œ νŒλ‹¨ν•œλ‹€.

  • Adam (Adaptive moment estimation)

Adam은 λͺ¨λ©˜ν…€κ³Ό RMSprop을 ν•©μΉœ 방법이닀.

각 timestep k에 λŒ€ν•΄ κ·Έλž˜λ””μ–ΈνŠΈμ˜ 이동 ꡬ간 평균을 ꡬ해 λ₯Ό μ—…λ°μ΄νŠΈ ν•˜κ³ , RMSprop 처럼 νŒŒλΌλ―Έν„°μ˜ μš”μ†Œλ³„ κ·Έλž˜λ””μ–ΈνŠΈ 제곱 크기의 이동 ꡬ간 평균을 ꡬ해 λ₯Ό μ—…λ°μ΄νŠΈ ν•œλ‹€.

그리고 μΌλ•Œμ˜ 편ν–₯을 λ³΄μ •ν•˜μ—¬ λ₯Ό μ—…λ°μ΄νŠΈ ν•œλ‹€.

Original Link : μ—°μ„Έλ“œλ‘  4κΈ° RL μŠ€ν„°λ””