์ ๋ฒ ์๊ฐ์ ์์ฐจ๊ฒฐ์ ๋ฌธ์ ์ค ๋ถ์ฐ์ ๋ฌธ์ ๋ ๋ง๋ฅด์ฝํ ๊ฒฐ์ ํ๋ก์ธ์ค(Markov Decision Process, MDP)๋ฅผ ํตํด ์ํ์ ์ผ๋ก ํด๊ฒฐํ ์ ์๋ค๊ณ ํ๋ค. ๋ํ ์์ฐจ ๊ฒฐ์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด์ ์ฐ๋ฆฌ๋ maximize total expected future reward๋ฅผ ๋ชฉํ๋ก ํ๋ค๋ ๊ฒ์ ๊ธฐ์ตํ์.
์ด๋ฒ ๊ฐ์์์๋ ๋ง๋ฅด์ฝํ ๊ฒฐ์ ํ๋ก์ธ์ค๋ฅผ ๋ช ํํ ์ดํดํ๊ธฐ ์ํด, ๋ง๋ฅด์ฝํ ํ๋ก์ธ์ค์์ MDP๊น์ง์ ๋ฐ์ ๊ณผ์ ์ ์ดํผ๊ณ , MDP์ Control ๊ณผ Evaluation์ ๋ํด์ ์์๋ณธ๋ค.
0. ๋ง๋ฅด์ฝํ ํ๋ก์ธ์ค์ ๋ฐ์
๋ง๋ฅด์ฝํ ๊ฒฐ์ ํ๋ก์ธ์ค(MDP)๋ ๋ง๋ฅด์ฝํ ํ๋ก์ธ์ค์์ ์ถ๋ฐํ์ฌ ํ์ฅ๋์๋ค.
Markov Process > Markov Reward Process > Markov Decision Process ์์ผ๋ก ๋ฐ์ ํ๋ค.
๊ฐ๋จํ๊ฒ ์ดํด๋ณด๋ฉด ๋ค์๊ณผ ๊ฐ์ด ๋ฌ๋ผ์ง๋ค.
Markov Process | Markov Reward Process, MRP | Markov Decision Process |
- ์ํ(state) ์ ์ด๋ง ๊ณ ๋ คํ๋ ํ๋ฅ ๊ณผ์ . - ํ์ฌ ์ํ๋ง์ด ๋ค์์ํ์ ์ํฅ์ ๋ฏธ์น๋ "๋ง๋ฅด์ฝํ ์ฑ์ง"์ ๋ง์กฑํ๋ค ๊ฐ์ |
- ๋ง๋ฅด์ฝํ ํ๋ก์ธ์ค์ ๋ณด์(reward) ๊ฐ๋
์ ์ถ๊ฐ - ์ํ์ ์ด์ ์ถ๊ฐ๋ก ๊ฐ ์ํ์์ ๋ฐ์ ์ ์๋ ๋ณด์๊ฐ๋ ๊ณ ๋ ค |
- ๋ง๋ฅด์ฝํ ๋ณด์ ํ๋ก์ธ์ค์ ํ๋(action) ๊ฐ๋
์ ์ถ๊ฐ - ์์ด์ ํธ๊ฐ ๊ฐ ์ํ์์ ํ๋์ ์ ํํ ์ ์๊ฒ ํ์ฅ๋ ๊ฒ์ด๋ค. - ์ต์ ์ ํ๋์ ์ ํํด์ ์ด ๊ธฐ๋ ๋ณด์์ ๊ทน๋ํ ํ์ฌ ์์ฐจ๊ฒฐ์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ค. |
0. Markov Assumption
๋ค์ด๊ฐ๊ธฐ์ ์์์ ๋ง๋ฅด์ฝํ ๊ฐ์ ์ ํ๋ฒ ํ์ธํด๋ณด์.
State
is Markov if and only if
์ฆ ๋ฏธ๋ ์ํ๋ ๊ณผ๊ฑฐ์ ์ํ๋ค์ ๋ ๋ฆฝ์ ์ด๊ณ , ํ์ฌ ์ํ์๋ง ์์กดํ๊ฒ ๋๋ค. ๋ฐ๋ผ์ ๋ฏธ๋์ ์ํ๋ฅผ ๊ฒฐ์ ํ๊ธฐ ์ํด์ ๊ณผ๊ฑฐ์ ์ํ๋ฅผ ๊ณ ๋ คํ์ง ์๋๋ค๊ณ ๊ฐ์ ํ๋ค.
์ด ๊ฐ์ ์ ๋ง์กฑํ๋ ๊ฒ์ ๋ง๋ฅด์ฝํ ์ฑ์ง์ ๊ฐ์ง๋ค๊ณ ํ๋ค.
1. Markov Process (๋ง๋ฅด์ฝํ ํ๋ก์ธ์ค)
Markov Process๋ ์ฃผ์ด์ง ์ํ s์์ ๋ค์ ์ํ s'๋ก์ ์ํ ์ ์ด๊ฐ ์ด๋ฃจ์ด์ง๋ ๊ณผ์ ์ ๋งํ๋ค.
์ด๋ ๋ฏธ๋์ ์ํ๋ ๊ณผ๊ฑฐ์ ์ํ์๋ ๋ ๋ฆฝํ๊ณ , ํ์ฌ ์ฃผ์ด์ง ์ํ s์๋ง ์์กดํ๋ค๊ณ ๊ฐ์ ํ๋ค.
์ฆ, ๋ง๋ฅด์ฝํ ๊ฐ์ ์ ๋ง์กฑํ๋ ํ๋ก์ธ์ค๋ฅผ ๋งํ๋ค.
์ ์
Sequence of Random States with Markov Property
๐ ํน์ง
No Reward, No Actions, Memoryless property
Memoryless Property: ๋ฏธ๋์ํ๋ฅผ ๊ฒฐ์ ํ๋๋ฐ์ ํ์ฌ์ํ๋ฅผ ์ ์ธํ history๋ฅผ ์ ํ์๊ฐ ์์
Transition Probability: ๋ง๋ฅด์ฝํ ํ๋ก์ธ์ค๋ ํ์ฌ ์ํ์์ ๊ฐ ๋ค์ ์ํ๋ก์ ํ๋ฅ map์ด๋ผ๊ณ ์๊ฐํ ์ ์๋ค
S: (finite)set of States
P: transition model that specifies
๋ง์ฝ states๊ฐ finite number(N)๊ฐฏ์๋งํผ ์กด์ฌํ๋ ๊ฒฝ์ฐ์ ๋ํด์, ํ๋ฅ ๋ชจ๋ธ P๋ฅผ ๋ค์๊ณผ ๊ฐ์ matrix๋ก ๋ํ๋ผ ์ ์๋ค.
์ด matrix๋ฅผ Markov Chain Trainsition Matrix๋ผ๊ณ ํ๋ค.

์ฌ์ด ์ดํด๋ฅผ ์ํด ๊ฐ์์ ์์๋ฅผ ์ฐธ๊ณ ํ์.
๊ฐ๋ณ state๋ ์ด 7๊ฐ ์ด๊ณ , ๋ค์ state๋ก์ ์ ์ด ํ๋ฅ ์ ๊ฐ๋จํ๊ฒ ํํํ๊ณ ์๋ค.

์ด ๊ฒฝ์ฐ P๋ ์๋์ ๊ฐ์ด ์์ฑํ ์ ์์ ๊ฒ์ด๋ค

์ด๋ ๊ฒ ๋ง๋ฅด์ฝํ ํ๋ก์ธ์ค๋ ๊ฐ ์ํ๋ก์ ์ ์ดํ๋ฅ ์ ๋งํ๋ค.
2. Markov Reward Process (MRP, ๋ง๋ฅด์ฝํ ๋ณด์ ํ๋ก์ธ์ค)
์์ Markov Process์์๋ Reward๊ณผ Action์ด ํฌํจ๋์ง ์์ ๊ฐ๋ ์ด์๋ค.
๋จ์ํ ๊ฐ ์ํ๋ก์ ์ ์ด ํ๋ฅ ์ ์๋ฏธํ๋ค.
๋ง๋ฅด์ฝํ ๋ณด์ ํ๋ก์ธ๋ MRP๋ Markov Chain์ Reward๊ฐ ์ถ๊ฐ๋ ๊ฒ์ผ๋ก ์๊ฐํ ์ ์๋ค.
MRP๋ ๋ค์๊ณผ ๊ฐ์ด ์ ์ ํ๋ค.
S: (finite) sets of states ์ํ์ ๋ํ ์ ํ์งํฉ(N๊ฐ)
P: ๋ง๋ฅด์ฝํ ํ๋ก์ธ์ค. trainsition model that specifies
R: Reward function๋ง์ฝ ๊ฐ๋ฅํ state๊ฐ ์ ํ๊ฐ(N)์ด๋ผ๋ฉด R์ ๋ฒกํฐ๋ก ํํ๊ฐ๋ฅํ๋ค.
Discount Factor:๋ฏธ๋์ Reward๋ฅผ ์ผ๋ง๋งํผ ๋ฐ์ํ ์ง๋ฅผ ๊ฒฐ์ ํ๋ค.
์ฌ์ ํ ์ฌ๊ธฐ์ Action์ ๋ํ ์ ๋ณด๋ ์กด์ฌํ์ง ์์์ ๊ธฐ์ตํ์.
๊ทธ๋ผ ๋ง๋ฅด์ฝํ ๋ณด์ ํ๋ก์ธ์ค์์์ optimal reward๋, ์ฐ๋ฆฌ์ ๋ชฉํ๋ ๋ฌด์์ผ๋ก ๋ณด์์ผ ํ ๊น?
์ฌ์ ํ ์ฐ๋ฆฌ๋ ๋ณด์์ ๊ธฐ๋๊ฐ์ ์ต๋ํ๋ฅผ ์ํ ๊ฒ์ด๋ค.
๊ทธ๋ฐ๋ฐ ๋๋ค์์ ์์ฐจ ๊ฒฐ์ ๋ฌธ์ ์์๋ ์ ์ด ์ฆ์ ๋ณด์์ด ๊ฒฐ์ ๋์ง ์๋๋ค.
๋ฐ๋ผ์ ๋ ๋ฏธ๋์ ๊ธฐ๋ํ ์ ์๋ ๋ณด์๊น์ง ๋ชจ๋ ํฉ์ณ์ ํด๋น ์ ์ด์ ๋ํ ๋ณด์์ ๊ณ์ฐํ๋ค.
Return Function (๋ฆฌํดํจ์ G)
Horizon: Number of time steps in each episode.
์ฆ, ํ๋ฒ์ ์ผ๋ง๋งํผ์ future๋ฅผ ํ์ธํ ๊ฒ์ธ์ง์ ๋ํ ๊ฐ์ด๋ค.
Horizon์ infinite์ผ์๋ ์๊ณ , finite๊ฐ์ผ ์๋ ์๋ค. ๋ง์ฝ horizon์ด finite์ธ ๊ฒฝ์ฐ์๋ MRP๋ฅผ finite MRP๋ผ๊ณ ๋ถ๋ฅธ๋ค.
Return: Discounted Sum of Rewards from timestep t to horizon H
์๊ฐ t๋ก๋ถํฐ ์์ํด์ Horizon๊ฐ์ Reward๋ฅผ Discount Factor
์์์ ๋ณด๋ฉด ๋ ์ดํด๊ฐ ์ฝ๋ค
์ฆ, ๋ฆฌํด์ด๋ ํ์ฌ ์๊ฐ t์ ์ ์ฅ์์ ๋ฏธ๋์ ๋ฐ์ ๊ฒ์ผ๋ก ์์๋๋ ๋ฆฌ์๋๋ฅผ ๋ชจ๋ ํฉํ ๊ฐ์ด๋ค
State Value Function (๊ฐ์นํจ์ V)
Value: Expected Return from starting in state s
์๊ฐ t์ผ๋์ state ๊ฐ s์ผ๋
Return์ ๊ธฐ๋๊ฐ์ V(s)๋ผ๊ณ ํ๋ค.
์ฆ, ๊ฐ์น๋ ํ์ฌ ์๊ฐ t, ํ์ฌ ์ํ s์ผ๋ ๋ฏธ๋์ ๋ฐ์ ๊ฒ์ผ๋ก ์์๋๋ ๋ฆฌํด์ ์์ธก๊ฐ์ ๋งํ๋ค.
Value๋ ์ดํ์ policy๋ฅผ ํ๊ฐํ๊ณ , optimal policy๋ฅผ ๊ฒฐ์ ํ๋๋ฐ์ ์ฌ์ฉ๋๋ค.
์ฐ๋ฆฌ๊ฐ ์ํ๋ ๊ฒ์ ๋ฏธ๋์ ์ ์ฒด ๋ฆฌ์๋๊ฐ ์ต๋๊ฐ ๋๋ ๊ฒ์ด๊ธฐ ๋๋ฌธ์, ์ค์ง์ ์ผ๋ก ์ดํด์ผ ํ๋ ๊ฒ์ Value๊ฐ์ด ๋๋ ๊ฒ์ด๋ค.
Computing Value of MRP
์ด์ ์๋์ ๊ฐ์นํจ์๋ฅผ ๊ณ์ฐํ๋ ๋ฐฉ๋ฒ์ ์์๋ณด์.
MRP์์ value function V๋ ๋ค์์ ๋ง์กฑํ๋ค

๋ฐฉ๋ฒ1. Bellman Equation
Value Fucntion์ ๋ฒจ๋ง ๋ฐฉ์ ์์ ์ด์ฉํด์ ์ฌ๊ท์ ์ผ๋ก ํํ์ด ๊ฐ๋ฅํ๋ค.
์์์ finite state (N)์ธ ๊ฒฝ์ฐ์ ๋ํด์ ๋ง๋ฅด์ฝํ ํ๋ก์ธ์ค P์ ๋ณด์ R์ด ํ๋ ฌ๋ก ํํ๋จ์ ์์๋ค.
๋ฐ๋ผ์ ์ด๋ฅผ Matrix Form์ผ๋ก ๊ณ์ฐํ ์ ์๋ค.

์ด๋ก์ ๋ถ๋ถ์ด ์ฐ๋ฆฌ๊ฐ ์๊ณ ์๋ ์ ๋ณด์ด๋ค.
์ฒซ๋ฒ์งธ ๋ฒกํฐ๋ ๊ฐ ์ํ์์์ ๋ณด์ R์ ๋ํ ํ๋ ฌ์ด๊ณ , ๋๋ฒ์งธ ํ๋ ฌ์ ๋ง๋ฅด์ฝํ ์ฒด์ธ. ์ํ s์ผํ ์ํ s'๋ก์ ์ ์ด ํ๋ฅ ์ ์๋ฏธํ๋ค.
์ฐ๋ฆฌ๊ฐ ์๊ณ ์ถ์ ๊ฒ์ V์ด๋ฏ๋ก ์์ ์ ๋ฆฌํ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.

์ด ๊ณผ์ ์ ํตํด์ Value๊ฐ์ ๊ณ์ฐํ ์ ์๋ค.
๋ฐฉ๋ฒ 2. DP
์์์๋ ์ฌ๊ท์ ์ผ๋ก ๊ตฌํ์ผ๋, DP๋ก ์์ฐจ์ ์ผ๋ก ๊ตฌํด๋ณผ ์ ์๋ค.

3. Markov Decision Process (MDP, ๋ง๋ฅด์ฝํ ๊ฒฐ์ ํ๋ก์ธ์ค)
MDP์ ๊ฒฝ์ฐ MRP์ Action์ด ์ถ๊ฐ๋ ๊ฒ์ด๋ค.
๋ฐ๋ผ์ Reward๋ฅผ ๊ณ์ฐํ ๋ Action๋ํ ๊ณ ๋ คํ๊ฒ ๋๋ค.

MDP๋ 5๊ฐ์ ์์ S,A,P,R,gamma๋ก ์ด๋ฃจ์ด์ง ์ํ๊ณต๊ฐ์ผ๋ก ํํํ๋ค.
S: ์ํ์ ๋ํ ์ ํ ์งํฉ
A: ์์ด์ ํธ๊ฐ ํ ์ ์๋ ํ๋์ ๋ํ ์ ํ ์งํฉ
P==P(a,s,s') : s ์ํ์์ a ํ๋์ ํ ๊ฒฝ์ฐ s'์ผ๋ก ๋์ด๊ฐ ์ ์๋ ํ๋ฅ
R==R(a,s,s') : s ์ํ์์ a ํ๋์ ํ ๊ฒฝ์ฐ s' ์ํ๋ก ๊ฐ์๋ ์ป์ ์ ์๋ ๋ณด์
gamma: ํ ์ธ ๊ฐ [0,1]๋ก, ํ์ฌ์ ๋ณด์์ด ๋ฏธ๋์ ๋ฐ์ ๋ณด์์ ๋ํด์ ์ผ๋ง๋ ์ค์ํ์ง์ ๋ํ ๊ฐ
Policy
ํ๋์ด ์ถ๊ฐ๋๋ฉด์ ์์ MRP์ ๋ฌ๋ฆฌ ์ถ๊ฐ๋ก state s์ผ๋ action ํ๋ ๋ฐฉ๋ฒ์ ์ ํด์ผํ๊ฒ ๋์๋ค.
policy๋ agent๊ฐ ํน์ state์์ ์ด๋ป๊ฒ actionํ ์ง์ ๋ํ ๊ท์น์ ๋งํ๋ค.
์ด Policy๋ Deterministicํ๊ฒ ์ ํด์ ธ์์ ์๋ ์๊ณ , ํ๋ฅ ์ ํตํด์ stochasticํ๊ฒ ๋ง๋ค ์๋ ์๋ค.
Policy๋ ๋ค์์ฒ๋ผ ํ๊ธฐํ๋ค

์ฆ ์ํ s์ผ๋ ํ๋ a๋ฅผ ํ ํ๋ฅ ๋ก ์ ์ฑ ์ ๊ฒฐ์ ํ๋ค.
๋ง์ฝ Stochastic Policy์ ๊ฒฝ์ฐ ์์ฒ๋ผ ํ๋ฅ ๋ก ํํํ๊ฒ ๋๊ณ , Deterministic Policy์ ๊ฒฝ์ฐ s์ ๋ํ action์ด ์ ํด์ ธ์๊ธฐ ๋๋ฌธ์ ๋ค์์ฒ๋ผ ํํํ๋ค.

์ํ s์ผ๋ action์ a๋ฅผ ํ๋ค.(ํ๋ฅ x)
Bellman Backup
์์์ MDP๋ MRP+Policy ๋ผ๋๊ฒ์ ๋ฐฐ์ ๋ค.
๋ฐ๋ผ์ Policy๊ฐ ๊ฒฐ์ ๋๊ธฐ๋ง ํ๋ค๋ฉด, MDP๋ฅผ MRP๋ก ์ถ์ํ์ฌ ์๊ฐํ ์ ์๋ค.
Policy๋ฅผ

๋ฐ๋ผ์ MRP์์ Value๋ฅผ ๊ณ์ฐํ๋ ๊ฒ๊ณผ ๊ฐ์ ๋ก์ง์ ํตํด ํน์ Policy

๋ฐ๋ผ์ ์ ์ฑ
์ด ๊ฒฐ์ ๋๋ฉด ์ฐ๋ฆฌ๊ฐ
MDP Control - Optimal Policy
์ฐ๋ฆฌ๊ฐ ์ํ๋๊ฒ์ MDP์ ์ ๋ณด ๊ทธ ์์ฒด๋ ์๊ฒ ์ง๋ง, Optimal ํ Policy๊ฐ ๋ฌด์์ธ์ง๋ฅผ ์๋ ๊ฒ์ด๋ค.
Optimal Policy๊ฐ ๋ญ๋๊ณ ๋ฌผ์ผ๋ฉด ์๋์ฒ๋ผ ๋งํ ์ ์์ ๊ฒ์ด๋ค.

Policy Search
๊ทธ๋์ ์ด Optimal Policy๋ฅผ ์ด๋ป๊ฒ ๊ตฌํ ์ ์์๊น?
Opt Policy๋ฅผ ์ฐพ๋ ๋ฐฉ๋ฒ ์ค ํ๋๊ฐ Policy Iteration์ด๋ค.
Policy Iteration
Policy Iteration ์ ๊ณผ์ ์ ๋ค์๊ณผ ๊ฐ๋ค.

Policy๋ฅผ ์ด๋ป๊ฒ Improve์ํฌ๊น?
์ด๋ฅผ ์ํด์ Q (State-Action Value) ๋ผ๋ ์๋ก์ด Value Function์ ๋์ ํ๋ค.

์ฆ, State-Action Value Q๋ ๊ธฐ์กด ์ฐ๋ฆฌ๊ฐ ์์๋ดค๋ Value์ ๋ฌ๋ฆฌ state s์์์ action a๊ฐ policy์ ๊ด๊ณ์์ด ๋ชจ๋ Action์ ๋ํด์ ๊ณ์ฐ๋๋ค๋ ๊ฒ์ด๋ค. (Greedy!)
๋ฐ๋ผ์
์ด ๋ง์ Q๊ฐ max๊ฐ ๋๋ ๊ฒฝ์ฐ์ policy๊ฐ ๊ธฐ์กด์ policy์ ๋์ผํ๊ฑฐ๋ ๋ ๋์ policy๊ฐ ๋๋ค.

๊ทธ๋ผ ์์ Policy Iteration์ ๊ณผ์ ์ ๋ค์ ์ดํด๋ณด๋ฉด
While๋ฌธ์ ์๋ฏธ๋ policy๊ฐ optimalํ์ฌ Q๋ฅผ ํตํด์ ๋ ๋์ policy๊ฐ ์กด์ฌํ์ง ์๋ ๊ฒฝ์ฐ์ ๋ฐ๋ณต๋ฌธ์ ์ข ๋ฃํ๋ค๋ ์๋ฏธ์ด๋ค.

๋น์ฐํ ๋ง์ด์ง๋ง, ๊ธฐ์กด์ policy์ V(s)๊ฐ ๋ณด๋ค maxQ๊ฐ์ด ๋ ํฐ ๊ฒฝ์ฐ, ๊ธฐ์กด์ policy๋ฅผ ๋ฒ๋ฆฌ๊ณ , ์ป์ ์๋ก์ด policy๋ฅผ ์ด๋ค.




'๐ฆAI > Reinforcement Learning' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[CS234] Lecture 1. Reinforcement Learning (0) | 2024.07.09 |
---|