
[CS234]Lecture 2. ๋ง๋ฅด์ฝํ ๊ฒฐ์ ํ๋ก์ธ์ค
ยท
๐ฆAI/Reinforcement Learning
์ ๋ฒ ์๊ฐ์ ์์ฐจ๊ฒฐ์ ๋ฌธ์ ์ค ๋ถ์ฐ์ ๋ฌธ์ ๋ ๋ง๋ฅด์ฝํ ๊ฒฐ์ ํ๋ก์ธ์ค(Markov Decision Process, MDP)๋ฅผ ํตํด ์ํ์ ์ผ๋ก ํด๊ฒฐํ ์ ์๋ค๊ณ ํ๋ค. ๋ํ ์์ฐจ ๊ฒฐ์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด์ ์ฐ๋ฆฌ๋ maximize total expected future reward๋ฅผ ๋ชฉํ๋ก ํ๋ค๋ ๊ฒ์ ๊ธฐ์ตํ์. ์ด๋ฒ ๊ฐ์์์๋ ๋ง๋ฅด์ฝํ ๊ฒฐ์ ํ๋ก์ธ์ค๋ฅผ ๋ช
ํํ ์ดํดํ๊ธฐ ์ํด, ๋ง๋ฅด์ฝํ ํ๋ก์ธ์ค์์ MDP๊น์ง์ ๋ฐ์ ๊ณผ์ ์ ์ดํผ๊ณ , MDP์ Control ๊ณผ Evaluation์ ๋ํด์ ์์๋ณธ๋ค. 0. ๋ง๋ฅด์ฝํ ํ๋ก์ธ์ค์ ๋ฐ์ ๋ง๋ฅด์ฝํ ๊ฒฐ์ ํ๋ก์ธ์ค(MDP)๋ ๋ง๋ฅด์ฝํ ํ๋ก์ธ์ค์์ ์ถ๋ฐํ์ฌ ํ์ฅ๋์๋ค.Markov Process > Markov Reward Process > Markov Decision Proce..