이번 강의에서는 Markov Process와 MRP,MDP, MDP에서의 Control 과 Evaluation에 대해서 알아본다Markov Assumption들어가기에 앞서서 마르코프 가정을 한번 확인해보자.State $s_{t}$ is Markov if and only if$$ p ( s_{t+1} | s_t , a_t ) = p ( s_{t+1} | h_t , a_t ) $$즉 미래 상태는 과거의 상태들에 독립적이고, 현재 상태에만 의존하게 된다. 따라서 미래의 상태를 결정하기 위해서 과거의 상태를 고려하지 않는다. Markov ProcessMarkov Process는 주어진 상태 s에서 다음 상태 s로의 상태 전이가 이루어지는 과정을 말한다. Sequence of Random States with ..
Reinforcement Learning
Reinforcement Learning✅ Learning through experience/data to make good decisions under uncertainty1950년대 Richard Bellman에 의해 발전함ex)atari game(video game)Goplasma control for fusion sciencechatGPTInvolvesOptimizationDelayed ConsequencesExplorationGeneralizationPolicy차이점AI PlanningImitation Learning AI PlanningSupervisedUnsupervisedReinforcementImitaionOptimizationOO OOLearns from experience O(b..