Reinforcement Learning
✅ Learning through experience/data to make good decisions under uncertainty
1950년대 Richard Bellman에 의해 발전함
ex)
- atari game(video game)
- Go
- plasma control for fusion science
- chatGPT
Involves
- Optimization
- Delayed Consequences
- Exploration
- Generalization
- Policy
차이점
- AI Planning
- Imitation Learning
AI Planning | Supervised | Unsupervised | Reinforcement | Imitaion | |
---|---|---|---|---|---|
Optimization | O | O | O | O | |
Learns from experience | O(but data label 주어짐) | O(label 안주어짐) | O(SL과 UL의 중간 지점) | O | |
Generalization | O | O | O | O | O |
Delayed Consequences | O | O | O | ||
Exploration | O |
Sequencial Decision Making
✅ GOAL: Select actions to **maximize total expected future reward**
- 이때 Immediate reward와 Long term Reward 의 균형을 맞추처야 한다.
- 또한, 높은 reward를 얻기 위한 전략적인 방법이 필요하다
Markov Assumption
✅ Markov Assumption
State 𝑠𝑡st is Marcov if and only if
𝑝(𝑠𝑡+1∣𝑠𝑡,𝑎𝑡)=𝑝(𝑠𝑡+1∣ℎ𝑡,𝑎𝑡)p(st+1∣st,at)=p(st+1∣ht,at)
즉, 현재의 상태와 액션으로 결정되는 t+1의 상태는 history와 action으로 결정되는 state와 같다
State 만으로 결정한 미래가 History를 이용해 결정한 미래과 같다면, 해당 State는 Markov하다.
따라서 과거의 정보가 잘 반영된 State만 있다면 미래를 결정할 수 있다
마르코브 추정은 현재의 state가 과거의 정보를 충분히 포함한다면, 현재 state로 미래를 예측할 수 있다는 것.
문제는, history의 모든 정보를 state로 사용하는것은 어렵다 (모든 정보를 저장해야하고, 확인해야하고, 표현해야하고…)
마르코브 추정은 왜 중요할까?
- 일반적으로 state를 설정한다면 markov assumtion을 만족하기 때문이다.
- 실제로는 최근의 관찰결과들을 과거의 정보가 충분히 담긴 history라고 가정하여 사용한다.
- Full obsercability: Markov Decision Process(MDP)
- Partial observability: Partially Observablbe Markov Decision Process (POMDP)
- Types of Sequential Decision Process
RL Algorithms Components
아래의 요소를 대체로 포함하게 된다.
- Model: agent의 action에 따라서 world가 어떻게 바뀌는지를 표현한 것
- Policy: function mapping agent’s states to action
- Value funtion : Future rewards from being in a state and/or action when following a particular policy
Types of RL Agents
- Model Based
- Model Free
Key Challenges in Learning to Make Sequences of Good Decisions
- Planning
- RL
Exploration & Exploitation
- Exploration : 새로운 것에 대한 탐험. 이전에 시도해보지 못한 부분을 시도한다. (시도하지 못한 곳에 더 나은 선택지가 존재할 수 있다)
- Exploitation : 이전의 경험을 재활용한다. 즉, 이전의 학습과정을 통해 얻은 좋은 actiond을 사용한다. 이를 통해서 손실을 줄인다.
Evaluation & Control
- Evaluation : Policy를 통해 예상되는 예측 보상값을 말한다.
- Control prodlem = Optimization: 가장 좋은 policy를 찾기 위해 동작한다.
'Reinforcement Learning' 카테고리의 다른 글
[CS234]Lecture 2. Markov Process, MRPs, MDPs, Evaluation and Control (0) | 2024.07.10 |
---|