Reinforcement Learning

[CS234] Lecture 1. Reinforcement Learning

mingyung 2024. 7. 9. 18:07

Reinforcement Learning

✅    Learning through experience/data to make good decisions under uncertainty

1950년대 Richard Bellman에 의해 발전함

ex)

  • atari game(video game)
  • Go
  • plasma control for fusion science
  • chatGPT

Involves

  1. Optimization
  2. Delayed Consequences
  3. Exploration
  4. Generalization
  5. Policy

차이점

  • AI Planning
  • Imitation Learning
  AI Planning Supervised Unsupervised Reinforcement Imitaion
Optimization O O   O O
Learns from experience   O(but data label 주어짐) O(label 안주어짐) O(SL과 UL의 중간 지점) O
Generalization O O O O O
Delayed Consequences O     O O
Exploration       O  

Sequencial Decision Making

✅    GOAL: Select actions to **maximize total expected future reward**
  • 이때 Immediate reward와 Long term Reward 의 균형을 맞추처야 한다.
  • 또한, 높은 reward를 얻기 위한 전략적인 방법이 필요하다

Markov Assumption

✅    Markov Assumption

State 𝑠𝑡st​ is Marcov if and only if

𝑝(𝑠𝑡+1∣𝑠𝑡,𝑎𝑡)=𝑝(𝑠𝑡+1∣ℎ𝑡,𝑎𝑡)p(st+1​∣st​,at​)=p(st+1​∣ht​,at​)

즉, 현재의 상태와 액션으로 결정되는 t+1의 상태는 history와 action으로 결정되는 state와 같다

State 만으로 결정한 미래가 History를 이용해 결정한 미래과 같다면, 해당 State는 Markov하다.

따라서 과거의 정보가 잘 반영된 State만 있다면 미래를 결정할 수 있다

마르코브 추정은 현재의 state가 과거의 정보를 충분히 포함한다면, 현재 state로 미래를 예측할 수 있다는 것.

문제는, history의 모든 정보를 state로 사용하는것은 어렵다 (모든 정보를 저장해야하고, 확인해야하고, 표현해야하고…)

마르코브 추정은 왜 중요할까?

  1. 일반적으로 state를 설정한다면 markov assumtion을 만족하기 때문이다.
  2. 실제로는 최근의 관찰결과들을 과거의 정보가 충분히 담긴 history라고 가정하여 사용한다.
  • Full obsercability: Markov Decision Process(MDP)
  • Partial observability: Partially Observablbe Markov Decision Process (POMDP)
  • Types of Sequential Decision Process

RL Algorithms Components

아래의 요소를 대체로 포함하게 된다.

  • Model: agent의 action에 따라서 world가 어떻게 바뀌는지를 표현한 것
  • Policy: function mapping agent’s states to action
  • Value funtion : Future rewards from being in a state and/or action when following a particular policy

Types of RL Agents

  • Model Based
  • Model Free

Key Challenges in Learning to Make Sequences of Good Decisions

  1. Planning
  2. RL

Exploration & Exploitation

  • Exploration : 새로운 것에 대한 탐험. 이전에 시도해보지 못한 부분을 시도한다. (시도하지 못한 곳에 더 나은 선택지가 존재할 수 있다)
  • Exploitation : 이전의 경험을 재활용한다. 즉, 이전의 학습과정을 통해 얻은 좋은 actiond을 사용한다. 이를 통해서 손실을 줄인다.

Evaluation & Control

  • Evaluation : Policy를 통해 예상되는 예측 보상값을 말한다.
  • Control prodlem = Optimization: 가장 좋은 policy를 찾기 위해 동작한다.