environment는 유한 Markov 의사 결정 프로세스(finit MDP) 라고 가정한다.

우리는 optimal value function v* 또는 q*를 찾으면, optimal policy를 찾을 수 있다.

Untitled

DP

DP 알고리즘을 사용하여 값 함수를 계산하는 방법(약간 다르고, 덜 어려운 방법)을 살펴보겠습니다.

일반적인 아이디어는 이 두 equations(방정식⇒”정책평가 와 정책 개선”)을 가지고 value function의 근사치를 향상시키기 위한 update rule로 바꾸는 것이다.

Policy Evaluation : 정책평가

임의의 policy $\pi$에 대한 state value function $V_{\pi}$를 계산하는 것을 의미 ⇒ "예측 문제"라고 부른다.

Untitled

여기서 $\pi(a|s)$는 policy $\pi$에서 state “s”일때 action “a”를 취할 확률를 의미한다.

approximate value function v0, v1, v2, ...의 시퀀스를 고려합니다.

초기 근사치 v0은 랜덤하게 선택됩니다.

각 이후의 근사치는 Bellman equation(방정식)을 업데이트 규칙으로 사용하여 구한다.

Untitled

이 알고리즘을 iterative policy evaluation(반복 정책 평가)라고 합니다.

이것은 기본적으로 어떤 상태의 오래된 값을 갖고 있다가, 식에서 같이 얻어진 새로운 값으로 대체한다.