environment는 유한 Markov 의사 결정 프로세스(finit MDP) 라고 가정한다.
우리는 optimal value function v* 또는 q*를 찾으면, optimal policy를 찾을 수 있다.
DP 알고리즘을 사용하여 값 함수를 계산하는 방법(약간 다르고, 덜 어려운 방법)을 살펴보겠습니다.
일반적인 아이디어는 이 두 equations(방정식⇒”정책평가 와 정책 개선”)을 가지고 value function의 근사치를 향상시키기 위한 update rule로 바꾸는 것이다.
Policy Evaluation : 정책평가
임의의 policy $\pi$에 대한 state value function $V_{\pi}$를 계산하는 것을 의미 ⇒ "예측 문제"라고 부른다.
여기서 $\pi(a|s)$는 policy $\pi$에서 state “s”일때 action “a”를 취할 확률를 의미한다.
approximate value function v0, v1, v2, ...의 시퀀스를 고려합니다.
초기 근사치 v0은 랜덤하게 선택됩니다.
각 이후의 근사치는 Bellman equation(방정식)을 업데이트 규칙으로 사용하여 구한다.
이 알고리즘을 iterative policy evaluation(반복 정책 평가)라고 합니다.
이것은 기본적으로 어떤 상태의 오래된 값을 갖고 있다가, 식에서 같이 얻어진 새로운 값으로 대체한다.