POLICY-ITERATION

AIMA3e

function POLICY-ITERATION(mdp) returns a policy
inputs: mdp, an MDP with states S, actions A(s), transition model P(s′ | s, a)
local variables: U, a vector of utilities for states in S, initially zero
π, a policy vector indexed by state, initially random

repeat
U ← POLICY-EVALUATION(π, U, mdp)
unchanged? ← true
for each state s in S do
if max_{a ∈ A(s)} Σ_s′ P(s′ | s, a) U[s′] > Σ_s′ P(s′ | s, π[s]) U[s′] then do
π[s] ← argmax_{a ∈ A(s)} Σ_s′ P(s′ | s, a) U[s′]
unchanged? ← false
until unchanged?
return π

Figure ?? The policy iteration algorithm for calculating an optimal policy.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Policy-Iteration.md

Policy-Iteration.md

POLICY-ITERATION

AIMA3e

Files

Policy-Iteration.md

Latest commit

History

Policy-Iteration.md

File metadata and controls

POLICY-ITERATION

AIMA3e