# Sarsa

Sarsa

    1. 初始化学习率 α(0,1]\alpha \in (0,1], 较小的探索比例 ϵ>0\epsilon > 0
    1. 对于所有的s,a, 随机初始化 Q(s,a)Q(s,a). (给Q(terminal,.)=0Q(terminal, .) = 0)
    1. 循环每个episode:
    • 3.1. 得到初始的观测S
    • 3.2. 使用ϵ\epsilon-greedy,结合QQ, SS 选取一个动作AA
    • 3.3. 循环这个episode中的每一步,直到一个最大步数或SS到达终止态:
      • 3.3.1. 执行动作AA,和环境交互,得到及时奖励RR和新的观测SS'
      • 3.3.2. 使用ϵ\epsilon-greedy,结合QQ, SS' 选取一个动作AA'
      • 3.3.3. 更新Q(S,A)Q(S,A)+α[R+γQ(S,A)Q(S,A)]Q(S,A) \leftarrow Q(S,A) + \alpha [R + \gamma Q(S',A') - Q(S,A)]
      • 3.3.4. SSS \leftarrow S'; AAA \leftarrow A';

提问

实现算法的时候有对Q(terminal,.)Q(terminal,.)单独处理吗?