# Q Learing

Q Learning

    1. 初始化学习率 α(0,1]\alpha \in (0,1], 较小的探索比例 ϵ>0\epsilon > 0
    1. 对于所有的s,a, 随机初始化 Q(s,a)Q(s,a). (给Q(terminal,.)=0Q(terminal, .) = 0)
    1. 循环每个episode:
    • 3.1. 得到初始的观测S
    • 3.2. 循环这个episode中的每一步,直到一个最大步数或SS到达终止态:
      • 3.2.1. 使用ϵ\epsilon-greedy,结合QQ, SS 选取一个动作AA
      • 3.2.2. 执行动作AA,和环境交互,得到及时奖励RR和新的观测SS'
      • 3.2.3. 更新Q(S,A)Q(S,A)+α[R+γmaxaQ(S,a)Q(S,A)]Q(S,A) \leftarrow Q(S,A) + \alpha [R + \gamma max_aQ(S',a) - Q(S,A)]
      • 3.2.4. SSS \leftarrow S'
上次更新: 11/24/2021, 10:39:29 PM