# 强化学习的目标

强化学习究竟是学习什么? 这肯定也是你的问题。强化学习的目的是为了找到一套较好的策略。即让智能体学会做一系列的动作使得期望回报最大。例如在游戏中强化学习的目标就是Learn to maximize the expected cumulative reward per episode,即学习一套动作使得每一个episode中的累计奖励的期望最大。例如在Space Invaders游戏中就是学习在游戏结束之前尽可能多的杀死外星人,同时学会避让子弹,让自己活的更久。这里又涉及到一个问题什么样子的策略算是好的策略呢? 没有办法,我们不得不给出一个好策略的定义。给出下面一个定义:

  • 说有一个策略π\pi比另外一个策略π\pi'好或者一样, 要求在π\pi策略下每一个状态ss期望的回报(return)都比π\pi'策略下的回报大或者一样。因为状态期望的回报Eπ[GtSt=s]\mathbb{E}_{\pi}[G_t|S_t=s]就是值函数vπ(s)v_{\pi}(s)的定义。因此换句话说,仅当vπ(s)vπ(s)v_{\pi}(s) \geq v_{\pi'}(s)对所有的sSs\in \mathcal{S}都成立时,我们就说ππ\pi \geq \pi'

我们总是可以找到至少一个策略π\pi比其他策略好或者与之相等。那么这里的这个策略π\pi就叫做最优策略(optimal policy)。虽然可能有多个最优策略,把它们表示成π\pi_{*}。最优策略可能有多个,但是最优策略们却都对应相同的值函数,我们把这个值函数叫做最优状态值函数 optimal state-value function, 把它表示成vv_{*}。对所有的sSs \in \mathcal{S}都有:

v(s)maxπ{vπ(s)}v_{*}(s) \doteq \max \limits_{\pi}\{v_{\pi}(s)\}

最优策略们同时也对应了相同的最优动作值函数 optimal action-value, 把它表示成qq_{*}。对应所有的s,aS,As,a \in \mathcal{S},\mathcal{A}都有:

q(s,a)maxπ{qπ(s,a)}q_{*}(s,a) \doteq \max \limits_{\pi} \{q_{\pi}(s,a)\}

强化学习的目标就是找到策略π\pi_{*},使得它可以使得我们的长期回报最大化。

上次更新: 11/24/2021, 10:39:29 PM