# 强化学习的基本模型

在只有少数动作会得到奖励的情况下,找到正确的动作是学习的难点。

提示

在和环境交互的时候,我们能够控制的只有智能体。而环境,和奖励是没有办法控制的。奖励是在交互之前就定好的规则。

思考

如果你的奖励也在合理的变化, 是不是就又会有新的发现呢?

上次更新: 11/24/2021, 10:39:29 PM