# 强化学习的困难之处

  • Reward delay
    • 游戏中只有开火才会得到奖励; 但是左右移动对得到奖励也是有影响的。要求智能体要有远见。
  • Agent的行为会影响环境,会影响它看到的东西
    • 要求Agent要学会合适的探索(Exploration): 要求它去尝试没有做过的行为。