# Asynchronous Advantage Actor-Critic

Asynchronous Advantage Actor-Critic 怎么发音? [eɪˈsɪŋkrənəs]

上次在PPO那一节中的Advantage Function怎么设计还没有说完,这一节来继续探讨这个问题。

Actor-Critics就是通过V得到Advantage Function, 然后做Policy Gridient, 得到好的策略。而得到V function的方式是使用MC或者TD。

Reinforce是Policy Gradient的其中一种方法,你在不知不觉中已经学了它了。

关于为什么要在Actor的Loss里面添加Entropy的项,这里有一个讨论 (opens new window)

网络上唯一一个按照这里提到的方法写的程序 (opens new window).

上次更新: 11/24/2021, 10:39:29 PM