# Asynchronous Advantage Actor-Critic

Asynchronous Advantage Actor-Critic 怎么发音? [eɪˈsɪŋkrənəs]

上次在PPO那一节中的Advantage Function怎么设计还没有说完,这一节来继续探讨这个问题。

Actor-Critics就是通过V得到Advantage Function, 然后做Policy Gridient, 得到好的策略。而得到V function的方式是使用MC或者TD。

Reinforce是Policy Gradient的其中一种方法,你在不知不觉中已经学了它了。

关于为什么要在Actor的Loss里面添加Entropy的项,这里有一个讨论

网络上唯一一个按照这里提到的方法写的程序.