判斷題強(qiáng)化學(xué)習(xí)中的策略梯度方法是一種直接優(yōu)化策略參數(shù)的算法,不需要估計(jì)價(jià)值函數(shù)。

您可能感興趣的試卷

你可能感興趣的試題