https://openreview.net/pdf?id=SyzKd1bCW Сабмит на ICLR, где авторы (кажется, из DeepMind'а) выучивают action-dependent control variate. Показывают, что метод круче, чем A2C
https://openreview.net/forum?id=BkUp6GZRW¬eId=BkUp6GZRW > We propose Dual Actor-Critic algorithm, which is derived in a principled way from the Lagrangian dual form of the Bellman optimality equation. The algorithm achieves the state-of-the-art performances across several benchmarks.
кто нибудь уже читал MAXIMUM ENTROPY EQUIVALENCE THEOREM, теор обоснование information bottleneck numeric experiments, вроде это самый топчик за 2к17 по DL https://openreview.net/pdf?id=r1kj4ACp-