Policy-Based Methods¶

gradient free methods: easy to scale, but don't work so well with too many parameters
policy gradient methods

Different ways to do policy optimization: https://youtu.be/KHZVXao4qXs?t=1532 - gradient free, eg evolution methods - gradient based, eg using gradient descent, see policy gradient methods

Last update: April 9, 2020