Если так подводить по основым челленджа там, то это:
(1) надо правильно собрать состояние
(2) action space в перемешку (дискретные и непрерывные актуаторы)
(3) допилить симулятор для тренировки
(4) константы симулятора, которые могут меняться на сервере и в разных раундах
(5) от раунда к раунду усложняется, например, вместо одного бота нужно управлять двумя и т.п
и всё это залито сверху тем, что ты играешь против других стратегий