я хз как у них реализовано. но производительность того что он собирает ниже аналогичного кода на cuda.
Плюс весёлые баги когда copy from device to host в блокирующем режиме приводил к загрузке ядра cpu на полную. потом пофиксили.
ну, я немного изучал вопрос, это враппер над кудой, если карта нвидиа, и враппер надо амдшным решением, забыл, как оно называется