Это для каких операций актуально? Наверняка же не во всех случаях ускорение на практике есть? Можете опытом поделиться, что в вашем случае сработало)
Тяжелые операции с большими массивами (но не сильно большими, чтобы в память карты поместились). Но самом деле, в действительно критичных местах, чтобы вытянуть из GPU все, все-таки желательно писать на CUDA и задействовать готовые либы от NVIDIA.
Разбирал пару случаев - там действительно бывает довольно сложно и даже банальный поиск суммы массива может быть самым медленным шагом.