о том и речь, для подготовки данных SQL на зрелой MPP СУБД работает лучше спарка: запросы можно писать сложнее, оптимизатор работает лучше, разделение ресурсов работает намного лучше
а когда датасет на обучение готов - в бОльшей части случаев это можно обучить локально