Короче есть стек. Данные читаются из кафки спарк стриммингом и раскладываются в HDFS, ELK, Clikhouse, etc. Над данными в HDFS молотят джобы Hive, Spark, MapReduce, которые готовят аналитические витрины, либо датасеты для ML. Отдельно учатся ML-модельки, отдельно инферятся либо тем же спарком, либо кастомными сервисами. Хочется это разложить на понятные группы. Типа data ingestion - kafka + spark streaming, ETL - Spark, Hive, MapReduce, что-то еще Clickhouse, что-то еще обучение моделей, что-то еще - инференс моделей. Нагуглить вменяемую таксономию компонени не смог