Al T
Коллеги, поделитесь пожалуйста своим опытом/мнением что выбрать по таким вводным данным: несколько датасетов ( a few millions each, but can grow up to 50mln, в датасете 50-60 полей в среднем) необходимо слайсить-и-дайсить (фильтр+группировка+лимит) с временем ответа до 2х секунд, нагрузка в пике может быть до 50TPS. Необходима UDF, поэтому не хочет эластик. Есть мнение что Livy+Spark с закешированным датафреймом могут быть решением, но я что-то как-то не уверен насчет 50TPS с кучей разных queries которые во время выполнения тоже будут память есть для группировки например...
Greenplum? Ну или старшие товарищи ;)