Andrew Nasonov
Ну вот есть например ~1000 топиков. Мы хотим их в течение часа уложить в хдфс. Последовательно - не уложимся. А как параллелить обработку кучи разных топиков в спарке - не оч понятно, я не очень умный ( Отдельное приложение для каждого поднимать?
камю как раз про это, там он анализирует метаданные, смотрит на список топиков и порождает мапредьюс нужных размеров чтобы каждый маппер тянул свой топик и набор партиций (в пределе - одну партицию)