Привет, подскажите. Подключился через spark steaming 2.3 к kafka и пишу в hdfs в формате orc. Получается очень много мелких файлов. Как уменьшить их число? Можно как то буферизировать в спарке и писать пачками или только делать периодически coalesce orc файлам? Или может есть более верный вариант, чем писать в hdfs?
если вы будете буферизовать на спарке то это наверное не очень хорошо скажется на отказоуйстойчивости; каноничными являются два способа: 1) приземлять из кафки не спарком а нормальный приземлятором который делает большие красивые файлы и 2) писать спарком маленькие и потом их укрупнять когда условная партиция закрыта, хотя бы alter table concatenate