Евгений Глотов
Но блин с этим кубером все забыли, что данные нужно не только обрабатывать, но и хранить где-то)
сразу все говорят про даталокалити и делают hdfs
потом рассказывают что s3 рулить, сеть быстрая, даталокалити не нужна
потом добавляют s3 select api чтобы лишние данные не гонять по сети так как это долго и дорого, лучше выполнять фильтрацию рядом с данными
жду очередной итерации