Size: a a a

2019 November 19

DM

Daniel Matveev in Data Engineers
Stanislav
передача 40 гиговых картинок кафкой
путем до файла конечно
источник

DM

Daniel Matveev in Data Engineers
Grigory Pomadchin
порезал мету покускам; зашафлил; прочитал что надо
т.е. уже не очень и 40ГБ?)
источник

DM

Daniel Matveev in Data Engineers
или что под метой
источник

DM

Daniel Matveev in Data Engineers
мне тупо кейс интересен, Гриша, забей на НДА
источник

GP

Grigory Pomadchin in Data Engineers
Daniel Matveev
или что под метой
а я ж рассказывал как можно ет делать
источник

GP

Grigory Pomadchin in Data Engineers
источник

GP

Grigory Pomadchin in Data Engineers
но в моем случае я просто не понял сравнения флинка и спарка
источник

A

Alex in Data Engineers
Grigory Pomadchin
порезал мету покускам; зашафлил; прочитал что надо
А вот тут может оказаться и флинк получше ;)

На вход линк на файл, в кафке лишь евент, первый map вытягивает и парсит файлик порождая поток евентов, следующие их процессят

В случае спарка зачастую у тебя происходит материализация этих всех евентов (нужно же закончить сразу парсить, прежде чем перейти на следующий шаг)

Во флинке это поток эвентов и пока файл парится на выходе они уже складываются в выходную очередь после обработки
источник

GP

Grigory Pomadchin in Data Engineers
Alex
А вот тут может оказаться и флинк получше ;)

На вход линк на файл, в кафке лишь евент, первый map вытягивает и парсит файлик порождая поток евентов, следующие их процессят

В случае спарка зачастую у тебя происходит материализация этих всех евентов (нужно же закончить сразу парсить, прежде чем перейти на следующий шаг)

Во флинке это поток эвентов и пока файл парится на выходе они уже складываются в выходную очередь после обработки
ну да; ток это хорошо если тебе тока флинк и нужен; а так мне кажется разницы нет
источник

A

Alex in Data Engineers
Просто у нас был похожий кейс на вход лишь метадата о файле, на выходе миллионы евентов по нему
источник

DM

Daniel Matveev in Data Engineers
в секунду?
источник

GP

Grigory Pomadchin in Data Engineers
Alex
Просто у нас был похожий кейс на вход лишь метадата о файле, на выходе миллионы евентов по нему
а как с редьюсами по ходу стрима?
источник

A

Alex in Data Engineers
Daniel Matveev
в секунду?
На выхоже до миллионов догоняли в секунду, парсер скейлится количеством легко
источник

GP

Grigory Pomadchin in Data Engineers
Alex
На выхоже до миллионов догоняли в секунду, парсер скейлится количеством легко
оч круто кстати
источник

DM

Daniel Matveev in Data Engineers
Alex
На выхоже до миллионов догоняли в секунду, парсер скейлится количеством легко
на каком железе?
источник

A

Alex in Data Engineers
Grigory Pomadchin
а как с редьюсами по ходу стрима?
Редьюсов сильно не было, мы флинк как ранер для бима использовали, немного стейты только гоняли
источник

A

Alex in Data Engineers
Daniel Matveev
на каком железе?
Хадуп кластер, там много чего было, парсинг лишь один из этапов, было и "прочитал с кафки-посчитал-в кафку"
источник

GP

Grigory Pomadchin in Data Engineers
ну я использовал флинк у меня не было проблем) простенькая очередь что-то там считалось
источник

GP

Grigory Pomadchin in Data Engineers
источник

GP

Grigory Pomadchin in Data Engineers
Daniel Matveev
ничем в данном случае батч отличаться от стрима не будет
а как флинк с драмматичной бекпрешшей работает?
источник