Size: a a a

2019 November 18

DZ

Dmitry Zuev in Data Engineers
партиции
источник

ME

Max Efremov in Data Engineers
Как решал: пронумеровал строки по миллионам: первый миллион имеет ноль, второй 1 и т.д. Далее сделал репартишен по этой колонке и сохранил
источник

ME

Max Efremov in Data Engineers
Всё бы хорошо, но иногда получается коллизия хэшей и один-два файлика имели более миллиона строк(
источник

ME

Max Efremov in Data Engineers
Пошёл дальше, конвертнул датафрейм в рдд, сделал кастомный партишенер, который гарантированно отправляет в разные партиции, но это вышло довольно медленно(
источник

M

Mi in Data Engineers
Max Efremov
Пошёл дальше, конвертнул датафрейм в рдд, сделал кастомный партишенер, который гарантированно отправляет в разные партиции, но это вышло довольно медленно(
увы, вы будете постоянно упираться в проблемы с data locality
источник

M

Mi in Data Engineers
если требование "ровно миллион строк", то достаточно сложно сделать что-то быстрое имхо
источник

ME

Max Efremov in Data Engineers
Скорее не более 1048576 строк в партиции
источник

ME

Max Efremov in Data Engineers
Чот подумал, может потом тупо скриптик на питоне написать, который перелопатит эти файлики и склеит как надо))
источник

ME

Max Efremov in Data Engineers
Или даже разделит те, где коллизия произошла
источник

СХ

Старый Хрыч in Data Engineers
🙄что отвечать, если техдил на собесе говорит что кафка и кроль одинаково работают и разница ток в шине?
источник

GP

Grigory Pomadchin in Data Engineers
Старый Хрыч
🙄что отвечать, если техдил на собесе говорит что кафка и кроль одинаково работают и разница ток в шине?
Зависит от деталей разговора; высокоуровнево то что то что то очередь
источник

dv

dobry vechur in Data Engineers
то что то что то
источник

СХ

Старый Хрыч in Data Engineers
Grigory Pomadchin
Зависит от деталей разговора; высокоуровнево то что то что то очередь
про поведение, если в очереди будет более 200 млн сообщений
источник

GP

Grigory Pomadchin in Data Engineers
Ну типа очередь есть очередь - а Кафка / ребит это детали уже реализации
источник

GP

Grigory Pomadchin in Data Engineers
источник

СХ

Старый Хрыч in Data Engineers
Grigory Pomadchin
Ну типа очередь есть очередь - а Кафка / ребит это детали уже реализации
ну вот смотри, у тебя завис сервис который забирал данные из кафки\кроля, и ты его перезапустил
источник

СХ

Старый Хрыч in Data Engineers
что будет с кролём а что будет с кафкой
источник

A

Alex in Data Engineers
а что с ними должно быть?
источник

A

Alex in Data Engineers
если не отправлял подтвержение в кроля об обработке или комит в кафку то вычитаешь повторно
источник

GP

Grigory Pomadchin in Data Engineers
Старый Хрыч
что будет с кролём а что будет с кафкой
что?
источник