Size: a a a

2020 September 30

AE

Alexey Evdokimov in Data Engineers
а легаси код в моём случае писали какие-то чуваки, которые об этом не думали
источник

N

Nick in Data Engineers
Боги спарка помогите советом, пожалуйста. Надо из Кафки прочитать сообщение в protobuf и записать его в hive как string(в читаемом формате) с помощью спарка (batch queries), ну и потом его преобразовать, но это уже мелочи. Думал установить опцию для value.deserializer с нужным классом, но в доках по спарку указано что так нельзя. Пока сломался и не знаю куда копать, может кто сталкивался с подобным и может подсказать. Буду очень благодарен
источник

АШ

Арсен Шакирзянов... in Data Engineers
Мы в таком случае писали udf, который разыорачивал сообщение в нужный формат
источник

K

KrivdaTheTriewe in Data Engineers
Nick
Боги спарка помогите советом, пожалуйста. Надо из Кафки прочитать сообщение в protobuf и записать его в hive как string(в читаемом формате) с помощью спарка (batch queries), ну и потом его преобразовать, но это уже мелочи. Думал установить опцию для value.deserializer с нужным классом, но в доках по спарку указано что так нельзя. Пока сломался и не знаю куда копать, может кто сталкивался с подобным и может подсказать. Буду очень благодарен
Читай бинари и касти к кейс классу, scalapb в помощь
источник

K

KrivdaTheTriewe in Data Engineers
Ребят, там озон вышел 5 сентября, кто уже заюзал?
источник

AZ

Anton Zadorozhniy in Data Engineers
Nick
Боги спарка помогите советом, пожалуйста. Надо из Кафки прочитать сообщение в protobuf и записать его в hive как string(в читаемом формате) с помощью спарка (batch queries), ну и потом его преобразовать, но это уже мелочи. Думал установить опцию для value.deserializer с нужным классом, но в доках по спарку указано что так нельзя. Пока сломался и не знаю куда копать, может кто сталкивался с подобным и может подсказать. Буду очень благодарен
А чем вы приземляете стандартно потоки из кафки в хдфс?
источник

N

Nick in Data Engineers
KrivdaTheTriewe
Читай бинари и касти к кейс классу, scalapb в помощь
Спасибо, гляну в эту сторону. UDF-кой парсить из протобава смутно представляю как
источник

N

Nick in Data Engineers
Anton Zadorozhniy
А чем вы приземляете стандартно потоки из кафки в хдфс?
Так первый раз с задачей чтения из кафки сталкиваюсь
источник

TM

Toemik Mnemonic in Data Engineers
Alexey Evdokimov
это collation, оно про сортировку строк только. формат парсинга даты не задаёт. надо смотреть именно локаль. какая используется на стороне драйвера и стороне сервера?
короче явно указал dmy при приведении типа на уровне pandas.DataFrame
        df['date'] = pd.to_datetime(df['date'], format='%d.%m.%Y')
 и стало по кайфу. спасибо за инфу
источник

AZ

Anton Zadorozhniy in Data Engineers
Nick
Так первый раз с задачей чтения из кафки сталкиваюсь
тогда нужно будет небольшую архитектурную задачку решить (или попросить архитектора), выбрать решение из спектра от простой программы которая берет топик и кладет в HDFS до больших фреймворков интеграции вроде kafka connect, nifi.. зависит от того как много данных, как много таких джобов надо запускать, какие у вас дистрибутивы и эксплуатационные возможности и так дальше..
источник

AZ

Anton Zadorozhniy in Data Engineers
самый простой вариант - действительно написать свою программу которая читает сообщения и пишет их партиционированный датасет на HDFS, а дальше парсить хайвами или спарками
источник

AZ

Anton Zadorozhniy in Data Engineers
но если у вас Confluent Platform 5.5+ то там PB на уровне регистра схем поддерживается, можно переложить kafka connect
источник
2020 October 01

R

Renarde in Data Engineers
Сап чат. Вопрос - кто каким пакетным менеджером для питона пользуется? Я был уверен что conda + pip де-факто стандарт, но вижу что ещё популярен poetry. Кто-нибудь пользуется им в проектах? Чем он лучше/хуже conda+pip?
источник

DZ

Dmitry Zuev in Data Engineers
А зачем конду и пип вместе?
источник

AZ

Anton Zadorozhniy in Data Engineers
Venv в базе третьего питона
источник

AZ

Anton Zadorozhniy in Data Engineers
Конду давно не видел
источник

DZ

Dmitry Zuev in Data Engineers
Anton Zadorozhniy
Venv в базе третьего питона
Венв?
источник

R

Renarde in Data Engineers
Dmitry Zuev
А зачем конду и пип вместе?
хз, по старой памяти pip-команды лучше помню, а энвайроменты проще через conda плодить
источник

R

Renarde in Data Engineers
Anton Zadorozhniy
Venv в базе третьего питона
это аргумент в пользу poetry, как я понимаю?
источник

AZ

Anton Zadorozhniy in Data Engineers
Pip в смысле, venv просто для окружений
источник