Size: a a a

2021 March 27

P

Pavel in Data Engineers
Включить compression.type: snappy
источник

У

Уруруборос Иванович... in Data Engineers
Доброго времени суток!
источник

У

Уруруборос Иванович... in Data Engineers
Нужна небольшая консультация по кафке:
На какие параметры в конфиге брокера нужно смотреть и какие параметры выставить на консъюмере, чтобы добиться максимальной скорости забора данных?
Там просто несколько подходящих. Я так понял основные это количество сообщений в батче и размер батча. Сейчас курю документацию, но может что-то упускаю. Буду крайне благодарен, если подскажите.
источник

UR

Uncle Ruckus in Data Engineers
Товарищи, кто с флинком работает. Есть проблема:
а) ломает последовательность входящих сообщений, причем что с кафки, что с сокета. Разброс до 15 секунд, т.е. может прилететь то, для чего уже watermark сто раз закрыт
б) сам же потом и удивляется: "AscendingTimestampExtractor  - Timestamp monotony violated", и никакой тебе автоматической обработки late events.
Кто сталкивался, как дечить?
источник

e

er@essbase.ru in Data Engineers
Andrey Smirnov
спасибо, тоже думал про это.
натолкнулся на хорошую подборку статей про спарк sql, может еще кому-то поможет
https://www.waitingforcode.com/apache-spark-sql/predicate-pushdown-spark-sql/read
😍.
источник

Ы

Ысь in Data Engineers
а сколько норма по insert в hive по времени?
источник

A

Alex in Data Engineers
Смотря сколько, hive ведь это в первую очередь метадата
источник

UR

Uncle Ruckus in Data Engineers
Uncle Ruckus
Товарищи, кто с флинком работает. Есть проблема:
а) ломает последовательность входящих сообщений, причем что с кафки, что с сокета. Разброс до 15 секунд, т.е. может прилететь то, для чего уже watermark сто раз закрыт
б) сам же потом и удивляется: "AscendingTimestampExtractor  - Timestamp monotony violated", и никакой тебе автоматической обработки late events.
Кто сталкивался, как дечить?
правильной watemark'овой стратегией на уровне консюмера
источник

e

er@essbase.ru in Data Engineers
Народ,  кто то использует  feature store ? Какие там есть продакшн-реди решения ?
источник

AZ

Anton Zadorozhniy in Data Engineers
er@essbase.ru
Народ,  кто то использует  feature store ? Какие там есть продакшн-реди решения ?
Sagemaker Feature Store, Hopsworks, Tecton

Feast это заготовочка
источник

AZ

Anton Zadorozhniy in Data Engineers
но если вы рассматриваете feature store просто как витрину с дополнительными метаданными и SDK - не трудно написать самому
источник

A

Alex in Data Engineers
Anton Zadorozhniy
Sagemaker Feature Store, Hopsworks, Tecton

Feast это заготовочка
Но они разве не клауд решения все?
источник

A

Alex in Data Engineers
Кроме хопсворка, который вроде можно у себя развернуть
источник

AZ

Anton Zadorozhniy in Data Engineers
Alex
Но они разве не клауд решения все?
sagemaker и tecton это SaaS, но вроде вопрос не ставился про self-hosted
источник

P

Pavel in Data Engineers
источник

P

Pavel in Data Engineers
Нашел в москве на менделеевской офис апача)
источник

NN

No Name in Data Engineers
Pavel
Нашел в москве на менделеевской офис апача)
О, здорово! Зайду на днях поконтрибьютить.
источник

NN

No Name in Data Engineers
Anton Zadorozhniy
sagemaker и tecton это SaaS, но вроде вопрос не ставился про self-hosted
Раз уж в этом направлении пошли, не слышали что-нибудь про self-hosted? Ну или что вообще поизучать по этой теме?
источник

AZ

Anton Zadorozhniy in Data Engineers
No Name
Раз уж в этом направлении пошли, не слышали что-нибудь про self-hosted? Ну или что вообще поизучать по этой теме?
Если вы пользователи терадаты - напишите в личку, поговорим 😊 а так вот тут хороший обзор функциональности feature store, можете сами примерить на свой стек https://feast.dev/blog/what-is-a-feature-store/
источник
2021 March 28

HN

Hesareal Nowhereman in Data Engineers
Всем чмаки в этом чате!
Есть кто плотно работал с Talend, насколько это «серьезный» инструмент для дата инженера?
Сам я на нем «писал» небольшую ETL джобу, которая собирала csv файлики с фтп сервака и данные с SQL сервера, производила минимальные чеки и преобразования, и выгружала всё это добро в БД для аналитики. В целом впечатления положительные, основные заморочки были с дебагом - искать ошибки когда джоба падает на серваке с null pointer exception
источник