Телеграмм чат группы hadoopusers страница 2630

GO-JEK and Google Cloud are pleased to announce the release of Feast, an open source feature store that allows teams to manage, store, and discover features for use in machine learning projects.

ну да под ним

источник

11:24пожаловаться #5

АЖ

Андрей Жуков... in Data Engineers

Мгновенно ограничивает применение :)

источник

11:25пожаловаться #6

AZ

Anton Zadorozhniy in Data Engineers

Andrew Konstantinov

Привет!Что кто использует в качестве feature storage для мл ?

Teradata

источник

11:28пожаловаться #7

A

Alex in Data Engineers

Андрей Жуков

А он разве не поверх GCP?

он на beam поэтому можешь применить много где
наши даже на спарке запустили в нашем хадупе
хотя спарк им принёс много боли

источник

13:07пожаловаться #8

SS

Sergey Sheremeta in Data Engineers

коллеги, добрый день!
подскажите как вы в Spark Structured Streaming реализуете отправку в "карантин" не прошедших валидацию данных?
?верно я мыслю:
на фазе трансформации прогоняем проверки с try/catch и заполнение столбца is_valid. потом на фазе записи в foreachBatch записываем валидные данные в целевую таблицу, невалидные - в карантинную.
над карантинной таблицей настраиваем алертинг через Redash

источник

13:08пожаловаться #9

D

Dima in Data Engineers

Коллеги, подскажите дата инженеры занимающиеся девопс задачами это нормальное явление для небольших компаний?

источник

13:16пожаловаться #10

A

Alex in Data Engineers

если про сапорт хадупа то да

источник

13:17пожаловаться #11

AK

Andrew Konstantinov in Data Engineers

а чем плох Hopsworks ?cмотрю он поддерживает спарк,питон и тд)

источник

13:17пожаловаться #12

S

Stanislav in Data Engineers

Sergey Sheremeta

коллеги, добрый день!
подскажите как вы в Spark Structured Streaming реализуете отправку в "карантин" не прошедших валидацию данных?
?верно я мыслю:
на фазе трансформации прогоняем проверки с try/catch и заполнение столбца is_valid. потом на фазе записи в foreachBatch записываем валидные данные в целевую таблицу, невалидные - в карантинную.
над карантинной таблицей настраиваем алертинг через Redash

а потом устаешь от этой истории, и с учетом наличия буфера в кафке
просто падаешь приложением при невалиде, на что мониторинги уже есть
после правки достаешь из буфера )
наверное, зависит от масштаба, количества источников, количества людей, и скорости правки кода

источник

13:18пожаловаться #13

R

Rodion in Data Engineers

Dima

Коллеги, подскажите дата инженеры занимающиеся девопс задачами это нормальное явление для небольших компаний?

Да, конечно. В маленьких конторах ты вообще всем можешь заниматься. Тут ключевой вопрос, устраивает ли тебя оплата и задачи, или ты громко бомбишь, не успевая ничего, и доказываешь, что надо нанять ещё одного человека, который зашарит вместо тебя и вы вместе выдадите больше работы.

источник

13:21пожаловаться #14

D

Dima in Data Engineers

Rodion

Да, конечно. В маленьких конторах ты вообще всем можешь заниматься. Тут ключевой вопрос, устраивает ли тебя оплата и задачи, или ты громко бомбишь, не успевая ничего, и доказываешь, что надо нанять ещё одного человека, который зашарит вместо тебя и вы вместе выдадите больше работы.

Да я вот как раз структуру формирую чтобы устраивало, но есть лимиты по фоту).(как всегда). По этому интересуюсь насколько справедливо от DE желать чтобы он свои решения самостоятельно разворачивал в облаке + помогал коллегам развёртывать команда небольшая но с перспективой роста, которую хотелось бы корректно обозначить уже сейчас.

источник

13:24пожаловаться #15

VS

Vladislav 👻 Shishkov... in Data Engineers

Явление в целом нормальное, но помимо времени есть еще фактор "опытности". Потому что нет ничего хуже, чем потом переделывать костыли и велосипеды

источник

13:33пожаловаться #16

VS

Vladislav 👻 Shishkov... in Data Engineers

Лично мое мнение, разработчик больше волнуется про доставку коду, нежели про качество и стабильность, а поэтому не всегда может выстроить правильно пайплайны, не говоря уже про тестирование и безопасность

источник

13:34пожаловаться #17

SS

Sergey Sheremeta in Data Engineers

Stanislav

а потом устаешь от этой истории, и с учетом наличия буфера в кафке
просто падаешь приложением при невалиде, на что мониторинги уже есть
после правки достаешь из буфера )
наверное, зависит от масштаба, количества источников, количества людей, и скорости правки кода

да, ты как всегда прав! спасибо!
учитывая, что у нас данные не аддитивные, проще исправить код джобы и передеплоить ее

источник

13:37пожаловаться #18

VA

Vladislav Akatov in Data Engineers

Dima

Коллеги, подскажите дата инженеры занимающиеся девопс задачами это нормальное явление для небольших компаний?

Совершенно естественная вещь, как оказалось.

источник

13:44пожаловаться #19

T

T in Data Engineers

Vladislav 👻 Shishkov

Лично мое мнение, разработчик больше волнуется про доставку коду, нежели про качество и стабильность, а поэтому не всегда может выстроить правильно пайплайны, не говоря уже про тестирование и безопасность

очень хорошо лечится онколами

источник

13:45пожаловаться #20