Size: a a a

2020 August 14

DZ

Dmitry Zuev in Data Engineers
источник

AK

Andrew Konstantinov in Data Engineers
а Feast?
источник

АЖ

Андрей Жуков... in Data Engineers
Недостаточно всрато

Даешь ephemeral volume
источник

АЖ

Андрей Жуков... in Data Engineers
А он разве не поверх  GCP?
источник

AK

Andrew Konstantinov in Data Engineers
GO-JEK and Google Cloud are pleased to announce the release of Feast, an open source feature store that allows teams to manage, store, and discover features for use in machine learning projects.

ну да под ним
источник

АЖ

Андрей Жуков... in Data Engineers
Мгновенно ограничивает применение :)
источник

AZ

Anton Zadorozhniy in Data Engineers
Andrew Konstantinov
Привет!Что кто использует в качестве feature storage для мл ?
Teradata
источник

A

Alex in Data Engineers
Андрей Жуков
А он разве не поверх  GCP?
он на beam поэтому можешь применить много где
наши даже на спарке запустили в нашем хадупе
хотя спарк им принёс много боли
источник

SS

Sergey Sheremeta in Data Engineers
коллеги, добрый день!
подскажите как вы в Spark Structured Streaming реализуете отправку в "карантин" не прошедших валидацию данных?
?верно я мыслю:
на фазе трансформации  прогоняем проверки с try/catch и заполнение столбца is_valid. потом на фазе записи в foreachBatch записываем валидные данные в целевую таблицу, невалидные - в карантинную.
над карантинной таблицей настраиваем алертинг через Redash
источник

D

Dima in Data Engineers
Коллеги, подскажите дата инженеры занимающиеся девопс задачами это нормальное явление для небольших компаний?
источник

A

Alex in Data Engineers
если про сапорт хадупа то да
источник

AK

Andrew Konstantinov in Data Engineers
а чем плох Hopsworks ?cмотрю он поддерживает спарк,питон и тд)
источник

S

Stanislav in Data Engineers
Sergey Sheremeta
коллеги, добрый день!
подскажите как вы в Spark Structured Streaming реализуете отправку в "карантин" не прошедших валидацию данных?
?верно я мыслю:
на фазе трансформации  прогоняем проверки с try/catch и заполнение столбца is_valid. потом на фазе записи в foreachBatch записываем валидные данные в целевую таблицу, невалидные - в карантинную.
над карантинной таблицей настраиваем алертинг через Redash
а потом устаешь от этой истории, и с учетом наличия буфера в кафке
просто падаешь приложением при невалиде, на что мониторинги уже есть
после правки достаешь из буфера )
наверное, зависит от масштаба, количества источников, количества людей, и скорости правки кода
источник

R

Rodion in Data Engineers
Dima
Коллеги, подскажите дата инженеры занимающиеся девопс задачами это нормальное явление для небольших компаний?
Да, конечно. В маленьких конторах ты вообще всем можешь заниматься. Тут ключевой вопрос, устраивает ли тебя оплата и задачи, или ты громко бомбишь, не успевая ничего, и доказываешь, что надо нанять ещё одного человека, который зашарит вместо тебя и вы вместе выдадите больше работы.
источник

D

Dima in Data Engineers
Rodion
Да, конечно. В маленьких конторах ты вообще всем можешь заниматься. Тут ключевой вопрос, устраивает ли тебя оплата и задачи, или ты громко бомбишь, не успевая ничего, и доказываешь, что надо нанять ещё одного человека, который зашарит вместо тебя и вы вместе выдадите больше работы.
Да я вот как раз структуру формирую чтобы устраивало, но есть лимиты по фоту).(как всегда). По этому интересуюсь насколько справедливо от DE желать чтобы он свои решения самостоятельно разворачивал в облаке + помогал коллегам развёртывать команда небольшая но с перспективой роста, которую хотелось бы корректно обозначить уже сейчас.
источник

VS

Vladislav 👻 Shishkov... in Data Engineers
Явление в целом нормальное, но помимо времени есть еще фактор "опытности". Потому что нет ничего хуже, чем потом переделывать костыли и велосипеды
источник

VS

Vladislav 👻 Shishkov... in Data Engineers
Лично мое мнение, разработчик больше волнуется про доставку коду, нежели про качество и стабильность, а поэтому не всегда может выстроить правильно пайплайны, не говоря уже про тестирование и безопасность
источник

SS

Sergey Sheremeta in Data Engineers
Stanislav
а потом устаешь от этой истории, и с учетом наличия буфера в кафке
просто падаешь приложением при невалиде, на что мониторинги уже есть
после правки достаешь из буфера )
наверное, зависит от масштаба, количества источников, количества людей, и скорости правки кода
да, ты как всегда прав! спасибо!
учитывая, что у нас данные не аддитивные, проще исправить код джобы и передеплоить ее
источник

VA

Vladislav Akatov in Data Engineers
Dima
Коллеги, подскажите дата инженеры занимающиеся девопс задачами это нормальное явление для небольших компаний?
Совершенно естественная вещь, как оказалось.
источник

T

T in Data Engineers
Vladislav 👻 Shishkov
Лично мое мнение, разработчик больше волнуется про доставку коду, нежели про качество и стабильность, а поэтому не всегда может выстроить правильно пайплайны, не говоря уже про тестирование и безопасность
очень хорошо лечится онколами
источник