Size: a a a

2021 July 13

АЖ

Андрей Жуков... in Data Engineers
Опять выяснения гендера начались
источник

AA

Aleksey Aleksandrov in Data Engineers
источник

AT

Al T in Data Engineers
дата инженер это не профессия, это - половая ориентация
источник

A

Alex in Data Engineers
чтобы ответить на этот вопрос для начала нужно определиться с самим понятием data engineer
источник

R

Renarde in Data Engineers
"запишите эти простые, но, в то же время, великие слова"
источник

AT

Al T in Data Engineers
именно так. А ваш позорный недуг мы в подвиг определим - в дата инженеры запишем
источник

AZ

Anton Zadorozhniy in Data Engineers
я ждал этого клише
источник

TC

Tasty Cake in Data Engineers
Народ, привет. Запускаю спарк-приложение через livy. У меня используется библиотека delta.io. Настроил так, что в ливи-контейнере скачиваются зависимости дельта. На спарк-мастере (другой контейнер) ничего не скачивается. Таким образом, при  попытке исполнения файла с использованием функций delta, идет ошибка livy.models.SparkRuntimeError: ('ModuleNotFoundError', "No module named 'delta'", ['Traceback (most recent call last):\n', "ModuleNotFoundError: No module named 'delta'\n"]). Может кто-то сталкивался с такой проблемой и обошел ее? PS Думал над опцией "--py-files", но не решаюсь ее сделать -)
источник

AT

Al T in Data Engineers
всегда можете на меня рассчитывать
источник

ЕГ

Евгений Глотов... in Data Engineers
Можно через pyspark virtualenv раскрутить нужную либу
источник

TC

Tasty Cake in Data Engineers
Так. Хорошо. Я поэкспериментирую. -)
источник

NN

No Name in Data Engineers
Так это ж не во всех версиях можно - насколько я понимаю, нужен или дистрибутив hdp(версию не помню, в которой патч появился), или спарк 3.1
источник

ЕГ

Евгений Глотов... in Data Engineers
А в 3.1 патч разве вмёрджили? Если нет, то самому корячить придётся)
источник

NN

No Name in Data Engineers
Не, я где-то на днях прочитал, что они реализовали в последних версиях, ну и я не уверен, что именно этот патч использовали.
источник

TC

Tasty Cake in Data Engineers
У меня 3.0.1 спарк, лайви 0.8.0, хадуп 3.2
источник

ET

E T in Data Engineers
Всем привет!
Есть задача скрапить/вытягивать через api, делать препроцессинг и складывать в базу текстовую информацию(новости).
Какой стек технологий сможете посоветовать ?
Это streaming processing.
Спасибо 🙏🏻
источник

TM

Timur Malikin in Data Engineers
А почему streaming processing? Я ровно такое делал на PHP + Mysql 10 лет назад, по cron запускал каждые N минут скрипт :)
источник

ИГ

Ирина Гумпылон... in Data Engineers
источник

NN

No Name in Data Engineers
Потрясающе
источник

TC

Tasty Cake in Data Engineers
Привет. Как Тимур написал, мне кажется streaming это too much здесь. Я год назад делал на scrapy + хранил все в сиквел сервере
источник