Size: a a a

2021 July 13

АД

Алексей Доровской... in Data Engineers
Всем привет, кто нибудь писал с помощью спарка в постгрес, столбец типа jsonb? Буду благодарен за подсказку.
источник

I

Ilya in Data Engineers
От объемов зависит, наверное. И от того, нужно ли на лету как-то хитро все обрабатывать
источник

VK

Viacheslav Korchagin in Data Engineers
Python, scrapy, mongo, Postgres, sqlalchemy
источник

e

er@essbase.ru in Data Engineers
источник
2021 July 14

DS

Denis Savitsky in Data Engineers
Добрый день! Подскажите, пожалуйста,
Столкнулся со следующей проблемой - пытаюсь в стриме считывать с директории файлы и не удается это сделать, хотя пишу вроде прямо по документации:
ос - убунту
Пишу: streamingContext.textFileStream("/home/..../dir/")
Затем я этот файл по идее парсю и в модель запихиваю. Так вот, чтобы я не делал спарк не хочет видеть его. Файл закидываю новый туда каждый раз, то есть modified date последний
источник

KS

K S in Data Engineers
Используете ли вы в ETL window functions и pivot?
источник

VS

Vladislav 👻 Shishkov... in Data Engineers
а почему и нет?
источник

D

Den in Data Engineers
оконные - постоянно. пивот - нет
источник

KS

K S in Data Engineers
И ещё вопрос: некоторые коллеги в ETL коде пишут километры SQL стейтментов. Как это тестировать?
источник

KS

K S in Data Engineers
У меня оконные почему то больше ассоциируются с аналитическими запросами.
источник

VS

Vladislav 👻 Shishkov... in Data Engineers
а если нужна агрегированная витрина?
источник

D

Den in Data Engineers
ну там чаще.. в целом пофиг же. главное задачу решить.
при заборе из источника частенько нужно как-нибудь проранжировать или пронумеровать данные и забрать только нужные
источник

KS

K S in Data Engineers
У нас нельзя данные из прода в нижние слои.
источник

TC

Tasty Cake in Data Engineers
Евгений и @ExcellentName привет, ребята. Спасибо за ваше мнение вчера. Да, я сегодня нашел статью: https://databricks.com/blog/2020/12/22/how-to-manage-python-dependencies-in-pyspark.html . Да,фичи работают для 3.1 спарка. У меня без этих плясок удалось впендерить дельту. Просто свой скрипт чуток поменял и теперь могу с delta-либами через Livy работать.
источник

NN

No Name in Data Engineers
Отлично :)
источник

KS

K S in Data Engineers
Меня больше беспокоит проблема монолитного SQL кода, и трудности разбиения его на небольшие юниты для тестирования.
источник

AZ

Anton Zadorozhniy in Data Engineers
Посмотрите на DBT
источник

KS

K S in Data Engineers
Вот мы и подползли к основной проблеме. 😁
Авторы то не желают ничего выносить и дробить. Просто нате вам две тысячи строк SQL, "у меня все работает ".
источник

AZ

Anton Zadorozhniy in Data Engineers
Это не проблема SQL
источник

λ

λoλdog in Data Engineers
а как sql и девопс связаны?
источник