Size: a a a

2021 May 14

I

Ilya in Data Engineers
Если, конечно, это не pet-project/NGO/благотворительность
источник

AZ

Anton Zadorozhniy in Data Engineers
судя по тому что выбор не привязан к конкретному облаку - люди в самом начале пути
источник

AZ

Anton Zadorozhniy in Data Engineers
и мб все решится просто RDS инстансом PG пожирнее
источник

R

Robert'); DROP TABLE... in Data Engineers
Мы на AWS хостимся, но рассматриваем сторонние облака - есть другие факторы всё же
источник

R

Robert'); DROP TABLE... in Data Engineers
А так да, DWH  нас пока не было, но инстансом пожирнее не решается т.к. цель гонять там аналитику и подключать BI-тулы, в т.ч. некоторые кастомеры могут захотеть на дешборд вывести что-нибудь. Можно было бы сказать, что "всё решится рид репликой" (сорс базы действительно в RDS), но не решится, т.к. данные партиционируются функционально по приложениям, и данные одного кастомера раскиданы по 4-5 разным инстансам постгреса
источник

AE

Alexey Evdokimov in Data Engineers
BQ в означенных объёмах стоит копейки
источник

R

Robert'); DROP TABLE... in Data Engineers
Хочется высосать данные из всех этих сорс баз и закинуть в одно большое ведро
источник

R

Robert'); DROP TABLE... in Data Engineers
Попробую его и сноуфлейк, они вроде по моделям прайсинга похожи
источник

AE

Alexey Evdokimov in Data Engineers
даже если аппликуха развёрнута в авс, лить логи в bq и дёргать по ним аналитику получается дёшево
источник

R

Robert'); DROP TABLE... in Data Engineers
Тут просто наш аналитик, пришедший недавно из другой компании, где они использовали BQ, рассказывал, как они дали кастомеру базу, а кастомер её вывел на дашборд и дергал каждые 5 секунд, и выходило сильно дороже, чем они рассчитывали. Конкретных цифр не смог назвать, правда
источник

AE

Alexey Evdokimov in Data Engineers
я ровно такой кейс делал. в объёмах до единиц тб вообще не заметно по костам. какие-то десятки баксов в месяц
источник

R

Robert'); DROP TABLE... in Data Engineers
Отлично, тогда и для разработки ок, и в проде потом можно будет зарезервировать капасити, в случае чего
источник

R

Robert'); DROP TABLE... in Data Engineers
Спасибо 👍
источник

R

Robert'); DROP TABLE... in Data Engineers
Сноуфлейк тоже похож должен быть по идее, надо посмотреть
источник

А

Алексей in Data Engineers
synapse еще в azure
источник

ИА

Иван Ахлестин... in Data Engineers
Всем привет, переключились со spark-standalone на yarn, все работает, но ярн очень криво балансит нагрузку на одни ноды все, на другие -ничего, под контролем спарка такого не было. Датаноды загружены равномерно. YARN 3.1.1, Spark 2.4.5 . Может у кого есть идеи куда посмотреть?
источник

D

Dmitry in Data Engineers
в сторону data locality. ярн запускает там где данные
источник

ИА

Иван Ахлестин... in Data Engineers
Еще из странностей - yarn не отображает реальное количество vcores занятых спарком, чисто по числу контейнеров. Хотя AM спарка пишет все в соответствии.
По locality вроде все норм, на 32 тачки все нормально распределено.
источник

RK

Ruslan Krivoshein in Data Engineers
Запускаю pyspark и получаю ворох такого при том, что в папке со спарком в conf лежит hive-site.xml, где все эти настройки прописаны. Не могу найти способ заставить pyspark учесть этот файл при старте. Подскажите, пожалуйста, куда копнуть
источник

VP

Vitaly Pismarev in Data Engineers
У них совсем разные модели прайсинга.
источник