Телеграмм чат группы hadoopusers страница 3643

А так да, DWH нас пока не было, но инстансом пожирнее не решается т.к. цель гонять там аналитику и подключать BI-тулы, в т.ч. некоторые кастомеры могут захотеть на дешборд вывести что-нибудь. Можно было бы сказать, что "всё решится рид репликой" (сорс базы действительно в RDS), но не решится, т.к. данные партиционируются функционально по приложениям, и данные одного кастомера раскиданы по 4-5 разным инстансам постгреса

источник

14:40пожаловаться #5

Alexey Evdokimov in Data Engineers

BQ в означенных объёмах стоит копейки

источник

14:41пожаловаться #6

Robert'); DROP TABLE... in Data Engineers

Хочется высосать данные из всех этих сорс баз и закинуть в одно большое ведро

источник

14:41пожаловаться #7

Robert'); DROP TABLE... in Data Engineers

Попробую его и сноуфлейк, они вроде по моделям прайсинга похожи

источник

14:42пожаловаться #8

Alexey Evdokimov in Data Engineers

даже если аппликуха развёрнута в авс, лить логи в bq и дёргать по ним аналитику получается дёшево

источник

14:43пожаловаться #9

Robert'); DROP TABLE... in Data Engineers

Тут просто наш аналитик, пришедший недавно из другой компании, где они использовали BQ, рассказывал, как они дали кастомеру базу, а кастомер её вывел на дашборд и дергал каждые 5 секунд, и выходило сильно дороже, чем они рассчитывали. Конкретных цифр не смог назвать, правда

источник

14:45пожаловаться #10

Alexey Evdokimov in Data Engineers

я ровно такой кейс делал. в объёмах до единиц тб вообще не заметно по костам. какие-то десятки баксов в месяц

источник

14:45пожаловаться #11

Robert'); DROP TABLE... in Data Engineers

Отлично, тогда и для разработки ок, и в проде потом можно будет зарезервировать капасити, в случае чего

источник

14:45пожаловаться #12

Robert'); DROP TABLE... in Data Engineers

Спасибо 👍

источник

14:46пожаловаться #13

Robert'); DROP TABLE... in Data Engineers

Сноуфлейк тоже похож должен быть по идее, надо посмотреть

источник

14:46пожаловаться #14

Алексей in Data Engineers

synapse еще в azure

источник

14:47пожаловаться #15

ИА

Иван Ахлестин... in Data Engineers

Всем привет, переключились со spark-standalone на yarn, все работает, но ярн очень криво балансит нагрузку на одни ноды все, на другие -ничего, под контролем спарка такого не было. Датаноды загружены равномерно. YARN 3.1.1, Spark 2.4.5 . Может у кого есть идеи куда посмотреть?

источник

16:25пожаловаться #16

Dmitry in Data Engineers

в сторону data locality. ярн запускает там где данные

источник

16:29пожаловаться #17

ИА

Иван Ахлестин... in Data Engineers

Еще из странностей - yarn не отображает реальное количество vcores занятых спарком, чисто по числу контейнеров. Хотя AM спарка пишет все в соответствии.
По locality вроде все норм, на 32 тачки все нормально распределено.

источник

16:30пожаловаться #18

Ruslan Krivoshein in Data Engineers

Запускаю pyspark и получаю ворох такого при том, что в папке со спарком в conf лежит hive-site.xml, где все эти настройки прописаны. Не могу найти способ заставить pyspark учесть этот файл при старте. Подскажите, пожалуйста, куда копнуть

источник

17:19пожаловаться #19

Vitaly Pismarev in Data Engineers

У них совсем разные модели прайсинга.

источник

21:56пожаловаться #20