Телеграмм чат группы hadoopusers страница 3532

Да. Если например каждый день запускать, то будет за день выгружать. Если не запускать месяц, то потом нужно будет даг прогнать за каждый день месяца, там есть catchup

источник

12:30пожаловаться #6

Anton Zadorozhniy in Data Engineers

в основном то что версии отстают (двойка врядли там есть сейчас), конкретные версии питона и пакетов форсят, GKE апгрейды ручные тоже нельзя, как-то так

источник

12:35пожаловаться #7

Anton Zadorozhniy in Data Engineers

ну и если вы прям сильно прижимаетесь по деньгам, шарите одну базу и кластер на все - Composer запускает свой GKE, делает свою базу

источник

12:40пожаловаться #8

Simon Osipov in Data Engineers

Спасибо

источник

13:19пожаловаться #9

Dmitriy Pavlov in Data Engineers

Всем привет!
21-го мая проводим митап российского сообщества Elasticsearch! Спикеры из «ДомКлик», «Тинькофф», Leroy Merlin расскажут, как их кластеры Elasticsearch переживают настоящий highload, какую архитектуру они строят и какие бизнес-задачи решают. А эксперты из компании Elastic расскажут о стратегии развития решений стека. Будем обсуждать лучшие архитектуры, фейлы и набитые шишки, строить планы и пить пиво и сидр. Приходите!
https://cloud.yandex.ru/events/361
Территориально Москва (Яндекс) + трансляция.

источник

13:29пожаловаться #10

Max Efremov in Data Engineers

А кто-то запускал steps на EMR? Там какая-то мистика, что на питоне не хочет парситься аргумент, содержащий json, если там 3 уровня вложенности) 2 уровня норм, а три уже падает где-то...

источник

13:59пожаловаться #11

Grigory Pomadchin in Data Engineers

покажи пример лучше

источник

14:00пожаловаться #12

Grigory Pomadchin in Data Engineers

Но вообще странное поведение, никогда такого не видел

источник

14:01пожаловаться #13

Max Efremov in Data Engineers

Блин, пытался сделать для показа, всё вообще перестало работать 😅

источник

14:17пожаловаться #14

Sergey Sheremeta in Data Engineers

дяденьки, подскажите, как можно в Cloudera Manager 6.3 посмотреть статистику GET-запросов к HBase в разрезе таблиц?
в Chart Builder пишу запрос вида: "select get_rate" - и указываю фасет "htableName", показывает только фасет со статистикой по всем таблицам, фасеты для конкретных таблиц пустые!
что я упускаю?

источник

16:18пожаловаться #15

Grigory Pomadchin in Data Engineers

На Открытом Уроке мы (абстрактное мы, администрация телего чата не аффилированна с курсом) (с Otus) подробно разберем, что же такое платформы Оркестрации, какие решения есть сегодня на рынке и даже углубимся в практический пример использования одной из самых распространенных платформ на сегодня: Apache Airflow.

Демо-занятие является частью онлайн-курса «Экосистема Hadoop, Spark, Hive». Для вас это возможность попробовать курс, познакомиться с преподавателем и получить ценные навыки. Для регистрации пройдите вступительный тест https://otus.pw/VhyU/

источник

16:55пожаловаться #16

Grigory Pomadchin in Data Engineers

cloudera manager ):

источник

16:55пожаловаться #17

Alexey Evdokimov in Data Engineers

пожалуюсь.

как же хочется ругаться на org.apache.hadoop:parquet-hadoop. и какой только дебил проектировал это апи? настолько неудобное в применении, что просто а-а-а-а-а, ужос

казалось бы, дай либе байтовый буфер или inputstream, и пускай распарсит. но не, ни фига нельзя. что ридер, что райтер прибиты гвоздями к filesystem, и чтоб прочитать паркетину с s3, его надо полностью скачать, потому что эта пакость юзает свой собственный seekable костыль.

а всё почему. потому что заголовок в конце, и читает оно с конца

источник

17:09пожаловаться #18

Alexey Evdokimov in Data Engineers

блин лучше не знать что у хадупа в кишках. там сцука боль.

источник

17:12пожаловаться #19

Andrey Smirnov in Data Engineers

паркет придумали отдельно от хадупа, но возможно и там тоже боль

источник

17:17пожаловаться #20