Size: a a a

2021 April 22

ME

Max Efremov in Data Engineers
источник

S

Shadle in Data Engineers
Спасибо
источник

SO

Simon Osipov in Data Engineers
Господа, а кто хлебал каках с Cloud Composer, расскажите про негативный опыт?
источник

SS

Sergey Sheremeta in Data Engineers
SqlSensor, но мне кажется вам нужен не Airflow, а какое-то потоковое решение, поверх Change Data Capture - NiFi, Kafka Connect?
источник

S

Shadle in Data Engineers
ВОзможно, в другом чате тоже написали про это решение, спасибо!
источник

ЕГ

Евгений Глотов... in Data Engineers
Да. Если например каждый день запускать, то будет за день выгружать. Если не запускать месяц, то потом нужно будет даг прогнать за каждый день месяца, там есть catchup
источник

AZ

Anton Zadorozhniy in Data Engineers
в основном то что версии отстают (двойка врядли там есть сейчас), конкретные версии питона и пакетов форсят, GKE апгрейды ручные тоже нельзя, как-то так
источник

AZ

Anton Zadorozhniy in Data Engineers
ну и если вы прям сильно прижимаетесь по деньгам, шарите одну базу и кластер на все - Composer запускает свой GKE, делает свою базу
источник

SO

Simon Osipov in Data Engineers
Спасибо
источник

DP

Dmitriy Pavlov in Data Engineers
Всем привет!
21-го мая проводим митап российского сообщества Elasticsearch! Спикеры из «ДомКлик», «Тинькофф», Leroy Merlin расскажут, как их кластеры Elasticsearch переживают настоящий highload, какую архитектуру они строят и какие бизнес-задачи решают. А эксперты из компании Elastic расскажут о стратегии развития решений стека. Будем обсуждать лучшие архитектуры, фейлы и набитые шишки, строить планы и пить пиво и сидр. Приходите!
https://cloud.yandex.ru/events/361
Территориально Москва (Яндекс) + трансляция.
источник

ME

Max Efremov in Data Engineers
А кто-то запускал steps на EMR? Там какая-то мистика, что на питоне не хочет парситься аргумент, содержащий json, если там 3 уровня вложенности) 2 уровня норм, а три уже падает где-то...
источник

GP

Grigory Pomadchin in Data Engineers
покажи пример лучше
источник

GP

Grigory Pomadchin in Data Engineers
Но вообще странное поведение, никогда такого не видел
источник

ME

Max Efremov in Data Engineers
Блин, пытался сделать для показа, всё вообще перестало работать 😅
источник

SS

Sergey Sheremeta in Data Engineers
дяденьки, подскажите, как можно в Cloudera Manager 6.3 посмотреть статистику GET-запросов к HBase в разрезе таблиц?
в Chart Builder пишу запрос вида: "select get_rate" - и указываю фасет "htableName", показывает только фасет со статистикой по всем таблицам, фасеты для конкретных таблиц пустые!
что я упускаю?
источник

GP

Grigory Pomadchin in Data Engineers
На Открытом Уроке мы (абстрактное мы, администрация телего чата не аффилированна с курсом) (с Otus) подробно разберем, что же такое платформы Оркестрации, какие решения есть сегодня на рынке и даже углубимся в практический пример использования одной из самых распространенных платформ на сегодня: Apache Airflow.

Демо-занятие является частью онлайн-курса «Экосистема Hadoop, Spark, Hive». Для вас это возможность попробовать курс, познакомиться с преподавателем и получить ценные навыки. Для регистрации пройдите вступительный тест https://otus.pw/VhyU/
источник

GP

Grigory Pomadchin in Data Engineers
cloudera manager ):
источник

AE

Alexey Evdokimov in Data Engineers
пожалуюсь.

как же хочется ругаться на org.apache.hadoop:parquet-hadoop. и какой только дебил проектировал это апи? настолько неудобное в применении, что просто а-а-а-а-а, ужос

казалось бы, дай либе байтовый буфер или inputstream, и пускай распарсит. но не, ни фига нельзя. что ридер, что райтер прибиты гвоздями к filesystem, и чтоб прочитать паркетину с s3, его надо полностью скачать, потому что эта пакость юзает свой собственный seekable костыль.

а всё почему. потому что заголовок в конце, и читает оно с конца
источник

AE

Alexey Evdokimov in Data Engineers
блин лучше не знать что у хадупа в кишках. там сцука боль.
источник

AS

Andrey Smirnov in Data Engineers
паркет придумали отдельно от хадупа, но возможно и там тоже боль
источник