Size: a a a

2020 August 10

АЖ

Андрей Жуков... in Data Engineers
бесшовно ярн-куб не выйдет
источник

K

KrivdaTheTriewe in Data Engineers
Андрей Жуков
бесшовно ярн-куб не выйдет
почему?
источник

АЖ

Андрей Жуков... in Data Engineers
еще и с шафлами в эфемерных дисках налюбишься
источник

K

KrivdaTheTriewe in Data Engineers
да у меня требований нет  по миграции, мне самому просто приятно, что не нужны доп компоненты
источник

АЖ

Андрей Жуков... in Data Engineers
KrivdaTheTriewe
почему?
потому что ярн и кубы немношк разные даже в отношении к деплою
источник

K

KrivdaTheTriewe in Data Engineers
Андрей Жуков
потому что ярн и кубы немношк разные даже в отношении к деплою
да не , я все понимаю, я просто про то, что совсем на низкоуровневые компоненты не хочу завязываться.
источник
2020 August 11

ПБ

Повелитель Бури... in Data Engineers
Доброе! Коллеги подскажие пожалуйста откуда взять hive.xml ? Core, hdfs   я нашел )
источник

A

Alex in Data Engineers
/etc/hadoop/ лежат core и hdfs
/etc/hive лежит хайвовский
источник

ПБ

Повелитель Бури... in Data Engineers
Alex
/etc/hadoop/ лежат core и hdfs
/etc/hive лежит хайвовский
Спасибо! Я кстати победил клоудеру. Коллеги из инфры фаерыол не отключили.
источник

A

Alex in Data Engineers
никогда такого не было и вот опять
источник

IK

Irina Kamalova in Data Engineers
ZLoyer Matveev
Ноу тайм ту эксплейн.
@optician_owl а подскажешь как правильно перформанс мерить? есть ли какие-то best practice/инструменты?
сходу приходит только  первый  .map делать на измерение времени и последний
источник

ZM

ZLoyer Matveev in Data Engineers
Смотря что мерить собрались. Начать стоит с точной постановки вопроса.
источник

IK

Irina Kamalova in Data Engineers
есть flow, в котором несколько шагов от source до sink
хочется по эксперемнтировать с maAsync  и посмотреть, как этот отразиться на работе стрима
источник

ZM

ZLoyer Matveev in Data Engineers
Ну если это только внутренний код, то можно для большого упрощения и так. Хотя игры с многопоточностью лучше уже смотреть по данным, попавшим в кафку (если я правильно подхватил контекст). В зависимости от настроек в коде может быть прирост, а по факту нет.
источник

IK

Irina Kamalova in Data Engineers
да, контекст правильно подхватили 😌
т.е. на тестовых данных уже проводить эксперименты и смотреть на рейт?
спасибо!
источник

AE

Alexey Evdokimov in Data Engineers
https://github.com/PastorGL/outlines-indexes

чтобы никому не пришлось покрывать таймзоны сша компактным h3 (и, сука, тратить на это неделю), думаю, стоит выложить на гх. может ещё кому-нить таки понадобятся.
сделаю отдельные штаты и/или counties — тоже выложу.

картинку добавить не могу, qgis на таком количестве полигонов у меня падает
источник

ДД

Дмитрий Демитов... in Data Engineers
подскажите пожалуйста, а почему hdfs snapshotDiff может не показывать файлы в каталогах?
файлы лежат, дата создания как у каталога, а в отчете  snapshotDiff только каталоги
источник
2020 August 12

AM

Al Mi in Data Engineers
Sergey Sheremeta
коллеги, привет! подскажите...
<data_vault_enabled>
у меня в потоковом режиме прилетают "состояния" некой сущности - например, сущность "абонент". со всеми его атрибутами.
а я хочу разложить в DWH эти "состояния" на "события"

например, сначала прилетело состояние:
id, name, sex, married
1,  Petrova, female, 0

потом:
id, name, sex, married
1,  Petrova-Vodkina, female, 1

хочу иметь возможность отследить все изменения для абонентов по времени.
мне ведь путь в DataVault?
</data_vault_enabled>
SCD2 еще тот гемор. Я так уразумею, что выбор будет hudi или deltalake. Тк в моей шараге спарк 2.3 & hive 1.2,  пришлось лепить костыли с hudi😱
источник

ПБ

Повелитель Бури... in Data Engineers
Добрый! После перезагрузки дата нод они умерли. Я
запустил clousera agent и
сделал  recommmision,  
сделал   fsk delete плохих блоков нет.
Перезааустил hdfs

Ноды все равно мертвы.я что то пропустил?
источник

S

Stanislav in Data Engineers
чтение логов
источник