Size: a a a

2019 December 13

AZ

Anton Zadorozhniy in Data Engineers
Alex
Ясно, просто оставлять включенным это надо будет во многих местах и либах код править... Вот и думал как минимизировать и насколько это опасно
а зачем вам вообще он включенный на кластере, если у вас все в паркете и спарк с импалой?
источник

A

Alex in Data Engineers
У нас клоудера старая и хайв 1.1 насколько помню и хадуп 2.6

Сейчас развернули новый кластер на хадупе 3.2 и хайв 3.1, с керберосом и остальным трешем, начинается миграция данных и утилит, потиху решаем вылазящие проблемы и вот стрикт мод одна из них
источник

OI

Oleg Ilinsky in Data Engineers
Anton Shelin
Так у аас там не дикт а структ
блэ, попробовал конвертнуть в map, data type mismatch: The given values of function map should all be the same type
там отличается тип в некоторых полях
источник

A

Alex in Data Engineers
До этого не было его :) поэтому и не парились, а сейчас появился и думаем насколько безопасно отключать, ведь дефолт поведение у него включено
источник

A

Alex in Data Engineers
Сам хайв малую часть занимает для етл, основное в спакретл, оттуда же и всякие даталинейж евенты шлем
источник

VS

Vadim Shatalov in Data Engineers
Всем привет, сори за возможно холиварный вопрос по Spark - когда и почему стоит использовать RDD взамен всего остального, именно на практике
источник

AZ

Anton Zadorozhniy in Data Engineers
Vadim Shatalov
Всем привет, сори за возможно холиварный вопрос по Spark - когда и почему стоит использовать RDD взамен всего остального, именно на практике
когда другие идеи закончились
источник

AZ

Anton Zadorozhniy in Data Engineers
Alex
Сам хайв малую часть занимает для етл, основное в спакретл, оттуда же и всякие даталинейж евенты шлем
если не секрет куда шлете? атлас?
источник

A

Alex in Data Engineers
Свое самописное, датамаркет

С показом откуда нужные колонки вылетели и куда потом уходят, местами даже с привязкой к ворклоадам которые это делают (узи джобам)

Сквозное между хадуп, вертикой и мсскл

Местами разрывы есть, но сделано более менее норм
источник

AZ

Anton Zadorozhniy in Data Engineers
Тут кстати с последними обновами AWS (managed Cassandra, EKS Fargate) держать Атлас на Амазоне не будет так больно и дорого
источник

AZ

Anton Zadorozhniy in Data Engineers
Alex
Свое самописное, датамаркет

С показом откуда нужные колонки вылетели и куда потом уходят, местами даже с привязкой к ворклоадам которые это делают (узи джобам)

Сквозное между хадуп, вертикой и мсскл

Местами разрывы есть, но сделано более менее норм
👍
источник

N

Nikita Blagodarnyy in Data Engineers
Vadim Shatalov
Всем привет, сори за возможно холиварный вопрос по Spark - когда и почему стоит использовать RDD взамен всего остального, именно на практике
Когда нет эффекта/смысла от действий оптимизатора spark-sql.
источник

M

Mi in Data Engineers
Nikita Blagodarnyy
Когда нет эффекта/смысла от действий оптимизатора spark-sql.
так оптимизатор spark-sql (Catalyst) вообще не будет участвовать
источник

VS

Vadim Shatalov in Data Engineers
Nikita Blagodarnyy
Когда нет эффекта/смысла от действий оптимизатора spark-sql.
Какие нибудь примеры в голову приходят?
источник

M

Mi in Data Engineers
но вообще думаю это будет выгоднее при работе с простым маппингом чего-нибудь во что-то, без особых сложностей алгоритма
источник

M

Mi in Data Engineers
базовый лоу-левел уровень
источник

M

Mi in Data Engineers
где от оптимизаций каталиста  разницы особой нет
источник

AZ

Anton Zadorozhniy in Data Engineers
наверное где разницы нет имеет смысл оставить каталист, все-таки удобнее сопровождать.. а вот если каталист мешает, или не получается его заставить делать так как хочется - тогда велкам ту лоу-левел
источник

R

Roman in Data Engineers
Anton Zadorozhniy
наверное где разницы нет имеет смысл оставить каталист, все-таки удобнее сопровождать.. а вот если каталист мешает, или не получается его заставить делать так как хочется - тогда велкам ту лоу-левел
Согласен, если выхлоп от самописного и sql(спарк) разницы нет, то лучше самописное не тянуть. Лучше вообще код не писать, по - возможности)
источник

N

Nikita Blagodarnyy in Data Engineers
Vadim Shatalov
Какие нибудь примеры в голову приходят?
Свертка простого списка.
источник