Size: a a a

2020 July 22

S

Stanislav in Data Engineers
Alex
кластер на пару сотен машин с клоудерой 5.8 всплакнул в уголку
Можете себе позволить, когда способны влить ванилу хайва :) а есть те, кто не могут рейнжер из рпм вкатить :)
источник

A

Alex in Data Engineers
ванила в соседнем кластере
там хадуп 3.2.0
сейчас обсуждается обновление
источник

АК

Анатолий Клюса... in Data Engineers
Я хотел ванильный хадуп поставить...)) Но хоть у меня и дома линух и на работе и у жены))
Могу рпмы вкатить))
Но я посмотрел на все это дело, поизучал, взгрустнул... и пошел ставить клаудеру )))
источник

S

Stanislav in Data Engineers
Анатолий Клюса
Э... ну да, ну как большой, просто хочу из рабочей бд в оракле забирать инфу в архив, в оракле дорого и не надо всеиэто держать.
А кликхаус нам не читали на курсах по DE )))
Взял пока, что читали и с чем был знаком, клаудеру, хадуп...)
Зачем устаревший стек. Го+кликхауз :)
источник

А

Алексей in Data Engineers
Что все про хайв, скажите что-нить хорошее про импалу. Про нее чет вообще ничего не слышно
источник

АК

Анатолий Клюса... in Data Engineers
Алексей
Что все про хайв, скажите что-нить хорошее про импалу. Про нее чет вообще ничего не слышно
Импала мне понравилась с паркетами) Но там нет xpath...)
источник

M

Mi in Data Engineers
Есть ли какой-то способ в афине получить количество партиций а не их список?
источник

M

Mi in Data Engineers
или напрямую из glue
источник

M

Mi in Data Engineers
хоть как-нибудь
источник

A

Alex in Data Engineers
Алексей
Что все про хайв, скажите что-нить хорошее про импалу. Про нее чет вообще ничего не слышно
ну тут был наброс что импала потиху загибается
старые баги фиксятся, но развития нету

в принципе своё дело делает, но написана на плюсах, а следовательно накладывает ограничения:
поддержку orc подвезли в минимальном виде
iceberg и hudi в минимальном виде тоже только-только

то есть до тех пор пока вы укладываетесь в то что сделано, то ок
но многие вещи и форматы сейчас пишутся под спарк/престо на java/scala и тут импала сразу в пролёт уходит
источник

M

Mi in Data Engineers
Я хз но у меня ощущение что престо сильно медленнее импалы
источник

A

Alex in Data Engineers
зато интеграций в разы больше
в общем в лоб я бы их не сравнивал
источник

A

Alex in Data Engineers
о, главный геморой с импалой:
раньше она или в клоудере была доступна или можно было просто взять пакеты и развернуть на свой дистр
сейчас бинарники только для подписчиков
а собирать самому импалу это пляска ещё та
источник

A

Art in Data Engineers
Alexey Evdokimov
ты нормальный аутлайн возьми, а не прямоугольник. несколько интереснее будет
Вот эксперимент с использованием геометрии Техаса - расчет с использованием convex hull и отдельно по каждому county. Не вижу большой проблемы с рантаймом, ~12 минут на штат если convex hull создает большую погрешность
Код: https://gist.github.com/REASY/9cc3d0333675bc57e60bb9d2452e0ef3
Shape взят отсюда: https://catalog.data.gov/dataset/tiger-line-shapefile-2017-nation-u-s-current-county-and-equivalent-national-shapefile
источник

A

Art in Data Engineers
источник

АК

Анатолий Клюса... in Data Engineers
Stanislav
Зачем устаревший стек. Го+кликхауз :)
Давно уже на него смотрю... но пока только смотрю)
Но у меня есть еще один кейс, там нужно не лопатить изредка, а часто и быстро точечно получать конкретный блоб-объект по его id.
Возможно, кликхаус для этого будет норм...
источник

MB

Mikhail Butalin in Data Engineers
Внимание знатоки!
Таблица в KUDU 150 колонок, 90% из которых - String,

Это вообще нормально?! 0_0
источник

A

Alex in Data Engineers
вы бы хоть спрашивали что именно не так?
150 это много или мало?
источник

UD

Uncel Duk in Data Engineers
Mikhail Butalin
Внимание знатоки!
Таблица в KUDU 150 колонок, 90% из которых - String,

Это вообще нормально?! 0_0
А в стрингах инты?
источник

UD

Uncel Duk in Data Engineers
источник