Size: a a a

2021 January 25

AZ

Anton Zadorozhniy in Data Engineers
Это не новье или старьё, это альтернативный таймлайн
источник

r

romλn in Data Engineers
гайз, привет
источник

r

romλn in Data Engineers
есть датасет в котором сотни тысяч физических s3 компатибл партиций, раньше писали спарком в с3  с использованием <>.save и прогоняли Glue crawlers на этих данных что бы добавить их в метастор хайва(Глу метастор в AWS) и таблицы.
источник

r

romλn in Data Engineers
Сейчас появилась идея писать напрямую в хайв таблицы используя saveAsTable или insertInto
источник

r

romλn in Data Engineers
но Глу метастор создал таблицы типа хайв и писать спарком можно только .format("hive")
источник

r

romλn in Data Engineers
в таком случае не используеться оптимайзер EMR для записи паркетов, и данные сначала пишуться в .hive_stagging_file_datexxx   директории и потом переименовуються
источник

r

romλn in Data Engineers
с учетом сотен тысяч физических партиций и тормознутой с3( по отношении к хдфс) перформанц проседает в 20 раз
источник

r

romλn in Data Engineers
есть какой-то способ с этим бороться
источник

r

romλn in Data Engineers
?
источник

RK

Ruslan Ksalov in Data Engineers
Всем привет! Кто-нибудь знает, есть ли способы из пайплайна Flink-a отправлять сообщения в разные очереди RMQ (RMQSink)? По всей видимости, нет. Но хочу убедиться. Может быть, кто-нибудь сталкивался.
источник

e

er@essbase.ru in Data Engineers
Что то не заметил community edition. Не так смотрел ?
источник

UD

Uncel Duk in Data Engineers
er@essbase.ru
Что то не заметил community edition. Не так смотрел ?
источник

А

Андрей in Data Engineers
Всем привет. Есть небольшой вопрос - спарк скл при произведении операции round() совершает ее по умолчанию в режиме оуругления half_up, т.е. результат 1.5 кастует как 2, например. В то же время при выполнении аналогичного запроса для хайва в hue операция производится в режиме half_down, т.е. 1.5 кастуется до 1. Отсюда несоответствие. Собственно вопрос - есть ли какие-то опции для хайва, чтобы изменить режим округления в рантайме? Или еще как-то это обойти?
источник

S

Sultan in Data Engineers
Андрей
Всем привет. Есть небольшой вопрос - спарк скл при произведении операции round() совершает ее по умолчанию в режиме оуругления half_up, т.е. результат 1.5 кастует как 2, например. В то же время при выполнении аналогичного запроса для хайва в hue операция производится в режиме half_down, т.е. 1.5 кастуется до 1. Отсюда несоответствие. Собственно вопрос - есть ли какие-то опции для хайва, чтобы изменить режим округления в рантайме? Или еще как-то это обойти?
+1 и trunc
источник

S

Sultan in Data Engineers
Стоп, ошибся, +0.5
источник

А

Андрей in Data Engineers
Sultan
+1 и trunc
а если там точность до трех знаков после запятой, и проблема именно в последнем знаке?)
источник

S

Sultan in Data Engineers
Андрей
а если там точность до трех знаков после запятой, и проблема именно в последнем знаке?)
Попробуй привести к double
источник

dk

daria kibireva in Data Engineers
Коллеги, подскажите, пож, интегрируется ли с чем-то англоязычным "китайский гугл аналитикс" baidu tongji
источник

А

Андрей in Data Engineers
Sultan
Попробуй привести к double
В принципе, в обычной ситуации, наверное, помогло бы) Но тут такая штука: подобный запрос - SELECT ROUND(23.525 * 2.54, 3) возвращает 59.753
источник

А

Андрей in Data Engineers
хотя 23.525 * 2.54 = 59.7535
источник