Size: a a a

2021 April 09

UR

Uncle Ruckus in Data Engineers
Всегда было интересно, а чем спарк им не инмемоои?
источник

NN

No Name in Data Engineers
Не, я и не думал о том, чтобы все в память совать. Кейсы использования разные, и я думаю о различных подходах к каждому. Как минимум, если брать вектор фичей, хотя бы наиболее актуальных, то это в моем представлении не самый большой объем памяти, и его можно, как вариант, в ин-мемори засунуть и получить быстрый отклик, норм тема будет для онлайн скоринга или рекомендашек контента, как мне кажется. А вот если нужны все фичи вглубь, то я подумывал уже, например, о какой-то жирной кв.
источник

GP

Grigory Pomadchin in Data Engineers
может бага гдето валяется
источник

NN

No Name in Data Engineers
А вот кейс с отдельными фичами норм и в текущей парадигме колумнарной витрины решается
источник

NN

No Name in Data Engineers
Не знал, спасибо
источник

NN

No Name in Data Engineers
Так он потому что не ин мемори, постоянно что-то на диск персистит и с потом с него читает.
источник

EK

Evgenii Kuznetcov in Data Engineers
Спарк вообще про другое. Он загружает данные, что-то делает и останавливается. Он stateless. Игнайт - это скорее база данных с продвинутыми фичами. Атомарные апдейты, транзакции, updates listeners...
источник

NN

No Name in Data Engineers
Если мне, например, надо вытащить оттуда все фичи по группе пользователей и поджойнить с другими, которые в хдфс лежат, это норм вообще будет работать?  И получится ли оттуда быстрее, чем из хдфс, достать данные за большой период, чтобы трейнить?
источник

UR

Uncle Ruckus in Data Engineers
Ну здрасьти, а thrift ему тогда зачем?
источник

AZ

Anton Zadorozhniy in Data Engineers
🍿
источник

АЖ

Андрей Жуков... in Data Engineers
+
источник

EK

Evgenii Kuznetcov in Data Engineers
А, я трифт не использовал.
Как я понял, это для аналитики. Обновлять данные через трифт апи можно?
Ну и это не выглядит, как что-то real-time
источник

UR

Uncle Ruckus in Data Engineers
Ну я делал такую конструкцию, у меня "горячие" данные лежали в спарке. Пракда это было давно (2.2 что ли) и быстро развалилось
источник

А

Алексей in Data Engineers
что если к партицированию по дате добавить дистрибуцию по клиенту, раз такой частый кейс?
источник

PA

Panchenko Andrey in Data Engineers
@alexsopov привет
источник

NN

No Name in Data Engineers
Ты имеешь в виду distributed by в хайве? Это ж вроде то же самое, что repartition в спарке, как это поможет?
источник

А

Алексей in Data Engineers
это пожмет в кейсе, когда тебе нужны все фичи по конкретному юзеру, с диска будут читаться только нужные бакеты, в которых есть этот юзер (пример)
источник

NN

No Name in Data Engineers
А, ну это ты имеешь в виду бакетирование, это немного другое. Есть сейчас мысли бакетировать витрину, предварительно разделив ее на несколько логических табличек, и, написать набор функций, которые при необходимости под капотом их сджойнят уже без шаффла.
источник

Y

Ya Anna in Data Engineers
Привет, ребята
Кто может поделиться кейсами, которые вам высылали, предлагающие работать у них, компании?
Я провожу исследования насколько это профитно, поэтому если есть истории, напишите мне плиз
источник

OI

Oleg Ilinsky in Data Engineers
а хайв метастор там не помрёт?
p.s. у меня прост помирал, когда сделали пратиционирование по двум измерениям: id проекта и дата. Причём помирал каждый раз, когда кто-то пытается сделать запрос в эту таблицу. Даже drop partition не работал.
источник