Телеграмм чат группы hadoopusers страница 3484

Size: a a a

Data Engineers

2383 membersпожаловаться на группу

2021 April 09

Uncle Ruckus in Data Engineers

Всегда было интересно, а чем спарк им не инмемоои?

источник

15:10пожаловаться #1

No Name in Data Engineers

Не, я и не думал о том, чтобы все в память совать. Кейсы использования разные, и я думаю о различных подходах к каждому. Как минимум, если брать вектор фичей, хотя бы наиболее актуальных, то это в моем представлении не самый большой объем памяти, и его можно, как вариант, в ин-мемори засунуть и получить быстрый отклик, норм тема будет для онлайн скоринга или рекомендашек контента, как мне кажется. А вот если нужны все фичи вглубь, то я подумывал уже, например, о какой-то жирной кв.

источник

15:10пожаловаться #2

Grigory Pomadchin in Data Engineers

может бага гдето валяется

источник

15:10пожаловаться #3

No Name in Data Engineers

А вот кейс с отдельными фичами норм и в текущей парадигме колумнарной витрины решается

источник

15:10пожаловаться #4

No Name in Data Engineers

Не знал, спасибо

источник

15:10пожаловаться #5

No Name in Data Engineers

Так он потому что не ин мемори, постоянно что-то на диск персистит и с потом с него читает.

источник

15:11пожаловаться #6

Evgenii Kuznetcov in Data Engineers

Спарк вообще про другое. Он загружает данные, что-то делает и останавливается. Он stateless. Игнайт - это скорее база данных с продвинутыми фичами. Атомарные апдейты, транзакции, updates listeners...

источник

15:13пожаловаться #7

No Name in Data Engineers

Если мне, например, надо вытащить оттуда все фичи по группе пользователей и поджойнить с другими, которые в хдфс лежат, это норм вообще будет работать? И получится ли оттуда быстрее, чем из хдфс, достать данные за большой период, чтобы трейнить?

источник

15:15пожаловаться #8

Uncle Ruckus in Data Engineers

Ну здрасьти, а thrift ему тогда зачем?

источник

15:15пожаловаться #9

Anton Zadorozhniy in Data Engineers

🍿

источник

15:15пожаловаться #10

АЖ

Андрей Жуков... in Data Engineers

источник

15:15пожаловаться #11

Evgenii Kuznetcov in Data Engineers

А, я трифт не использовал.
Как я понял, это для аналитики. Обновлять данные через трифт апи можно?
Ну и это не выглядит, как что-то real-time

источник

15:20пожаловаться #12

Uncle Ruckus in Data Engineers

Ну я делал такую конструкцию, у меня "горячие" данные лежали в спарке. Пракда это было давно (2.2 что ли) и быстро развалилось

источник

15:25пожаловаться #13

Алексей in Data Engineers

что если к партицированию по дате добавить дистрибуцию по клиенту, раз такой частый кейс?

источник

15:38пожаловаться #14

Panchenko Andrey in Data Engineers

@alexsopov привет

источник

15:42пожаловаться #15

No Name in Data Engineers

Ты имеешь в виду distributed by в хайве? Это ж вроде то же самое, что repartition в спарке, как это поможет?

источник

15:46пожаловаться #16

Алексей in Data Engineers

это пожмет в кейсе, когда тебе нужны все фичи по конкретному юзеру, с диска будут читаться только нужные бакеты, в которых есть этот юзер (пример)

источник

15:47пожаловаться #17

No Name in Data Engineers

А, ну это ты имеешь в виду бакетирование, это немного другое. Есть сейчас мысли бакетировать витрину, предварительно разделив ее на несколько логических табличек, и, написать набор функций, которые при необходимости под капотом их сджойнят уже без шаффла.

источник

15:54пожаловаться #18

Ya Anna in Data Engineers

Привет, ребята
Кто может поделиться кейсами, которые вам высылали, предлагающие работать у них, компании?
Я провожу исследования насколько это профитно, поэтому если есть истории, напишите мне плиз

источник

16:28пожаловаться #19

Oleg Ilinsky in Data Engineers

а хайв метастор там не помрёт?
p.s. у меня прост помирал, когда сделали пратиционирование по двум измерениям: id проекта и дата. Причём помирал каждый раз, когда кто-то пытается сделать запрос в эту таблицу. Даже drop partition не работал.

источник

16:28пожаловаться #20