Size: a a a

2021 April 09

AZ

Anton Zadorozhniy in Data Engineers
это шутка была вообще
источник

ПФ

Паша Финкельштейн... in Data Engineers
Я знаю :)
источник

ПФ

Паша Финкельштейн... in Data Engineers
Но кому-то может быть тяжеловато её различить
источник

SK

Stas Khomutskikh in Data Engineers
Всем привет! Ребят,никто не сталкивался с ошибкой
org.apache.hadoop.hdfs.protocol.ClientProtocol.getBlockLocations from 10.0.90.112:45674: java.io.FileNotFoundException: File does not exist

при попытке записи в hdfs, директории создаются ,но на попытку создать файл - сыпется ошибка выше
источник

AV

Alexandr Vladimirovi... in Data Engineers
мы на него забили, этот инструмент не под наши задачи
источник

NN

No Name in Data Engineers
Пнятненько
источник

ФМ

Федор Мануковский... in Data Engineers
в отрыве от хадупа, слышал плохие отзывы на него от архитекторов, но уже и не вспомню, что там не так (мб стабильность/поддержка)
источник

NN

No Name in Data Engineers
Эх
источник

AS

Andrey Smirnov in Data Engineers
это ты для кеша файловой системы хочешь сделать?
источник

NN

No Name in Data Engineers
Это я ищу варианты для того, чтобы построить feature store, ну или, наоборот, альтернативы ему. Есть такая проблема, наверное, классическая - есть большой хадупокластер без всяких дельта лейков и худи, просто хайв, и дохрена и больше исторических данных, которые укладываются в даталейк по классике (raw - dds - cdm...). И есть колумнарная витрина с фичами для сатанистов на over 9000 фичей, которую, наверное, в каждом кейсе при обучении используют. Ну и ситуаций обычно три - или сатанистам надо взять все фичи разом для конкретного пользователя за некий период вглубь (обычно дохера данных за несколько лет), или же взять все фичи разом на последнюю доступную дату, либо же уже берут отдельные фичи с произвольной глубиной. С последним кейсом худо-бедно текущая реализация работать позволяет. С первыми же двумя это все превращается в адище ебаное - во-первых, и сама витрина отстаёт, т.к. море источников, ну и при попытке поднять данные и поджойнить, даже если ограничения на партиции выставить, все равно поднимается чертова прорва данных, и это все мееееедленно крутится. Ну и добавление фич в витрину в такой ситуации тоже так себе процесс. Уверен, что можно лучше все это реализовать, и сижу думаю над разными подходами и технологиями, которые можно заюзать.
источник

EK

Evgenii Kuznetcov in Data Engineers
Очень плотно работал с игнайтом в 2015-2016. Он предназначен для ин-мемори вещей. То, что в сбербанке его использовали для всего, не значит, что так нужно делать.
источник

А

Алексей in Data Engineers
этож инмем бд, памяти не напасешься хранить такую витрину там, наверно
источник

А

Алексей in Data Engineers
если влезет, то конечно будет быстрей хайва, которому надо с диска лопатить
источник

NN

No Name in Data Engineers
При чем тут Сбер вообще?
источник

AA

Aleksandr Aleksandro... in Data Engineers
Как я понимаю, если у вас не супер критичные требования к задержкам, не обязательно для такого случая затаскивать все в память. Какой-нибудь кей-вэлью будет достаточно
источник

АЖ

Андрей Жуков... in Data Engineers
на большом инстансе может хбейз сгодиться
источник

GP

Grigory Pomadchin in Data Engineers
слушайте насчет хбейза, никто не пробовал читать из хбейза с помощью newAPIHadoopRDD и спарком на скале 2.13?
источник

GP

Grigory Pomadchin in Data Engineers
такой бред, код буквально:

```
sc.newAPIHadoopRDD(conf, classOf[TableInputFormat], classOf[ImmutableBytesWritable], classOf[Result])
```

но всегда пустой результат
источник

GP

Grigory Pomadchin in Data Engineers
(если доступов нет или сервер недоступен или таблица не та он ругается конечно)
источник

EK

Evgenii Kuznetcov in Data Engineers
Ну до того, как они начали со сбером сотрудничать, это был инмемори-грид, который предлагалось использовать по назначению. (то, что он разваливался от касания, это другой вопрос).

Потом сбер их, видимо, заставил добавлять персистентные штуки, для которх он не предназначен
источник