Телеграмм чат группы hadoopusers страница 3483

Всем привет! Ребят,никто не сталкивался с ошибкой
org.apache.hadoop.hdfs.protocol.ClientProtocol.getBlockLocations from 10.0.90.112:45674: java.io.FileNotFoundException: File does not exist

при попытке записи в hdfs, директории создаются ,но на попытку создать файл - сыпется ошибка выше

источник

13:40пожаловаться #4

Alexandr Vladimirovi... in Data Engineers

мы на него забили, этот инструмент не под наши задачи

источник

13:56пожаловаться #5

No Name in Data Engineers

Пнятненько

источник

13:56пожаловаться #6

ФМ

Федор Мануковский... in Data Engineers

в отрыве от хадупа, слышал плохие отзывы на него от архитекторов, но уже и не вспомню, что там не так (мб стабильность/поддержка)

источник

14:33пожаловаться #7

No Name in Data Engineers

Эх

источник

14:35пожаловаться #8

Andrey Smirnov in Data Engineers

это ты для кеша файловой системы хочешь сделать?

источник

14:36пожаловаться #9

No Name in Data Engineers

Это я ищу варианты для того, чтобы построить feature store, ну или, наоборот, альтернативы ему. Есть такая проблема, наверное, классическая - есть большой хадупокластер без всяких дельта лейков и худи, просто хайв, и дохрена и больше исторических данных, которые укладываются в даталейк по классике (raw - dds - cdm...). И есть колумнарная витрина с фичами для сатанистов на over 9000 фичей, которую, наверное, в каждом кейсе при обучении используют. Ну и ситуаций обычно три - или сатанистам надо взять все фичи разом для конкретного пользователя за некий период вглубь (обычно дохера данных за несколько лет), или же взять все фичи разом на последнюю доступную дату, либо же уже берут отдельные фичи с произвольной глубиной. С последним кейсом худо-бедно текущая реализация работать позволяет. С первыми же двумя это все превращается в адище ебаное - во-первых, и сама витрина отстаёт, т.к. море источников, ну и при попытке поднять данные и поджойнить, даже если ограничения на партиции выставить, все равно поднимается чертова прорва данных, и это все мееееедленно крутится. Ну и добавление фич в витрину в такой ситуации тоже так себе процесс. Уверен, что можно лучше все это реализовать, и сижу думаю над разными подходами и технологиями, которые можно заюзать.

источник

14:47пожаловаться #10

Evgenii Kuznetcov in Data Engineers

Очень плотно работал с игнайтом в 2015-2016. Он предназначен для ин-мемори вещей. То, что в сбербанке его использовали для всего, не значит, что так нужно делать.

источник

14:54пожаловаться #11

Алексей in Data Engineers

этож инмем бд, памяти не напасешься хранить такую витрину там, наверно

источник

14:55пожаловаться #12

Алексей in Data Engineers

если влезет, то конечно будет быстрей хайва, которому надо с диска лопатить

источник

14:56пожаловаться #13

No Name in Data Engineers

При чем тут Сбер вообще?

источник

15:06пожаловаться #14

Aleksandr Aleksandro... in Data Engineers

Как я понимаю, если у вас не супер критичные требования к задержкам, не обязательно для такого случая затаскивать все в память. Какой-нибудь кей-вэлью будет достаточно

источник

15:06пожаловаться #15

АЖ

Андрей Жуков... in Data Engineers

на большом инстансе может хбейз сгодиться

источник

15:06пожаловаться #16

Grigory Pomadchin in Data Engineers

слушайте насчет хбейза, никто не пробовал читать из хбейза с помощью newAPIHadoopRDD и спарком на скале 2.13?

источник

15:08пожаловаться #17

Grigory Pomadchin in Data Engineers

такой бред, код буквально:

```
sc.newAPIHadoopRDD(conf, classOf[TableInputFormat], classOf[ImmutableBytesWritable], classOf[Result])
```

но всегда пустой результат

источник

15:08пожаловаться #18

Grigory Pomadchin in Data Engineers

(если доступов нет или сервер недоступен или таблица не та он ругается конечно)

источник

15:08пожаловаться #19

Evgenii Kuznetcov in Data Engineers

Ну до того, как они начали со сбером сотрудничать, это был инмемори-грид, который предлагалось использовать по назначению. (то, что он разваливался от касания, это другой вопрос).

Потом сбер их, видимо, заставил добавлять персистентные штуки, для которх он не предназначен

источник

15:09пожаловаться #20