Size: a a a

2021 September 26

ДГ

Дмитрий Галкин... in Data Engineers
источник

ДГ

Дмитрий Галкин... in Data Engineers
Ладно, парни, спасибо за подсказки, это уже что то, постараюсь разобраться.
источник

D

Dmitry in Data Engineers
у тебя все сервисы остановлены
источник

D

Dmitry in Data Engineers
там на самом верху clusters, там посмотри hosts. все ли в порядке там
источник

D

Dmitry in Data Engineers
если с hosts все ок, поднимай кластер, тыкай сюда, там start
источник

D

Dmitry in Data Engineers
источник
2021 September 27

NN

No Name in Data Engineers
Народ, а я правильно понимаю, что, например, при чтении спарком колонок из орка/паркета некий стейт по ним сохраняется в память куда-то в user memory, и если перестараться с их количеством, то можно получить oom на экзекуторах? Или такого нет?
источник

ЕГ

Евгений Глотов... in Data Engineers
Ты там решил мою витринку ещё в 3 раза расширить?😆
источник

ЕГ

Евгений Глотов... in Data Engineers
Есть страйп, или как его там, сколько строк хранится одним куском
источник

NN

No Name in Data Engineers
Я твою витрину не трогаю, просто хочу предотвратить будущие коллапсы, развесив повсюду красные флаги)
источник

ЕГ

Евгений Глотов... in Data Engineers
Если переборщить, то будут проблемы с чтением одного куска
источник

ЕГ

Евгений Глотов... in Data Engineers
Если там особенно есть строки с джисоном в одной колонке на 8 мегабайт
источник

ЕГ

Евгений Глотов... in Data Engineers
Там вроде есть параметры, по сколько рядов один кусок записывать, но не на виду где-то
источник

NN

No Name in Data Engineers
Не, погоди, это чуть другое - ты мне сейчас о том, что самый мелкий кусок файла, на который его можно разбить при чтении (страйп/страйд), если размером оказывается больше, чем памяти доступно на экзекуторе, вызывает оом, да?
источник

ЕГ

Евгений Глотов... in Data Engineers
Да
источник

ЕГ

Евгений Глотов... in Data Engineers
А ты про экзекушен план, в который надо 200 тыщ колонок вписать?
источник

NN

No Name in Data Engineers
А я ещё про другое - именно про количество колонок. Т.е., например, там норм размеры страйпов, все помещается на экзекуторе. Но у них же ещё есть некий стейт/мета, которая тоже в память подгружается. И, если это так, то, наверное, валится в юзер мемори, а не в сторадж и не в экзекьюшн мемори. И вот там может засада возникнуть, потому что оттуда ничего не спиллится. Про такое знаешь что-нибудь?
источник

ЕГ

Евгений Глотов... in Data Engineers
Что за стейт? Мне кажется это только для фильтрации используется непосредственно при чтении из файла
источник

ЕГ

Евгений Глотов... in Data Engineers
Потом просто распаковываются только данные в оперативку
источник

NN

No Name in Data Engineers
Ну, типа, как rdd dependency, я хз.
Я в какой-то статье на медиуме прочитал про это, но найти не могу.
источник