Size: a a a

2020 December 17

N

Nikita Blagodarnyy in Data Engineers
Ресурс-менеджер - это такая компьютерная программа.
источник

N

Nikita Blagodarnyy in Data Engineers
Она работает на master-ноге. Главный ярн такой.
источник

N

Nikita Blagodarnyy in Data Engineers
По ssh туда ходи
источник

N

Nikita Blagodarnyy in Data Engineers
и пиши vi /path/to/yarn-site.xml
источник

N

Nikita Blagodarnyy in Data Engineers
ну или nano /path/to/yarn-site.xml
источник

N

Nikita Blagodarnyy in Data Engineers
а то потом выйти тяжело
источник

N

Nikita Blagodarnyy in Data Engineers
ну и заодно поведай нам, что за ЭВМ у тебя в кластере
источник

N

Nikita Blagodarnyy in Data Engineers
lscpu там
источник

N

Nikita Blagodarnyy in Data Engineers
cat /proc/meminfo
источник

N

Nikita Blagodarnyy in Data Engineers
даже интересно, это реально на banana pi кластер собрали или настроено так горбато.
источник

TT

Taika Tytto in Data Engineers
Nikita Blagodarnyy
ну или nano /path/to/yarn-site.xml
ed
источник

N

Nikita Blagodarnyy in Data Engineers
Nikita Blagodarnyy
Она работает на master-ноге. Главный ярн такой.
хост из URL веб страницы возьми
источник

N

Nikita Blagodarnyy in Data Engineers
sudo -u root mc
источник
2020 December 18

TT

Taika Tytto in Data Engineers
Nikita Blagodarnyy
sudo -u root mc
emacs -nw -c ssh -i <key> <adrdess>@<port>
источник

DM

Dave Manukian in Data Engineers
Привет, у меня есть спарк СС (source - kafka), которая после того как прочла все ивенты в топике начинает генерить очень много логов (INFO) что то типо такого:
Seeking to LATEST offset of partition ....
Resetting offset for partition ....
Подскажите пожалуйста как их можно отключить? Я как понимаю топик пустой, данных нет и поэтому генерятся эти логи, возможно я не прав
источник

RY

Ruslan515 Y in Data Engineers
Всем привет. Прошу подсказать как из  Cassandra считать всю таблицу(порядка 500К записей). В данный момент получается только 10К записей считать, если увеличить это число то возникает ошибка
источник

ME

Max Efremov in Data Engineers
считать следующие 10к и т.д.?
источник

R

Roman in Data Engineers
Anton Zadorozhniy
Кстати если кому-то надо сделать публикацию (или ведет студентов которым надо), отличная тема - обзор работы PDO по Parquet/ORC для разных компьют фреймворков - и в журнал возьмут, и на конференцию.. У меня был студент который было начал, но отвалился в середине семестра :(
Начинал делать, но это для работы надо было, когда выиграл orc или parquet. Делал сравнение разных типов запросов из Spark, hive и athena, с разными вариантами сортировки, бакетирования и так далее. Начал даже писать статью для хабра с этим сравнением(там цифры, графики, серии замеров на каждый кейс, ну более менее приличное сравнение), но понял, что в меня уже много страниц, а я ещё только малую часть оформил и описал и как - то забил, если честно.
источник

R

Roman in Data Engineers
Потом понял, что нужно прогонять больше типов запросов, чтобы не так однобоко было, что ещё бы и джоины с бакетированием добавить и получалось очень много сделать.
источник

R

Roman in Data Engineers
А ещё нужно учитывать версии orc и паркета и версии ридеров у джижков. Потому что фраза "сравнить pdo в orc и parquet" разворачивается а "сравнить эффективность pdo в ряде случаев на разных набора данных, а также при различнлм размазывании этих данных, с разными ключевыми версиями orc и parquet на разных ключевых версиях основных популярных фреймворках"
Это я все к тому, что это достаточно большое задание на самом деле.
источник