Телеграмм чат группы hadoopusers страница 3070

Привет, у меня есть спарк СС (source - kafka), которая после того как прочла все ивенты в топике начинает генерить очень много логов (INFO) что то типо такого:
Seeking to LATEST offset of partition ....
Resetting offset for partition ....
Подскажите пожалуйста как их можно отключить? Я как понимаю топик пустой, данных нет и поэтому генерятся эти логи, возможно я не прав

источник

12:50пожаловаться #15

Ruslan515 Y in Data Engineers

Всем привет. Прошу подсказать как из Cassandra считать всю таблицу(порядка 500К записей). В данный момент получается только 10К записей считать, если увеличить это число то возникает ошибка

источник

15:30пожаловаться #16

Max Efremov in Data Engineers

считать следующие 10к и т.д.?

источник

15:39пожаловаться #17

Roman in Data Engineers

Anton Zadorozhniy

Кстати если кому-то надо сделать публикацию (или ведет студентов которым надо), отличная тема - обзор работы PDO по Parquet/ORC для разных компьют фреймворков - и в журнал возьмут, и на конференцию.. У меня был студент который было начал, но отвалился в середине семестра :(

Начинал делать, но это для работы надо было, когда выиграл orc или parquet. Делал сравнение разных типов запросов из Spark, hive и athena, с разными вариантами сортировки, бакетирования и так далее. Начал даже писать статью для хабра с этим сравнением(там цифры, графики, серии замеров на каждый кейс, ну более менее приличное сравнение), но понял, что в меня уже много страниц, а я ещё только малую часть оформил и описал и как - то забил, если честно.

источник

15:50пожаловаться #18

Roman in Data Engineers

Потом понял, что нужно прогонять больше типов запросов, чтобы не так однобоко было, что ещё бы и джоины с бакетированием добавить и получалось очень много сделать.

источник

15:51пожаловаться #19

Roman in Data Engineers

А ещё нужно учитывать версии orc и паркета и версии ридеров у джижков. Потому что фраза "сравнить pdo в orc и parquet" разворачивается а "сравнить эффективность pdo в ряде случаев на разных набора данных, а также при различнлм размазывании этих данных, с разными ключевыми версиями orc и parquet на разных ключевых версиях основных популярных фреймворках"
Это я все к тому, что это достаточно большое задание на самом деле.

источник

15:55пожаловаться #20