Телеграмм чат группы hadoopusers страница 2799

мне кажется, оно вообще не очень достижимо. саентологи - это математики с соотвествующим образованием, у них в голове инженерного чаще всего с гулькин нос, да и неинтересно им оно. вот цсв грузануть в пандас и модель наговнякать - милое дело.

источник

12:11пожаловаться #4

PG

Pavel Glushchenko in Data Engineers

Ребята, пытаюсь перейти на spark 3.0.1, беда с датами. В json датасете обычная строка с датой уже не апкастится к Date/LocalDate? Нужно руками парсить это все? spark.sql.legacy.timeParserPolicy=LEGACY не помогает

источник

12:27пожаловаться #5

AT

Al T in Data Engineers

>цсв грузануть в пандас и модель наговнякать - милое >дело

источник

12:37пожаловаться #6

AT

Al T in Data Engineers

все прекрасно в этом предложении - утащил себе в цитаты

источник

12:38пожаловаться #7

DZ

Dmitry Zuev in Data Engineers

Pavel Glushchenko

Ребята, пытаюсь перейти на spark 3.0.1, беда с датами. В json датасете обычная строка с датой уже не апкастится к Date/LocalDate? Нужно руками парсить это все? spark.sql.legacy.timeParserPolicy=LEGACY не помогает

Мне помогает схема

источник

12:41пожаловаться #8

PG

Pavel Glushchenko in Data Engineers

Dmitry Zuev

Мне помогает схема

а без схемы бы как?

источник

12:59пожаловаться #9

AK

Andrew Konstantinov in Data Engineers

Andrew Konstantinov

После того как перезаписал партицию в hdfs ошибка-java.io.FileNotFoundException: File does not exist:
. Рефреш каталога делал-не помогает

Решил.пересоздал стриминговую витрину и перезаписал партицию спарком

источник

13:02пожаловаться #10

VK

Vladimir K. in Data Engineers

Всем привет) Тут как раз про spark 3.0.1и стриминг. Накину на вентилятор, так сказать)
Пытаюсь настроить батч процессинг (хочу выполнять джобу каждый час) из кафки с помощью spark 3.0.1 в соответствии с этой статьёй:
https://spark.apache.org/docs/latest/structured-streaming-kafka-integration.html

Из топика инфа выгружается, всё отлично (пока просто сделал count() записей). Как я понимаю, после этого в offset должна была добавиться информация, какую часть записей я прочитал и выдать мне только "свежие". Однако, по умолчанию в startingOffsets стоит earliest и на latest его не поменять. Поэтому, при повторном запуске мне снова выдаются все записи. Подскажите, пожалуйста, что я делаю не так и можно ли это вообще реализовать..

источник

14:44пожаловаться #11

R

Renarde in Data Engineers

Vladimir K.

Всем привет) Тут как раз про spark 3.0.1и стриминг. Накину на вентилятор, так сказать)
Пытаюсь настроить батч процессинг (хочу выполнять джобу каждый час) из кафки с помощью spark 3.0.1 в соответствии с этой статьёй:
https://spark.apache.org/docs/latest/structured-streaming-kafka-integration.html

Из топика инфа выгружается, всё отлично (пока просто сделал count() записей). Как я понимаю, после этого в offset должна была добавиться информация, какую часть записей я прочитал и выдать мне только "свежие". Однако, по умолчанию в startingOffsets стоит earliest и на latest его не поменять. Поэтому, при повторном запуске мне снова выдаются все записи. Подскажите, пожалуйста, что я делаю не так и можно ли это вообще реализовать..

информацию о прочитанных оффсетах нужно хранить в .option("checkpointLocation", "/some/location")

источник

14:46пожаловаться #12

VK

Vladimir K. in Data Engineers

Renarde

информацию о прочитанных оффсетах нужно хранить в .option("checkpointLocation", "/some/location")

У меня просто после того, как я первый раз запустил процесс в кафке появился топик __consumer_offsets. Я думал, что он как раз создался автоматом и будет это делать :(
Спасибо, пошёл копать

источник

14:46пожаловаться #13

R

Renarde in Data Engineers

тогда логика будет следующая:
- спарк проверяет checkpointLocation, если там есть оффсет -> начнет читать с него
- спарк проверяет checkpointLocation, если там оффсета нет -> начнет читать по заданной конфигурации

источник

14:47пожаловаться #14

R

Renarde in Data Engineers

Vladimir K.

У меня просто после того, как я первый раз запустил процесс в кафке появился топик __consumer_offsets. Я думал, что он как раз создался автоматом и будет это делать :(
Спасибо, пошёл копать

https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html#recovering-from-failures-with-checkpointing

источник

14:48пожаловаться #15

AE

Alexey Evdokimov in Data Engineers

https://sbercloud.ru/ru/products/mapreduce-service

хым.

кто у них вендор?

SberCloud - Облачная платформа Группы Сбербанк

SberCloud - MapReduce Service

Полностью управляемые кластеры больших данных в облаке на базе проектов Apache