Size: a a a

2020 September 24

ДН

Дмитрий Негреев... in Data Engineers
Так новый коннект нельзя, темповые таблицы же)
Все операции только внутри 1 сессии проводить нужно.
источник

DZ

Dmitry Zuev in Data Engineers
Ааа, прям темп тейбл, а не просто промежуточные таблицы
источник

DZ

Dmitry Zuev in Data Engineers
Ну тут пул тоже особо не поможет. Нужна ещё типа стики сешн
источник

N

Nikita Blagodarnyy in Data Engineers
KrivdaTheTriewe
но почему вы не наняли дс с прямами руками?
мне кажется, оно вообще не очень достижимо. саентологи - это математики с соотвествующим образованием, у них в голове инженерного чаще всего с гулькин нос, да и неинтересно им оно. вот цсв грузануть в пандас и модель наговнякать - милое дело.
источник

PG

Pavel Glushchenko in Data Engineers
Ребята, пытаюсь перейти на spark 3.0.1, беда с датами. В json датасете обычная строка с датой уже не апкастится к Date/LocalDate? Нужно руками парсить это все? spark.sql.legacy.timeParserPolicy=LEGACY не помогает
источник

AT

Al T in Data Engineers
>цсв грузануть в пандас и модель наговнякать - милое >дело
источник

AT

Al T in Data Engineers
все прекрасно в этом предложении - утащил себе в цитаты
источник

DZ

Dmitry Zuev in Data Engineers
Pavel Glushchenko
Ребята, пытаюсь перейти на spark 3.0.1, беда с датами. В json датасете обычная строка с датой уже не апкастится к Date/LocalDate? Нужно руками парсить это все? spark.sql.legacy.timeParserPolicy=LEGACY не помогает
Мне помогает схема
источник

PG

Pavel Glushchenko in Data Engineers
Dmitry Zuev
Мне помогает схема
а без схемы бы как?
источник

AK

Andrew Konstantinov in Data Engineers
Andrew Konstantinov
После того как перезаписал партицию в hdfs ошибка-java.io.FileNotFoundException: File does not exist:
. Рефреш каталога делал-не помогает
Решил.пересоздал стриминговую витрину и перезаписал партицию спарком
источник

VK

Vladimir K. in Data Engineers
Всем привет) Тут как раз про spark 3.0.1и стриминг. Накину на вентилятор, так сказать)
Пытаюсь настроить батч процессинг (хочу выполнять джобу каждый час) из кафки с помощью spark 3.0.1 в соответствии с этой статьёй:
https://spark.apache.org/docs/latest/structured-streaming-kafka-integration.html

Из топика инфа выгружается, всё отлично (пока просто сделал count() записей). Как я понимаю, после этого в offset должна была добавиться информация, какую часть записей я прочитал и выдать мне только "свежие". Однако, по умолчанию в startingOffsets стоит earliest и на latest его не поменять. Поэтому, при повторном запуске мне снова выдаются все записи. Подскажите, пожалуйста, что я делаю не так и можно ли это вообще реализовать..
источник

R

Renarde in Data Engineers
Vladimir K.
Всем привет) Тут как раз про spark 3.0.1и стриминг. Накину на вентилятор, так сказать)
Пытаюсь настроить батч процессинг (хочу выполнять джобу каждый час) из кафки с помощью spark 3.0.1 в соответствии с этой статьёй:
https://spark.apache.org/docs/latest/structured-streaming-kafka-integration.html

Из топика инфа выгружается, всё отлично (пока просто сделал count() записей). Как я понимаю, после этого в offset должна была добавиться информация, какую часть записей я прочитал и выдать мне только "свежие". Однако, по умолчанию в startingOffsets стоит earliest и на latest его не поменять. Поэтому, при повторном запуске мне снова выдаются все записи. Подскажите, пожалуйста, что я делаю не так и можно ли это вообще реализовать..
информацию о прочитанных оффсетах нужно хранить в .option("checkpointLocation", "/some/location")
источник

VK

Vladimir K. in Data Engineers
Renarde
информацию о прочитанных оффсетах нужно хранить в .option("checkpointLocation", "/some/location")
У меня просто после того, как я первый раз запустил процесс  в кафке появился топик __consumer_offsets. Я думал, что он как раз создался автоматом и будет это делать :(
Спасибо, пошёл копать
источник

R

Renarde in Data Engineers
тогда логика будет следующая:
- спарк проверяет checkpointLocation, если там есть оффсет -> начнет читать с него
- спарк проверяет checkpointLocation, если там оффсета нет -> начнет читать по заданной конфигурации
источник

R

Renarde in Data Engineers
Vladimir K.
У меня просто после того, как я первый раз запустил процесс  в кафке появился топик __consumer_offsets. Я думал, что он как раз создался автоматом и будет это делать :(
Спасибо, пошёл копать
источник

AE

Alexey Evdokimov in Data Engineers
https://sbercloud.ru/ru/products/mapreduce-service

хым.

кто у них вендор?
источник

VK

Vladimir K. in Data Engineers
Спасибо!
источник

AA

Ali Abdullaev in Data Engineers
Ребята, посоветуйте, пожалуйста, интенсивы по вхождению в профессию?
источник

T

T in Data Engineers
Ali Abdullaev
Ребята, посоветуйте, пожалуйста, интенсивы по вхождению в профессию?
источник

AA

Ali Abdullaev in Data Engineers
Я смотрел, но там обсуждение курсов, а нужен интенсив на неделю-две
источник