Size: a a a

2020 August 12

AZ

Anton Zadorozhniy in Data Engineers
Повелитель Бури
Добрый! После перезагрузки дата нод они умерли. Я
запустил clousera agent и
сделал  recommmision,  
сделал   fsk delete плохих блоков нет.
Перезааустил hdfs

Ноды все равно мертвы.я что то пропустил?
что значит умерли? что пишет CM, NN, что в логах агентов и DN?
источник

ПБ

Повелитель Бури... in Data Engineers
Anton Zadorozhniy
что значит умерли? что пишет CM, NN, что в логах агентов и DN?
Initialization failed for Block pool <registering> (Datanode Uuid b6fcbf7b-6c5a-461c-a497-a25d6ebf6a4d) service to 8022. Exiting.
java.io.IOException: All specified directories have failed to load.
источник

AZ

Anton Zadorozhniy in Data Engineers
Повелитель Бури
Initialization failed for Block pool <registering> (Datanode Uuid b6fcbf7b-6c5a-461c-a497-a25d6ebf6a4d) service to 8022. Exiting.
java.io.IOException: All specified directories have failed to load.
dfs.datanode.data.dir доступны?
источник

PA

Polina Azarova in Data Engineers
скорее всего айдишник кластера неймноды и датаноды разошлись
случайно не форматировали?
источник

AZ

Anton Zadorozhniy in Data Engineers
Polina Azarova
скорее всего айдишник кластера неймноды и датаноды разошлись
случайно не форматировали?
кмк он явно репортит Incompatible clusterIDs в таком случае, хотя мб и нет, я давно последний раз такое чинил
источник

ПБ

Повелитель Бури... in Data Engineers
Polina Azarova
скорее всего айдишник кластера неймноды и датаноды разошлись
случайно не форматировали?
возможно,  если удалю кластер исправиться?
источник

AZ

Anton Zadorozhniy in Data Engineers
Повелитель Бури
возможно,  если удалю кластер исправиться?
clusterID можно вроде посмотреть в current/VERSION, сравните их между неймнодой и датанодой
источник

ПБ

Повелитель Бури... in Data Engineers
скорее всего проблема здесь Lock on /data/dfs/dn/in_use.lock acquired by nodename
источник

SS

Sergey Sheremeta in Data Engineers
коллеги, привет!
работаю из DBeaver со Spark Thrift Server, при некотором простое рвется соединение - приходится его рефрешить. как следствие пропадают закешированные вьюхи-запросы.
как лечить?
источник

SS

Sergey Sheremeta in Data Engineers
spark.sql.hive.thriftServer.singleSession=true

оно?
источник

SB

Saveliy Belkin in Data Engineers
/data
источник

SS

Sergey Sheremeta in Data Engineers
подскажите, какие существуют "наилутшие" практики в перепроцессинге сырых данных в DataLake?
вот валится мне из Кафки поток json'ов - я его приземляю в parquet как текстовый столбец через spark structured streaming (это как говорят нынче "бронза").
другим SSS-джобом я парсю "бронзу" согласно схеме (определенной контрактом с поставщиком данных).
в какой-то момент выясняется, что схема изменилась (вот неожиданность-то!!!). либо я где-то напортачил в трансформациях...

и вот я судорожно поправил код джоба, передеплоил его! а что сейчас сделать с некорректными данными от прошлой версии джоба?
источник

U

Udemy4U in Data Engineers
Хотите получать курсы по программированию?
источник

A

Alex in Data Engineers
давай
источник

GP

Grigory Pomadchin in Data Engineers
источник

N

Nikita Blagodarnyy in Data Engineers
отправь смс «не лох» на 4242
источник

AE

Alexey Evdokimov in Data Engineers
не, надо «не мамонт» на 1337
источник

A

Alex in Data Engineers
чем больше смс отправишь тем больше ты “не …”
источник

S

Stanislav in Data Engineers
Sergey Sheremeta
подскажите, какие существуют "наилутшие" практики в перепроцессинге сырых данных в DataLake?
вот валится мне из Кафки поток json'ов - я его приземляю в parquet как текстовый столбец через spark structured streaming (это как говорят нынче "бронза").
другим SSS-джобом я парсю "бронзу" согласно схеме (определенной контрактом с поставщиком данных).
в какой-то момент выясняется, что схема изменилась (вот неожиданность-то!!!). либо я где-то напортачил в трансформациях...

и вот я судорожно поправил код джоба, передеплоил его! а что сейчас сделать с некорректными данными от прошлой версии джоба?
Загибаем пальцы: 3 копии данных в кафке, потом 3 копии в каком то сыром паркете, от 3 до 4 копий (а уж если есть бекап витрин, то множитель зашкаливает ) на следующем уровне :)
Основы курса - как сделать бигдату :)

Если серьёзно, если в потоке нет версии формата того, что летит - можно вроде изголяться как хочется. Включая проверку каким нить гоблиным данных на валидность модели в промежутке
источник

AS

Andrey Smirnov in Data Engineers
Sergey Sheremeta
подскажите, какие существуют "наилутшие" практики в перепроцессинге сырых данных в DataLake?
вот валится мне из Кафки поток json'ов - я его приземляю в parquet как текстовый столбец через spark structured streaming (это как говорят нынче "бронза").
другим SSS-джобом я парсю "бронзу" согласно схеме (определенной контрактом с поставщиком данных).
в какой-то момент выясняется, что схема изменилась (вот неожиданность-то!!!). либо я где-то напортачил в трансформациях...

и вот я судорожно поправил код джоба, передеплоил его! а что сейчас сделать с некорректными данными от прошлой версии джоба?
просто "наспросить", а почему паркет, я всегда считал что для такого лучше авро.
источник