Size: a a a

2020 September 17

SU

Sergey Ufimtsev in Data Engineers
Ребят, привет, вы тут вродь умные люди, подскажите плиз как перевести data warehouse projects and maturity. Сейчас смотрю курс на курсере по dwh и там чувак постоянно рассказывает за какой-то maturity. Я в переводчик вбиваю, а там какая-то зрелость и не совсем понятно как это относится к dwh
источник

VK

Victor Karabedyants in Data Engineers
кому интересно взяться за задачи, за оплату - пожалуста напишите
источник

AZ

Anton Zadorozhniy in Data Engineers
Sergey Ufimtsev
Ребят, привет, вы тут вродь умные люди, подскажите плиз как перевести data warehouse projects and maturity. Сейчас смотрю курс на курсере по dwh и там чувак постоянно рассказывает за какой-то maturity. Я в переводчик вбиваю, а там какая-то зрелость и не совсем понятно как это относится к dwh
все правильно, это зрелость: насколько устоялись процессы, стабильна платформа, довольны пользователи
источник

M

Mi in Data Engineers
Victor Karabedyants
кому интересно взяться за задачи, за оплату - пожалуста напишите
Вот думаешь что человек научиться хочет, а это какая-то халтура чтобы условный экзамен сдать :(
источник

M

Mi in Data Engineers
Не надо так
источник

VK

Victor Karabedyants in Data Engineers
ок, кому интересно помочь проконсультировать чтоб быстрее закрыть эти задачи - пишите. свого рода - менторство. Спасибо
источник

T

T in Data Engineers
Привет, а есть возможно как то пошарить закешированый датафрейм между пулами при spark.scheduler.mode FAIR ?
источник

AG

Alexander Gorokhov in Data Engineers
T
Привет, а есть возможно как то пошарить закешированый датафрейм между пулами при spark.scheduler.mode FAIR ?
Кстати да, я знаю что спарк может переиспользовать результаты шаффла если условия сходятся, но какой у них скоуп?
источник

AG

Alexander Gorokhov in Data Engineers
Наверное без ковыряния в сорцах ответа не найдешь
источник

DZ

Dmitry Zuev in Data Engineers
Victor Karabedyants
кому интересно взяться за задачи, за оплату - пожалуста напишите
Кину молчанку. Неправильно это всё
источник

T

T in Data Engineers
Alexander Gorokhov
Кстати да, я знаю что спарк может переиспользовать результаты шаффла если условия сходятся, но какой у них скоуп?
Ну вот я пробовал с ходу, но выглядит так что он не шарит его без приседаний и все джобы становятся последовательными
источник

VK

Victor Karabedyants in Data Engineers
привет, в чем не правильность ? мне нужен ментор ?
источник

DZ

Dmitry Zuev in Data Engineers
Victor Karabedyants
привет, в чем не правильность ? мне нужен ментор ?
потому что заход с "решите мне курсач за бабки"
источник

DZ

Dmitry Zuev in Data Engineers
Нет бы с конкретным вопросом
источник

VK

Victor Karabedyants in Data Engineers
просите, но наверно вы не так меня поняли.
источник

AG

Alexander Gorokhov in Data Engineers
Кстати, такой вопрос, если какой то готовый паттерн или подход к работе с таблицей в хайве у которой одна из колонок должна быть уникальной? У меня такой кейс, что мне нужно на основе факт таблицы, которая постоянно растет, нужно строить таблицу с мапой ключ -> значение, и ключ должен быть уникальным. Каждый раз перечитывать факт таблицу которая постоянно растет кажется неправильным. Можно работать с отдельными партициями фактов, считать мапу по партиции и убирать из нее ключи, которые уже есть в глобальной мапе. Но для этого нужно всю глобальную мапу читать, которая будет хоть и меньше фактов, но тоже будет расти. Я в замешательстве
источник

GP

Grigory Pomadchin in Data Engineers
Victor Karabedyants
просите, но наверно вы не так меня поняли.
думаю все верно поняли
источник

AG

Alexander Gorokhov in Data Engineers
Хотелось бы просто аппендить в такую мап таблицу а хайв бы сам создавал уникальность 😇
источник

DZ

Dmitry Zuev in Data Engineers
Alexander Gorokhov
Кстати, такой вопрос, если какой то готовый паттерн или подход к работе с таблицей в хайве у которой одна из колонок должна быть уникальной? У меня такой кейс, что мне нужно на основе факт таблицы, которая постоянно растет, нужно строить таблицу с мапой ключ -> значение, и ключ должен быть уникальным. Каждый раз перечитывать факт таблицу которая постоянно растет кажется неправильным. Можно работать с отдельными партициями фактов, считать мапу по партиции и убирать из нее ключи, которые уже есть в глобальной мапе. Но для этого нужно всю глобальную мапу читать, которая будет хоть и меньше фактов, но тоже будет расти. Я в замешательстве
сурогатный ключ нужен или что?
источник

AG

Alexander Gorokhov in Data Engineers
Dmitry Zuev
сурогатный ключ нужен или что?
Нужно сделать колонку, в данном случае строковый айди, который будет всегда уникальным
источник