Size: a a a

2020 August 14

T

T in Data Engineers
сразу начинает думать и про тестирование и про качество
источник

VS

Vladislav 👻 Shishkov... in Data Engineers
Ну в целом да, но все равно, очень сильно зависит от человека, как показывает практика, таких людей в сфере не много, где-то 10-15%
источник

AZ

Anton Zadorozhniy in Data Engineers
Dima
Коллеги, подскажите дата инженеры занимающиеся девопс задачами это нормальное явление для небольших компаний?
небольшие компании бывают разные: если вы стартап с приличным финансированием и у вас все на датабриксе то у вас намного меньше опсовой работы, но если у вас свои железки и только ОСС - опсовой работы много, и в небольших коллективах дешевле иметь людей совмещающих роли
источник

MB

Mikhail Butalin in Data Engineers
Мне надо объединить данные из 2х таблиц с идентичной структурой.

Src -impala:kudu, dst - impala:parquet

Гарантированно будут дубли.

Как оптимально потом от дублей избавляться?
Програмно? Или запрос можно написать?
источник

AK

Andrew Konstantinov in Data Engineers
Mikhail Butalin
Мне надо объединить данные из 2х таблиц с идентичной структурой.

Src -impala:kudu, dst - impala:parquet

Гарантированно будут дубли.

Как оптимально потом от дублей избавляться?
Програмно? Или запрос можно написать?
Програмно,нафиг засорять хранилище .на этапе переноса дропать дубли
источник

MB

Mikhail Butalin in Data Engineers
подскажете как?
источник

А

Алексей in Data Engineers
Mikhail Butalin
Мне надо объединить данные из 2х таблиц с идентичной структурой.

Src -impala:kudu, dst - impala:parquet

Гарантированно будут дубли.

Как оптимально потом от дублей избавляться?
Програмно? Или запрос можно написать?
Просто union написать, без all он откинет дубли
источник
2020 August 15

NT

Narzhigit Tursumatov in Data Engineers
Привет всем! Знаю что это не так как в описании я окончил бакалавр научный математику и хочу освоить профессию data engineering  не подскажите с чего начать? Всем прошу прощения заранее  спасибо
источник

AS

Andrey Smirnov in Data Engineers
Narzhigit Tursumatov
Привет всем! Знаю что это не так как в описании я окончил бакалавр научный математику и хочу освоить профессию data engineering  не подскажите с чего начать? Всем прошу прощения заранее  спасибо
если окончил математику, то почему не привлекает data science?
источник

AS

Andrey Smirnov in Data Engineers
а так я рекомендую начать с https://www.coursera.org/specializations/big-data-engineering
есть много платных курсов, некоторые из них по отзывам неплохие
источник

IS

Igor Sam in Data Engineers
Andrey Smirnov
а так я рекомендую начать с https://www.coursera.org/specializations/big-data-engineering
есть много платных курсов, некоторые из них по отзывам неплохие
Вроде как нет Единой специализации уже этой. Остались отдельные курсы. Слышал, что ребята, вроде, перерабатывают ее. Да, и ссылка не работает видимо по этой причинн
источник
2020 August 16

YI

Yukari I in Data Engineers
Narzhigit Tursumatov
Привет всем! Знаю что это не так как в описании я окончил бакалавр научный математику и хочу освоить профессию data engineering  не подскажите с чего начать? Всем прошу прощения заранее  спасибо
Подумай, оно тебе надо? )))
источник

YI

Yukari I in Data Engineers
источник

YI

Yukari I in Data Engineers
только что закончил стрим с джунами-девопсами, с демонстрацией того, как работает среднечковый ДЕ
источник

YI

Yukari I in Data Engineers
Осторожно, ругаемся матом, холиварим, тупим. Это было на подобии "Один день из жизни..."
источник

YI

Yukari I in Data Engineers
ХД качество еще не обработалось, будет в 1080, но как только ютуб обработает
источник

Ж

Жмака in Data Engineers
Всем привет. Новичок в скале 😇Не могу победить сериализацию. Создал тест класс с junit, в @before определил sparkSession, в тестовом методе нужно создать dataset из sequence с тестовыми даннымми. Создает датасет с одной колонкой value с бинарными данными. Имплиситс не могу прописать, потому что sparkSession определена в @before. Как правильно сделать? Пробовал энкодер сделать но видно "руки кривые" или туплю🙂
источник
2020 August 17

UD

Uncel Duk in Data Engineers
А кто-нибудь переносил кластер между разными dns доменами? Например из foobar.local в supercorp.corp со сменой адресации
источник

UD

Uncel Duk in Data Engineers
Если адресацию не менять, по идее должно взлететь, clusterid и blockpool остаются старые, если все вместе не уверен
источник

E

Evgeny in Data Engineers
Да, переносил, все ок
источник