Size: a a a

2019 December 05

Ik

Ilia ksen in Data Engineers
но схема уже с учетом новых файлов)
источник

AS

Anton Shelin in Data Engineers
ddre_z
очевидно же, что мне нужно получить два датафрейма из двух csv с теми полями, которые сейчас находятся в большом файле по идентификатору
10 GB в CSV это немного. при чтении в память это думаю спокойно влезет и в 4 GB. если же у вас проблема вообще сложная то напишите скрипты. один должен отсортировать строки всех файлов по ключу. второй скрипт для мерджа должен просто бежать последовательно по 2м файлам и соединять ключи и результат писать в файл. думаю так вы уложитесь даже в килобайты
источник

AS

Anton Shelin in Data Engineers
Ilia ksen
но схема уже с учетом новых файлов)
так пишите сразу с новой схемой
источник

AS

Anton Shelin in Data Engineers
если у вас в схеме поле нуллабл то пишите в поле нулл. иначе пишите дефолтное значение
источник

Ik

Ilia ksen in Data Engineers
Anton Shelin
если у вас в схеме поле нуллабл то пишите в поле нулл. иначе пишите дефолтное значение
Ну вот так и делаем
источник

Ik

Ilia ksen in Data Engineers
но на каком то этапе тестеры схватили баг
источник

Ik

Ilia ksen in Data Engineers
и обьяснить толком не могут
источник

Ik

Ilia ksen in Data Engineers
:D
источник

AS

Anton Shelin in Data Engineers
А как мы можем помочь если никто не знает в чем проблема
источник

Ik

Ilia ksen in Data Engineers
Такой вопрос может ли быть такое, что в одной папке 2 версии паркета и при считывании всей папки каким то образом не подтянуться поля из второй версии?
источник

Ik

Ilia ksen in Data Engineers
я такого бага поймать не могу, но мб кто-то сталкивался)
источник

АЖ

Андрей Жуков in Data Engineers
Ilia ksen
Такой вопрос может ли быть такое, что в одной папке 2 версии паркета и при считывании всей папки каким то образом не подтянуться поля из второй версии?
Merge Schema как раз
источник

Ik

Ilia ksen in Data Engineers
Андрей Жуков
Merge Schema как раз
то есть если такую опцию не поставить, может случиться такой кейс?
источник

АЖ

Андрей Жуков in Data Engineers
Ilia ksen
то есть если такую опцию не поставить, может случиться такой кейс?
и случится, если схемы разные
источник

Ik

Ilia ksen in Data Engineers
Андрей Жуков
и случится, если схемы разные
Проблема в том, что когда я щас пишу паркеты с разными схемами в одну папку  и потом выгружаю с новой схемой, у меня вся папка подтягивается нормально, просто в старых паркетах заполняется нулами
источник

Ik

Ilia ksen in Data Engineers
без этой опции
источник

Ik

Ilia ksen in Data Engineers
разница в схемах в паре полей
источник

SZ

Sergey Zhemzhitsky in Data Engineers
ddre_z
Привет всем.
Вопрос по спарку. Есть три файла csv. Один из них весит 10гб с 19млн записей, два других меньше - 15 мб с 500к записей и 6 мб с 180к соответственно (последние две - тренировочные и тестовые выборки).

В том файле, что весит 10 гб есть айдишник и еще несколько колонок.
В файле который 15 мб  только айдишник и лейбл.
В файле на 6 мб уже только айдишник.

Вопрос в том, что мне нужно с основного файла в 10гб заджоинить данные по айдишнику. Каким образом это можно сделать оптимально и без шаффла?

Мне сказали, что есть вариант положить этот файл в базу данных, а уже потом сделать из двух других датафреймы с последующим джоином данных из этой базы. Насколько это будет ок в целом?
broadcast join - без шафла.
источник

AS

Anton Shelin in Data Engineers
Иногда смотрю на тербования из вакансии в Data jobs feed и ох.еваю. И спеть и станцеваь и готовить уметь, также быть готовым к полету в космос ну и иметь навыки самооборны не ниже 10 дана.  Есть же люди.
источник

AZ

Anton Zadorozhniy in Data Engineers
Anton Shelin
Иногда смотрю на тербования из вакансии в Data jobs feed и ох.еваю. И спеть и станцеваь и готовить уметь, также быть готовым к полету в космос ну и иметь навыки самооборны не ниже 10 дана.  Есть же люди.
это такой брачный танец который делают HRы и кандидаты, меня тоже подбешивает (я на принимающей стороне часто), просто принять как данность и подаваться туда где, как вам кажется, вы подходите по ключевым навыкам
источник