Телеграмм чат группы hadoopusers страница 1851

но схема уже с учетом новых файлов)

11:19пожаловаться #1

ddre_z

очевидно же, что мне нужно получить два датафрейма из двух csv с теми полями, которые сейчас находятся в большом файле по идентификатору

10 GB в CSV это немного. при чтении в память это думаю спокойно влезет и в 4 GB. если же у вас проблема вообще сложная то напишите скрипты. один должен отсортировать строки всех файлов по ключу. второй скрипт для мерджа должен просто бежать последовательно по 2м файлам и соединять ключи и результат писать в файл. думаю так вы уложитесь даже в килобайты

11:22пожаловаться #2

Ilia ksen

но схема уже с учетом новых файлов)

так пишите сразу с новой схемой

11:22пожаловаться #3

если у вас в схеме поле нуллабл то пишите в поле нулл. иначе пишите дефолтное значение

11:23пожаловаться #4

Anton Shelin

если у вас в схеме поле нуллабл то пишите в поле нулл. иначе пишите дефолтное значение

Ну вот так и делаем

11:24пожаловаться #5

но на каком то этапе тестеры схватили баг

11:24пожаловаться #6

и обьяснить толком не могут

11:25пожаловаться #7

11:25пожаловаться #8

А как мы можем помочь если никто не знает в чем проблема

11:25пожаловаться #9

Такой вопрос может ли быть такое, что в одной папке 2 версии паркета и при считывании всей папки каким то образом не подтянуться поля из второй версии?

11:26пожаловаться #10

я такого бага поймать не могу, но мб кто-то сталкивался)

Андрей Жуков in Data Engineers

11:27пожаловаться #11

АЖ

Ilia ksen

Merge Schema как раз

11:34пожаловаться #12

Андрей Жуков

Merge Schema как раз

то есть если такую опцию не поставить, может случиться такой кейс?

Андрей Жуков in Data Engineers

11:38пожаловаться #13

АЖ

Ilia ksen

то есть если такую опцию не поставить, может случиться такой кейс?

и случится, если схемы разные

11:44пожаловаться #14

Андрей Жуков

и случится, если схемы разные

Проблема в том, что когда я щас пишу паркеты с разными схемами в одну папку и потом выгружаю с новой схемой, у меня вся папка подтягивается нормально, просто в старых паркетах заполняется нулами

11:46пожаловаться #15

без этой опции

11:46пожаловаться #16

разница в схемах в паре полей

11:47пожаловаться #17

Sergey Zhemzhitsky in Data Engineers

ddre_z

Привет всем.
Вопрос по спарку. Есть три файла csv. Один из них весит 10гб с 19млн записей, два других меньше - 15 мб с 500к записей и 6 мб с 180к соответственно (последние две - тренировочные и тестовые выборки).

В том файле, что весит 10 гб есть айдишник и еще несколько колонок.
В файле который 15 мб только айдишник и лейбл.
В файле на 6 мб уже только айдишник.

Вопрос в том, что мне нужно с основного файла в 10гб заджоинить данные по айдишнику. Каким образом это можно сделать оптимально и без шаффла?

Мне сказали, что есть вариант положить этот файл в базу данных, а уже потом сделать из двух других датафреймы с последующим джоином данных из этой базы. Насколько это будет ок в целом?

broadcast join - без шафла.

12:35пожаловаться #18

Иногда смотрю на тербования из вакансии в Data jobs feed и ох.еваю. И спеть и станцеваь и готовить уметь, также быть готовым к полету в космос ну и иметь навыки самооборны не ниже 10 дана. Есть же люди.

12:41пожаловаться #19

Anton Zadorozhniy in Data Engineers

Anton Shelin

это такой брачный танец который делают HRы и кандидаты, меня тоже подбешивает (я на принимающей стороне часто), просто принять как данность и подаваться туда где, как вам кажется, вы подходите по ключевым навыкам