Телеграмм чат группы hadoopusers страница 1849

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

1724 membersпожаловаться на группу

2019 December 05

d

ddre_z in Data Engineers

Привет всем.
Вопрос по спарку. Есть три файла csv. Один из них весит 10гб с 19млн записей, два других меньше - 15 мб с 500к записей и 6 мб с 180к соответственно (последние две - тренировочные и тестовые выборки).

В том файле, что весит 10 гб есть айдишник и еще несколько колонок.
В файле который 15 мб только айдишник и лейбл.
В файле на 6 мб уже только айдишник.

Вопрос в том, что мне нужно с основного файла в 10гб заджоинить данные по айдишнику. Каким образом это можно сделать оптимально и без шаффла?

Мне сказали, что есть вариант положить этот файл в базу данных, а уже потом сделать из двух других датафреймы с последующим джоином данных из этой базы. Насколько это будет ок в целом?

источник

05:57пожаловаться #1

MV

Michael Voloshin in Data Engineers

Судя по постановке задачи - БД оптимальное решение. Ибо JOIN - базовый функционал любой БД. А базовый функционал, который пилит сотня/тысяча/да даже десяток разработчиков (с высокой долей вероятности на С) явно более оптимально написан нежели велосипед, который Вы создадите в одиночку на Java и тем более Py.

источник

07:10пожаловаться #2

MV

Michael Voloshin in Data Engineers

Вообще не понимаю людей, которые готовят структурированные данные не с помощью ANSI SQL, а своими велосипедами.

источник

07:12пожаловаться #3

ME

Max Efremov in Data Engineers

Привет всем.
Вопрос по спарку. Есть три файла csv. Один из них весит 10гб с 19млн записей, два других меньше - 15 мб с 500к записей и 6 мб с 180к соответственно (последние две - тренировочные и тестовые выборки).

В том файле, что весит 10 гб есть айдишник и еще несколько колонок.
В файле который 15 мб только айдишник и лейбл.
В файле на 6 мб уже только айдишник.

Вопрос в том, что мне нужно с основного файла в 10гб заджоинить данные по айдишнику. Каким образом это можно сделать оптимально и без шаффла?

Мне сказали, что есть вариант положить этот файл в базу данных, а уже потом сделать из двух других датафреймы с последующим джоином данных из этой базы. Насколько это будет ок в целом?

А в чём проблеиа шафла? Данных не так много же

источник

09:12пожаловаться #4

N

Nikolay in Data Engineers

Вам же не шафл нужно избежать , а сделать джойн .

источник

09:14пожаловаться #5

N

Nikolay in Data Engineers

У вас немного странная постановка задачи . Если нужно сделать за минимальное время - это другой вопрос. Но нужно ли именно это вам ?

источник

09:16пожаловаться #6

d

ddre_z in Data Engineers

Сделать джоин, но так чтобы моя оператива выдержала, и не заняло миллион лет

источник

09:21пожаловаться #7

d

ddre_z in Data Engineers

А, да, и без шаффла

источник

09:23пожаловаться #8

d

ddre_z in Data Engineers

Одно из требований

источник

09:23пожаловаться #9

N

Nikolay in Data Engineers

Сейчас падает у вас по памяти ?

источник

09:24пожаловаться #10

d

ddre_z in Data Engineers

Сейчас ничего не падает, я прикидываю лучшую стратегию

источник

09:27пожаловаться #11

N

Nikolay in Data Engineers

Лучшую стратегию для чего ? Когда решается задача оптимизации , то должен быть критерий оптимальности. Если вы например зальете данные в ClickHouse , то у вас джойн будет быстрее ( у вас маленький объем данных ), но если у вас объем данных существенно возрастёт и не будет влезать в память сервера , на котором запускается , то КХ начнет падать

источник

09:31пожаловаться #12

N

Nikolay in Data Engineers

Если вы загрузите в oracle и будете делать join там без включенной параллельности , то у вас будет сброс на диск ( Аля шафл) и стоит это будет существенно дороже )

источник

09:32пожаловаться #13

N

Nikolay in Data Engineers

ПС.КХ у вас не будет падать , если вы оформите 2 ваши маленькие таблицы словарями.

источник

09:34пожаловаться #14

Ik

Ilia ksen in Data Engineers

Привет. Есть вопрос. Допустим писались паркетные файлы с одной схемой и решили добавить в данные новое поле, добавили его в схему заранее, но в паркете его еще нет, но появится например завтра. Как сделать так чтобы паркет вычитывался уже с новым полем, но просто обозначал его null?

источник

10:47пожаловаться #15

Ik

Ilia ksen in Data Engineers

На данный момент просто кидает ошибку, что нет такого поля

источник

10:48пожаловаться #16

АЖ

Андрей Жуков in Data Engineers

На данный момент просто кидает ошибку, что нет такого поля

А что за ошибка? Чем и как вычитываете?

источник

10:53пожаловаться #17

ME

Max Efremov in Data Engineers

Хм, а если поля нет в паркете, как его можно оттуда читать?

источник

10:53пожаловаться #18

ME

Max Efremov in Data Engineers

Разве его не надо сначала добавить?

источник

10:53пожаловаться #19

Ik

Ilia ksen in Data Engineers

Разве его не надо сначала добавить?

Ну я об этом и пишу, что его еще не добавили

источник

10:54пожаловаться #20