Size: a a a

2020 November 01

AZ

Anton Zadorozhniy in Data Engineers
Dmitry
а что там сильно не так ? мы так и не научившись готовить куду на эту oss deltaio переписываем потихоньку.
смотря что вам нужно конечно, но для широкого применения кмк мешает то что все метаданные хранятся в объектном хранилище, нет каталога (и нет возможности передать планировщику дополнительную информацию вроде бакетинга или неявных партиций), нет optimize и нет z-order при том что отрезан бакетинг (то есть каждый мердж будет требовать все больше ресурсов потому что данные надо всегда сортировать)
источник

AZ

Anton Zadorozhniy in Data Engineers
в принципе если вы готовы написать свой DBIO, то дельта может быть неплохой заготовкой
источник

АЖ

Андрей Жуков... in Data Engineers
Anton Zadorozhniy
смотря что вам нужно конечно, но для широкого применения кмк мешает то что все метаданные хранятся в объектном хранилище, нет каталога (и нет возможности передать планировщику дополнительную информацию вроде бакетинга или неявных партиций), нет optimize и нет z-order при том что отрезан бакетинг (то есть каждый мердж будет требовать все больше ресурсов потому что данные надо всегда сортировать)
Утрирую,  но звучит как айсберг :)
источник

AZ

Anton Zadorozhniy in Data Engineers
Андрей Жуков
Утрирую,  но звучит как айсберг :)
у айсберг как раз бакетинг и партиции сделаны на будущее, метаданные в любой нормальной базе (это точка расширения)
источник

SD

Serg D. in Data Engineers
Всем привет. Ребят, подскажите, пжл. Запускаю spark-submit. Через --files пытаюсь прокинуть конфигурационный файл. В логах вижу что этот файл копируется. В коде пытаюсь этот файл прочитать через  new File(SparkFiles.get(fileName)) . Проверяю существует ли файл - .exists возвращает false.
Как правильно прокинуть спарк джобу текстовый или конфигурационный файл?
источник

A

Alexander in Data Engineers
Serg D.
Всем привет. Ребят, подскажите, пжл. Запускаю spark-submit. Через --files пытаюсь прокинуть конфигурационный файл. В логах вижу что этот файл копируется. В коде пытаюсь этот файл прочитать через  new File(SparkFiles.get(fileName)) . Проверяю существует ли файл - .exists возвращает false.
Как правильно прокинуть спарк джобу текстовый или конфигурационный файл?
Через ресурсы
источник

SD

Serg D. in Data Engineers
т.е. запаковать вместе с jarником?
источник

A

Alexander in Data Engineers
Ну да
источник

SD

Serg D. in Data Engineers
А если конфигу нужно внешний? чтобы могли менять без пересборки
источник

A

Alexander in Data Engineers
источник

A

Alexander in Data Engineers
Сорян, не могу текст скопировать
источник

A

Alexander in Data Engineers
Смотрите, как указан файл application.conf
источник

SD

Serg D. in Data Engineers
Ок, спасибо. А внутри через ресурсы?
источник

A

Alexander in Data Engineers
Serg D.
Ок, спасибо. А внутри через ресурсы?
Не понял
источник

SD

Serg D. in Data Engineers
В коде как получаете файл application.conf?
источник

A

Alexander in Data Engineers
Не. Используйте библиотеку com.typesafe.config. Создаёте case classы, которые отражают структуру вашего config файла. Библиотека парсит ваш файл, потом через эти классы получаете доступ к значениям парараметров
источник

SD

Serg D. in Data Engineers
Понял. Спасибо за наводку. Буду копать.
источник
2020 November 02

I

Ilya in Data Engineers
может кто подскажет, кто гугл драйвом пользуется, он показывает что хранилище почти заполненно, но он у меня смаунтен на компе и там только гига, а где остальные 14 ?
источник

АЖ

Андрей Жуков... in Data Engineers
Ilya
может кто подскажет, кто гугл драйвом пользуется, он показывает что хранилище почти заполненно, но он у меня смаунтен на компе и там только гига, а где остальные 14 ?
Почта,  фотки
источник

dv

dobbry vechur in Data Engineers
Ilya
может кто подскажет, кто гугл драйвом пользуется, он показывает что хранилище почти заполненно, но он у меня смаунтен на компе и там только гига, а где остальные 14 ?
В корзине?
источник