Size: a a a

2020 August 31

GT

Gennady Timofeev in Data Engineers
Жмака
Это все в скала аппликации должно бежать
Так вы таблицу один раз создайте
источник

R

Roman in Data Engineers
Gennady Timofeev
В зеппелине в емр создайте просто таблицу, даже афина не нужна
А что дальше? Чем это поможет? Ну создаст человек таблицу, обратится к ней sql апи, а какой профит то?
источник

GT

Gennady Timofeev in Data Engineers
Зачем каждый раз
источник

R

Roman in Data Engineers
Жмака
Это просто очень медленно. Больше 3 часов
А во что упираетесь, кстати? В ядра/память, сеть, диски?
источник

Ж

Жмака in Data Engineers
В количество данных и последовательное чтение файлов
источник

K

KrivdaTheTriewe in Data Engineers
Жмака
В количество данных и последовательное чтение файлов
val read = files.map(Future(spark.read(...)).sequence
источник

K

KrivdaTheTriewe in Data Engineers
Await.result(read,inf// я не помню )
источник

GT

Gennady Timofeev in Data Engineers
Roman
А что дальше? Чем это поможет? Ну создаст человек таблицу, обратится к ней sql апи, а какой профит то?
Действительно, сейчас подумал, что все файлы в одной директории же, ничем не поможет, если не разносить
источник

K

KrivdaTheTriewe in Data Engineers
Это самый минимальный кривой пример
источник

K

KrivdaTheTriewe in Data Engineers
Но будет работать
источник

Ж

Жмака in Data Engineers
KrivdaTheTriewe
val read = files.map(Future(spark.read(...)).sequence
А как сюда добавить фильтр условия, groupby?
источник

K

KrivdaTheTriewe in Data Engineers
Жмака
А как сюда добавить фильтр условия, groupby?
Потом можно юнион сделать по всем датафреймам
источник

K

KrivdaTheTriewe in Data Engineers
Ну короче прочитайте параллельно и сделайте
источник

Ж

Жмака in Data Engineers
Юнион вроде тяжелая операция
источник

K

KrivdaTheTriewe in Data Engineers
Жмака
Юнион вроде тяжелая операция
Сделайте и ее параллельно
источник

K

KrivdaTheTriewe in Data Engineers
Все простите , я на скалах пошёл лазить , если нужно , давайте вечером
источник

R

Roman in Data Engineers
Только union all, скорее всего, а не просто union
источник

Ж

Жмака in Data Engineers
KrivdaTheTriewe
Все простите , я на скалах пошёл лазить , если нужно , давайте вечером
Буду рад помощи. Спасибо
источник

ИК

Иван Калининский... in Data Engineers
Жмака
Юнион вроде тяжелая операция
в общем, да, хоть и говорят, что union - простая трансформация, но если объединяются несколько сотен, а тем более тысяч элементов, то выполняется невероятно долго, эта проблема уже обсуждалась здесь или в moscow spark
источник

ИК

Иван Калининский... in Data Engineers
элемент = датафрейм
источник