Size: a a a

2020 August 31

GP

Grigory Pomadchin in Data Engineers
KrivdaTheTriewe
я не верю что оно быстрее
я не проверял - но легко поверю)
источник

GP

Grigory Pomadchin in Data Engineers
все кастомные сурсы которые я писал были быстрее
источник

K

KrivdaTheTriewe in Data Engineers
это не кастомный сурс
источник

K

KrivdaTheTriewe in Data Engineers
над спарком
источник

GP

Grigory Pomadchin in Data Engineers
ну катсомная шляпа
источник

GP

Grigory Pomadchin in Data Engineers
она легко может быть быстрее спарка))
источник

K

KrivdaTheTriewe in Data Engineers
Grigory Pomadchin
она легко может быть быстрее спарка))
но там тоже спарк под капотом
источник

AE

Alexey Evdokimov in Data Engineers
не только может, но и будет. потому что алгоритмика тулзы заточена под специфическую задачу, а не общего вида
источник

GP

Grigory Pomadchin in Data Engineers
+
источник

AE

Alexey Evdokimov in Data Engineers
для меня например разница между "полчаса на копирование" и "12 минут" выливается в 2х стоимость проекта напрямую для заказчика
источник

K

KrivdaTheTriewe in Data Engineers
смотрите, вы написали целый проект, который копирует логику другого проекта, в котором захардкожено куча всего , вы экономите деньги заказчику сейчас - но удорожаете поддержку этого кода вашей фирме, потому что еще одному человеку придется разбираться с нестандартными компонентами, при этом для другого заказчика придется писать цсв с другими разделителями,а не стнадратные, которые захордкожены, поэтому кономика мне не понятна. При этом можно было решить задачу в 50-100 строчек на питоне + bash / java / scala и радоваться жизни не имея проседания.
Подойти допустим творчески и решить задачу в два этапа
dist cp + отдельная обработка на спарке по конвертации в файлы
сразу сделать на спарке все
источник

K

KrivdaTheTriewe in Data Engineers
и посмотреть
источник

K

KrivdaTheTriewe in Data Engineers
при этом можно было это все добро оформить уже как-то в виде пайплайна сразу под конкртетного заказчика
источник

GP

Grigory Pomadchin in Data Engineers
KrivdaTheTriewe
смотрите, вы написали целый проект, который копирует логику другого проекта, в котором захардкожено куча всего , вы экономите деньги заказчику сейчас - но удорожаете поддержку этого кода вашей фирме, потому что еще одному человеку придется разбираться с нестандартными компонентами, при этом для другого заказчика придется писать цсв с другими разделителями,а не стнадратные, которые захордкожены, поэтому кономика мне не понятна. При этом можно было решить задачу в 50-100 строчек на питоне + bash / java / scala и радоваться жизни не имея проседания.
Подойти допустим творчески и решить задачу в два этапа
dist cp + отдельная обработка на спарке по конвертации в файлы
сразу сделать на спарке все
так можно о чем угодно сказать
источник

K

KrivdaTheTriewe in Data Engineers
можно
источник

K

KrivdaTheTriewe in Data Engineers
но мы сча говорим о задаче, на  которой спарк специализируется
источник

GP

Grigory Pomadchin in Data Engineers
ну я короче конкретно не согласен сейчас
если говорить конкретно про сейчас то получается что ты считаешь что list.map(Future(spark.read)).sequence.await менее колхозно чем нормальный продуманный вариан (более ложный) под юзкейс конкретный
источник

A

Alex in Data Engineers
где-то я слышал сказку про

> При этом можно было решить задачу в 50-100 строчек на питоне + bash / java / scala и радоваться жизни не имея проседания.

особенно про питон + баш
после этого проще выкинуть чем разбираться что там написано
источник

K

KrivdaTheTriewe in Data Engineers
Grigory Pomadchin
ну я короче конкретно не согласен сейчас
если говорить конкретно про сейчас то получается что ты считаешь что list.map(Future(spark.read)).sequence.await менее колхозно чем нормальный продуманный вариан (более ложный) под юзкейс конкретный
конечно, потому что это одна строчка условно
источник

K

KrivdaTheTriewe in Data Engineers
но никто не мешает написать скрипт который делает дистцп
источник