Телеграмм чат группы hadoopusers страница 2692

смотрите, вы написали целый проект, который копирует логику другого проекта, в котором захардкожено куча всего , вы экономите деньги заказчику сейчас - но удорожаете поддержку этого кода вашей фирме, потому что еще одному человеку придется разбираться с нестандартными компонентами, при этом для другого заказчика придется писать цсв с другими разделителями,а не стнадратные, которые захордкожены, поэтому кономика мне не понятна. При этом можно было решить задачу в 50-100 строчек на питоне + bash / java / scala и радоваться жизни не имея проседания.
Подойти допустим творчески и решить задачу в два этапа
dist cp + отдельная обработка на спарке по конвертации в файлы
сразу сделать на спарке все

источник

16:49пожаловаться #11

K

KrivdaTheTriewe in Data Engineers

и посмотреть

источник

16:49пожаловаться #12

K

KrivdaTheTriewe in Data Engineers

при этом можно было это все добро оформить уже как-то в виде пайплайна сразу под конкртетного заказчика

источник

16:49пожаловаться #13

GP

Grigory Pomadchin in Data Engineers

KrivdaTheTriewe

смотрите, вы написали целый проект, который копирует логику другого проекта, в котором захардкожено куча всего , вы экономите деньги заказчику сейчас - но удорожаете поддержку этого кода вашей фирме, потому что еще одному человеку придется разбираться с нестандартными компонентами, при этом для другого заказчика придется писать цсв с другими разделителями,а не стнадратные, которые захордкожены, поэтому кономика мне не понятна. При этом можно было решить задачу в 50-100 строчек на питоне + bash / java / scala и радоваться жизни не имея проседания.
Подойти допустим творчески и решить задачу в два этапа
dist cp + отдельная обработка на спарке по конвертации в файлы
сразу сделать на спарке все

так можно о чем угодно сказать

источник

16:50пожаловаться #14

K

KrivdaTheTriewe in Data Engineers

можно

источник

16:50пожаловаться #15

K

KrivdaTheTriewe in Data Engineers

но мы сча говорим о задаче, на которой спарк специализируется

источник

16:50пожаловаться #16

GP

Grigory Pomadchin in Data Engineers

ну я короче конкретно не согласен сейчас
если говорить конкретно про сейчас то получается что ты считаешь что list.map(Future(spark.read)).sequence.await менее колхозно чем нормальный продуманный вариан (более ложный) под юзкейс конкретный

источник

16:51пожаловаться #17

A

Alex in Data Engineers

где-то я слышал сказку про

> При этом можно было решить задачу в 50-100 строчек на питоне + bash / java / scala и радоваться жизни не имея проседания.

особенно про питон + баш
после этого проще выкинуть чем разбираться что там написано

источник

16:51пожаловаться #18

K

KrivdaTheTriewe in Data Engineers

Grigory Pomadchin

ну я короче конкретно не согласен сейчас
если говорить конкретно про сейчас то получается что ты считаешь что list.map(Future(spark.read)).sequence.await менее колхозно чем нормальный продуманный вариан (более ложный) под юзкейс конкретный

конечно, потому что это одна строчка условно

источник

16:51пожаловаться #19

K

KrivdaTheTriewe in Data Engineers

но никто не мешает написать скрипт который делает дистцп

источник

16:51пожаловаться #20