Size: a a a

2020 September 17

AB

Andrey Bel in Data Engineers
Или на питоне?
источник

DN

Dmitriy Novikov in Data Engineers
Andrey Bel
А на скале пишешь?
пифтон, но скала щупал немного
источник

AB

Andrey Bel in Data Engineers
Ну там для спарка скала апи самое френдли, после питона быстро в куришь 👍👍
источник
2020 September 18

С

Сюткин in Data Engineers
Коллеги DE, а кто как хранит в хадупчике видосики и аудиозаписи?

И хранит ли вообще?
источник

TT

Tsh Tsh in Data Engineers
Хранили в s3 самоподнятом
Резали на куски а не целиком фильмы
источник

TT

Tsh Tsh in Data Engineers
В hdfs не встречал
источник

AZ

Anton Zadorozhniy in Data Engineers
Сюткин
Коллеги DE, а кто как хранит в хадупчике видосики и аудиозаписи?

И хранит ли вообще?
SequenceFile, Avro (это размеченные), ну а сырые просто в формате источника
источник

SS

Sergey Sheremeta in Data Engineers
коллеги, как можно сделать в спарке джойн к одной и той же маленькой таблице несколько раз?
так ругается на имплисит кросс джойн

val enrichedDF = factDF.alias("fact").
   join(broadcast(peopleDF.alias("customer_dim")),
        factDF("cust_id") === peopleDF("id"), "left").
   join(broadcast(peopleDF.alias("vendor_dim")),
        factDF("vend_id") === peopleDF("id"), "left").
   selectExpr( "customer_dim.name as customer_name",
                       "vendor_dim.name as vendor_name",
                       "fact.*" )
источник

LS

Lookuut Struchkov in Data Engineers
Сюткин
Коллеги DE, а кто как хранит в хадупчике видосики и аудиозаписи?

И хранит ли вообще?
Недавно конфа была по видео стримам от ОККО яндекс, play button называется от Яндекса там можно глянуть
источник

DZ

Dmitry Zuev in Data Engineers
Sergey Sheremeta
коллеги, как можно сделать в спарке джойн к одной и той же маленькой таблице несколько раз?
так ругается на имплисит кросс джойн

val enrichedDF = factDF.alias("fact").
   join(broadcast(peopleDF.alias("customer_dim")),
        factDF("cust_id") === peopleDF("id"), "left").
   join(broadcast(peopleDF.alias("vendor_dim")),
        factDF("vend_id") === peopleDF("id"), "left").
   selectExpr( "customer_dim.name as customer_name",
                       "vendor_dim.name as vendor_name",
                       "fact.*" )
Ну я бы в один джоин сделал. В чем проблема?
источник

DZ

Dmitry Zuev in Data Engineers
Case when для имени
источник

SS

Sergey Sheremeta in Data Engineers
Dmitry Zuev
Case when для имени
туплю... можете показать пример схематично?
источник

DZ

Dmitry Zuev in Data Engineers
Sergey Sheremeta
коллеги, как можно сделать в спарке джойн к одной и той же маленькой таблице несколько раз?
так ругается на имплисит кросс джойн

val enrichedDF = factDF.alias("fact").
   join(broadcast(peopleDF.alias("customer_dim")),
        factDF("cust_id") === peopleDF("id"), "left").
   join(broadcast(peopleDF.alias("vendor_dim")),
        factDF("vend_id") === peopleDF("id"), "left").
   selectExpr( "customer_dim.name as customer_name",
                       "vendor_dim.name as vendor_name",
                       "fact.*" )
SELECT

CASE WHEN vend_id = id
   THEN name
END vend_name,


CASE WHEN cust_id = id
        THEN name
END cust_name

FROM fact
LEFT JOIN people ON cust_id = id OR vend_id = id
источник

SS

Sergey Sheremeta in Data Engineers
хммм, ораклоид внутри меня бьется в истерике
источник

DZ

Dmitry Zuev in Data Engineers
а чо?
источник

DZ

Dmitry Zuev in Data Engineers
я б тоже двумя джоинами сделал наверное. но увы
источник

DM

Dave Manukian in Data Engineers
@ssheremeta в чем проблема может быть в примере @zuynew ? Просто интересно, я бы тоже так сделал
источник

DZ

Dmitry Zuev in Data Engineers
надо планы посмотреть
источник

DZ

Dmitry Zuev in Data Engineers
в оракале
источник

ФМ

Федор Мануковский... in Data Engineers
Sergey Sheremeta
коллеги, как можно сделать в спарке джойн к одной и той же маленькой таблице несколько раз?
так ругается на имплисит кросс джойн

val enrichedDF = factDF.alias("fact").
   join(broadcast(peopleDF.alias("customer_dim")),
        factDF("cust_id") === peopleDF("id"), "left").
   join(broadcast(peopleDF.alias("vendor_dim")),
        factDF("vend_id") === peopleDF("id"), "left").
   selectExpr( "customer_dim.name as customer_name",
                       "vendor_dim.name as vendor_name",
                       "fact.*" )
дело в обращении peopleDF("id"), вот такое работает
.join(broadcast(peopleDF.alias("customer_dim")), factDF("cust_id") === $"customer_dim.id", "left")    .join(broadcast(peopleDF.alias("vendor_dim")), factDF("vend_id") === $"vendor_dim.id", "left")
источник