Size: a a a

2020 September 08

AE

Alexey Evdokimov in Data Engineers
не, графики строить нам не надо. оценку по моллам надо давать в виде дельты в %%.
моллов тысячи, а усть-пердюйск может быть лондоном или москвой, т.е. жителей порядка миллионов. матрицы получаются понятного размера.
источник

LS

Lookuut Struchkov in Data Engineers
Мол это столбец?
источник

AE

Alexey Evdokimov in Data Engineers
да без разницы
источник

LS

Lookuut Struchkov in Data Engineers
Самый что в лоб лезет это трансформировать матрицу, там где есть значения заменить на 1, потом кластеризовать например кнн-ом но так как у тебя спарс матрица, я бы возможно Анн лучше подойдёт, возможно стоит попробовать сначала размерность матрицы уменьшить, потом кнн. После битья на кластеры считаем общее время проведенное на кластере и часть проведенное в нашем молле?
источник

LS

Lookuut Struchkov in Data Engineers
Если данные в том или ином этапе не лезут в память можно подвыборки брать по клиентам
источник

AE

Alexey Evdokimov in Data Engineers
с моей точки зрения это просто cellRdd.join(userRdd). и вопрос тут на самом низком уровне какой именно join брать
источник

PO

Pavel Okunev in Data Engineers
Alexey Evdokimov
не, графики строить нам не надо. оценку по моллам надо давать в виде дельты в %%.
моллов тысячи, а усть-пердюйск может быть лондоном или москвой, т.е. жителей порядка миллионов. матрицы получаются понятного размера.
Кажется надо учитывать нули только от тех людей, которые или ходили раньше а теперь перестали или раньше не ходили, но стали посещать сейчас
источник

AE

Alexey Evdokimov in Data Engineers
если inner, то это игнор нулей
источник

AE

Alexey Evdokimov in Data Engineers
если rightOuter, то это запонение нулями и не игнор
источник

AE

Alexey Evdokimov in Data Engineers
Pavel Okunev
Кажется надо учитывать нули только от тех людей, которые или ходили раньше а теперь перестали или раньше не ходили, но стали посещать сейчас
с точки зрения обывательской логики интересно. записал, спасибо.
источник

SK

Sergej Khakhulin in Data Engineers
Всем доброй ночи, а не кто не пытался юзать spark broadcast в hive udf?(нужно что бы интегрировать свои функции в sparkSql)
источник
2020 September 09

AB

Anton Bukreev in Data Engineers
Можете поделится опытом использования Apache Zeppelin, если у кого есть? Плюсы - минусы.
источник

S

Stanislav in Data Engineers
а что, есть замена? )
источник

AB

Anton Bukreev in Data Engineers
Если честно мне пока до конца не понятно его целевое применение. Как я понял это не полноценная BI типа Power BI или Tableau.  Чем например он лучше Jupiter + Plotly, кроме встроенных инструментов визуализации?
источник

S

Stanislav in Data Engineers
джупитер в энтерпрайзном окружении 🤮
источник

АЖ

Андрей Жуков... in Data Engineers
Stanislav
джупитер в энтерпрайзном окружении 🤮
Дык и запилин туда же. Только табле,  только хардкор
источник

ПФ

Паша Финкельштейн... in Data Engineers
Anton Bukreev
Можете поделится опытом использования Apache Zeppelin, если у кого есть? Плюсы - минусы.
С Big data tools вообще офигенно получается - с одной стороны полноценная IDE, с другой - плюшки цеппелина
источник

ПФ

Паша Финкельштейн... in Data Engineers
Но да, это не BI. Это всё-таки скорее интерактивная среда разработки
источник

RI

Rustam Iksanov in Data Engineers
Я бы сказал это UI shell своеобразный. Вкусовщина. с Big Data Tool было неплохо.
источник

ПФ

Паша Финкельштейн... in Data Engineers
Где можно быстро визуализировать какие-то результаты
источник