Телеграмм чат группы hadoopusers страница 2729

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

1947 membersпожаловаться на группу

2020 September 08

AE

Alexey Evdokimov in Data Engineers

не, графики строить нам не надо. оценку по моллам надо давать в виде дельты в %%.
моллов тысячи, а усть-пердюйск может быть лондоном или москвой, т.е. жителей порядка миллионов. матрицы получаются понятного размера.

источник

19:15пожаловаться #1

LS

Lookuut Struchkov in Data Engineers

Мол это столбец?

источник

19:21пожаловаться #2

AE

Alexey Evdokimov in Data Engineers

да без разницы

источник

19:30пожаловаться #3

LS

Lookuut Struchkov in Data Engineers

Самый что в лоб лезет это трансформировать матрицу, там где есть значения заменить на 1, потом кластеризовать например кнн-ом но так как у тебя спарс матрица, я бы возможно Анн лучше подойдёт, возможно стоит попробовать сначала размерность матрицы уменьшить, потом кнн. После битья на кластеры считаем общее время проведенное на кластере и часть проведенное в нашем молле?

источник

19:30пожаловаться #4

LS

Lookuut Struchkov in Data Engineers

Если данные в том или ином этапе не лезут в память можно подвыборки брать по клиентам

источник

19:32пожаловаться #5

AE

Alexey Evdokimov in Data Engineers

с моей точки зрения это просто cellRdd.join(userRdd). и вопрос тут на самом низком уровне какой именно join брать

источник

19:32пожаловаться #6

PO

Pavel Okunev in Data Engineers

Alexey Evdokimov

не, графики строить нам не надо. оценку по моллам надо давать в виде дельты в %%.
моллов тысячи, а усть-пердюйск может быть лондоном или москвой, т.е. жителей порядка миллионов. матрицы получаются понятного размера.

Кажется надо учитывать нули только от тех людей, которые или ходили раньше а теперь перестали или раньше не ходили, но стали посещать сейчас

источник

19:32пожаловаться #7

AE

Alexey Evdokimov in Data Engineers

если inner, то это игнор нулей

источник

19:32пожаловаться #8

AE

Alexey Evdokimov in Data Engineers

если rightOuter, то это запонение нулями и не игнор

источник

19:33пожаловаться #9

AE

Alexey Evdokimov in Data Engineers

Кажется надо учитывать нули только от тех людей, которые или ходили раньше а теперь перестали или раньше не ходили, но стали посещать сейчас

с точки зрения обывательской логики интересно. записал, спасибо.

источник

19:38пожаловаться #10

SK

Sergej Khakhulin in Data Engineers

Всем доброй ночи, а не кто не пытался юзать spark broadcast в hive udf?(нужно что бы интегрировать свои функции в sparkSql)

источник

22:05пожаловаться #11

2020 September 09

AB

Anton Bukreev in Data Engineers

Можете поделится опытом использования Apache Zeppelin, если у кого есть? Плюсы - минусы.

источник

10:22пожаловаться #12

S

Stanislav in Data Engineers

а что, есть замена? )

источник

10:24пожаловаться #13

AB

Anton Bukreev in Data Engineers

Если честно мне пока до конца не понятно его целевое применение. Как я понял это не полноценная BI типа Power BI или Tableau. Чем например он лучше Jupiter + Plotly, кроме встроенных инструментов визуализации?

источник

10:27пожаловаться #14

S

Stanislav in Data Engineers

джупитер в энтерпрайзном окружении 🤮

источник

10:29пожаловаться #15

АЖ

Андрей Жуков... in Data Engineers

джупитер в энтерпрайзном окружении 🤮

Дык и запилин туда же. Только табле, только хардкор

источник

10:31пожаловаться #16

ПФ

Паша Финкельштейн... in Data Engineers

Можете поделится опытом использования Apache Zeppelin, если у кого есть? Плюсы - минусы.

С Big data tools вообще офигенно получается - с одной стороны полноценная IDE, с другой - плюшки цеппелина

источник

10:31пожаловаться #17

ПФ

Паша Финкельштейн... in Data Engineers

Но да, это не BI. Это всё-таки скорее интерактивная среда разработки

источник

10:33пожаловаться #18

RI

Rustam Iksanov in Data Engineers

Я бы сказал это UI shell своеобразный. Вкусовщина. с Big Data Tool было неплохо.

источник

10:34пожаловаться #19

ПФ

Паша Финкельштейн... in Data Engineers

Где можно быстро визуализировать какие-то результаты

источник

10:34пожаловаться #20