Телеграмм чат группы hadoopusers страница 2918

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

2007 membersпожаловаться на группу

2020 November 02

AE

Alexey Evdokimov in Data Engineers

вот как-то так оно получается. как отлажу в приватном форке, выложу у себя на гитхабе. может кто из присутствующих хоть поржёт. знатный велописедищще

источник

20:00пожаловаться #1

AE

Alexey Evdokimov in Data Engineers

Переслано от Alexey Evdokimov

image_2020-11-02_20-37-07.png

источник

20:00пожаловаться #2

АА

Алексей Артамонов... in Data Engineers

Снимок экрана 2020-11-02 в 20.04.40.png

@dartov не подскажешь? я на всех воркер нодах поставил jupyterhub-yarnspawner, jupyterhub, notebook. Добавил в yarn-site.yml следующие строки:

<property>
  <name>hadoop.proxyuser.jupyterhub.hosts</name>
  <value>*</value>
</property>
<property>
  <name>hadoop.proxyuser.jupyterhub.groups</name>
  <value>*</value>
</property>

на каждой дата ноде после изменений конфига сделал hadoop-daemon.sh stop/start datanode

в итоге:
запускаю под пользователем jupyterhub -f /pat/to/config
получаю ошибку:
как на скрине

источник

20:05пожаловаться #3

2020 November 03

AT

Al T in Data Engineers

Коллеги, поделитесь пожалуйста своим опытом/мнением что выбрать по таким вводным данным: несколько датасетов ( a few millions each, but can grow up to 50mln, в датасете 50-60 полей в среднем) необходимо слайсить-и-дайсить (фильтр+группировка+лимит) с временем ответа до 2х секунд, нагрузка в пике может быть до 50TPS. Необходима UDF, поэтому не хочет эластик. Есть мнение что Livy+Spark с закешированным датафреймом могут быть решением, но я что-то как-то не уверен насчет 50TPS с кучей разных queries которые во время выполнения тоже будут память есть для группировки например...

источник

13:27пожаловаться #4

AT

Al T in Data Engineers

мой любимый кликхаус тоже скорее всего не подойдет так как апдейты будут необходимы довольно часто и они такие что не покроют кейсы aggregate/replacing merge trees..

источник

13:32пожаловаться #5

G

Gev in Data Engineers

А почему бы не исползовать HBase

источник

13:39пожаловаться #6

AS

Andrey Smirnov in Data Engineers

А почему бы не исползовать HBase

а как на каждое поле где будет фильтрация делать индекс?

источник

13:40пожаловаться #7

G

Gev in Data Engineers

Если не ошибаюсь - Phoenix позволяет вторичное инлексирование.

источник

13:41пожаловаться #8

AS

Andrey Smirnov in Data Engineers

тогда уж скорее кассандра с ее новыми индексами

источник

13:41пожаловаться #9

s

serge in Data Engineers

Al T

мой любимый кликхаус тоже скорее всего не подойдет так как апдейты будут необходимы довольно часто и они такие что не покроют кейсы aggregate/replacing merge trees..

можно еще попробовать CH с MEMORY ENGINE, скорость обработки отличная

источник

13:43пожаловаться #10

AT

Al T in Data Engineers

спасибо, поля по группировке и фильтрации совершенно произвольные... видимо как ни крути лучше чем columnar storage и максимально быстрые фулсканы не найти

источник

13:47пожаловаться #11

N

Nikita Blagodarnyy in Data Engineers

Если не ошибаюсь - Phoenix позволяет вторичное инлексирование.

и при этом не гарантирует консистентность данных.

источник

13:50пожаловаться #12

G

Gev in Data Engineers

Nikita Blagodarnyy

и при этом не гарантирует консистентность данных.

Почему?

источник

13:51пожаловаться #13

N

Nikita Blagodarnyy in Data Engineers

Ну так сделали его.

источник

13:51пожаловаться #14

AS

Andrey Smirnov in Data Engineers

Nikita Blagodarnyy

и при этом не гарантирует консистентность данных.

умеют же люди, из hbase сделать такое

источник

13:54пожаловаться #15

N

Nikita Blagodarnyy in Data Engineers

Al T

мой любимый кликхаус тоже скорее всего не подойдет так как апдейты будут необходимы довольно часто и они такие что не покроют кейсы aggregate/replacing merge trees..

ну можно копить апдейты. и как-то пакетно их накатывать иногда.

источник

13:54пожаловаться #16

AT

Al T in Data Engineers

да я вот тож думаю о том чтобы например целиком перезаписывать датасеты периодически как накопятся апдейты, там не так уж много миллионов-то

источник

13:56пожаловаться #17

N

Nikita Blagodarnyy in Data Engineers

умеют же люди, из hbase сделать такое

ну не надо его за субд принимать. как сериализатор и sql транслятор вполне себе канает.

источник

13:56пожаловаться #18

N

Nikita Blagodarnyy in Data Engineers

Al T

да я вот тож думаю о том чтобы например целиком перезаписывать датасеты периодически как накопятся апдейты, там не так уж много миллионов-то

ну если данных немного, может и классические решения сгодятся? GP там и все такое. я себе плохо представляю сочетание спарк и < 2s

источник

13:59пожаловаться #19

AS

Andrey Smirnov in Data Engineers

Nikita Blagodarnyy

ну не надо его за субд принимать. как сериализатор и sql транслятор вполне себе канает.

как сериализатор означает что вся работа идет через него, он вроде числа хранит в другом виде?

источник

14:00пожаловаться #20