Size: a a a

2020 November 02

AE

Alexey Evdokimov in Data Engineers
вот как-то так оно получается. как отлажу в приватном форке, выложу у себя на гитхабе. может кто из присутствующих хоть поржёт. знатный велописедищще
источник

AE

Alexey Evdokimov in Data Engineers
Переслано от Alexey Evdokimov
источник

АА

Алексей Артамонов... in Data Engineers
@dartov не подскажешь? я на всех воркер нодах поставил jupyterhub-yarnspawner, jupyterhub, notebook. Добавил в yarn-site.yml следующие строки:
<property>
 <name>hadoop.proxyuser.jupyterhub.hosts</name>
 <value>*</value>
</property>
<property>
 <name>hadoop.proxyuser.jupyterhub.groups</name>
 <value>*</value>
</property>

на каждой дата ноде после изменений конфига сделал hadoop-daemon.sh stop/start datanode

в итоге:
запускаю под пользователем jupyterhub -f /pat/to/config
получаю ошибку:
как на скрине
источник
2020 November 03

AT

Al T in Data Engineers
Коллеги, поделитесь пожалуйста своим опытом/мнением что выбрать по таким вводным данным: несколько датасетов ( a few millions each, but can grow up to 50mln, в датасете 50-60 полей в среднем) необходимо слайсить-и-дайсить (фильтр+группировка+лимит) с временем ответа до 2х секунд, нагрузка в пике может быть до 50TPS. Необходима UDF, поэтому не хочет эластик. Есть мнение что Livy+Spark с закешированным датафреймом могут быть решением, но я что-то как-то не уверен насчет 50TPS с кучей разных queries которые во время выполнения тоже будут память есть для группировки например...
источник

AT

Al T in Data Engineers
мой любимый кликхаус тоже скорее всего не подойдет так как апдейты будут необходимы довольно часто и они такие что не покроют кейсы aggregate/replacing merge trees..
источник

G

Gev in Data Engineers
А почему бы не исползовать HBase
источник

AS

Andrey Smirnov in Data Engineers
Gev
А почему бы не исползовать HBase
а как на каждое поле где будет фильтрация делать индекс?
источник

G

Gev in Data Engineers
Если не ошибаюсь -  Phoenix позволяет вторичное инлексирование.
источник

AS

Andrey Smirnov in Data Engineers
тогда уж скорее кассандра с ее новыми индексами
источник

s

serge in Data Engineers
Al T
мой любимый кликхаус тоже скорее всего не подойдет так как апдейты будут необходимы довольно часто и они такие что не покроют кейсы aggregate/replacing merge trees..
можно еще попробовать CH с MEMORY ENGINE, скорость обработки отличная
источник

AT

Al T in Data Engineers
спасибо, поля по группировке и фильтрации совершенно произвольные... видимо как ни крути лучше чем columnar storage и максимально быстрые фулсканы не найти
источник

N

Nikita Blagodarnyy in Data Engineers
Gev
Если не ошибаюсь -  Phoenix позволяет вторичное инлексирование.
и при этом не гарантирует консистентность данных.
источник

G

Gev in Data Engineers
Nikita Blagodarnyy
и при этом не гарантирует консистентность данных.
Почему?
источник

N

Nikita Blagodarnyy in Data Engineers
Ну так сделали его.
источник

AS

Andrey Smirnov in Data Engineers
Nikita Blagodarnyy
и при этом не гарантирует консистентность данных.
умеют же люди, из  hbase сделать такое
источник

N

Nikita Blagodarnyy in Data Engineers
Al T
мой любимый кликхаус тоже скорее всего не подойдет так как апдейты будут необходимы довольно часто и они такие что не покроют кейсы aggregate/replacing merge trees..
ну можно копить апдейты. и как-то пакетно их накатывать иногда.
источник

AT

Al T in Data Engineers
да я вот тож думаю о том чтобы например целиком перезаписывать датасеты периодически как накопятся апдейты, там не так уж много миллионов-то
источник

N

Nikita Blagodarnyy in Data Engineers
Andrey Smirnov
умеют же люди, из  hbase сделать такое
ну не надо его за субд принимать. как сериализатор и sql транслятор вполне себе канает.
источник

N

Nikita Blagodarnyy in Data Engineers
Al T
да я вот тож думаю о том чтобы например целиком перезаписывать датасеты периодически как накопятся апдейты, там не так уж много миллионов-то
ну если данных немного, может и классические решения сгодятся? GP там и все такое. я себе плохо представляю сочетание спарк и < 2s
источник

AS

Andrey Smirnov in Data Engineers
Nikita Blagodarnyy
ну не надо его за субд принимать. как сериализатор и sql транслятор вполне себе канает.
как сериализатор означает что вся работа идет через него, он вроде числа хранит в другом виде?
источник