Телеграмм чат группы hadoopusers страница 2919

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

2007 membersпожаловаться на группу

2020 November 03

AT

Al T in Data Engineers

Nikita Blagodarnyy

ну если данных немного, может и классические решения сгодятся? GP там и все такое. я себе плохо представляю сочетание спарк и < 2s

я тоже плохо представляю, но в меня бросили вот этой линкой - говорят все может )) https://www.youtube.com/watch?v=nAX53vQy9AQ

700 Queries Per Second with Updates: Spark As A Real Time Web Service

источник

14:01пожаловаться #1

AT

Al T in Data Engineers

надо проверять будет

источник

14:01пожаловаться #2

AS

Andrey Smirnov in Data Engineers

Al T

Коллеги, поделитесь пожалуйста своим опытом/мнением что выбрать по таким вводным данным: несколько датасетов ( a few millions each, but can grow up to 50mln, в датасете 50-60 полей в среднем) необходимо слайсить-и-дайсить (фильтр+группировка+лимит) с временем ответа до 2х секунд, нагрузка в пике может быть до 50TPS. Необходима UDF, поэтому не хочет эластик. Есть мнение что Livy+Spark с закешированным датафреймом могут быть решением, но я что-то как-то не уверен насчет 50TPS с кучей разных queries которые во время выполнения тоже будут память есть для группировки например...

а как расшифоровывается TPS?

источник

14:02пожаловаться #3

AT

Al T in Data Engineers

transactions per second

источник

14:02пожаловаться #4

N

Nikita Blagodarnyy in Data Engineers

как сериализатор означает что вся работа идет через него, он вроде числа хранит в другом виде?

глобально необязательно. код открыт-берите декодировщики и используйте. я на скалу часть переписал для спарк udf.

источник

14:02пожаловаться #5

AT

Al T in Data Engineers

количество запросов в секунду в данном контексте

источник

14:02пожаловаться #6

AS

Andrey Smirnov in Data Engineers

тогда действительно, а почему не какой-нибудь постгре?

источник

14:04пожаловаться #7

AT

Al T in Data Engineers

рассматриваю такой вариант да...

источник

14:05пожаловаться #8

AT

Al T in Data Engineers

а 50млн датасет без индекса с группировкой будет меньше 2сек?

источник

14:07пожаловаться #9

AT

Al T in Data Engineers

можно попробовать конечно на high-cardinality columns все равно повесить индексы чтобы он некоторые queries отрабатывал

источник

14:08пожаловаться #10

AS

Andrey Smirnov in Data Engineers

я бы индексы вешал бы конечно

источник

14:12пожаловаться #11

N

Nikita Blagodarnyy in Data Engineers

они будут замедлять вставку.

источник

14:13пожаловаться #12

АА

Алексей Артамонов... in Data Engineers

кто-то сталкивался при старте jupyterhub?

источник

14:51пожаловаться #13

АА

Алексей Артамонов... in Data Engineers

Переслано от Алексей Артамонов...

а когда на другой ноде стартует, вообще не понимаю что просиходит

источник

14:51пожаловаться #14

АА

Алексей Артамонов... in Data Engineers

смотрю лог апликейшена

источник

14:52пожаловаться #15

АА

Алексей Артамонов... in Data Engineers

стартует и падает

источник

14:52пожаловаться #16

AZ

Anton Zadorozhniy in Data Engineers

Al T

Коллеги, поделитесь пожалуйста своим опытом/мнением что выбрать по таким вводным данным: несколько датасетов ( a few millions each, but can grow up to 50mln, в датасете 50-60 полей в среднем) необходимо слайсить-и-дайсить (фильтр+группировка+лимит) с временем ответа до 2х секунд, нагрузка в пике может быть до 50TPS. Необходима UDF, поэтому не хочет эластик. Есть мнение что Livy+Spark с закешированным датафреймом могут быть решением, но я что-то как-то не уверен насчет 50TPS с кучей разных queries которые во время выполнения тоже будут память есть для группировки например...

Greenplum? Ну или старшие товарищи ;)

источник

15:55пожаловаться #17

AT

Al T in Data Engineers

а кто постарше будет? ))

источник

15:59пожаловаться #18

AT

Al T in Data Engineers

я с гринплам не работал - он может быстро-быстро?

источник

16:00пожаловаться #19

AT

Al T in Data Engineers

типа вот например пивот табличка и ее по всякому в рилтайме обновлять

источник

16:00пожаловаться #20