Size: a a a

2020 November 03

AT

Al T in Data Engineers
Nikita Blagodarnyy
ну если данных немного, может и классические решения сгодятся? GP там и все такое. я себе плохо представляю сочетание спарк и < 2s
я тоже плохо представляю, но в меня бросили вот этой линкой - говорят все может )) https://www.youtube.com/watch?v=nAX53vQy9AQ
источник

AT

Al T in Data Engineers
надо проверять будет
источник

AS

Andrey Smirnov in Data Engineers
Al T
Коллеги, поделитесь пожалуйста своим опытом/мнением что выбрать по таким вводным данным: несколько датасетов ( a few millions each, but can grow up to 50mln, в датасете 50-60 полей в среднем) необходимо слайсить-и-дайсить (фильтр+группировка+лимит) с временем ответа до 2х секунд, нагрузка в пике может быть до 50TPS. Необходима UDF, поэтому не хочет эластик. Есть мнение что Livy+Spark с закешированным датафреймом могут быть решением, но я что-то как-то не уверен насчет 50TPS с кучей разных queries которые во время выполнения тоже будут память есть для группировки например...
а как расшифоровывается TPS?
источник

AT

Al T in Data Engineers
transactions per second
источник

N

Nikita Blagodarnyy in Data Engineers
Andrey Smirnov
как сериализатор означает что вся работа идет через него, он вроде числа хранит в другом виде?
глобально необязательно. код открыт-берите декодировщики и используйте. я на скалу часть переписал для спарк udf.
источник

AT

Al T in Data Engineers
количество запросов в секунду в данном контексте
источник

AS

Andrey Smirnov in Data Engineers
тогда действительно, а почему не какой-нибудь постгре?
источник

AT

Al T in Data Engineers
рассматриваю такой вариант да...
источник

AT

Al T in Data Engineers
а 50млн датасет без индекса с группировкой будет меньше 2сек?
источник

AT

Al T in Data Engineers
можно попробовать конечно на high-cardinality columns все равно повесить индексы чтобы он некоторые queries отрабатывал
источник

AS

Andrey Smirnov in Data Engineers
я бы индексы вешал бы конечно
источник

N

Nikita Blagodarnyy in Data Engineers
они будут замедлять вставку.
источник

АА

Алексей Артамонов... in Data Engineers
кто-то сталкивался при старте jupyterhub?
источник

АА

Алексей Артамонов... in Data Engineers
Переслано от Алексей Артамонов...
а когда на другой ноде стартует, вообще не понимаю что просиходит
источник

АА

Алексей Артамонов... in Data Engineers
смотрю лог апликейшена
источник

АА

Алексей Артамонов... in Data Engineers
стартует и падает
источник

AZ

Anton Zadorozhniy in Data Engineers
Al T
Коллеги, поделитесь пожалуйста своим опытом/мнением что выбрать по таким вводным данным: несколько датасетов ( a few millions each, but can grow up to 50mln, в датасете 50-60 полей в среднем) необходимо слайсить-и-дайсить (фильтр+группировка+лимит) с временем ответа до 2х секунд, нагрузка в пике может быть до 50TPS. Необходима UDF, поэтому не хочет эластик. Есть мнение что Livy+Spark с закешированным датафреймом могут быть решением, но я что-то как-то не уверен насчет 50TPS с кучей разных queries которые во время выполнения тоже будут память есть для группировки например...
Greenplum? Ну или старшие товарищи ;)
источник

AT

Al T in Data Engineers
а кто постарше будет? ))
источник

AT

Al T in Data Engineers
я с гринплам не работал - он может быстро-быстро?
источник

AT

Al T in Data Engineers
типа вот например пивот табличка и ее по всякому в рилтайме обновлять
источник