Size: a a a

2020 July 22

MB

Mikhail Butalin in Data Engineers
местами...
источник

MB

Mikhail Butalin in Data Engineers
Alex
вы бы хоть спрашивали что именно не так?
150 это много или мало?
а мне вот интересно мнение без подсказок
источник

AE

Alexey Evdokimov in Data Engineers
Art
Вот эксперимент с использованием геометрии Техаса - расчет с использованием convex hull и отдельно по каждому county. Не вижу большой проблемы с рантаймом, ~12 минут на штат если convex hull создает большую погрешность
Код: https://gist.github.com/REASY/9cc3d0333675bc57e60bb9d2452e0ef3
Shape взят отсюда: https://catalog.data.gov/dataset/tiger-line-shapefile-2017-nation-u-s-current-county-and-equivalent-national-shapefile
угу, ближе к истине.

я игрался на польше с воеводствами, мне 11 гигов кучи было маловато. правда, там было чуть побольше атрибутов на каждый индекс.

но это всё только половина задачи. сами-то по себе индексы не нужны. по ним нужно разложить сколько-то млрд координат, и сделать так, чтобы координаты, попавшие в область индекса, остались вместе (например, для конкретного штата в одном или соседнем партишене), и унаследовали все атрибуты своего индекса
источник
2020 July 23

АК

Анатолий Клюса... in Data Engineers
Alex
6.x ветка вышла ещё до поглощения, там остался хайв старый, клоудера никогда норм вещи на него не предлагала, хотите процессить используйте импалу, хайв только как метасторейдж у них. клоудера так же была спонсором разработки спарк енжайна для хайва, так как люди не все хотели уходить на импалу, но и mr это уж очень легаси

хортон продолжал пилить имеено хайв, вливал оптимизации, запилил tez, llap и тд. транзакции в хайве (в импале их не было)

на момент покупки был выбор между hive+tez+llap(для быстрых запросов)+transaction vs impala

ну ещё у хортона обычно более свежии версии компонентов были
клоудера упирала на стабильность (пускай и говно мамонта, но стабильное говно)

то есть выбор дистрибутива сразу диктовал стек который будет доступен и фичи которые доступны в компонентах
Просто у 7й вроде не было уже экспресс версии, бесплатной, насколько я понял на их сайте... Что мне там дали скачать на халяву - это 6.3.3.
источник

CN

Cybernetic Neuron in Data Engineers
Привет, есть сервис для получения отчётов, с малым RPS, но с большой выборкой (счёт на миллиарды записей), думаю над кликхаус, Google BigQuery или Neo4j, что посоветуете?
источник

CN

Cybernetic Neuron in Data Engineers
Отчёт нужен в риалтайме
источник

YI

Yukari I in Data Engineers
Cybernetic Neuron
Привет, есть сервис для получения отчётов, с малым RPS, но с большой выборкой (счёт на миллиарды записей), думаю над кликхаус, Google BigQuery или Neo4j, что посоветуете?
Ignite, grip
источник

A

Anton Kovalenko in Data Engineers
Cybernetic Neuron
Привет, есть сервис для получения отчётов, с малым RPS, но с большой выборкой (счёт на миллиарды записей), думаю над кликхаус, Google BigQuery или Neo4j, что посоветуете?
какой будет запрос?
Как будут аггрегироваться записи?
сколько строк в выхлопе?
источник

CN

Cybernetic Neuron in Data Engineers
Anton Kovalenko
какой будет запрос?
Как будут аггрегироваться записи?
сколько строк в выхлопе?
Вообще, запросы какие угодно могут быть, с группировкой по дате, категории по количеству продаж и тд итп
Структура примерно:
категория -> товар <- бренд
товар -> цены, стоки с датой
источник

CN

Cybernetic Neuron in Data Engineers
Пример запроса: надо нужно вычислить процент продаж товара в промежутке времени
источник

CN

Cybernetic Neuron in Data Engineers
Yukari I
Ignite, grip
А не лопнет озу от in memory db?
источник

CN

Cybernetic Neuron in Data Engineers
сколько там на такие запросы надо?
источник

AK

Andrey Konyaev in Data Engineers
Если нет джоинов больших таблиц друг с другом - можно пробовать ClickHouse
источник

CN

Cybernetic Neuron in Data Engineers
Andrey Konyaev
Если нет джоинов больших таблиц друг с другом - можно пробовать ClickHouse
джоины точно будут
источник

CN

Cybernetic Neuron in Data Engineers
но не больших таблиц
источник

CN

Cybernetic Neuron in Data Engineers
хотя..
источник

CN

Cybernetic Neuron in Data Engineers
вот эта вот часть с ценами и стоками..
источник

А

Алексей in Data Engineers
сделайте 1 таблицу широкую и не надо будет джойнов
источник

А

Алексей in Data Engineers
по описанию связи 1 к 1 у таблиц
источник

CN

Cybernetic Neuron in Data Engineers
Алексей
по описанию связи 1 к 1 у таблиц
Нет, цены постоянно меняются
источник