Size: a a a

2020 October 01

N

Nikita Blagodarnyy in Data Engineers
Rodion
Всем ку.
Посоветуйте, какую бы вы выбрали бд для 1тб очень связанных данных (многие ко многим, некоторые таблички сильно иерархичны)
На что смотреть? Как выбирать?
Селф-хостед, без облака, есть небольшой бюджет на покупку платного решения. На место пофиг, прирост данных небольшой, важна скорость запросов (условно куча джоинов)
Оракл бери.
источник

AZ

Anton Zadorozhniy in Data Engineers
Rodion
Всем ку.
Посоветуйте, какую бы вы выбрали бд для 1тб очень связанных данных (многие ко многим, некоторые таблички сильно иерархичны)
На что смотреть? Как выбирать?
Селф-хостед, без облака, есть небольшой бюджет на покупку платного решения. На место пофиг, прирост данных небольшой, важна скорость запросов (условно куча джоинов)
начать с постгри, 1ТБ это немного
источник

N

Nikolay in Data Engineers
Ну я бы тоже постгресс посоветовал. Только скорость джойнов уже будет зависит от вашей схемы , способа партиционирования. Из одного показателя базы -1TB нельзя вывести скорость , если это не одна таблица .
источник

AZ

Anton Zadorozhniy in Data Engineers
Nikita Blagodarnyy
df = teradandas.read.clickhouse(t) транслируется в select * from t
потом df = df.groupBy(x).select(y) транслируется в select y from (select * from t) group by x
потом filter в select * from (select y from (select * from t) group by x) where ololo=1111
потом приходит экшон и весь стек исполняет в КХ
такое, только для кликхауза?
источник

N

Nikita Blagodarnyy in Data Engineers
Anton Zadorozhniy
такое, только для кликхауза?
ну да. он может и прям это прожевать.
источник

N

Nikita Blagodarnyy in Data Engineers
Nikita Blagodarnyy
ну да. он может и прям это прожевать.
можно попробовать убрать кавычки в начале и конце и затолкать в sqlalchemy-clickhouse
источник

N

Nikita Blagodarnyy in Data Engineers
надо кстати призвать @fediq
источник

N

Nikita Blagodarnyy in Data Engineers
у них же как раз все на пехтоне и КХ, может уже и сваяли чего.
источник

AZ

Anton Zadorozhniy in Data Engineers
они не делятся обычно
источник

AZ

Anton Zadorozhniy in Data Engineers
Nikita Blagodarnyy
можно попробовать убрать кавычки в начале и конце и затолкать в sqlalchemy-clickhouse
ну там помимо тупой генерации есть валидация по каталогу, всякие describe он генерирует в проприетарном синтаксисе, так что нельзя просто оторвать от терадаты и пересадить на другую базу
источник

GP

Grigory Pomadchin in Data Engineers
‼️Самое важное в Data Engineers Group‼️

🔹 Moscow Spark #10 быть (в онлайне); 10/1/2020 (сегодня); 18:30 МСК; для тех кто не успел записаться на митап ссылка на youtube трансляцию https://www.youtube.com/channel/UCb5cNv__wJLSbbc1k7iXXeQ  а также будет Spatial Chat афтерпати с напитками! Подробности в чате митапа https://t.me/moscowspark и на таймпаде https://moscowspark.timepad.ru/event/1440202/
🔹 DE or DIE #4  https://t.me/hadoopusers/65923
🔹 SmartData 2020 CFP https://smartdataconf.ru/callforpapers/ cc @asm0dey
источник

R

Rodion in Data Engineers
Nikita Blagodarnyy
Оракл бери.
Думали про него, ага.
Пока лежит все в Монге, но не нравится скорость запросов, аналитику сложно делать.
источник

R

Rodion in Data Engineers
Anton Zadorozhniy
начать с постгри, 1ТБ это немного
А что почитать посоветуете по оптимальной раскладке данных в бд?
источник

AZ

Anton Zadorozhniy in Data Engineers
Rodion
А что почитать посоветуете по оптимальной раскладке данных в бд?
Смотря что вы делаете, для витрин обычно денормализация и звезды/снежинки, для деталек датаволт и анкор, что там популярно сейчас..
источник

N

Nikita Blagodarnyy in Data Engineers
Anton Zadorozhniy
Смотря что вы делаете, для витрин обычно денормализация и звезды/снежинки, для деталек датаволт и анкор, что там популярно сейчас..
датамеш популярен
источник

AZ

Anton Zadorozhniy in Data Engineers
Nikita Blagodarnyy
датамеш популярен
Датамеш это мета штука, она разрешает все что было до (только пусть каждый в своём бизнес домене  будет себе хозяином)
источник

AZ

Anton Zadorozhniy in Data Engineers
Rodion
А что почитать посоветуете по оптимальной раскладке данных в бд?
Я бы начал с заливки того как в источнике, а дальше смотрел на задачи, мб вам пары независимых витрин хватит, ну или если много легаси источников надо делать большую интеграцию и историзацию данных (тогда всякие датаволты и анкоры)
источник

K

KrivdaTheTriewe in Data Engineers
https://www.youtube.com/watch?v=hQI-QYJXlVU начинаем трансляцию
источник

K

KrivdaTheTriewe in Data Engineers
‼️Самое важное в Data Engineers Group‼️

🔹 Moscow Spark #10 трансляция началась https://www.youtube.com/watch?v=hQI-QYJXlVU
https://t.me/moscowspark
🔹 DE or DIE #4  https://t.me/hadoopusers/65923
🔹 SmartData 2020 CFP https://smartdataconf.ru/callforpapers/ cc @asm0dey
источник

N

Nikita Blagodarnyy in Data Engineers
ура, а то в соседнем рассказывают как хадуп скачать.
источник