Size: a a a

2021 April 21

UR

Uncle Ruckus in Data Engineers
Это хорошо, а платить-то кому?
источник

D

Dmitry in Data Engineers
azur
источник

AZ

Anton Zadorozhniy in Data Engineers
Datamechanics
источник

AZ

Anton Zadorozhniy in Data Engineers
Для батча не нужна уже много лет, для более интерактивной нагрузки нужна, но для этого базы есть
источник

А

Алексей in Data Engineers
это потому что сеть обогнала диски по throughput? Может ли этот процесс быть цикличным, что диски снова обгонят сеть?
источник

AZ

Anton Zadorozhniy in Data Engineers
Диски медленные, узлы маленькие, локалити работает пока у вас нагрузка не превышает размер нод где хранятся популярные данные, в целом - оно того не стоит
источник

AZ

Anton Zadorozhniy in Data Engineers
Было пара пейперов на тему, я постил сюда
источник

PK

Pavel Klemenkov in Data Engineers
Ты про дата локалити в узком смысле? Для шафлов все остаётся актуальным
источник

AZ

Anton Zadorozhniy in Data Engineers
Для шафла нужен быстрый локальный сторадж, данные там не хранятся постоянно
источник

PK

Pavel Klemenkov in Data Engineers
Быстрый локальный сторадж нужен вообще для всего. Консьюмить shuffle spill, очевидно, лучше с топологически близкой машины
источник

AZ

Anton Zadorozhniy in Data Engineers
У дата локалити вроде один смысл - запуск ворклоада близко к тому месту где хранятся данные, это не про кэши и промежуточные результаты
источник

PK

Pavel Klemenkov in Data Engineers
Следующий стейдж это тоже ворклоад. Если бы мне не приходилось вообще двигать данные по сети - это была бы пушка
источник

А

Алексей in Data Engineers
забакетировать все по 1 ключу и шафлить только по нему
источник

AZ

Anton Zadorozhniy in Data Engineers
В некоторых базах если читать данные из S3 то следующий стейдж будет уже в базе и ничего не надо заново сортировать :)
источник

GP

Grigory Pomadchin in Data Engineers
мож вы какие-то вообще разные кейсы обсуждаете
у меня какие-то сомнения пошли что вы не совсем об одном и томже
источник

D

Dmitry in Data Engineers
ну у меня вопрос не про модно молодежно, а про azure / дата лейки серьезных ентерпрайзов. врятли эентерпрайзы сидят в Datamechanics, а у меня выбран azure, вероятно окончательно
источник

PK

Pavel Klemenkov in Data Engineers
Погоди, речь не про сортировку, а про способ передачи данных
источник

AZ

Anton Zadorozhniy in Data Engineers
Но я говорил про HDFS/YARN связку он-преме, на кластерах с хорошей сетью скорость чтения по сети выше чем с локального диска, и такое давно
источник

e

er@essbase.ru in Data Engineers
как же так ? 😂
источник

AE

Alexey Evdokimov in Data Engineers
что значит "чтение по сети"?
источник