Size: a a a

2021 April 21

AE

Alexey Evdokimov in Data Engineers
на минуточку, сетевой поток штука это односторонне направленная, по ней seek не сделаеш
источник

AZ

Anton Zadorozhniy in Data Engineers
Datamechanics работает на Azure, это от создателей Databricks, похожая модель
источник

AZ

Anton Zadorozhniy in Data Engineers
Мы про батч, там seek time не важен
источник

AE

Alexey Evdokimov in Data Engineers
батч чего именно?
источник

AZ

Anton Zadorozhniy in Data Engineers
Спарк батч джоб, мапредьюс батч джоб
источник

AE

Alexey Evdokimov in Data Engineers
узкий кейс
источник

AZ

Anton Zadorozhniy in Data Engineers
Мы для клиента выключили на половине узлов датаноды, на другой - нодменеджеры, и пайплайн не стал медленнее
источник

PK

Pavel Klemenkov in Data Engineers
Кажется, что если речь не идёт про 10g или инфинибэнд, то чтение с локального ssd быстрее
источник

AZ

Anton Zadorozhniy in Data Engineers
ИБ, да
источник

D

Dmitry in Data Engineers
databriks есть прямо в азуре, по Datamechanics такого не видо. а мне вероятно это важно из-за юристов. я так понимаю на азур перс данные сливать можно, куда-то еще не разрешат
источник

AZ

Anton Zadorozhniy in Data Engineers
Локальных ССД мало, дешевле поставить везде ИБ
источник

PK

Pavel Klemenkov in Data Engineers
Где иб в облаках? Да и где иб в реальности?
источник

AZ

Anton Zadorozhniy in Data Engineers
В онпреме ИБ был везде, у нас все продукты на нем построены
источник

PK

Pavel Klemenkov in Data Engineers
Круто! А вы это кто?
источник

AZ

Anton Zadorozhniy in Data Engineers
В Клауде есть тоже, но там иная архитектура, transient clusters, поэтому там это не так важно для хадупов (для БД важно и используется)
источник

AZ

Anton Zadorozhniy in Data Engineers
Терадата
источник

D

Dmitry in Data Engineers
у меня вопрос. если hdinside начнет писать на adls (допустим hot подписка) пару сотен тб в сутки, на сколько это дешевле/дороже может оказаться с hdinside с hdfs внутри ? я все за транзакции на adsl чтение/запись волнуюсь
источник

PK

Pavel Klemenkov in Data Engineers
Не знаю что это. Объяснишь?
источник

TT

Tsh Tsh in Data Engineers
Кластера временные
источник

AZ

Anton Zadorozhniy in Data Engineers
Дешевле держать данные в объектном сторадже и поднимать разных размеров кластера дешевых машин для конкретных задач, ресайзить и убивать их на лету, чем держать флот дорогих машин с ИБ и держать данные на блочном сторадж и/или быстрых эфемерах
источник