Size: a a a

2019 November 20

T

T in Data Engineers
да, 10
источник

A

Alex in Data Engineers
список патчей где?
чтобы понимать чем они пожертвовали и где было настолько плохо что ускорение в 30 раз
источник

T

T in Data Engineers
Alex
список патчей где?
чтобы понимать чем они пожертвовали и где было настолько плохо что ускорение в 30 раз
источник

T

T in Data Engineers
ну остальную часть я думаю они не раскроют
источник

A

Alex in Data Engineers
Spark

Performance optimizations
источник

A

Alex in Data Engineers
один из лучших списков что я видел =)
источник

AE

Alexey Evdokimov in Data Engineers
осталось выяснить, кто в реальной жизни на таких нодах что-то считает. обычно подешевле берут
источник

T

T in Data Engineers
Alexey Evdokimov
осталось выяснить, кто в реальной жизни на таких нодах что-то считает. обычно подешевле берут
мы считаем
источник

AS

Andrey Smirnov in Data Engineers
Alexey Evdokimov
проведите бенчмарк. сделайте какой-нибудь расчёт, который много читает и много пишет, и убедитесь что времени на общение с с3 тратится во много раз больше, чем на сам расчёт
вот это правильно, мы в свое время проводили такое на своей нагрузке (обычные орк файлы, запись не интенсивная, обработка батчевая) размеры десятки терабайт, s3 проигрывал процентов 20% макс, а по стоимости разница была космическая
источник

T

T in Data Engineers
T
мы считаем
правда ноды на спотах по этому выходит не так дорого
источник

AE

Alexey Evdokimov in Data Engineers
T
мы считаем
ну если вы можете себе позволить дорогие ноды, то какая вам разница. вы наверняка и время на латенси имеете неограниченное.

если нет, то бенчмарк и ещё раз бенчмарк
источник

T

T in Data Engineers
Alex
один из лучших списков что я видел =)
ну ребятам надо себя както продавать 😉
источник

M

Mikhail in Data Engineers
Alexey Evdokimov
ну если вы можете себе позволить дорогие ноды, то какая вам разница. вы наверняка и время на латенси имеете неограниченное.

если нет, то бенчмарк и ещё раз бенчмарк
Какой-то неочевидный вывод зависимости между деньгами и латенси)
источник

AE

Alexey Evdokimov in Data Engineers
на моём ворклоаде с кластерами он деманд и уникальным обсчётами каждый раз дешевле копировать на хдфс, считать, писать в хдфс и копировать обратно. дешевле по времени раз этак в 30. неудобно, но ждать некогда :/
источник

T

T in Data Engineers
Alexey Evdokimov
ну если вы можете себе позволить дорогие ноды, то какая вам разница. вы наверняка и время на латенси имеете неограниченное.

если нет, то бенчмарк и ещё раз бенчмарк
Ну да, но подробной инфы от автора вопроса мы так и не дождались. Может у них схожие условия
источник

AE

Alexey Evdokimov in Data Engineers
Mikhail
Какой-то неочевидный вывод зависимости между деньгами и латенси)
у нас заказчик ждать неделю не будет, ему надо прям завтра
источник

AS

Andrey Smirnov in Data Engineers
Alexey Evdokimov
на моём ворклоаде с кластерами он деманд и уникальным обсчётами каждый раз дешевле копировать на хдфс, считать, писать в хдфс и копировать обратно. дешевле по времени раз этак в 30. неудобно, но ждать некогда :/
а хдфс хранит данные бесплатно?
источник

A

Alex in Data Engineers
нет, тут именно обсуждается вопрос:
когда у вас доступ к s3 то вы ограничены скоростью сети + количеством коннектов на сам s3
когда вы скопировали данные на hdfs то высока вероятность гонять/процессить данные в data locality режиме (считайте напрямую с диском работа)

долгосрочное хранение это одно
временное хранилище для файлов которые будут прочитаны много раз это совершенно другое
источник

AE

Alexey Evdokimov in Data Engineers
именно
источник

AE

Alexey Evdokimov in Data Engineers
Andrey Smirnov
а хдфс хранит данные бесплатно?
нет, но в случае он деманд кластера ебс волюмы существуют недолго. если кластер перманент, совсем другой коленкор, с3 драматически дешевле
источник