Size: a a a

2019 November 27

AZ

Anton Zadorozhniy in Data Engineers
Mikhail
При использовании S3 напрямую можно поиметь проблемы с консистентностью, т.к. обжект стор eventually consistent.
s3guard / emrfs вроде никто не отменял
источник

R

Renarde in Data Engineers
поэтому на практике он туда время от времени заглядывает, и мы не испытывали проблем с консистентностью при батчах каждую минуту, например
источник

M

Mikhail in Data Engineers
Emrfs сильно увеличивает косты использования EMR при большом потоке
источник

M

Mikhail in Data Engineers
Есть ещё вариант подмапить EFS и чекпоинтить туда
источник

AZ

Anton Zadorozhniy in Data Engineers
в смысле из-за костов за динаму?
источник

M

Mikhail in Data Engineers
Да, много риквестов генерится на динамо/s3
источник

AZ

Anton Zadorozhniy in Data Engineers
ну вам надо целостно, это не бесплатно
источник

M

Mikhail in Data Engineers
Может кто заморачивался с вариантом на efs или кастомным вариантом с hdfs + периодической репликацией на s3?
источник

M

Mikhail in Data Engineers
И таки да, очень странно, что в спарке при сохранении чекпоинтов в s3 до сих пор используется код стандартного hdfs подхода (с темп директорией и последующим переименованием).
источник

СХ

Старый Хрыч in Data Engineers
Mikhail
Да, много риквестов генерится на динамо/s3
динамо стоит космос
источник

RI

Rustam Iksanov in Data Engineers
Коллеги! Подскажите. Есть таблица в phoenix(5.0) hbase 2.0. фильтр вида column like 'х%' выдает условно 50 строк, фильтр вида column like 'х%' AND column2 = 'abc' выдает 100 строк. Обновление статистики делал. Вопрос, что не так с фениксом?
источник

AE

Alexey Evdokimov in Data Engineers
Mikhail
Может кто заморачивался с вариантом на efs или кастомным вариантом с hdfs + периодической репликацией на s3?
если кто и заморачивался, он об этом молчит как партизан.
тоже, блин, приходится костылить с гонянием терабайтов туда-сюда. s3-dist-cp — жуткое говно. emrfs из-за динамы стоит конских денег. что делать — хз.
источник

M

Mikhail in Data Engineers
Alexey Evdokimov
если кто и заморачивался, он об этом молчит как партизан.
тоже, блин, приходится костылить с гонянием терабайтов туда-сюда. s3-dist-cp — жуткое говно. emrfs из-за динамы стоит конских денег. что делать — хз.
Беда. Если найдешь красивое решение - черкни.
источник

ME

Max Efremov in Data Engineers
Кто-то использовал в AWS Step Functions? Оно удобнее Airflow для облака?
источник

ME

Mikhail Epikhin in Data Engineers
Тут  недавно люди спрашивали про s3 compatible object storage implementation
Я забыл сказать что еще есть https://hadoop.apache.org/ozone/docs/0.4.1-alpha/
источник

ME

Mikhail Epikhin in Data Engineers
Но он пока в инкубаторе:)
источник

UD

Uncel Duk in Data Engineers
если будет быстрее цефа это вин
источник

R

Renarde in Data Engineers
Mikhail Epikhin
Тут  недавно люди спрашивали про s3 compatible object storage implementation
Я забыл сказать что еще есть https://hadoop.apache.org/ozone/docs/0.4.1-alpha/
ого, вот это выглядит как прикольная штучка
источник

R

Renarde in Data Engineers
кстати вопрос - а minio (который типа opensource S3) - там такая же проблема с консистентностью?
источник

A

Aleksandr in Data Engineers
Всем привет. Подскажите, чем пользуетесь для тестирования спарк приложений на скале. Есть ли какие-то альтернативы этому?
https://github.com/holdenk/spark-testing-base
источник