Size: a a a

2019 December 02

I

Igor in Data Engineers
blob $ ls -lah
итого 8,0K
drwxr-xr-x 2 9999 9999 4,0K ноя 29 18:41 .
drwxr-xr-x 3 9999 9999 4,0K ноя 29 18:41 ..
источник

I

Igor in Data Engineers
я там счас поставил 777
источник

RI

Rustam Iksanov in Data Engineers
Nikita Blagodarnyy
А major compaction?
Не делал
источник

RI

Rustam Iksanov in Data Engineers
Сделал major compaction что-то быстро отработало. Результата не дало
источник

I

Igor in Data Engineers
Alex
проверить пермишены и логи, что сохранение стейта действительно прошло
А если там в тестовом кейсе хард ребута в логах появляется "org.apache.flink.runtime.rpc.exceptions.FencingTokenException: Fencing token not set: Ignoring message LocalFencedMessage(96ddca26cbbf13dce9789b39cc1e4439, LocalRpcInvocation(requestMultipleJobDetails(Time))) sent to akka.tcp://flink@jobmanager-0.jobmanager-headless:6123/user/dispatcher because the fencing token is null."?
источник

T

T in Data Engineers
Alex
больше всего похоже на баг именно с emr и их “мы запилили вагон оптимизаций к ванильному спарку, теперь у вас будет все работать быстро”

так как строки shouldPrefetchData в ванильном спарке не встречаются =)
Да я тоже был удивлен когда в сорцах не нашел этот метод
источник

ME

Max Efremov in Data Engineers
Немного оффтопный вопрос: в чате иногда вспылывают вопросы по Map Reduce: его кто-то использует в проде? Это поддержка легаси или кто-то новые проекты на этом пилит?
источник

YI

Yukari I in Data Engineers
Max Efremov
Немного оффтопный вопрос: в чате иногда вспылывают вопросы по Map Reduce: его кто-то использует в проде? Это поддержка легаси или кто-то новые проекты на этом пилит?
Если у вас hive...
источник

ME

Max Efremov in Data Engineers
Yukari I
Если у вас hive...
хайв же может поверх спарка работать
источник

ME

Max Efremov in Data Engineers
для UDF свой апи отдельный...
источник

S

Stanislav in Data Engineers
Yukari I
Если у вас hive...
если у вас старый хайв
источник

YI

Yukari I in Data Engineers
Stanislav
если у вас старый хайв
+++
источник

YI

Yukari I in Data Engineers
Так или иначе
источник

OI

Oleg Ilinsky in Data Engineers
Привет!
У меня спарк стрим читает из hdfs и пишет в табличку hive. И вот сейчас начал падать с ошибкой:
19/11/06 18:24:20 WARN RetryingMetaStoreClient: MetaStoreClient lost connection. Attempting to reconnect.
org.apache.thrift.TApplicationException: Required field 'filesAdded' is unset! Struct:InsertEventRequestData(filesAdded:null)
Причём только на одной из таблиц. На остальных всё ок. Нагуглил только баги спарка/хайва, которые уже resolved...
источник

OI

Oleg Ilinsky in Data Engineers
Уже спрашивал что-то похоже, но мб у кого-то был такой кейс?
источник

N

Nikita Blagodarnyy in Data Engineers
Max Efremov
Немного оффтопный вопрос: в чате иногда вспылывают вопросы по Map Reduce: его кто-то использует в проде? Это поддержка легаси или кто-то новые проекты на этом пилит?
Из HBase удобно куски данных выбирать по timestamp с помощью CopyTable. Ну и батчевое что-то там же считать.
источник

RI

Rustam Iksanov in Data Engineers
Rustam Iksanov
Не делал
Сделал compaction, полностью завершился. Но все равно по ключу не полная выгрузка. Только full scan
источник

RI

Rustam Iksanov in Data Engineers
А проблема выборки не может быть из-за подсаливания??
источник

RI

Rustam Iksanov in Data Engineers
При селекте через like '%abc%' возвращает все строки
источник

R

Roman in Data Engineers
Max Efremov
Немного оффтопный вопрос: в чате иногда вспылывают вопросы по Map Reduce: его кто-то использует в проде? Это поддержка легаси или кто-то новые проекты на этом пилит?
Я использую. Но это больше как легаси. Что - то новое пишем на спарке. Текущий функционал иногда расширяем на mr.
Но для некоторых задач mr вполне себе подходит.
источник