Телеграмм чат группы hadoopusers страница 2654

Ну... не совсем)
Одна БД для неархивного oltp с HA, а другая - CP-архив. Просто не хотелось сильно метаться от одной экосистемы к другой)
Постгрес, пусть без мультимастера, но с норм. механизмом переключения на стендбай, может считаться HA с определенными условиями? Подождал полминуты, если что, ткнул кнопку повторить...

источник

17:57пожаловаться #4

АК

Анатолий Клюса... in Data Engineers

Aleksey Kislitsa

Наверное из основного репозитория, ванильное ядро например это то, которое от разрабов, а не Дебиан или РедХат

Спс, так и думал.

источник

17:57пожаловаться #5

АК

Анатолий Клюса... in Data Engineers

Анатолий Клюса

Ну... не совсем)
Одна БД для неархивного oltp с HA, а другая - CP-архив. Просто не хотелось сильно метаться от одной экосистемы к другой)
Постгрес, пусть без мультимастера, но с норм. механизмом переключения на стендбай, может считаться HA с определенными условиями? Подождал полминуты, если что, ткнул кнопку повторить...

Лучше, конечно, пару секунд, и автоматически.
Не знаю, как там у постгреса с переключением на другого мастера в случае дизастера...

источник

18:01пожаловаться #6

D

Dima in Data Engineers

Коллеги, nested date partition vs flat partition для Athena

источник

18:07пожаловаться #7

D

Dima in Data Engineers

Что лучше, быстрее удобнее?

источник

18:07пожаловаться #8

AA

Ali Abdullaev in Data Engineers

Dmitry

опять же, если импалу не заставлять джоинить гигабайты

а у импалы есть проблема с тем, чтобы джоинить гигабайты?

источник

18:17пожаловаться #9

D

Dmitry in Data Engineers

Ali Abdullaev

а у импалы есть проблема с тем, чтобы джоинить гигабайты?

ну там фича в том что она джоин в памяти делает. т.е. если у табличек партиции не совпадают, она запросто может попробовать затянуть все в память и попробовать в памяти переджоинить

источник

18:22пожаловаться #10

AA

Ali Abdullaev in Data Engineers

Dmitry

ну там фича в том что она джоин в памяти делает. т.е. если у табличек партиции не совпадают, она запросто может попробовать затянуть все в память и попробовать в памяти переджоинить

а если не получится, она умеет в джоин на диске?

источник

18:24пожаловаться #11

EP

Easycore Programming in Data Engineers

Dmitriy

github, hadoop-yarn-client/src/main/java/org/apache/hadoop/yarn/client/cli/TopCLI.java#L652-L653:
columnInformationEnumMap.put(Columns.PROGRESS, new ColumnInformation(
"%PROGR", "%6s", true, "Progress(percentage)", "p"));

спасибо!

источник

18:24пожаловаться #12

D

Dmitry in Data Engineers

Ali Abdullaev

а если не получится, она умеет в джоин на диске?

на сколько я знаю - нет. плюс на узлах могут быть и параллельные запросы, они тоже могут сожрать память и помешать выполнится запросу.

источник

18:29пожаловаться #13

AA

Ali Abdullaev in Data Engineers

Dmitry

на сколько я знаю - нет. плюс на узлах могут быть и параллельные запросы, они тоже могут сожрать память и помешать выполнится запросу.

спасибо, изучу этот вопрос

источник

18:31пожаловаться #14

AZ

Anton Zadorozhniy in Data Engineers

Dmitry

на сколько я знаю - нет. плюс на узлах могут быть и параллельные запросы, они тоже могут сожрать память и помешать выполнится запросу.

она умеет spill to disk, надо указать побольше быстрых scratch_dirs и все должно быть нормально

источник

18:32пожаловаться #15

E

El-Yaz in Data Engineers

Ребята, привет!
Пишу пет проект - стриминг данных с твиттера в кафку, дальше агрегация и в еластик и тд
На класс утилиты тесты написал. Нужно ли писать тесты на клиент твиттера, что он корректно отрабатывает и на кафка продюсера?

источник

18:59пожаловаться #16

AE

Alexey Evdokimov in Data Engineers

El-Yaz

Ребята, привет!
Пишу пет проект - стриминг данных с твиттера в кафку, дальше агрегация и в еластик и тд
На класс утилиты тесты написал. Нужно ли писать тесты на клиент твиттера, что он корректно отрабатывает и на кафка продюсера?

кто главный на проекте, тот и решает.

источник

19:19пожаловаться #17

АК

Анатолий Клюса... in Data Engineers

Dmitry

да, там еще явно много чего по оптимизации надо делать. там колончатый формат, с упаковкой, поток модифицирующих "транзакций" похоже требует постоянного переупаковки и записи партиции. плюс комуникация со своими репликами. много cpu жрет все это.
пока там даже бэкапа толком нет, год назад вместо бэкапа выкатили spark скриптик, который просто в csv копирует

Э... чего? Бэкап в csv?.. ))
Ну хоть бы в паркет уже, если спарк...

источник

19:55пожаловаться #18

АК

Анатолий Клюса... in Data Engineers

Anton Zadorozhniy

2ndquadrant еще есть, у них как раз мультимастер для ПГ

О, спасибо, тоже надо глянуть что это.

источник

22:04пожаловаться #19

2020 August 21

AK

Andrew Konstantinov in Data Engineers

Всем привет !кто-нибудь сталикивался с такой ошибкой

An error occurred while calling o271.showString.
: org.apache.spark.SparkException: Job aborted due to stage failure: 
Aborting TaskSet 0.0 because task 0 (partition 0)
cannot run anywhere due to node and executor blacklist.
Most recent failure:
Lost task 0.1 in stage 0.0 (TID 1, z14-1779-node1.vesta.ru, executor 2): java.io.FileNotFoundException: File does not exist: hdfs://z14-1779-node1.vesta.ru:8020/data/data_hub/ilog/xxx/op_year=2020/op_month=7/op_day=17/part-00001-3a39ba60-4beb-4480-ae56-2bbd271efb2d.c000.snappy.orc
It is possible the underlying files have been updated. You can explicitly invalidate the cache in Spark by running 'REFRESH TABLE tableName' command in SQL or by recreating the Dataset/DataFrame involved.

.refresh table не помог, юзаем pyspark 2.4

источник

16:01пожаловаться #20