Size: a a a

2020 August 20

AE

Alexey Evdokimov in Data Engineers
ну перкона похоже его и юзает
источник

AZ

Anton Zadorozhniy in Data Engineers
у 2ndquadrant CRDTшки есть, очень прикольно
источник

AZ

Anton Zadorozhniy in Data Engineers
но если CRDT это требование нормальной репликации - то таких правда мало баз
источник

АК

Анатолий Клюса... in Data Engineers
Alexey Evdokimov
а топикстартеру нужно и то и другое и чтобы всё сразу
Ну... не совсем)
Одна БД для неархивного oltp с HA, а другая - CP-архив. Просто не хотелось сильно метаться от одной экосистемы к другой)
Постгрес, пусть без мультимастера, но с норм. механизмом переключения на стендбай, может считаться HA с определенными условиями? Подождал полминуты, если что, ткнул кнопку повторить...
источник

АК

Анатолий Клюса... in Data Engineers
Aleksey Kislitsa
Наверное из основного репозитория, ванильное ядро например это то, которое от разрабов, а не Дебиан или РедХат
Спс, так и думал.
источник

АК

Анатолий Клюса... in Data Engineers
Анатолий Клюса
Ну... не совсем)
Одна БД для неархивного oltp с HA, а другая - CP-архив. Просто не хотелось сильно метаться от одной экосистемы к другой)
Постгрес, пусть без мультимастера, но с норм. механизмом переключения на стендбай, может считаться HA с определенными условиями? Подождал полминуты, если что, ткнул кнопку повторить...
Лучше, конечно, пару секунд, и автоматически.
Не знаю, как там у постгреса с переключением на другого мастера в случае дизастера...
источник

D

Dima in Data Engineers
Коллеги, nested date partition vs flat partition для Athena
источник

D

Dima in Data Engineers
Что лучше, быстрее удобнее?
источник

AA

Ali Abdullaev in Data Engineers
Dmitry
опять же, если импалу не заставлять джоинить гигабайты
а у импалы есть проблема с тем, чтобы джоинить гигабайты?
источник

D

Dmitry in Data Engineers
Ali Abdullaev
а у импалы есть проблема с тем, чтобы джоинить гигабайты?
ну там фича в том что она джоин в памяти делает. т.е. если у табличек партиции не совпадают, она запросто может попробовать затянуть все в память и попробовать в памяти переджоинить
источник

AA

Ali Abdullaev in Data Engineers
Dmitry
ну там фича в том что она джоин в памяти делает. т.е. если у табличек партиции не совпадают, она запросто может попробовать затянуть все в память и попробовать в памяти переджоинить
а если не получится, она умеет в джоин на диске?
источник

EP

Easycore Programming in Data Engineers
Dmitriy
github, hadoop-yarn-client/src/main/java/org/apache/hadoop/yarn/client/cli/TopCLI.java#L652-L653:
    columnInformationEnumMap.put(Columns.PROGRESS, new ColumnInformation(
      "%PROGR", "%6s", true, "Progress(percentage)", "p"));
спасибо!
источник

D

Dmitry in Data Engineers
Ali Abdullaev
а если не получится, она умеет в джоин на диске?
на сколько я знаю - нет. плюс на узлах могут быть и параллельные запросы, они тоже могут сожрать память и помешать выполнится запросу.
источник

AA

Ali Abdullaev in Data Engineers
Dmitry
на сколько я знаю - нет. плюс на узлах могут быть и параллельные запросы, они тоже могут сожрать память и помешать выполнится запросу.
спасибо, изучу этот вопрос
источник

AZ

Anton Zadorozhniy in Data Engineers
Dmitry
на сколько я знаю - нет. плюс на узлах могут быть и параллельные запросы, они тоже могут сожрать память и помешать выполнится запросу.
она умеет spill to disk, надо указать побольше быстрых scratch_dirs и все должно быть нормально
источник

E

El-Yaz in Data Engineers
Ребята, привет!
Пишу пет проект - стриминг данных с твиттера в кафку, дальше агрегация и в еластик и тд
На класс утилиты тесты написал. Нужно ли писать тесты на клиент твиттера, что он корректно отрабатывает и на кафка продюсера?
источник

AE

Alexey Evdokimov in Data Engineers
El-Yaz
Ребята, привет!
Пишу пет проект - стриминг данных с твиттера в кафку, дальше агрегация и в еластик и тд
На класс утилиты тесты написал. Нужно ли писать тесты на клиент твиттера, что он корректно отрабатывает и на кафка продюсера?
кто главный на проекте, тот и решает.
источник

АК

Анатолий Клюса... in Data Engineers
Dmitry
да, там еще явно много чего по оптимизации надо делать. там колончатый формат, с упаковкой, поток модифицирующих "транзакций" похоже требует постоянного переупаковки и записи партиции. плюс комуникация со своими репликами. много cpu жрет все это.
пока там даже бэкапа толком нет, год назад вместо бэкапа выкатили spark скриптик, который просто в csv копирует
Э... чего? Бэкап в csv?.. ))
Ну хоть бы в паркет уже, если спарк...
источник

АК

Анатолий Клюса... in Data Engineers
Anton Zadorozhniy
2ndquadrant еще есть, у них как раз мультимастер для ПГ
О, спасибо, тоже надо глянуть что это.
источник
2020 August 21

AK

Andrew Konstantinov in Data Engineers
Всем привет !кто-нибудь сталикивался с такой ошибкой
An error occurred while calling o271.showString.
: org.apache.spark.SparkException: Job aborted due to stage failure:
Aborting TaskSet 0.0 because task 0 (partition 0)
cannot run anywhere due to node and executor blacklist.
Most recent failure:
Lost task 0.1 in stage 0.0 (TID 1, z14-1779-node1.vesta.ru, executor 2): java.io.FileNotFoundException: File does not exist: hdfs://z14-1779-node1.vesta.ru:8020/data/data_hub/ilog/xxx/op_year=2020/op_month=7/op_day=17/part-00001-3a39ba60-4beb-4480-ae56-2bbd271efb2d.c000.snappy.orc
It is possible the underlying files have been updated. You can explicitly invalidate the cache in Spark by running 'REFRESH TABLE tableName' command in SQL or by recreating the Dataset/DataFrame involved.
.refresh table не помог, юзаем pyspark 2.4
источник