Size: a a a

2020 August 19

АЖ

Андрей Жуков... in Data Engineers
А файлики на с3 уже,  и тогда только индекс и нужен
источник

AE

Alexey Evdokimov in Data Engineers
ну речь-то про терабайты в ае %) терабайты чего в таком случае?
источник

АЖ

Андрей Жуков... in Data Engineers
Alexey Evdokimov
ну речь-то про терабайты в ае %) терабайты чего в таком случае?
Ну не,  я мысль продолжил
источник

АЖ

Андрей Жуков... in Data Engineers
Тогда и тб не будет как раз
источник

AE

Alexey Evdokimov in Data Engineers
10 лет назад, когда мну писал файлохранилще для сбера, метаданные конечно же лежали в ха базке. а само файло в блочном хранилище в соседней стойке, потому как нужно оно было асинхронно и не так часто.
источник

AE

Alexey Evdokimov in Data Engineers
эт нормальная практика, хранить контент отдельно
источник

E

El-Yaz in Data Engineers
подскажите лайфхак плз как понять что пихать в анонимную функцию в кафка джава, если идея не всегда подсказывает..
пример, на стриме .groupByKye(), по cmd+p читаю, что нужно new Grouped, но с типами и параметрами идея что-то не всегда помогает, если через табуляцию. С анонимными функциями пока сложнее, я их сам схлопываю после, так как не везде еще выучил какие параметры для какого метода необходимы. очень надеюсь, что сформулировал вопрос адекватно)
источник
2020 August 20

EP

Easycore Programming in Data Engineers
Коллеги добрый день. Такой вопрос команда 'yarn top' выводит метрики по запущенным приложениям, одна из метрик называется %PROGR, пытался найти в доках, на SO и других ресурсах не нашёл. Интуитивно кажется что это утилизация CPU в процентах. Не подскажите ошибаюсь я или нет?
источник

АК

Анатолий Клюса... in Data Engineers
Здравствуйте!
Проектируем систему, где нужно, грубо говоря, хранить документы по id-шникам и их содержимое (скажем, бинарное).
Уже немного работали с клаудерой, там есть Hbase, вроде подходит как KV.
Но документы есть открытые и закрытые.
Так вот, по открытым нужно делать еще и быстрые выборки, витрины, отображать их по нажатию кнопки в клиентах, типа обработанные за день и все такое. Ну и открытые могут меняться (их состояние, содержимое, добавляться).
Раз уж у нас есть клаудера, что скажете о связке HBase+Kudu?
Почитал статью, вроде подходит.
Документы сваливаются в куду, меняются, делается аналитика, потом, по закрытию - пакетно в HBase.
P.S. Данных не слишком много... Ну, допустим, паругигов в день максимум, на вырост)
источник

АК

Анатолий Клюса... in Data Engineers
источник

T

T in Data Engineers
Анатолий Клюса
Здравствуйте!
Проектируем систему, где нужно, грубо говоря, хранить документы по id-шникам и их содержимое (скажем, бинарное).
Уже немного работали с клаудерой, там есть Hbase, вроде подходит как KV.
Но документы есть открытые и закрытые.
Так вот, по открытым нужно делать еще и быстрые выборки, витрины, отображать их по нажатию кнопки в клиентах, типа обработанные за день и все такое. Ну и открытые могут меняться (их состояние, содержимое, добавляться).
Раз уж у нас есть клаудера, что скажете о связке HBase+Kudu?
Почитал статью, вроде подходит.
Документы сваливаются в куду, меняются, делается аналитика, потом, по закрытию - пакетно в HBase.
P.S. Данных не слишком много... Ну, допустим, паругигов в день максимум, на вырост)
А сколько планируете хранить?
источник

T

T in Data Engineers
звучит как монга просто
источник

D

Dmitriy in Data Engineers
Easycore Programming
Коллеги добрый день. Такой вопрос команда 'yarn top' выводит метрики по запущенным приложениям, одна из метрик называется %PROGR, пытался найти в доках, на SO и других ресурсах не нашёл. Интуитивно кажется что это утилизация CPU в процентах. Не подскажите ошибаюсь я или нет?
github, hadoop-yarn-client/src/main/java/org/apache/hadoop/yarn/client/cli/TopCLI.java#L652-L653:
    columnInformationEnumMap.put(Columns.PROGRESS, new ColumnInformation(
      "%PROGR", "%6s", true, "Progress(percentage)", "p"));
источник

АК

Анатолий Клюса... in Data Engineers
T
звучит как монга просто
))) Шо, пару гигов в день можно спокойно валить в монгу и делать выборки за день-два?
А если железо не сильно производительное?
Ну, хотелось бы на вырост... Да и монга для аналитики и быстрых витрин вроде не оч...
Монга, как я понял, хранит что-то типа джейсонов... или она может и бинарники? Я с монгой не имел дела.
источник

A

Alex in Data Engineers
Хранит bson, раньше в mmap файлах, сейчас ввели новый тип хранилища, там все получше

Из известных проблем:
1. Запрос на выборку в пределах шарда работает в 1 поток
2. Нужно быть внимательным с индексами, чтобы строковое поле большое не попало, иначе упадёт (все поля из индекса конкатенируются в одну большую строку и в btree складываются, вроде дефолт лимит 1024 символа)
3. Пару раз сталкивался когда aggregation фреймворк работал не само адекватно и не видел индексы

Есть ещё вопросы с репликацией, раньше после того как реплика вытянул все данные, то уходила на перестраивание индексов на 1 ядре, всех последовательно, что могло длиться часами и оплог с мастера уходил дальше лимита, возможно уже пофиксили

Вообще в плане администрирования мне совсем не понравилась, но для мелких задач когда парни сразу и фронт и бек на node.js каком набрасывают сойдёт
источник

AS

Andrey Smirnov in Data Engineers
Анатолий Клюса
Здравствуйте!
Проектируем систему, где нужно, грубо говоря, хранить документы по id-шникам и их содержимое (скажем, бинарное).
Уже немного работали с клаудерой, там есть Hbase, вроде подходит как KV.
Но документы есть открытые и закрытые.
Так вот, по открытым нужно делать еще и быстрые выборки, витрины, отображать их по нажатию кнопки в клиентах, типа обработанные за день и все такое. Ну и открытые могут меняться (их состояние, содержимое, добавляться).
Раз уж у нас есть клаудера, что скажете о связке HBase+Kudu?
Почитал статью, вроде подходит.
Документы сваливаются в куду, меняются, делается аналитика, потом, по закрытию - пакетно в HBase.
P.S. Данных не слишком много... Ну, допустим, паругигов в день максимум, на вырост)
звучит как обычная реляционка
источник

АК

Анатолий Клюса... in Data Engineers
Andrey Smirnov
звучит как обычная реляционка
Нужна хорошая масштабируемость.
Или постгрес/гринплюм?..
источник

T

T in Data Engineers
Анатолий Клюса
))) Шо, пару гигов в день можно спокойно валить в монгу и делать выборки за день-два?
А если железо не сильно производительное?
Ну, хотелось бы на вырост... Да и монга для аналитики и быстрых витрин вроде не оч...
Монга, как я понял, хранит что-то типа джейсонов... или она может и бинарники? Я с монгой не имел дела.
я давно ее не трогал так что лучше доки почитать или боле знающих людей спросить но пару гигов в день это же совсме мало
источник

АК

Анатолий Клюса... in Data Engineers
Alex
Хранит bson, раньше в mmap файлах, сейчас ввели новый тип хранилища, там все получше

Из известных проблем:
1. Запрос на выборку в пределах шарда работает в 1 поток
2. Нужно быть внимательным с индексами, чтобы строковое поле большое не попало, иначе упадёт (все поля из индекса конкатенируются в одну большую строку и в btree складываются, вроде дефолт лимит 1024 символа)
3. Пару раз сталкивался когда aggregation фреймворк работал не само адекватно и не видел индексы

Есть ещё вопросы с репликацией, раньше после того как реплика вытянул все данные, то уходила на перестраивание индексов на 1 ядре, всех последовательно, что могло длиться часами и оплог с мастера уходил дальше лимита, возможно уже пофиксили

Вообще в плане администрирования мне совсем не понравилась, но для мелких задач когда парни сразу и фронт и бек на node.js каком набрасывают сойдёт
Та у нас задача вроде не мелкая, на вырост)
Ну и хочется не на коленке.
Ну и... уже клаудеру начинаем использовать, правда, для других целей, для архивов, просто там это все дело уже есть как компоненты: hbase, kudu. сиквел-движки...
источник

T

T in Data Engineers
пару гигов вдень это 6 гигов за 3 дня можно даже грепом с awk все отчеты построить
источник