Телеграмм чат группы hadoopusers страница 2649

10 лет назад, когда мну писал файлохранилще для сбера, метаданные конечно же лежали в ха базке. а само файло в блочном хранилище в соседней стойке, потому как нужно оно было асинхронно и не так часто.

источник

16:13пожаловаться #5

AE

Alexey Evdokimov in Data Engineers

эт нормальная практика, хранить контент отдельно

источник

16:13пожаловаться #6

E

El-Yaz in Data Engineers

подскажите лайфхак плз как понять что пихать в анонимную функцию в кафка джава, если идея не всегда подсказывает..
пример, на стриме .groupByKye(), по cmd+p читаю, что нужно new Grouped, но с типами и параметрами идея что-то не всегда помогает, если через табуляцию. С анонимными функциями пока сложнее, я их сам схлопываю после, так как не везде еще выучил какие параметры для какого метода необходимы. очень надеюсь, что сформулировал вопрос адекватно)

источник

16:46пожаловаться #7

2020 August 20

EP

Easycore Programming in Data Engineers

Коллеги добрый день. Такой вопрос команда 'yarn top' выводит метрики по запущенным приложениям, одна из метрик называется %PROGR, пытался найти в доках, на SO и других ресурсах не нашёл. Интуитивно кажется что это утилизация CPU в процентах. Не подскажите ошибаюсь я или нет?

источник

12:40пожаловаться #8

АК

Анатолий Клюса... in Data Engineers

Здравствуйте!
Проектируем систему, где нужно, грубо говоря, хранить документы по id-шникам и их содержимое (скажем, бинарное).
Уже немного работали с клаудерой, там есть Hbase, вроде подходит как KV.
Но документы есть открытые и закрытые.
Так вот, по открытым нужно делать еще и быстрые выборки, витрины, отображать их по нажатию кнопки в клиентах, типа обработанные за день и все такое. Ну и открытые могут меняться (их состояние, содержимое, добавляться).
Раз уж у нас есть клаудера, что скажете о связке HBase+Kudu?
Почитал статью, вроде подходит.
Документы сваливаются в куду, меняются, делается аналитика, потом, по закрытию - пакетно в HBase.
P.S. Данных не слишком много... Ну, допустим, паругигов в день максимум, на вырост)

источник

15:39пожаловаться #9

АК

Анатолий Клюса... in Data Engineers

https://www.bigdataschool.ru/wiki/kudu

Курсы Big Data, Hadoop, Arenadata, Kafka и Spark

Kudu

Зачем нужен Apache Kudu: история разработки, архитектура и принципы работы, достоинства и недостатки, а также примеры использования в Big Data проектах

источник

15:40пожаловаться #10

T

T in Data Engineers

Анатолий Клюса

Здравствуйте!
Проектируем систему, где нужно, грубо говоря, хранить документы по id-шникам и их содержимое (скажем, бинарное).
Уже немного работали с клаудерой, там есть Hbase, вроде подходит как KV.
Но документы есть открытые и закрытые.
Так вот, по открытым нужно делать еще и быстрые выборки, витрины, отображать их по нажатию кнопки в клиентах, типа обработанные за день и все такое. Ну и открытые могут меняться (их состояние, содержимое, добавляться).
Раз уж у нас есть клаудера, что скажете о связке HBase+Kudu?
Почитал статью, вроде подходит.
Документы сваливаются в куду, меняются, делается аналитика, потом, по закрытию - пакетно в HBase.
P.S. Данных не слишком много... Ну, допустим, паругигов в день максимум, на вырост)

А сколько планируете хранить?

источник

15:42пожаловаться #11

T

T in Data Engineers

звучит как монга просто

источник

15:42пожаловаться #12

D

Dmitriy in Data Engineers

Easycore Programming

Коллеги добрый день. Такой вопрос команда 'yarn top' выводит метрики по запущенным приложениям, одна из метрик называется %PROGR, пытался найти в доках, на SO и других ресурсах не нашёл. Интуитивно кажется что это утилизация CPU в процентах. Не подскажите ошибаюсь я или нет?

github, hadoop-yarn-client/src/main/java/org/apache/hadoop/yarn/client/cli/TopCLI.java#L652-L653:
columnInformationEnumMap.put(Columns.PROGRESS, new ColumnInformation(
"%PROGR", "%6s", true, "Progress(percentage)", "p"));

источник

15:42пожаловаться #13

АК

Анатолий Клюса... in Data Engineers

T

звучит как монга просто

))) Шо, пару гигов в день можно спокойно валить в монгу и делать выборки за день-два?
А если железо не сильно производительное?
Ну, хотелось бы на вырост... Да и монга для аналитики и быстрых витрин вроде не оч...
Монга, как я понял, хранит что-то типа джейсонов... или она может и бинарники? Я с монгой не имел дела.

источник

15:53пожаловаться #14

A

Alex in Data Engineers

Хранит bson, раньше в mmap файлах, сейчас ввели новый тип хранилища, там все получше

Из известных проблем:
1. Запрос на выборку в пределах шарда работает в 1 поток
2. Нужно быть внимательным с индексами, чтобы строковое поле большое не попало, иначе упадёт (все поля из индекса конкатенируются в одну большую строку и в btree складываются, вроде дефолт лимит 1024 символа)
3. Пару раз сталкивался когда aggregation фреймворк работал не само адекватно и не видел индексы

Есть ещё вопросы с репликацией, раньше после того как реплика вытянул все данные, то уходила на перестраивание индексов на 1 ядре, всех последовательно, что могло длиться часами и оплог с мастера уходил дальше лимита, возможно уже пофиксили

Вообще в плане администрирования мне совсем не понравилась, но для мелких задач когда парни сразу и фронт и бек на node.js каком набрасывают сойдёт

источник

16:09пожаловаться #15

AS

Andrey Smirnov in Data Engineers

Анатолий Клюса

Здравствуйте!
Проектируем систему, где нужно, грубо говоря, хранить документы по id-шникам и их содержимое (скажем, бинарное).
Уже немного работали с клаудерой, там есть Hbase, вроде подходит как KV.
Но документы есть открытые и закрытые.
Так вот, по открытым нужно делать еще и быстрые выборки, витрины, отображать их по нажатию кнопки в клиентах, типа обработанные за день и все такое. Ну и открытые могут меняться (их состояние, содержимое, добавляться).
Раз уж у нас есть клаудера, что скажете о связке HBase+Kudu?
Почитал статью, вроде подходит.
Документы сваливаются в куду, меняются, делается аналитика, потом, по закрытию - пакетно в HBase.
P.S. Данных не слишком много... Ну, допустим, паругигов в день максимум, на вырост)

звучит как обычная реляционка

источник

16:10пожаловаться #16

АК

Анатолий Клюса... in Data Engineers

Andrey Smirnov

звучит как обычная реляционка

Нужна хорошая масштабируемость.
Или постгрес/гринплюм?..

источник

16:11пожаловаться #17

T

T in Data Engineers

Анатолий Клюса

))) Шо, пару гигов в день можно спокойно валить в монгу и делать выборки за день-два?
А если железо не сильно производительное?
Ну, хотелось бы на вырост... Да и монга для аналитики и быстрых витрин вроде не оч...
Монга, как я понял, хранит что-то типа джейсонов... или она может и бинарники? Я с монгой не имел дела.

я давно ее не трогал так что лучше доки почитать или боле знающих людей спросить но пару гигов в день это же совсме мало

источник

16:13пожаловаться #18

АК

Анатолий Клюса... in Data Engineers

Alex

Хранит bson, раньше в mmap файлах, сейчас ввели новый тип хранилища, там все получше

Из известных проблем:
1. Запрос на выборку в пределах шарда работает в 1 поток
2. Нужно быть внимательным с индексами, чтобы строковое поле большое не попало, иначе упадёт (все поля из индекса конкатенируются в одну большую строку и в btree складываются, вроде дефолт лимит 1024 символа)
3. Пару раз сталкивался когда aggregation фреймворк работал не само адекватно и не видел индексы

Есть ещё вопросы с репликацией, раньше после того как реплика вытянул все данные, то уходила на перестраивание индексов на 1 ядре, всех последовательно, что могло длиться часами и оплог с мастера уходил дальше лимита, возможно уже пофиксили

Вообще в плане администрирования мне совсем не понравилась, но для мелких задач когда парни сразу и фронт и бек на node.js каком набрасывают сойдёт

Та у нас задача вроде не мелкая, на вырост)
Ну и хочется не на коленке.
Ну и... уже клаудеру начинаем использовать, правда, для других целей, для архивов, просто там это все дело уже есть как компоненты: hbase, kudu. сиквел-движки...

источник

16:13пожаловаться #19

T

T in Data Engineers

пару гигов вдень это 6 гигов за 3 дня можно даже грепом с awk все отчеты построить

источник

16:14пожаловаться #20