Телеграмм чат группы hadoopusers страница 2639

коллеги, кто-то пользуется механизмом foreachBatch в Spark Structured Streaming?
как обрабатываете атомарность множественных sink'ов?
(если первый синк внутри foreachBatch отработал, а второй упал - как подчистить результаты первого синка?)

источник

18:14пожаловаться #5

nn

nasdaq nice in Data Engineers

анонс на мероприятие :)
https://meetup.tinkoff.ru/upcoming/tinkoff-nifi-meetup-2/
Приглашаем разработчиков ETL, архитекторов и всех заинтересованных в работе с NiFi на наш второй NiFi meetup
Рассказываем чем он нас порадует:
20 августа 19:00 мск второй митап, посвященный работе с NiFi. В этот раз обсудим две темы:
Андрей Тренин из Сбербанка расскажет, как упаковать Apache NiFi для продажи внутреннему клиенту и предложит варианты эффективного использования инструмента.
Илья Ковалев из Тинькофф поделится возможностями, которые предоставляет NiFi для расширения функциональности, и особенностям разработки этой функциональности.

meetup.tinkoff.ru

Митапы

Создаем встречи для неравнодушных к миру IT. Объединяем профессионалов, делимся знаниями и храним воспоминания.

источник

21:35пожаловаться #6

АЖ

Андрей Жуков... in Data Engineers

nasdaq nice

анонс на мероприятие :)
https://meetup.tinkoff.ru/upcoming/tinkoff-nifi-meetup-2/
Приглашаем разработчиков ETL, архитекторов и всех заинтересованных в работе с NiFi на наш второй NiFi meetup
Рассказываем чем он нас порадует:
20 августа 19:00 мск второй митап, посвященный работе с NiFi. В этот раз обсудим две темы:
Андрей Тренин из Сбербанка расскажет, как упаковать Apache NiFi для продажи внутреннему клиенту и предложит варианты эффективного использования инструмента.
Илья Ковалев из Тинькофф поделится возможностями, которые предоставляет NiFi для расширения функциональности, и особенностям разработки этой функциональности.

meetup.tinkoff.ru

Митапы

Создаем встречи для неравнодушных к миру IT. Объединяем профессионалов, делимся знаниями и храним воспоминания.

а шо так рано

источник

21:37пожаловаться #7

АЖ

Андрей Жуков... in Data Engineers

надо было послезавтра

источник

21:37пожаловаться #8

GP

Grigory Pomadchin in Data Engineers

‼️Самое важное в Data Engineers Group‼️

🔹 20 августа 19:00 мск второй митап, посвященный работе с NiFi.

https://meetup.tinkoff.ru/upcoming/tinkoff-nifi-meetup-2/

В этот раз обсудим две темы:
Андрей Тренин из Сбербанка расскажет, как упаковать Apache NiFi для продажи внутреннему клиенту и предложит варианты эффективного использования инструмента.
Илья Ковалев из Тинькофф поделится возможностями, которые предоставляет NiFi для расширения функциональности, и особенностям разработки этой функциональности.
По вопросам пинать @true_teamlead

🔹20 августа в 20:00 (мск) приглашаем на бесплатный вебинар “Качество данных в DWH - консистентность хранилища данных”.

Запишитесь https://otus.pw/L0bta/

🔹 Spark 3 ⚡️
https://spark.apache.org/releases/spark-release-3-0-0.html

🔹 Spark Kotlin API

Привет всем!
JetBrains рады представить Spark API для Kotlin, над которым мы долгое время работали: https://github.com/JetBrains/kotlin-spark-api.

По вопросам в чате можно пинать @asm0dey

meetup.tinkoff.ru

Митапы

Создаем встречи для неравнодушных к миру IT. Объединяем профессионалов, делимся знаниями и храним воспоминания.

источник

21:37пожаловаться #9

2020 August 19

AP

Abi Palagashvili in Data Engineers

ребят, какие БД посоветуете?
Мне надо подобрать что-то для хранения горячих данных
Сейчас используем aerospike, хотим от неё отказаться, ибо поддерживать её почти некому
Главное - чтобы база была высокодоступной и масштабируемой.Ретеншн в 6 месяцев будет где-то.Паттерн использования - чтение и запись по ключу, не более

источник

01:14пожаловаться #10

AP

Abi Palagashvili in Data Engineers

посматриваю в сторону redis

источник

01:15пожаловаться #11

GP

Grigory Pomadchin in Data Engineers

Abi Palagashvili

ребят, какие БД посоветуете?
Мне надо подобрать что-то для хранения горячих данных
Сейчас используем aerospike, хотим от неё отказаться, ибо поддерживать её почти некому
Главное - чтобы база была высокодоступной и масштабируемой.Ретеншн в 6 месяцев будет где-то.Паттерн использования - чтение и запись по ключу, не более

ты побольше об объемах текущих планирумеых скажи, типах запросов и тп

источник

01:15пожаловаться #12

AP

Abi Palagashvili in Data Engineers

Grigory Pomadchin

ты побольше об объемах текущих планирумеых скажи, типах запросов и тп

сейчас в текущую бд в реальном времени льются данные, порядка 10к рпс
у нас кластер из 9 нод (3 мастера + по 2 реплики)

источник

01:17пожаловаться #13

AP

Abi Palagashvili in Data Engineers

типы запросов - вроде только выборки по ключам

источник

01:17пожаловаться #14

AP

Abi Palagashvili in Data Engineers

агрегаций никаких не делаем, разве что full scan можем прогнать, чтобы стату какую-то подсчитать

источник

01:19пожаловаться #15

AP

Abi Palagashvili in Data Engineers

по ключам храним протобуфы

источник

01:20пожаловаться #16

AP

Abi Palagashvili in Data Engineers

хотелось бы, чтобы был механизм сохранения консистентности (на основе версионирования, например)

источник

01:21пожаловаться #17

AP

Abi Palagashvili in Data Engineers

ну и возможность написания своих собственных расширений была бы хорошим дополнением
в aerospike можно использовать свои модули на lua, например

источник

01:22пожаловаться #18

СХ

Старый Хрыч... in Data Engineers

Abi Palagashvili

ребят, какие БД посоветуете?
Мне надо подобрать что-то для хранения горячих данных
Сейчас используем aerospike, хотим от неё отказаться, ибо поддерживать её почти некому
Главное - чтобы база была высокодоступной и масштабируемой.Ретеншн в 6 месяцев будет где-то.Паттерн использования - чтение и запись по ключу, не более

scylla

источник

07:26пожаловаться #19

СХ

Старый Хрыч... in Data Engineers

Abi Palagashvili

посматриваю в сторону redis

чё? ты наркоман? нафиг нафиг - забудь о его существовании

источник

07:26пожаловаться #20