Телеграмм чат группы proKafka страница 1125

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

pro.kafka

1534 membersпожаловаться на группу

2019 December 04

PA

Pavel Agarkov in pro.kafka

Привет, подскажите - максимальный размер сообщения считается уже с учетом заголовков сообщения или они отдельно считаются?
если отдельно, то какой у них максимальный размер?

источник

16:16пожаловаться #1

RA

Roman Ananyev in pro.kafka

Ребята, привет!
Нужен ваш совет, а то у нас сложилась дебатная ситуация с подходом, как один из кластеров Кафка использовать =)
Дело в том, что один из наших кластеров используется для интеграции всякого рода данных в GreenPlum (в основном из RDBMS туда льется), на митапе, Осенняя Кафка который, мы рассказывали про него.

источник

19:54пожаловаться #2

RA

Roman Ananyev in pro.kafka

Там история такая - есть у нас дофига систем, работающих на БД Oracle, MSSQL, PostgreSQL, Mongo и так далее, вот из них все затекает в Кафку, через коннекторы JDBC и Debezium, как в AVRO, так и в JSON. А затем ребята дата инженеры через Ni-Fi и прочие ETL тулы забирают эти данные и пишут в GreenPlum. Но он очень нестабильно работает по ряду причин и поэтому они хотят, чтоб если он будет не доступен, хранить в Кафка, вот эти вот все данные из БД пришедшие, в течении 2 недель. То есть retention такой у топиков делать - типа за это время верняк GreenPlum успеют оживить =)

источник

19:54пожаловаться #3

RA

Roman Ananyev in pro.kafka

И как раз под весь этот интеграционный процесс, данный кластер и отведен.
А объем суммарно данных по нашим подсчетам со всех БД мной перечисленных, за 2 недели составляет около 500 ТБ. А текущий кластер таким объемом не располагает, поэтому требуется закупка необходимого оборудования. Которое нужно вот для решения текущей такой проблемы, которая через некоторое время может и уйдет – ну не будет у GreenPlum простоя в 2 недели.

источник

19:54пожаловаться #4

RA

Roman Ananyev in pro.kafka

Поэтому и возник вопрос - насколько вообще релевантно Кафку использовать для хранилки вот так в лоб или есть какие-то более элегантные и верные сценарии, как такой вопрос о хранении более 500 ТБ данных, можно решить?
Какие вообще лучшие практики в целом, если возникает подобная задача?

источник

19:54пожаловаться #5

RA

Roman Ananyev in pro.kafka

Может это анти-паттерн в целом для Кафки и есть куда более грамотное решение.
И если кто с такими большими кластерами работал, то подскажите плиз, на каком оборудовании такое делали или может вообще в облаке?

источник

19:54пожаловаться #6

RA

Roman Ananyev in pro.kafka

Заранее спасибо!

источник

19:54пожаловаться #7

GG

George Gaál in pro.kafka

Поэтому и возник вопрос - насколько вообще релевантно Кафку использовать для хранилки вот так в лоб или есть какие-то более элегантные и верные сценарии, как такой вопрос о хранении более 500 ТБ данных, можно решить?
Какие вообще лучшие практики в целом, если возникает подобная задача?

нормально использовать кафку как хранилку

источник

20:05пожаловаться #8

GG

George Gaál in pro.kafka

хоть вообще "вечный лог"

источник

20:05пожаловаться #9

GG

George Gaál in pro.kafka

но я бы подумал о чем. Кафка эффективна, пока у тебя хвост данных, которые записали продюсеры - в оперативной памяти. Тогда кафка может быстро отдать данные консумерам, практически без задержки. Как только ты пытаешься использовать кафку как базу данных с "долгим" логом - у тебя возникают дополнительные накладные расходы. Во-первых, у тебя получается не последовательная запись на диск, а рандомное чтение с диска. Во-вторых, у тебя начнется история, что консумеры начнут срать в зукипер своими офсетами (так ведь), а нафиг это надо?

источник

20:06пожаловаться #10

GG

George Gaál in pro.kafka

сразу говорю - я диванный эксперт, и это мои измышлизмы

источник

20:07пожаловаться #11

DI

Dmitry Ibragimov in pro.kafka

https://www.confluent.io/blog/okay-store-data-apache-kafka/

It's Okay To Store Data In Kafka

A question people often ask about Kafka is whether it is okay to use it for longer term storage. The short answer is "yes".

источник

20:07пожаловаться #12

VG

Vik Gamov in pro.kafka

Dmitry Ibragimov

https://www.confluent.io/blog/okay-store-data-apache-kafka/

It's Okay To Store Data In Kafka

A question people often ask about Kafka is whether it is okay to use it for longer term storage. The short answer is "yes".

This 👌

источник

20:08пожаловаться #13

A

Artjom Kalita in pro.kafka

Но зачем ?

источник

20:09пожаловаться #14

DI

Dmitry Ibragimov in pro.kafka

Но зачем ?

Например, если льется CDC, можно хранить топики с инитами и новых потребителей подключать к ним и не перепроливать заново все данные из источников

источник

20:11пожаловаться #15

IK

Ilia Khaustov in pro.kafka

Скучный вопрос. У конфлюент есть кафка коннектор для JDBC, его Sink используется, чтобы писать в Postgres апдейты, которые шлёт Debezium из MySQL. Пишутся с использованием transform Unwrap, то есть фактически реплицируют таблицы. Однако, выяснилось что MySQL может хранить нулевые байты в строках (0x00), а постгрес на них ругается. Вопрос в том, можно ли как-то конфигурацией коннектора вычищать эти байты из строк или это слишком кастомно и надо реализовывать самостоятельно?

источник

20:14пожаловаться #16

VG

Vik Gamov in pro.kafka

Скучный вопрос. У конфлюент есть кафка коннектор для JDBC, его Sink используется, чтобы писать в Postgres апдейты, которые шлёт Debezium из MySQL. Пишутся с использованием transform Unwrap, то есть фактически реплицируют таблицы. Однако, выяснилось что MySQL может хранить нулевые байты в строках (0x00), а постгрес на них ругается. Вопрос в том, можно ли как-то конфигурацией коннектора вычищать эти байты из строк или это слишком кастомно и надо реализовывать самостоятельно?

написать свой transformation ?

источник

20:34пожаловаться #17

IK

Ilia Khaustov in pro.kafka

написать свой transformation ?

Хотелось бы обойтись без написания Java кода - некому поддерживать

источник

20:35пожаловаться #18

IK

Ilia Khaustov in pro.kafka

Но судя по всему придётся так делать, да

источник

20:36пожаловаться #19

RA

Roman Ananyev in pro.kafka

Dmitry Ibragimov

Например, если льется CDC, можно хранить топики с инитами и новых потребителей подключать к ним и не перепроливать заново все данные из источников

Это то да =) Вопрос в том скорее, насколько это лучше, чем хранить те же иниты в S3 или хоть Ёлке, периодически их обновляя там - если вообще лучше.
А оперативную инфу уже гнать через Кафку.

источник

20:50пожаловаться #20