Size: a a a

2020 September 30

АЖ

Андрей Жуков... in Data Engineers
Vladimir K.
Всем привет) Настроил CDC из PostgreSQL в Kafka с помощью debezium для одной таблицы. Решил посмотреть занимаемые объёмы и немного опешил. В пг таблица занимает 43 МБ, а в кафке топик 2.9 ГБ. Я, конечно, понимал, что в джсон хранится куча дополнительной инфы, но такая разница немного пугает...
Что можно сделать, чтобы её уменьшить? Может настроил что-то не так? По количеству записей всё совпадает
А таблица с транзакциями?
источник

АЖ

Андрей Жуков... in Data Engineers
Или это тупо снепшот?
источник

VK

Vladimir K. in Data Engineers
Андрей Жуков
А таблица с транзакциями?
Просто тестовая табличка, сейчас в неё ничего не пишется. Только снепшот пока
источник

AS

Alexander Salkov in Data Engineers
Vladimir K.
Всем привет) Настроил CDC из PostgreSQL в Kafka с помощью debezium для одной таблицы. Решил посмотреть занимаемые объёмы и немного опешил. В пг таблица занимает 43 МБ, а в кафке топик 2.9 ГБ. Я, конечно, понимал, что в джсон хранится куча дополнительной инфы, но такая разница немного пугает...
Что можно сделать, чтобы её уменьшить? Может настроил что-то не так? По количеству записей всё совпадает
Можно прикрутить сжатие при сериализации сообщения в кафку. Но думается, что проблема не в этом.
источник

VK

Vladimir K. in Data Engineers
Alexander Salkov
Можно прикрутить сжатие при сериализации сообщения в кафку. Но думается, что проблема не в этом.
А куда стоит копать?
источник

AS

Alexander Salkov in Data Engineers
Vladimir K.
А куда стоит копать?
В доке в настройки коннектора к постгрее. Может вам не нужны будут такие большие json и вы под себя конкретные атрибуты только оставите
источник

ДН

Дмитрий Негреев... in Data Engineers
Там вроде можно в сообщении указывать или неуказывать структуру таблицы.
Теоретически это может вес прибавлять, но врятли настолько.
источник

VK

Vladimir K. in Data Engineers
Alexander Salkov
В доке в настройки коннектора к постгрее. Может вам не нужны будут такие большие json и вы под себя конкретные атрибуты только оставите
К доке, кстати, тоже были вопросы. Когда настраивал, атрибуты, указанные в ней к коннектору postgresql не подходили (https://debezium.io/documentation/reference/connectors/postgresql.html#postgresql-connector-properties) . Например, он игнорировал параметры типа table.include.list и schema.include.list

Зато параметры от коннектора mysql (schema.whitelist и table.whitelist) работают. И то ли в доке косяк, то ли что
источник

VK

Vladimir K. in Data Engineers
Дмитрий Негреев
Там вроде можно в сообщении указывать или неуказывать структуру таблицы.
Теоретически это может вес прибавлять, но врятли настолько.
Вот я тоже думал в эту сторону, ибо эта информация мне не нужна. Буду смотреть, можно ли оттуда всякую мета инфу выкинуть
источник

AS

Alexander Salkov in Data Engineers
Vladimir K.
К доке, кстати, тоже были вопросы. Когда настраивал, атрибуты, указанные в ней к коннектору postgresql не подходили (https://debezium.io/documentation/reference/connectors/postgresql.html#postgresql-connector-properties) . Например, он игнорировал параметры типа table.include.list и schema.include.list

Зато параметры от коннектора mysql (schema.whitelist и table.whitelist) работают. И то ли в доке косяк, то ли что
Column.blacklist и column.whitelist в доке к постгрее. Их посмотрите
источник

VK

Vladimir K. in Data Engineers
Alexander Salkov
Column.blacklist и column.whitelist в доке к постгрее. Их посмотрите
Кстати, в доке этот параметр называется column.include​.list. Но что-то мне подсказывает, что он не будет работать и нужно использовать column.whitelist))
источник

AS

Alexander Salkov in Data Engineers
Vladimir K.
Кстати, в доке этот параметр называется column.include​.list. Но что-то мне подсказывает, что он не будет работать и нужно использовать column.whitelist))
А по поводу сжатия, посмотрите в кафе compression.type, но вряд ли это вас спасёт
источник

VK

Vladimir K. in Data Engineers
Спасибо. Отпишусь по результатам)
источник

E

Evgeny in Data Engineers
Всем привет! Подскажите, как у кого работает apache knox: Ставите вы перед ним балансер? Где терминируется ssl?
источник

RY

Ruslan515 Y in Data Engineers
Всем добрый день. Подскажите пж хорошую книгу по SQL , с примерами и подробным разбором
источник

AZ

Anton Zadorozhniy in Data Engineers
Evgeny
Всем привет! Подскажите, как у кого работает apache knox: Ставите вы перед ним балансер? Где терминируется ssl?
да, можно терминировать на балансере, можно ssl proxy делать (если вы очень секурные ребята), пример тут http://knox.apache.org/books/knox-0-6-0/user-guide.html#High+Availability
источник

E

Evgeny in Data Engineers
Anton Zadorozhniy
да, можно терминировать на балансере, можно ssl proxy делать (если вы очень секурные ребята), пример тут http://knox.apache.org/books/knox-0-6-0/user-guide.html#High+Availability
нене, я доку читал, мне интересны реальные инсталляции
источник

AZ

Anton Zadorozhniy in Data Engineers
Evgeny
нене, я доку читал, мне интересны реальные инсталляции
у меня есть клиент с F5 каким-то который по такой схеме работает
источник

AZ

Anton Zadorozhniy in Data Engineers
у них как раз ссл прокси, так как этот балансер стоит за рамками кластера
источник

VK

Vladimir K. in Data Engineers
Vladimir K.
Спасибо. Отпишусь по результатам)
Нашёл в доке, буду пытаться переделать под Avro
источник