Телеграмм чат группы pro

но считайте что для каждого блока который надо дедупить надо килобайт памяти.

18:24пожаловаться #1

PН

Evgeniy Naumov

про эту же тему в соседнем чате =)

Дедупликация файлов - это не то что мне нужно. Меня интересует дедупликация блоков данных. Условно, что бы 2 одинаковых png картинки, одна из которых имеет битый пиксель, они занимали место как 1 картинка и уточнение для второй картинки, с данными о изменённом пикселе

18:24пожаловаться #2

AS

Prikolist Начрэл

Дедупликация файлов - это не то что мне нужно. Меня интересует дедупликация блоков данных. Условно, что бы 2 одинаковых png картинки, одна из которых имеет битый пиксель, они занимали место как 1 картинка и уточнение для второй картинки, с данными о изменённом пикселе

таких алгоритмов на рынке нет. это фантазия

18:24пожаловаться #3

AS

даже если бы они были они требовали бы ну просто бездну памяти.

18:25пожаловаться #4

PН

Aleksey Shirokikh

даже если бы они были они требовали бы ну просто бездну памяти.

Почему?

18:25пожаловаться #5

AS

потому что потербовали бы таблицу блоков, таблицу патчей

18:26пожаловаться #6

AS

и поиск по этому был бы..... ну прямо скажем адовый.

18:26пожаловаться #7

PН

Aleksey Shirokikh

и поиск по этому был бы..... ну прямо скажем адовый.

Почему?

18:26пожаловаться #8

EN

Evgeniy Naumov in pro.bash

Prikolist Начрэл

Дедупликация файлов - это не то что мне нужно. Меня интересует дедупликация блоков данных. Условно, что бы 2 одинаковых png картинки, одна из которых имеет битый пиксель, они занимали место как 1 картинка и уточнение для второй картинки, с данными о изменённом пикселе

сейчас имхо максимум на уровне блочных устройство можно. ну может у вендоров железных есть решения специализированные. конечно за отдельные деньги

18:26пожаловаться #9

AS

ну и в 2020 году диски стоят на много меньше чем стоит проц который нужен был бы для применения таблицы патчей и памяти необходимой для храннеия обоих структур

18:27пожаловаться #10

AS

впрочем я вполне допускаю спеицализированное решение которое сделает вендор за какую нить сумму денег.

18:28пожаловаться #11

AS

но там решение было бы от 9 нулей

18:29пожаловаться #12

EN

Evgeniy Naumov in pro.bash

я помню про хп семинар какой-то. стор-уанс типа того что-то. вроде софт, но можно и в железе. точнее наоборот.

18:30пожаловаться #13

AS

Evgeniy Naumov

я помню про хп семинар какой-то. стор-уанс типа того что-то. вроде софт, но можно и в железе. точнее наоборот.

там как раз блочное с размером блока от мега

18:30пожаловаться #14

EN

Evgeniy Naumov in pro.bash

ну это для прикидки что к чему на этом поле

18:30пожаловаться #15

AS

Prikolist Начрэл

Почему?

потому что на операцию записи вам бы потребовалось
1. найти блок в таблице блоков
2. сформировать патч
3. сохранить патч в памяти или на диске в таблице метаданных
4. потенциально потебовался gabarge collector который бы сливал распухшие дифы. и его реализация была бы не тривиальной ибо запись одного файла могла потенциально перестроить половину файловой системы. в результате каскада мержей
запрос на чтение бы потребовал
1. постоянного random read ибо данные в результате дедпубликации лежали бы в разных областях диска
2. примение всех патчей которые нужны для чтения файла

18:40пожаловаться #16

AS

тоесть в этом случае мы бы купили капасити диска за памяти и проц и iops.

18:40пожаловаться #17

AS

наверное это одно из самых не выгодных приобретений

18:41пожаловаться #18

AS

спасибо за милую умозрительную конструкцию

18:41пожаловаться #19

PН

Aleksey Shirokikh

потому что на операцию записи вам бы потребовалось
1. найти блок в таблице блоков
2. сформировать патч
3. сохранить патч в памяти или на диске в таблице метаданных
4. потенциально потебовался gabarge collector который бы сливал распухшие дифы. и его реализация была бы не тривиальной ибо запись одного файла могла потенциально перестроить половину файловой системы. в результате каскада мержей
запрос на чтение бы потребовал
1. постоянного random read ибо данные в результате дедпубликации лежали бы в разных областях диска
2. примение всех патчей которые нужны для чтения файла

Тут вопрос в архитектуре. Например, можно при записи файла просто вычислять перцептивный хэш и индексировать его.

Тогда запись выглядела бы так:
- Вычислить хэш файла
- Поискать в списке индексов самый близкий хэш
- Если найден достаточно близкий, посчитать разницу
- Если целесобразно - записать на диск только патч