Телеграмм чат группы pro

Структуру патчей можно сделать плоской или ограничить максимальную глубину патчей

18:48пожаловаться #1

AS

Тут вопрос в архитектуре. Например, можно при записи файла просто вычислять перцептивный хэш и индексировать его.

Тогда запись выглядела бы так:
- Вычислить хэш файла
- Поискать в списке индексов самый близкий хэш
- Если найден достаточно близкий, посчитать разницу
- Если целесобразно - записать на диск только патч

а если патчей накопилось уже больше размера блока ?

18:48пожаловаться #2

AS

тогда привет gc

18:48пожаловаться #3

PН

Aleksey Shirokikh

а если патчей накопилось уже больше размера блока ?

Это всё эвристика и легко решается

18:48пожаловаться #4

AS

Тут вопрос в архитектуре. Например, можно при записи файла просто вычислять перцептивный хэш и индексировать его.

Тогда запись выглядела бы так:
- Вычислить хэш файла
- Поискать в списке индексов самый близкий хэш
- Если найден достаточно близкий, посчитать разницу
- Если целесобразно - записать на диск только патч

дак тут речь идет про файловую дедубликацию да?

18:49пожаловаться #5

PН

Aleksey Shirokikh

тогда привет gc

Не думаю что GC обязательно нужен. В моём представлении, патчи не живут сами по себе. При удалении файлов сразу делается проверка счётчика использований патча и если патч никем больше не используется, то удаляется. Но это можно реализовать по другому, в зависимости от требований к конкретным случаям использования

18:50пожаловаться #6

PН

Aleksey Shirokikh

дак тут речь идет про файловую дедубликацию да?

Не знаю. Зависит от определения. Я говорю о экономии места за счёт определения похожих файлов на уровне ФС и записи таких файлов как ссылок на источник и патчи с разницей к нему, в случае, когда файлы достаточно похожи, что определяется пользователем

18:53пожаловаться #7

AS

Не знаю. Зависит от определения. Я говорю о экономии места за счёт определения похожих файлов на уровне ФС и записи таких файлов как ссылок на источник и патчи с разницей к нему, в случае, когда файлы достаточно похожи, что определяется пользователем

Короче если надо -- надо писать

18:58пожаловаться #8

PН

Видимо это так

18:58пожаловаться #9

AS

Если по быстрому за год можно получить проо

19:00пожаловаться #10

EN

Evgeniy Naumov in pro.bash

@spamtarget

19:31пожаловаться #11

EN

Evgeniy Naumov in pro.bash

Файловая система DwarFS, обеспечивающая очень высокий уровень сжатия
Маркус Холланд-Мориц (Marcus Holland-Moritz) из компании Facebook опубликовал первые выпуски файловой системы DwarFS, работающей в режиме "только для чтения" и нацеленной на обеспечение максимального уровня сжатия и сокращения избыточных данных. ФС использует механизм FUSE и работает пространстве пользователя. Код написан на С++ и распространяется под лицензией GPLv3.

19:31пожаловаться #12

PН

Evgeniy Naumov

Файловая система DwarFS, обеспечивающая очень высокий уровень сжатия
Маркус Холланд-Мориц (Marcus Holland-Moritz) из компании Facebook опубликовал первые выпуски файловой системы DwarFS, работающей в режиме "только для чтения" и нацеленной на обеспечение максимального уровня сжатия и сокращения избыточных данных. ФС использует механизм FUSE и работает пространстве пользователя. Код написан на С++ и распространяется под лицензией GPLv3.

Я как раз после прочтения решил распросить людей что им известно о ФС

19:38пожаловаться #13

AS

Так ридонли скучно

20:29пожаловаться #14

AS

Вся работа по записи один раз делается

асоциальный пикотран... in pro.bash

20:30пожаловаться #15

аᶘ

Тут вопрос в архитектуре. Например, можно при записи файла просто вычислять перцептивный хэш и индексировать его.

Тогда запись выглядела бы так:
- Вычислить хэш файла
- Поискать в списке индексов самый близкий хэш
- Если найден достаточно близкий, посчитать разницу
- Если целесобразно - записать на диск только патч

Мне кажется, конкретно то, что ты рассказываешь, нужно делать ПОВЕРХ файловой системы внутри файлов.
То есть пользоваться, например, не условным png для картинок, а каким-нибудь webp и концепцией слоёв (webp же умеет в слои?), тогда ты на уровне софта сможешь добавлять "патчи" (ты говорил про вотермарки?) в виде допслоёв и отдавать картинку в нужном виде с минимальными изменениями метаинформации в webp с отключением или включением нужного тебе слоя.

асоциальный пикотран... in pro.bash

20:30пожаловаться #16

аᶘ

Добавляешь endpoint для аплоада картинок -> находишь ближайший аналог картинки в своей базе (есть алгоритмы по быстрому поиску похожих изображений) -> делаешь дифф в виде слоя -> запоминаешь в БД, что загруженная картинка -- это файл xxx.webp с тремя включенными слоями.

20:31пожаловаться #17

F

Fljúgandi Kettlingur... in pro.bash

Руслан Бляхер

Террабайтник стоит 3к, кого там экономить

Один. А сколько тебе их нужно, чтобы хранить 1тб пользовательских данных?