Size: a a a

2020 November 30

Prikolist Начрэл... in pro.bash
Структуру патчей можно сделать плоской или ограничить максимальную глубину патчей
источник

AS

Aleksey Shirokikh in pro.bash
Prikolist Начрэл
Тут вопрос в архитектуре. Например, можно при записи файла просто вычислять перцептивный хэш и индексировать его.

Тогда запись выглядела бы так:
- Вычислить хэш файла
- Поискать в списке индексов самый близкий хэш
- Если найден достаточно близкий, посчитать разницу
- Если целесобразно - записать на диск только патч
а если патчей накопилось уже больше размера блока ?
источник

AS

Aleksey Shirokikh in pro.bash
тогда привет gc
источник

Prikolist Начрэл... in pro.bash
Aleksey Shirokikh
а если патчей накопилось уже больше размера блока ?
Это всё эвристика и легко решается
источник

AS

Aleksey Shirokikh in pro.bash
Prikolist Начрэл
Тут вопрос в архитектуре. Например, можно при записи файла просто вычислять перцептивный хэш и индексировать его.

Тогда запись выглядела бы так:
- Вычислить хэш файла
- Поискать в списке индексов самый близкий хэш
- Если найден достаточно близкий, посчитать разницу
- Если целесобразно - записать на диск только патч
дак тут речь идет про файловую дедубликацию да?
источник

Prikolist Начрэл... in pro.bash
Aleksey Shirokikh
тогда привет gc
Не думаю что GC обязательно нужен. В моём представлении, патчи не живут сами по себе. При удалении файлов сразу делается проверка счётчика использований патча и если патч никем больше не используется, то удаляется. Но это можно реализовать по другому, в зависимости от требований к конкретным случаям использования
источник

Prikolist Начрэл... in pro.bash
Aleksey Shirokikh
дак тут речь идет про файловую дедубликацию да?
Не знаю. Зависит от определения. Я говорю о экономии места за счёт определения похожих файлов на уровне ФС и записи таких файлов как ссылок на источник и патчи с разницей к нему, в случае, когда файлы достаточно похожи, что определяется пользователем
источник

AS

Aleksey Shirokikh in pro.bash
Prikolist Начрэл
Не знаю. Зависит от определения. Я говорю о экономии места за счёт определения похожих файлов на уровне ФС и записи таких файлов как ссылок на источник и патчи с разницей к нему, в случае, когда файлы достаточно похожи, что определяется пользователем
Короче если надо -- надо писать
источник

Prikolist Начрэл... in pro.bash
Видимо это так
источник

AS

Aleksey Shirokikh in pro.bash
Если по быстрому за год можно получить проо
источник

EN

Evgeniy Naumov in pro.bash
источник

EN

Evgeniy Naumov in pro.bash
Файловая система DwarFS, обеспечивающая очень высокий уровень сжатия
Маркус Холланд-Мориц (Marcus Holland-Moritz) из компании Facebook опубликовал первые выпуски файловой системы DwarFS, работающей в режиме "только для чтения" и нацеленной на обеспечение максимального уровня сжатия и сокращения избыточных данных. ФС использует механизм FUSE и работает пространстве пользователя. Код написан на С++ и распространяется под лицензией GPLv3.
источник

Prikolist Начрэл... in pro.bash
Evgeniy Naumov
Файловая система DwarFS, обеспечивающая очень высокий уровень сжатия
Маркус Холланд-Мориц (Marcus Holland-Moritz) из компании Facebook опубликовал первые выпуски файловой системы DwarFS, работающей в режиме "только для чтения" и нацеленной на обеспечение максимального уровня сжатия и сокращения избыточных данных. ФС использует механизм FUSE и работает пространстве пользователя. Код написан на С++ и распространяется под лицензией GPLv3.
Я как раз после прочтения решил распросить людей что им известно о ФС
источник

AS

Aleksey Shirokikh in pro.bash
Так ридонли скучно
источник

AS

Aleksey Shirokikh in pro.bash
Вся работа по записи один раз делается
источник

аᶘ

асоциальный пикотран... in pro.bash
Prikolist Начрэл
Тут вопрос в архитектуре. Например, можно при записи файла просто вычислять перцептивный хэш и индексировать его.

Тогда запись выглядела бы так:
- Вычислить хэш файла
- Поискать в списке индексов самый близкий хэш
- Если найден достаточно близкий, посчитать разницу
- Если целесобразно - записать на диск только патч
Мне кажется, конкретно то, что ты рассказываешь, нужно делать ПОВЕРХ файловой системы внутри файлов.
То есть пользоваться, например, не условным png для картинок, а каким-нибудь webp и концепцией слоёв (webp же умеет в слои?), тогда ты на уровне софта сможешь добавлять "патчи" (ты говорил про вотермарки?) в виде допслоёв и отдавать картинку в нужном виде с минимальными изменениями метаинформации в webp с отключением или включением нужного тебе слоя.
источник

аᶘ

асоциальный пикотран... in pro.bash
Добавляешь endpoint для аплоада картинок -> находишь ближайший аналог картинки в своей базе (есть алгоритмы по быстрому поиску похожих изображений) -> делаешь дифф в виде слоя -> запоминаешь в БД, что загруженная картинка -- это файл xxx.webp с тремя включенными слоями.
источник

F

Fljúgandi Kettlingur... in pro.bash
Руслан Бляхер
Террабайтник стоит 3к, кого там экономить
Один. А сколько тебе их нужно, чтобы хранить 1тб пользовательских данных?
источник

VP

Vadim "Oxyd&quo... in pro.bash
Fljúgandi Kettlingur
Один. А сколько тебе их нужно, чтобы хранить 1тб пользовательских данных?
Это смотря какой RAID. 😉
источник

Р

Руслан Бляхер... in pro.bash
Fljúgandi Kettlingur
Один. А сколько тебе их нужно, чтобы хранить 1тб пользовательских данных?
Я юзаю два в рейд 1 захуярил и по кайфу
источник