Size: a a a

2020 November 30

AS

Aleksey Shirokikh in pro.bash
Prikolist Начрэл
Пейсаны, а есть какие-нибудь ФС, позволяющие эффективно хранить дубликаты и похожие файлы? Что бы я мог хранить 10 копий картинки и занимать при этом места как 1 картинка + немного мета информации или 2 одинаковых картинки, но вторая с вотемаркой и она занимает места примерно как часть картинки с вотемаркой?
есть fdupes он умеет находить полные дубликаты и делать хардлинки. годится для write once файлов
источник

AS

Aleksey Shirokikh in pro.bash
есть множество вендорных решений по блочной или файловой дедубликации
источник

AS

Aleksey Shirokikh in pro.bash
файловая дедубликация условно дешевая ибо хардлинки, блочная условно дорогая ибо copy-on-write
источник

AS

Aleksey Shirokikh in pro.bash
для большиства блочных решений нужно _очень_ много памяти
источник

EN

Evgeniy Naumov in pro.bash
Prikolist Начрэл
Поддерживаю. Вообще, говорить одному человеку за всё комьюнити странно. Никто конкретно не решает чего хочет комьюнити. Вот я например хочу эффективно хранить не сортированные архивы, в которых есть похожие файлы и полные дубликаты
а мне не поверил про дедупликацию?.. =(
нуок =)
источник

AS

Aleksey Shirokikh in pro.bash
Prikolist Начрэл
Поддерживаю. Вообще, говорить одному человеку за всё комьюнити странно. Никто конкретно не решает чего хочет комьюнити. Вот я например хочу эффективно хранить не сортированные архивы, в которых есть похожие файлы и полные дубликаты
архивы это тары ?
источник

AS

Aleksey Shirokikh in pro.bash
тогда это блочный только вариант дедупа.
источник

AS

Aleksey Shirokikh in pro.bash
если же тары уже пожатые то вариантов сразу стало меньше
источник

Prikolist Начрэл... in pro.bash
Aleksey Shirokikh
архивы это тары ?
Нет, имею в виду коллекции файлов в целом
источник

Prikolist Начрэл... in pro.bash
Evgeniy Naumov
а мне не поверил про дедупликацию?.. =(
нуок =)
Ты о чём?
источник

AS

Aleksey Shirokikh in pro.bash
если архивы пожаты то я знаю только один вариант который чуть чуть поможет это тар с gz с ключём --rsyncable
источник

AS

Aleksey Shirokikh in pro.bash
всё остальное не даст дедупа вовсе
источник

Prikolist Начрэл... in pro.bash
Aleksey Shirokikh
для большиства блочных решений нужно _очень_ много памяти
Что значит блочные? Это больше чем файл или меньше? Это маленькие блоки данных на диске или это дисковые разделы?
источник

EN

Evgeniy Naumov in pro.bash
Prikolist Начрэл
Ты о чём?
про эту же тему в соседнем чате =)
источник

AS

Aleksey Shirokikh in pro.bash
блочные это значит работают на уровне блочного устройства. тоесть диска. тоесть смотрят на иноды или ексенты или прочее.
тоесть дедупить будут одинаковые блоки в разных файлах
источник

EN

Evgeniy Naumov in pro.bash
Prikolist Начрэл
Что значит блочные? Это больше чем файл или меньше? Это маленькие блоки данных на диске или это дисковые разделы?
это про то, как данные хранятся на диске
источник

EN

Evgeniy Naumov in pro.bash
Aleksey Shirokikh
блочные это значит работают на уровне блочного устройства. тоесть диска. тоесть смотрят на иноды или ексенты или прочее.
тоесть дедупить будут одинаковые блоки в разных файлах
иноды это про фс скорее
источник

AS

Aleksey Shirokikh in pro.bash
блоки бывают разных размеров. как правило минимальный начинается от 128к
источник

AS

Aleksey Shirokikh in pro.bash
блоки меньшего размера не дедупятся.
источник

AS

Aleksey Shirokikh in pro.bash
разымным блочным блоком обычно называют 1мегабайт. тоесть блоки ровно в 1 мег будут задедуплены
источник