Size: a a a

2020 February 04

VS

Vladimir Smirnov in DevOps
поэтому имеет смысл составить список тех, кого ты подозреваешь на дубликаты, а потом прочитать
источник

VS

Vladimir Smirnov in DevOps
условно ты можешь прочитать первые несколько кбайт, последние несколько кбайт и например в середине и уже с большой вероятностью сказать одинаковые файлы или нет, а для подозрительно похожих - поблочно сравнить целиком
источник

GG

George Gaál in DevOps
Vladimir Smirnov
условно ты можешь прочитать первые несколько кбайт, последние несколько кбайт и например в середине и уже с большой вероятностью сказать одинаковые файлы или нет, а для подозрительно похожих - поблочно сравнить целиком
+++++
источник

ЕО

Евгений Омельченко in DevOps
Vladimir Smirnov
условно ты можешь прочитать первые несколько кбайт, последние несколько кбайт и например в середине и уже с большой вероятностью сказать одинаковые файлы или нет, а для подозрительно похожих - поблочно сравнить целиком
Я бы делал так:
1. Посмотрел размеры всех файлов
2. Сгруппировал
3. Пробежался, для каждой группы:
 * если в ней пара файлов, то сразу бы сравнивал их
 * если больше пары, то сначала чексумма, а потом для совпавших сравнение на равенство
источник

GG

George Gaál in DevOps
Мд5сумма коллеге все равно нужна
источник

GG

George Gaál in DevOps
Для минимальной проверки целостности файлов на той стороне после передачи дистриба
источник

VS

Vladimir Smirnov in DevOps
Евгений Омельченко
Я бы делал так:
1. Посмотрел размеры всех файлов
2. Сгруппировал
3. Пробежался, для каждой группы:
 * если в ней пара файлов, то сразу бы сравнивал их
 * если больше пары, то сначала чексумма, а потом для совпавших сравнение на равенство
Чексумма все равно читает весь файл. Если файлов разумное колличество, быстрее сразу сравнить
источник

GG

George Gaál in DevOps
Но вообще выглядит будто коллегу спасли бы архивы рар мультивольюм с избыточной инфой
источник

GG

George Gaál in DevOps
Но хз
источник

ЕО

Евгений Омельченко in DevOps
Vladimir Smirnov
Чексумма все равно читает весь файл. Если файлов разумное колличество, быстрее сразу сравнить
Ну нет, для четырёх файлов уже неразумно
источник

VS

Vladimir Smirnov in DevOps
George Gaál
Мд5сумма коллеге все равно нужна
Ну так да, в целом можно и зная что за файлы можно ещё делать предположения
источник

ЕО

Евгений Омельченко in DevOps
Евгений Омельченко
Ну нет, для четырёх файлов уже неразумно
Это ж 6 сравнений
источник

GG

George Gaál in DevOps
Вообще реально задача для м
Собеса
источник

GG

George Gaál in DevOps
В девопс джобс
источник

VS

Vladimir Smirnov in DevOps
Евгений Омельченко
Это ж 6 сравнений
Ну для рассчета суммы тебе надо прочитать столько же но вместо сравнения делать математику над каждым
источник

VS

Vladimir Smirnov in DevOps
А так можно прочитать 4 блока, сравнить, выкинуть все файлы что не имеют совпадений, продолжить читать оставшиеся по блокам
источник

VS

Vladimir Smirnov in DevOps
Если ты предполагаешь что у тебя среди равных по размеру файлов маловероятно будут совпадения, то лучше сразу сравнивать
источник

ЕО

Евгений Омельченко in DevOps
Vladimir Smirnov
Ну для рассчета суммы тебе надо прочитать столько же но вместо сравнения делать математику над каждым
Ну там не такая уж жуткая математика. Но вообще можно начать попарные сравнения и одновременно, если файлов в группе больше 3, считать чексуммы
источник

VS

Vladimir Smirnov in DevOps
В целом если у него нет чексумм и ему надо из посчитать все равно, тогда да, возможно можно сначала по чексумма сравнить
источник

ЕО

Евгений Омельченко in DevOps
Vladimir Smirnov
Если ты предполагаешь что у тебя среди равных по размеру файлов маловероятно будут совпадения, то лучше сразу сравнивать
Ну, можно предполагать, что у них начало одинаковое
источник