Каков наилучший способ удаления дубликатов файлов изображений с вашего компьютера?

У меня много дубликатов файлов изображений на моем компьютере под управлением Windows, в разных подпапках и с разными именами файлов.

Какой скрипт или бесплатную программу Python вы бы рекомендовали удалить дубликаты?

(Я прочитал этот аналогичный вопрос, но на плакате есть вопросы о визуальных дубликатах с разными размерами файлов. Mine – это точные дубликаты с разными именами файлов.)

  • Глупый полнотекстовый поиск?
  • Командная строка Windows 7 Timed Log Off
  • Поддерживать обновления?
  • Существует ли это: программное обеспечение для отмены шума
  • Отслеживание дискового ввода-вывода приложением в Windows?
  • Поиск текста на веб-страницах с указанием списка URL-адресов
  • 6 Solutions collect form web for “Каков наилучший способ удаления дубликатов файлов изображений с вашего компьютера?”

    Не полагайтесь на суммы MD5.

    Суммы MD5 не являются надежным способом проверки дубликатов, это всего лишь способ проверки различий.

    Используйте MD5 для поиска возможных дубликатов кандидатов , а затем для каждой пары, использующей MD5

    1. Открывает оба файла
    2. Ищет в этих файлах до тех пор, пока не будет отличаться.

    Видя, что меня забирают люди, делающие наивные подходы к дублированию идентификационной информации. Если вы намерены полностью полагаться на алгоритм хэширования, ради того, используйте что-то более жесткое, как SHA256 или SHA512, по крайней мере, вы уменьшите вероятность В разумной степени, проверив больше бит. MD5 чрезвычайно слаб для условий столкновения.

    Я также советую людям читать списки рассылки здесь под названием «проверка файла»: http://london.pm.org/pipermail/london.pm/Week-of-Mon-20080714/thread.html

    Если вы скажете: «MD5 однозначно идентифицирует все файлы однозначно», то у вас есть логическая ошибка.

    Учитывая диапазон значений, имеющих различную длину от 40 000 байт в длину до 100 000 000 000 байт, общее количество комбинаций, доступных для этого диапазона, значительно превышает возможное количество значений, представленных MD5, весом всего 128 бит.

    Представляют 2 ^ 100 000 000 000 комбинаций с комбинациями всего 2 ^ 128? Я не думаю, что это возможно.

    Наименее наивный путь

    Наименее наивный способ и самый быстрый способ отсеивания дубликатов заключается в следующем.

    1. По размеру : Файлы с разным размером не могут быть одинаковыми. Это занимает мало времени, так как ему даже не нужно открывать файл.
    2. По MD5 : Файлы с разными значениями MD5 / Sha не могут быть идентичными. Это занимает немного больше времени, потому что он должен читать все байты в файле и выполнять математику на них, но он делает несколько сравнений быстрее.
    3. Невыполнение вышеуказанных различий : выполните побайтное сравнение файлов. Это медленный тест для выполнения, поэтому он остается до тех пор, пока не будут рассмотрены все остальные факторы устранения.

    Это делает Фдупес . И вы должны использовать программное обеспечение, которое использует те же критерии.

    Это один вкладыш в UNIX, например (включая Linux), ОС или Windows с установленной Cygwin:

    find . -type f -print0 | xargs -0 shasum | sort | perl -ne '$sig=substr($_, 0, 40); $file=substr($_, 42); \ unlink $file if $sig eq $prev; $prev = $sig' 

    Md5sum (что примерно на 50% быстрее) можно использовать, если вы знаете, что нет намеренно созданных столкновений (у вас будет больше шансов выиграть 10 крупных лотерей, чем возможность найти одно встречающееся в результате столкновения md5).

    Если вы хотите увидеть все дубликаты, которые у вас есть вместо их удаления, просто измените часть unlink $file чтобы print $file, "\n" .

    Я использовал fdupes (написанный на C) и freedups (Perl) в Unix-системах, и они могут работать и на Windows; Есть также аналогичные, которые, как утверждается, работают в Windows: dupmerge , liten (написанные на Python) и т. Д.

    Чтобы удалить дубликаты изображений в Windows, обратите внимание на DupliFinder. Он может сравнивать изображения по различным критериям, таким как имя, размер и фактическая информация об изображении.

    Для других инструментов для удаления дубликатов файлов ознакомьтесь с этой статьей Lifehacker .

    Вместо DupliFinder попробуйте разветвленный проект вместо DeadRinger . Мы исправили массу ошибок в оригинальном проекте, добавили множество новых функций и значительно улучшили производительность.

    Одним из вариантов может быть Dupkiller .

    DupKiller – один из самых быстрых и мощных инструментов для поиска и удаления дубликатов или похожих файлов на вашем компьютере. Сложные алгоритмы, встроенные в свой механизм поиска, выполняют высокие результаты – быстрый поиск файлов. Множество опций позволяет гибко настраивать поиск.

    Введите описание изображения здесь

    Давайте будем гением компьютера.