Как ускорить сравнение?

Question

pinguine @pinguine

Python

Как ускорить сравнение?

import sys
import os


def get_all_files(dir):
    path_f = []
    for dirs, subdirs, files in os.walk(dir):
        for f in files:
            if not f.startswith("."):
                path = os.path.join(dirs, f)
                path_f.append(path)
    return path_f


def are_files_duplicates(file1, file2):
    return os.path.basename(file1) == os.path.basename(file2) and os.path.getsize(file1) == os.path.getsize(file2)


def find_duplicates(dir):
    if not os.path.exists(dir):
        print("Такой директории не существует")
        return None
    path_f = get_all_files(dir)
    for counter_1 in range(0, len(path_f)):
        for counter_2 in range(counter_1+1, len(path_f)):
            if are_files_duplicates(path_f[counter_1], path_f[counter_2]):
                    print("Файл {} дублируется с файлом {}".format(path_f[counter_2], path_f[counter_1]))


if __name__ == '__main__':
    try:
        find_duplicates(sys.argv[1])
    except IndexError:
        print("Укажите название файла")

Сейчас find_duplicates работает за квадратичное время – сравнивает каждый файл с каждым. Как это можно ускорить?

Вопрос задан более трёх лет назад
354 просмотра

Комментировать

Подписаться 2 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее
Skillfactory

Профессия Python-разработчик

9 месяцев

Далее
Яндекс Практикум

Python-разработчик

10 месяцев

Далее

Решения вопроса 1

7 комментариев

RedSkotina @RedSkotina

а разве тут не происходит сравнение с ключами при вставке в словарь?
тоесть тожесамое сравнение каждого файла с каждым, только вид сбоку

Написано более трёх лет назад
javedimka @javedimka

RedSkotina: нет, не тоже самое

Написано более трёх лет назад
longclaps @longclaps

RedSkotina:
Почитай про "вид сбоку" ))
https://habrahabr.ru/post/247843/
Незакомые слова вроде "хэш-таблицы" ищи в гугле, это - важное ))

Написано более трёх лет назад
RedSkotina @RedSkotina

longclaps: а хэш таблицы строятся волшебным образом мгновенно? а сравниваются хэши тоже мгновенно ?

Написано более трёх лет назад
longclaps @longclaps

RedSkotina:
Нет, не мгновенно, а за линейное время от числа элементов таблицы. Нет, не мгновенно, а за константное время.
Кончай кидать предъявы, потрудись сам хоть в чём-то разобраться.

Написано более трёх лет назад
RedSkotina @RedSkotina

longclaps: ну я пока не получил внятного ответа почему это не вид сбоку.
а посылать в гугл на сайте вопросов и ответов. кажется кто то не понимает сути сайта.

Написано более трёх лет назад
longclaps @longclaps

RedSkotina: Скудоумным не подаю.

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Каким образом я могу запускать привязанных ботов в основном, что-бы основной loop не ломался и не дублировался?
- 1 подписчик
- 15 нояб.
- 168 просмотров
0

ответов
Python

Простой
Почему конвертация .py файла в .exe с помощью auto-py-to-exe происходит аномально долго и как это исправить?
- 1 подписчик
- 08 нояб.
- 221 просмотр
0

ответов
Python

+2 ещё

Простой
Как решить ошибку с отправкой почты через Outlook SMTP?
- 1 подписчик
- 08 нояб.
- 147 просмотров
0

ответов
Python

+2 ещё

Средний
Как конвертировать drawio (xml) в xml zabbix map?
- 2 подписчика
- 08 нояб.
- 119 просмотров
1

ответ
Python

Простой
Какой браузер с headless для python не распознаеться и не блокируеться google ai studio?
- 2 подписчика
- 31 окт.
- 253 просмотра
0

ответов
Python

Простой
Как сформировать изображение GS1 DataMatrix с функциональными знаками?
- 1 подписчик
- 31 окт.
- 137 просмотров
0

ответов
Python

+1 ещё

Простой
Почему callback_query_handler в telebot не работает?
- 1 подписчик
- 31 окт.
- 141 просмотр
3

ответа
Python

+1 ещё

Простой
Как исправить проблему с Docling?
- 1 подписчик
- 28 окт.
- 144 просмотра
0

ответов
Python

Простой
Что делать если turtle в python не отвечает?
- 1 подписчик
- 22 окт.
- 260 просмотров
2

ответа
Python

Простой
Не могу разобраться почему не работает код python?
- 1 подписчик
- 22 окт.
- 430 просмотров
1

ответ
Показать ещё Загружается…

Backend developer (Python, FastAPI)

BCraft

До 4 000 $

Backend Python Developer Middle/Senior

AppRoute

До 3 000 $

Python back-end engineer (+Kotlin)

YoloPrice

от 360 000 до 420 000 ₽

Answer 1 · 2017-07-23 18:00:55

Самый быстрый и самый жадный до памяти способ вот:

from collections import defaultdict

d = defaultdict(list)
for file in (чо-то там):
    d[basename(file), size(file)].append(file)
for (nm, sz), flist in d.items():
    if len(flist) > 1:
        print("**", nm, sz, "**")
        for file in flist:
            print(file)

Answer 2 · 2017-07-23 17:14:11

xmoonlight @xmoonlight

https://sitecoder.blogspot.com

Попробуйте адаптировать этот алгоритм (Сообщение #7) для перебора без повторов.

Ответ написан более трёх лет назад

Комментировать

Как ускорить сравнение?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт