Есть способ быстро сравнить одно изображение со множеством других изображений?

Question

Evgeny_A @Evgeny_A

Python

Есть способ быстро сравнить одно изображение со множеством других изображений?

Здравствуйте!

Есть форма в которую юзер загружает картинку. Мне нужно убедиться, что загружаемая картинка точно уникальная. Сравниваю не по названию, хежу или размеру, а с помощью вот такой функции, которую подглядел на просторах:

def compareImage(file_to_compare, folder):

	# file_to_compare это путь до картинки, которую загрузил юзер
	# folder это папка в которой картинки с которыми нужно сравнить картинку юзера

	photos_in_folder = os.listdir(folder)

	if len(photos_in_folder) > 0:

		for image in photos_in_folder:

			other_image = str(image)

			if file_to_compare != other_image:

				if os.path.isfile(file_to_compare) and os.path.isfile(other_image):

					h1 = Image.open(file_to_compare).histogram()
					h2 = Image.open(other_image).histogram()

					result = math.sqrt(reduce(operator.add, map(lambda a,b: (a-b)**2, h1, h2))/len(h1))

					if result and result < 150:

						# Найден дубль
						return True

	else:

		logging.info('нет фотографий для сравнения. Пропускаем')

	# Картинка юзера уникальная
	return False

Если картинок в папке 6к, то сравнивание будет длиться почти 2 минуты. До меня дошло, что бесконечно оптимизировать функцию не возможно и если сравнить картинку юзера с каждой уже имеющейся картинкой в цикле for, то это в любом случае будет длиться долго.

Вопрос — возможно ли сравнить одно изображение сразу с множеством других, чтобы это это было быстрее, чем сравнение по парам, при условиях что:

Сравнивать нужно именно содержимое изображений, а не их размер, хеш, адрес, вес и т.д
Каждый раз, когда юзер загружает картинку, мне нужно обновлять информацию об уже имеющихся на сервере картинок, поэтому строить, например, индекс раз в сутки нельзя, он будет не актуальным
Не могу себе позволить держать в оперативке уже имеющиеся на сервере картинке, так как их очень много, а оперативка ограничена (если например, исключить из цепочки медленную файловую систему)
Уже использую SSD накопитель и оптимизировать файловую систему мне кажется больше некуда

Буду благодарен за идеи или ссылки на реализации, где можно подглядеть принцип сравнения.

Вопрос задан более трёх лет назад
63 просмотра

Комментировать

Подписаться 2 Простой Комментировать

Пригласить эксперта

Ответы на вопрос 2

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

Простой
Как в конце каждой строки файла добавить тэг?
- 1 подписчик
- 7 часов назад
- 65 просмотров
1

ответ
Python

+1 ещё

Простой
Почему asyncio.current_task() не передается в функцию?
- 1 подписчик
- 7 часов назад
- 47 просмотров
1

ответ
Python

+2 ещё

Простой
Срабатывает антивирус на скомпилированный файл python, как исправить?
- 1 подписчик
- вчера
- 169 просмотров
1

ответ
Python

Простой
Почему не срабатывает if? как это пофиксить?
- 1 подписчик
- вчера
- 131 просмотр
2

ответа
Python

+2 ещё

Простой
Как транслировать аудио в микрофон, py, c#, c++?
- 1 подписчик
- вчера
- 152 просмотра
3

ответа
Python

Средний
Почему Низкий FPS анализ изображения yolov8 YOLO?
- 2 подписчика
- вчера
- 28 просмотров
0

ответов
Python

+2 ещё

Простой
Почему Планировщик задач Windows 10 не выполняет скрипт Python?
- 3 подписчика
- вчера
- 1587 просмотров
3

ответа
Python

+1 ещё

Средний
Как переместить мышь вместе с элементом в pyppeteer?
- 1 подписчик
- 21 апр.
- 90 просмотров
0

ответов
Python

+2 ещё

Простой
OK.RU, API приложений, не могу загрузить видео: User must grant an access to permission 'VIDEO_CONTENT'". Как получить этиправа для приложения?
- 1 подписчик
- 21 апр.
- 54 просмотра
1

ответ
Python

+1 ещё

Средний
Сервер C# не принимает сообщения от клиента. Почему так?
- 1 подписчик
- 21 апр.
- 124 просмотра
0

ответов
Показать ещё Загружается…

Python developer

Bell Integrator

До 350 000 ₽

Team Lead (С++, Python)

TopAssistant • Москва

от 400 000 ₽

TeamLead Python

AGIMA • Москва

До 350 000 ₽

Анимация логотипа

24 апр. 2024, в 00:08

20000 руб./за проект

Разработка дизайна раздела «Статьи» на сайте «Мир отходов»

23 апр. 2024, в 23:01

10000 руб./за проект

Дизайн личного кабинета (клиентская часть)

23 апр. 2024, в 22:37

500 руб./в час

Answer 1 · 2019-12-13 11:53:43

Самая дорогая операция тут - это Image.open(file_to_compare).histogram()
Для каждой загружаемой картинки высчитывай хеш и храни в базе, чтобы потом не пересчитывать дважды

Answer 2 · 2019-12-13 11:51:44

Генерь hash и не парься. Он уникален и думаю можно найти быстрый генератор, а поиск подобных - быстрый. В hash-функцию можно засунуть любые стандартизированные, нормированные данные.

Есть способ быстро сравнить одно изображение со множеством других изображений?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт