Как узнать включает или нет изображение №1 объект с изображения №2 с помощью OpenCV?

Question

becks @becks

Как узнать включает или нет изображение №1 объект с изображения №2 с помощью OpenCV?

Встала срочная задача определить присутствует ли объект с изображения на другом изображении. Если другими словами, есть картинка с объектом, на этой картинке кроме объекта ничего нет. На другой картинке данный объект (может быть слегка модифицированный поворот\сжатие\изменение цвета) может присутствовать, а может и нет. И нужно ответить есть ли этот объект на картинке-сцене.

Был наслышан про OpenCV и вот решил его и использовать. Нашел пример SURF Homography. Что получил:

1) Если искомый объект без искажений есть на сцене, то количество «good_matches» невелико (5 ± 2);

max_dist = 0.51 min_dist = 0.03

2) Если искомый объект повернут на 90 градусов на сцене, то количество «good_matches» тож невелико (5 ± 2);

max_dist = 0.55 min_dist = 0.04

3) Если на сцене есть объект условно похожий на искомый, то количество «good_matches» уже больше (15 ± 5);

max_dist = 0.59 min_dist = 0.11

4) Нет объекта или похожего объекта на сцене, количество «good_matches» > 30.

max_dist = 0.79 min_dist = 0.4

Для нахождения max_dist и min_dist использовался FLANN.

Можно ли на основании только max_dist и min_dist делать выводы, какие пограничные их значения рассматривать?

Может есть другой способ определить присутствие объекта на изображении?

Прошу строго не судить, второй день за OpenCV.

Вопрос задан более трёх лет назад
14619 просмотров

Комментировать

Подписаться 11 Оценить Комментировать

Пригласить эксперта

Ответы на вопрос 2

2 комментария

3 комментария

Zenker @Zenker

Ну сам RANSAC, если на пальцах, работает примерно следующим образом. Пусть у нас есть сопоставленные друг другу множества особых точек source и dest. Алгоритм берет случайным образом 4(для гомографии) точки из source и соответствующие им из dest. Предполагается, что эти 4 точки сопоставлены верно. Тогда по этим точкам вычисляется преобразование из source в dest, которое представляет собой некую матрицу H_current. Затем по этой матрице мы преобразуем каждую точку из source и смотрим, попала ли она геометрически в окрестность «своей» точки в dest. Если да, то помечаем ее как inline, в противном случае как outline и считаем общее количество инлайнов. На этом первая итерация заканчивается. Потом берем случайно еще 4 точки и так далее N раз. Если в очередной раз получаем инлайнов больше, чем в лучший из предыдущих => H_best = H_current. В итоге получаем некоторую H_best, для которой количество инлайнов максимально, в этом случае пересчитываем матрицу преобразования уже не для 4 точек, а для всех инлайнов и возвращаем полученную матрицу.

В случае вашей задачи, чтобы сделать вывод о наличии объекта на изображении, можно было бы просто оценить количество инлайнов в лучшем варианте, найденном RANSAC. Однако, findHomography() возвращает нам уже готовую матрицу преобразования, которая нам по сути и не нужна. Но если не лезть в код алгоритма, то самое простое на мой взгляд — «отмотать» вручную алгоритм на шаг назад. То есть, у нас есть sample, image и матрица H преобразования из sample в image(ну или наоборот). Можно просто в лоб каждую особую точку sample преобразовать матрицей H и посмотреть, попала ли она геометрически в окрестность соответствующей ей точки на image. Если таких попаданий достаточно много, то можно сказать, что объект присутствует. А сколько «много» их нужно — выяснить экспериментально, на нескольких примерах пустого фона и фона с объектом. Чем больше особых точек на картинке с объектом обнаружится на собственно объекте, тем лучше это по идее должно работать. Советую поэкспериментировать с параметрами детекторов и самим детектором(возможно лучше получится с ORB). Еще возможно есть смысл как-то поработать с исходным изображением, чтобы облегчить жизнь детектору. Например, яркость выровнять, если есть перепады. Но это уже мои предположения)

Написано более трёх лет назад
becks @becks Автор вопроса

Еще раз большое вам спасибо.
Я уже довольно близок к приемлемому решению. Что сделал, следуя в большинстве своем вашим советам:
findHomography() помимо уже готовой матрицы оказывается всеже возвращает еще и матрицу масок, содержащую инлайны:

std::vector <uchar> mask;
Mat H = findHomography( obj, scene, CV_RANSAC, 3 , mask);

Теперь я считаю процент попаданий ( количество инлайнов/ mask.size() ). Если он больше порога (сейчас 70 %) то объект на изображении найден, иначе не найден.

// Проверяем количество inliers
int inliers_count = 0;
for( unsigned i = 0; i < mask.size(); i++ )
if (mask[i] == 1)
inliers_count++;

if ( (inliers_count*100)/mask.size() >= m_accuracy)
return true;

Для простых и больших изображений работает нормально, ошибки есть, но не так много.

Для небольших объектов, для сцен с некоторым количеством довольно похожих объектов и, как мне показалось, хотя странно ибо загружаю изображения с флагом CV_LOAD_IMAGE_GRAYSCALE, для черно-белых(серых) объектов и сцен.

Что тут можете еще посоветовать дабы увеличить точность? еще раз хотел бы вас поблагодарить, ваши советы очень мне помогли.

Написано более трёх лет назад
Zenker @Zenker

Ну тут уже специфика конкретной задачи, нужно просто экспериментировать, вряд ли я смогу чем-то помочь)
По поводу цветов, кстати, если они играют на изображениях большую роль — возможно есть смысл вместо «обычного» усредненного чб изображения подать на вход один из цветовых каналов, на котором объект лучше всего различим с точки зрения детектора. А для чб исходников — подвигать контраст, ну или еще какие параметры, смотря на что детектор точек лучше отзовется.
На счет размеров, SIFT и SURF хоть и scale invariant, но в определенных пределах, поэтому есть смысл иметь не одно образцовое изображение, а несколько: в разных масштабах и, возможно, под разными углами. Искать придется каждое из них по очереди, так что тут уже баланс между производительностью и точностью.
А поиск нескольких объектов и выделение среди множества похожих — отдельная головная боль, тут возможно стоит проанализировать расположение найденных точек, как-то локализовать их сгущения и анализировать по новой уже эти фрагменты изображения по отдельности.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

C++

+2 ещё

Простой
Можно ли использовать не парные Acquire/Release порядки памяти?
- 1 подписчик
- 5 часов назад
- 47 просмотров
2

ответа
C++

Простой
Сборник задач на C++?
- 1 подписчик
- 15 часов назад
- 57 просмотров
1

ответ
C++

Простой
Почему requires !std::is_void_v работает только для шаблона?
- 1 подписчик
- вчера
- 42 просмотра
0

ответов
Алгоритмы

+1 ещё

Простой
Как в квантовый компьютер вводятся данные?
- 1 подписчик
- 12 авг.
- 167 просмотров
3

ответа
C++

Простой
Почему возникает ошибка C2512 в конструкторе с std::initializer_list?
- 1 подписчик
- 12 авг.
- 90 просмотров
1

ответ
C++

+1 ещё

Простой
Почему окружность получается отрисованной не ровно?
- 1 подписчик
- 11 авг.
- 162 просмотра
2

ответа
C++

Средний
Как инициализировать TCHAR*?
- 1 подписчик
- 08 авг.
- 81 просмотр
2

ответа
C#

+1 ещё

Средний
Где найти чистые исходники мобильного сервера SAMP / CRMP?
- 1 подписчик
- 06 авг.
- 139 просмотров
1

ответ
C++

+1 ещё

Сложный
Не работает поиск через Массив байтов, как исправить?
- 1 подписчик
- 03 авг.
- 108 просмотров
1

ответ
C++

Простой
Почему не получается вывести тип шаблона?
- 1 подписчик
- 02 авг.
- 64 просмотра
1

ответ
Показать ещё Загружается…

СММ [ИИ стартап] 🚀

Поехали!

от 80 000 ₽

Автор и ведущий лабораторных работ по ИТ

Systems Education

от 20 000 до 80 000 ₽

TechLead/Старший системный администратор (Office Infrastructure)

TravelLine • Санкт-Петербург

от 230 000 ₽

Answer 1 · 2013-03-16 06:09:27

Я правильно понимаю, что вы рассчитываете расстояния между дескрипторами и ищите наиболее похожие точки на образце и текущем изображении? Если так, то при таком подходе не учитывается взаимное расположение точек, поэтому едва ли можно судить о наличии объекта на изображении. Я сам с OpenCV знаком мало, поэтому постараюсь в общих чертах описать возможный способ решения:

1) С помощью детекторов локальных особенностей (SIFT/SURF/ORB итд.) находите особые точки на образце и изображении

2) Для найденных точек рассчитываете в их окрестностях значения дескрипторов. Дескриптор — это многомерный вектор(по сути набор чисел), характеризующий точку. Чем больше похожи два дескриптора(меньше расстояние между ними), тем более вероятно, что речь идет об одной и той же точке на образце и текущем изображении.

3) Каждой особой точке на одном изображении сопоставляете точку с другого по минимальному расстоянию между дескрипторами(количество найденных точек на изображениях скорее всего будет разным, но одна и та же точка образца может быть наилучшим кандидатом для нескольких точек с изображения). Такое сопоставление будет скорее всего в большинстве своем не верно, поэтому нужно отфильтровать ложные соответствия.

4) Самый важный этап. Ложные соответствия обычно хорошо фильтруются алгоритмом RANSAC. Суть тут вот в чем: алгоритм пытается по вышенайденным точкам найти преобразование, которое позволило бы наилучшим образом сопоставить два изображения. Если такое преобразование находится и достаточно большое количество точек подтверждает эту модель(такие точки называют инлайнами), то скорее всего объект на изображении присутствует.

Конкретно в OpenCV есть функция FindHomography, только нужно с ней разобраться. Если я правильно понял, srcPoints и dstPoints — массивы особых точек на образце и изображении, где элементы с одинаковыми индексами — это и есть пары сопоставленных точек. Возвращает матрицу преобразования H, но как сигнализируется об успешности ее поиска — нужно разобраться. Возможно, нагуглить какую-нибудь другую реализацию. Я бы попробовал оценить результат по доле инлайнов в общем количестве точек.
Поподробнее про RANSAC и подобную задачу в целом можно почитать тут: engineering.purdue.edu/kak/courses-i-teach/ECE661.08/solution/hw4_s1.pdf

Answer 2 · 2013-03-18 11:52:18

Огромное спасибо за исчерпывающий ответ. Сам на выходных еще почитал по теме, сейчас понимаю уже больше. Распишу, что и как делаю, уже с учетом вашего ответа.

1) С помощью SURF ( класс SurfFeatureDetector, метод detect) определяю ключевые точки на образце и изображении.
2) Для найденных точек рассчитываю значения дескрипторов ( класс SurfDescriptorExtractor, метод compute).
3) Сопоставляю точки на целевом объекте и в сцене, получаю так называемые матчи ( FLANN, класс FlannBasedMatcher, метод match).

Тут я как раз и хотел измерять расстояние между «матчами», но только не по min, max как описал в посте, а по среднему. И, если это значение меньше какого-то пограничного значения, то это говорит о нахождении картинки1 на картинке2. Но поскольку вы подсказываете, что количество ложных срабатывай велико, пока отказываюсь от этого варианта.

4) В том примере, который я как раз и нашел (переделываю) используется как раз findHomography. docs.opencv.org/doc/tutorials/features2d/feature_homography/feature_homography.html
Mat H = findHomography( obj, scene, CV_RANSAC );
CV_RANSAC — как раз использую RANSAC.
Но вот ее назначения я совсем не понимаю и как из матрицы преобразований H получить точные соответствия или что-то другое, что можно использовать.

Как узнать включает или нет изображение №1 объект с изображения №2 с помощью OpenCV?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт