что оно на этом этапе должно сделать - отобрать похожие признаки, расположенные на картинках примерно одинаково друг относительно друга. для этого оно пытается подобрать такую матрицу проекции одной картинки на другую, чтобы совпало максимальное количество похожих признаков (с целью отбросить несовпавшие). и делается это исходя из предположения, что такая проекция существует.
есть случаи, когда это работает: например стереопары картинок, соседние кадры из видео или сильно перекрывающиеся изображения при фотограмметрии - оно сможет вычислить наложение и всё будет хорошо.
есть случаи, когда это не работает совсем: на картинках с повторяющимися текстурами, или например, если на одной картинке объект из второй встречается несколько раз в разных местах и позах - оно будет пытаться примостить картинку с единичным объектом так, чтобы на нём в нужные места попали лучше всего совпавшие части от разных объектов.
у вас картинки изначально разные, поэтому лучшее, до чего оно додумалось - это сжать одну из картинок по диагонали почти в линию, и вверх ногами задней стороной прилепить ко второй картинке. если вы преобразуете картинку полученной матрицей и нарисуете поверх второй, там почти наверняка признаки совпадут, то есть работает оно как и должно. другой вопрос, что вам оно очевидно бесполезно.
что с этим можно делать - зависит от того, что вам нужно.
скажем, если вы пытаетесь искать конкретно логотипы на футболках, то имеет смысл насобирать небольшой визуальный словарь фич, которые в них встречаются, и перед тем, как пытаться устанавливать соответствия, отфильтровать из всех фич картинок только те, которые встрачаются в логотипах. чтобы было побольше фич от логотипов и поменьше фич от пальцев-ушей.
ещё можно попробовать переписать подбор матрицы так, чтобы он не рассматривал вырожденные варианты. я этим занимался давно (в 11-12 годах), orb дескрипторов тогда ещё не было (у меня были surf-sift), но вот этот подбор гомографии рансаком мне нормальных результатов никогда не выдавал - оно постоянно пыталось вывернуть картинку наизнанку (матчить внутренние углы вместо внешних). помнится, я пытался подпереть костылём чтобы оно не ставило отрицательные коэффициенты в матрицы, но там всё сложно сделано было (кажется, оно несколько алгоритмов поддерживает кроме рансака и логика размазана по слоям как попало). в общем, так и не доделал - до того, как это заработало, я для своей конкретной задачи придумал упрощённый способ верификации взаиморасположения признаков без этих матриц. да и по производительности мне рансаковский перебор проекций не подходил.
поэтому, последнее предложение: попробуйте обойтись без этой гомографии. хотя, для ваших картинок, по-моему, основные простые варианты не подойдут.