Для начала, что ты хочешь сделать? Локализацию на изображении нескольких объектов из нескольких категорий?
Тогда нужно подумать, как у тебя будет формироваться отклик сети, потому что золотое правило для большинства сетей - размер входа и размер выхода не могут меняться на ходу.
Если ты не знаешь, сколько у тебя будет объектов, то лучше обучать сеть с прицелом на пиксельные карты. Грубо говоря, пусть тоже выдаёт изображение (можно уменьшенное), и на нём закрашивает прямоугольники разными цветами, соответствующими разным категориям.