Как организовать архитектуру модели для обнаружения нескольких объектов?
Создал датасет из видеоигры и проставил метки в label studio, так же преобразовал формат студии в понятный json: {"filename": [{"x1": ..., "y1": ..., "x2": ..., "y2": ..., "label": "label"}]}. Но дело в том, что объектов на картинке может и не быть, а может быть хоть 100 (там максимум вроде 139, не помню). Дело за малым: обучить нейронку (юзаю pytorch), но вот проблема: как я сделаю модель которая сможет предсказывать и 0 и 100 и в общем любое количество объектов. Пытался что то придумать, но что то уже делать это больно. Кто знает как решить?
P.S: Ну вообще то не всю архитектуру, а только выходы модели, поддерживающие обнаружение нескольких объектов
DustiX, ну как я понял, там не очень сложно.
Делаете количество выходов по количеству ваших меток. И на выходе получаете 0, если объект не обнаружен, и 1 если обнаружен. Соответственно на выходах вы можете получить {0,0,1,0,1}. По примеру получается, что искалось наличие 5 объектов - 1, 2 и 4 не обнаружены, 3 и 5 обнаружены. Соответственно порядковые номера объектов, это конкретные объекты - 1 трава, 2 куст, 3 дерево, 4 лошадь и т.д.
Т.к. ответы да/нет, то их можно преобразовать в битовую структуру для экономии памяти модели [00101].
В вашем случае объектов максимум 139, значит и выходов 139.
Дмитрий, А обнаружение самих объектов? Ну нейронка нашла что там есть 2 объекта из 5, дальше она должна определить их местоположение на картинке и границы