время ответа по картинке 3-4 сек
1. Если ты что то процессируешь по одному в еденицу времени, то CPU будет быстрее и значительно быстрее чем GPU. При этом если ты процессируешь кусками (batch), то GPU даст буст вплоть до 100 раз. Ты должен даже сформировать правильный размер (batch size), сколько картинок ты даешь за раз. Модель должна принимать массив, с представлениями картинок.
2. В целом свой воркфлоу ты должен делить на CPU bounded, GPU bounded и I/0 (input/output). И оптимизировать, например чтение с диска картинок это I/O операции, которые требуют определенной оптимизации.
По итогу. Сравнение по одной картинке смысла не имеет и на CPU будет быстрее. Сравнивать нужно пайплайн на большом количестве + если не оптимизировать I/O, то система может простаивать, ожидая выполнения медленной операции, например загрузка картинки.