Низкое качество каждого кадра видео по отдельности, но человеческий мозг вытягивает из нескольких соседних кадров информацию и распознает
У тебя условно два пути:
1. попытаться из видео какими-то методами, не обязательно нейронной сетью, вытянуть повышение качества изображения, и уже на нем проводить распознавание
2. собрать 3d обучающую выборку, где одним примером является серия соседних кадров одного и того же участка (можно кстати комбинировать методы из 1 пути, для центрирования искомой части изображения, что бы можно было распознавать в движении)
Второй метод универсальнее, и в каком то смысле проще, если ты сможешь собрать большую обучающую выборку.. но первый даст прогнозируемое качество.
Для первого, пример использования - stacking, используемый в астрофотографии