Простой случай, если рассматривать скриншот (фото):
Высота символов 12-го размера — 4.2мм, чтобы хотя бы вручную можно было распознать символы, на каждый необходимо (по высоте) отвести по 5-8 пикселов (смело умножайте на 2 — шумы, искажения), т.е. 0.42мм на пиксел
Дальше, либо необходимо выбирать камеру с необходимым фокусным расстоянием (чтобы при расстоянии в 3 метра весь объект попал в кадр — что почти наверняка для вас нереально, хотя это всего лишь вопрос оптики), либо посчитать, какой размер символа будет для каждой камеры (обычно они не сильно отличаются), первую попавшуюся HD камеру в гугле на запрос 'углы обзора видеокамеры HD' — получил Microsoft LifeCam HD-5000 — угол обзора 66° (для простоты не пишут угл обзора по высоте, так как стандарт HD определяет его как ширина/1.33)
Значит на 3-х метрах кадр будет вмещать объект шириной 4.4м, по высоте — 3.3м, итак нам надо чтобы пиксел вмещал не больше 3.3*1000/0.42 = 7857 пикселов по вертикали и соответственно (если использовать аналогию со стандартами HD *1.77777..) — 13967 пикселов по горизонтали
Если создадите гениальный алгоритм, определяющий символ по матрице точек высотой в 3-4 пиксела (теоретически возможно, используя информацию еще и о яркости), то требования уменьшаются в 2-3 раза, т.е. 4655x2619 — все равно это не обычная камера
Итог ищите камеру с очень маленьким углом обзора (для FullHD это примерно 10") либо уменьшайте расстояние либо…
p.s. как я знаю фотоаппараты делают интерполяцию, в т.ч. на основе принципов, описанных ниже, так что требования могут быть и не такими страшными, но лучше поэкспериментировать.
Видео содержит гораздо больше полезной информации, так как предоставляет несколько разных (камера или объект двигается, руки дрожат, свет меняется..) изображений одного и того же объекта, например человек может распознать на видео с гораздо меньшими требованиями к размеру точек чем описано выше, в т.ч. за счет своего интеллекта.
Можно при обработке использовать несколько соседних кадров, определив смещения (объект можно сделать движущимся либо камеру принудительно двигать — например раскачивать её или зеркало/призму на маятнике) любым алгоритмом, используемым при компенсации тряски в соответствующих обработчиках видео или продвинутых видеокамерах (они не такие уж и сложные, на хабре кажется были обзоры).
За счет большего количества кадров можно увеличить разрешение изображения (теоретически — ограниченно только физическими пределами, а именно длинной световой волны, но на практике будет несколько неудобно делать видео одного и того же объекта несколько лет, чтобы получить его изображение с точностью до микрона).
p.s. никак руки не дойдут заняться этой задачей, так как готовых примеров реализации не могу найти.