В Интернете не могу найти ответ на вопрос о том, как решить вариант, который вы мне предложили.
if card % 5 == 0: fgmr += 1
elif card % 3 == 0: tgmr += 1
рукописираспознавать крайне непросто - начиная от нестандартных почерков, оформлений, заканчивая тем, что язык у них может быть
какой угодно, включая мертвый.
У-у-у, таких наивных полным полно, согласен.
С лета я уже подзабил на IT, продолжаю лишь делать для себя 3D-модели в Blender. И получается классно
Представьте что вы живете в реальном мире. Выгляните на улицу. Видите там много зданий. В каждом может быть какая-то фирма. В каждой фирме сидит человек который может принять на работу.
Вы думаете они все действуют заодно?
Что все работодатели регулярно собираются на заседание, где решают с какими дипломами кого принимать а кого нет?
Вот там просто сканы (нераспознанные) и лежат.
Если знать что и где лежит, например номер части, имя командира, которое можно заранее ввести, то можно сканировать и сравнивать с готовыми образцами из базы. Таким образом частично можно автоматизировать распознавание части и командира. Но не все остальное.
Вы видимо не работали с программами распознавания. Они очень активно используют работу со словарем и грамматикой. Если непонятно какое слово, подходящие варианты ищет по тезаурусу, по грамматическому словарю и это дает весьма немалый процент качества распознавания.
В случае 17 века, это совершенно не современный язык, с кучей отклонений и в начертании и в грамматике. А еще и в качестве исходного материала, ибо 300 лет это не 50.
Кроме того, для документов второй мировой существовали конкретные напечатанные материалы с той же статистикой, откуда можно было заполнять готовую базу, например состав бойцов и так далее, что сильно облегчает распознавание.
Эм.. вроде как вообще тегирование не причем. Искать по тексту можно вообще без всяких особых технологий, но это будет очень долго. Поэтому весь полнотекстовый поиск в современных СУБД основан на индексировании, чтобы ускорить процесс.
Но чтобы искать по тексту, индексировать можно распознанный текст, а не сами сканы.