Здравствуйте, собственно вопрос в заголовке, есть изображения документов, нужно оттуда вытащить данные(ФИО, дата рождения и так далее).
Для себя нашел два варианта:
1. Просто image => text конвертация и регулярками выдергивать нужные данные, но к сожалению
https://github.com/tesseract-ocr/tesseract плохо справляется с русскими символами, какую библиотеку можно использовать, которая хорошо справится с русским текстом?
2. Более сложный подход: feature extraction (выдернуть из изображения нужную часть, где находится документ) и научить нейросеть находить нужные области и выдергивать текст оттуда. Ранее не сталкивался с подобным, поэтому есть только поверхностные знания.
Буду рад любым предложениям - библиотеки, статьи, проекты.
p.s. рассматриваю только бесплатный вариант