@bakespankakes
Begginer programmer of Python.

Как распознать текст в PDF и экспортировать данные в csv?

Категорически приветствую, прошу направить на путь, какими инструментами и фреймворками воспользоваться для оптимизации рутинных задач, желательно посредством python на уровне дилетанта или возможно другими готовыми средствами, где почитать подробней.
Проблема:
Есть огромное количество оцифрованных документов, которые необходимо распознать (пробовал с помощью TesseractOCR, безуспешно) в автоматическом режиме по определенным полям и внести на сайт-форму, не имея при этом доступ к бд.
Вопрос:
Прошу лишь познакомить с аналогичным экспириенсом как распознать по меткам документ, экспортировать в из cvs/exel etc, а потом в html форму.
5d1cd59f351e9634582408.jpeg
  • Вопрос задан
  • 109 просмотров
Пригласить эксперта
Ответы на вопрос 2
dimonchik2013
@dimonchik2013
non progredi est regredi
экспортировать в из cvs/exel etc, а потом в html форму.

такого полно

а вот с распознавалкой - если Pytesseract не помог, то см. foxitsoftware - есть у них тулза для командной строки,
или finereader - кажется, тоже есть
Ответ написан
DanilBaibak
@DanilBaibak
Machine Learning engineer
Оказывается что-то подбоное может в ручном режиме Google drive. Или можно автоматизировать с помощью Google cloud.
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы