Как распознать текст в PDF и экспортировать данные в csv?

Question

Valentin Schmitt @bakespankakes

Begginer programmer of Python.

Как распознать текст в PDF и экспортировать данные в csv?

Категорически приветствую, прошу направить на путь, какими инструментами и фреймворками воспользоваться для оптимизации рутинных задач, желательно посредством python на уровне дилетанта или возможно другими готовыми средствами, где почитать подробней.
Проблема:
Есть огромное количество оцифрованных документов, которые необходимо распознать (пробовал с помощью TesseractOCR, безуспешно) в автоматическом режиме по определенным полям и внести на сайт-форму, не имея при этом доступ к бд.
Вопрос:
Прошу лишь познакомить с аналогичным экспириенсом как распознать по меткам документ, экспортировать в из cvs/exel etc, а потом в html форму.

Вопрос задан более трёх лет назад
116 просмотров

1 комментарий

Подписаться Простой 1 комментарий

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+3 ещё

Средний
Как перенести позу SMPL модели на игровую 3д модель?
- 2 подписчика
- 10 мая
- 222 просмотра
1

ответ
Python

+1 ещё

Простой
Как при вызове хранимой процедуры получать значения RAISE NOTICE?
- 2 подписчика
- 13 апр.
- 261 просмотр
2

ответа
Python

+2 ещё

Простой
Почему не работает Selenium?
- 1 подписчик
- 09 апр.
- 296 просмотров
2

ответа
Python

Простой
В чем ошибка в использовании ft.ResponsiveView в данном коде?
- 1 подписчик
- 08 апр.
- 97 просмотров
1

ответ
Python

Простой
Можно ли указывать во flet heigh и width через проценты?
- 1 подписчик
- 02 апр.
- 117 просмотров
1

ответ
Python

Простой
Как правильно позиционировать элементы во flet?
- 1 подписчик
- 02 апр.
- 107 просмотров
1

ответ
Python

Простой
Почему может не отображаться страница во view(flet)?
- 1 подписчик
- 25 мар.
- 124 просмотра
1

ответ
Python

Средний
Asyncio + PySide6 + Telethon: список чатов и треды грузятся 30 минут — где искать причину?
- 2 подписчика
- 16 мар.
- 477 просмотров
2

ответа
Python

+2 ещё

Средний
Можно ли получить доступ к сайту?
- 4 подписчика
- 05 мар.
- 1031 просмотр
4

ответа
Сделай сам

+1 ещё

Средний
Кто имеет опыт в создании калькулятора с камерой и нейросетью?
- 1 подписчик
- 03 мар.
- 329 просмотров
2

ответа
Показать ещё Загружается…

Python developer

ITK academy • Краснодар

от 220 000 до 300 000 ₽

Python Developer

ITK academy • Краснодар

от 75 000 ₽

Python-инженер в SaaS про AI для CAD/CAM

DigiFabster

от 2 400 до 4 000 $

Для вас обязательно, чтобы OCR'ом занимался именно сам Python?
Есть огромное количество сервисов, делающих это бесплатно до платно.
бац бац бац (api)

У них качество распознавания будет на порядок (очень существенно) выше, а цена не особо высокой.

Answer 1 · 2019-07-03 20:09:57

экспортировать в из cvs/exel etc, а потом в html форму.

такого полно

а вот с распознавалкой - если Pytesseract не помог, то см. foxitsoftware - есть у них тулза для командной строки,
или finereader - кажется, тоже есть

Answer 2 · 2019-07-03 21:24:05

Данил @DanilBaibak

Machine Learning engineer

Оказывается что-то подбоное может в ручном режиме Google drive. Или можно автоматизировать с помощью Google cloud.

Ответ написан более трёх лет назад

1 комментарий

Как распознать текст в PDF и экспортировать данные в csv?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт