Задать вопрос

Егор Урванов

Ёж

0

вклад
1

вопрос
2

ответа
0%

решений

Ответы

Как парсить таблицы в pdf файле Python'ом?

Егор Урванов @Hedgehogues
Ёж

Я тоже столкнулся с такой проблемой. При этом опенсорсных средств, позволяющих решать такую задачу, я не нашёл. Поэтому пришлось написать свой парсер HoChiMinh.

Сейчас я его не поддерживаю. Но он находится в рабочем состоянии и довольно неплохо выделяет каркас регулярных таблиц, которые ориентированы по сторонам страницы pdf. При этом, он также зависит от OCR, которая осуществляет извлечение текста из ячейки. По дефолту -- это Tesseract. Но для качественной работы лучше использовать другую тулзу.

Ответ написан более трёх лет назад

Комментировать

Комментировать
Хорошие книги по Computer Science?

Егор Урванов @Hedgehogues
Ёж

Думаю, что тебе нужно идти сюда:
informatics.mccme.ru
timus.ru
codeforces.ru
topcoder.com
kaggle.com

Книги... не знаю. Стоит ли. Начинай сразу с практики. На этих ресурсах есть как очень простые, так и очень сложные задачи. Смотри в сторону informatics.

Ответ написан более трёх лет назад

Комментировать

Комментировать

Самые активные сегодня

VoidVolker
- 4 ответа
- 0 вопросов
salembrodsky
- 0 ответов
- 1 вопрос
Ярослав
- 1 ответ
- 0 вопросов
Евгений Обыкновенный
- 1 ответ
- 0 вопросов
constantinesx
- 1 ответ
- 0 вопросов
Yellastro2
- 1 ответ
- 0 вопросов

Как парсить таблицы в pdf файле Python'ом?

Хорошие книги по Computer Science?

Войдите на сайт