Какую библиотеку/sdk выбрать для распознавания таблиц?

Question

ekopiy @ekopiy

Какую библиотеку/sdk выбрать для распознавания таблиц?

Есть около 60 млн. документов в формате pdf, в которых есть таблицы разных форматов. В основном, сканы. Разный формат это может не быть внешних границ или ячейки объединены и присутствует цветовое оформление. Попробовали tabula + opencv с предобученной моделью, найденной в интернете, но очень медленно дело идёт. Есть ли инструменты лучше и быстрее или нужно смотреть на платные?

Вопрос задан более трёх лет назад
194 просмотра

9 комментариев

Подписаться 1 Средний 9 комментариев

calculator212 @calculator212

но очень медленно дело идёт.
А медленно - это сколько?

Написано более трёх лет назад
AVKor @AVKor

60 млн. документов

очень медленно дело идёт

А чего вы ожидали при таком количестве?

Если один документ будет распознаваться в среднем 1 минуту и работа будет в режиме 24/7, то она продлится примерно 114 лет.

Написано более трёх лет назад
ekopiy @ekopiy Автор вопроса

calculator212, питон в 30 потоках на хорошем проце, оперативка и диск не умирают. За 20 дней спарсилось только 400к документов, в которых в среднем по 2-3 таблицы

Написано более трёх лет назад
ekopiy @ekopiy Автор вопроса

AVKor, Не уверен в вашей оценке:) Сейчас один распознавание одного документа занимает около 4 секунд

Написано более трёх лет назад
Viktor T2 @Viktor_T2

Camelot python
https://camelot-py.readthedocs.io/en/master/
Есть два режима работы,
Lattice и Stream
Lattice - графически определяет границы таблицы (если они есть), работает медленно.
Stream - можно задать область таблицы и разбиение на столбцы по координатам
внутри документа, работает быстрее.
Также есть графический отладчик,
то есть можно посмотреть что происходит, структуру документа, и т.п.
pdf-ы должны быть однотипными, возни много.

так же когда я 2 года назад занимался этим,
натыкался на несколько толковых онлайн сервисов,
платных естественно,
сечас вспомнить не смогу, но они легко гуглятся

Сканы - это плохо,
тут только google vision api
или уже упомянутый здесь ABBYY

Так же для сканов есть пайтон либа
PyPDFOCR
https://pypi.org/project/pypdfocr/
которая преобразует пдф в Searchable Pdf, то есть добавляет текстовый слой
работает на основе Tesseract-OCR,
результат не очень,
зависит от качества скана и настроек, версии Tesseract-а

Написано более трёх лет назад
ekopiy @ekopiy Автор вопроса

Viktor T2, Большое спасибо за подробный ответ! Камелот пробовал, но похоже, нераспробовал, т.к. показался неюзабельным в этом случае, т.к. форматы и размеры таблиц в каждом документе разные. Насчёт PyPDFOCR что-то очень знакомое, спасибо больше, гляну.

Написано более трёх лет назад
AVKor @AVKor

ekopiy,
Сейчас один распознавание одного документа занимает около 4 секунд

Больше семи с половиной лет будете обрабатывать.

Написано более трёх лет назад
AVKor @AVKor

ekopiy, На разных документах Camelot и Tabula могут очень по-разному работать. Вплоть до того, что на каких-то одна библиотека отлично справляется, а другая даёт отстой и наоборот.

Написано более трёх лет назад
calculator212 @calculator212

ekopiy, а что именно тратит больше всего времени? Просто по ощущениям из 4 секунд, нейронка занимает 90%-95% времени, если это так, то можно попробовать использовать GPU(если это конечно не сделано), если затык в питоновских функциях не связанных с opencv, то можно попробовать переписать на c++, часть логики(но это вряд ли в вашем случае сильно ускорит), если затык с алгоритмами opencv, то можно попробовать найти более быстрый аналог.

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 1

2 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Как совместить два .pdf файла?
- 1 подписчик
- 6 часов назад
- 88 просмотров
0

ответов
Python

+1 ещё

Простой
Не доходит колбэк в колбекобработчик, как можно решить эту проблему?
- 1 подписчик
- 10 часов назад
- 68 просмотров
1

ответ
Python

Простой
Почему AnaConda или MiniConda автоматически самоликвидируется на win10?
- 1 подписчик
- 12 часов назад
- 59 просмотров
0

ответов
Python

+1 ещё

Простой
Почему форма не по центру экрана, как исправить?
- 1 подписчик
- 14 часов назад
- 53 просмотра
0

ответов
Python

Простой
Как исправить Python error module 'win32crypt' has no attribute 'CryptProtectData' [closed]?
- 1 подписчик
- вчера
- 60 просмотров
0

ответов
Python

+1 ещё

Простой
Как торговать фьючерсами через API MEXC?
- 2 подписчика
- 19 июл.
- 369 просмотров
1

ответ
PHP

Простой
Скачивание файла средствами php без ожидания загрузки файла?
- 1 подписчик
- 19 июл.
- 157 просмотров
1

ответ
Python

+1 ещё

Простой
Есть ли кд на отправку подарков от имени бота?
- 2 подписчика
- 19 июл.
- 147 просмотров
1

ответ
PHP

+1 ещё

Простой
Почему телеграмм отправляем сразу несколько webhook?
- 2 подписчика
- 18 июл.
- 1048 просмотров
1

ответ
PHP

Простой
Обновление версии PHP с 7.4.33 до 8.3 насколько необходимо?
- 2 подписчика
- 17 июл.
- 1493 просмотра
3

ответа
Показать ещё Загружается…

PHP developer

Marfatech

PHP-developer / PHP-разработчик

Wanted

До 250 000 ₽

PHP-разработчик

SM Lab • Москва

но очень медленно дело идёт.
А медленно - это сколько?
60 млн. документов

очень медленно дело идёт

А чего вы ожидали при таком количестве?

Если один документ будет распознаваться в среднем 1 минуту и работа будет в режиме 24/7, то она продлится примерно 114 лет.
calculator212, питон в 30 потоках на хорошем проце, оперативка и диск не умирают. За 20 дней спарсилось только 400к документов, в которых в среднем по 2-3 таблицы
AVKor, Не уверен в вашей оценке:) Сейчас один распознавание одного документа занимает около 4 секунд
Camelot python
https://camelot-py.readthedocs.io/en/master/
Есть два режима работы,
Lattice и Stream
Lattice - графически определяет границы таблицы (если они есть), работает медленно.
Stream - можно задать область таблицы и разбиение на столбцы по координатам
внутри документа, работает быстрее.
Также есть графический отладчик,
то есть можно посмотреть что происходит, структуру документа, и т.п.
pdf-ы должны быть однотипными, возни много.

так же когда я 2 года назад занимался этим,
натыкался на несколько толковых онлайн сервисов,
платных естественно,
сечас вспомнить не смогу, но они легко гуглятся

Сканы - это плохо,
тут только google vision api
или уже упомянутый здесь ABBYY

Так же для сканов есть пайтон либа
PyPDFOCR
https://pypi.org/project/pypdfocr/
которая преобразует пдф в Searchable Pdf, то есть добавляет текстовый слой
работает на основе Tesseract-OCR,
результат не очень,
зависит от качества скана и настроек, версии Tesseract-а
Viktor T2, Большое спасибо за подробный ответ! Камелот пробовал, но похоже, нераспробовал, т.к. показался неюзабельным в этом случае, т.к. форматы и размеры таблиц в каждом документе разные. Насчёт PyPDFOCR что-то очень знакомое, спасибо больше, гляну.
ekopiy,
Сейчас один распознавание одного документа занимает около 4 секунд

Больше семи с половиной лет будете обрабатывать.
ekopiy, На разных документах Camelot и Tabula могут очень по-разному работать. Вплоть до того, что на каких-то одна библиотека отлично справляется, а другая даёт отстой и наоборот.
ekopiy, а что именно тратит больше всего времени? Просто по ощущениям из 4 секунд, нейронка занимает 90%-95% времени, если это так, то можно попробовать использовать GPU(если это конечно не сделано), если затык в питоновских функциях не связанных с opencv, то можно попробовать переписать на c++, часть логики(но это вряд ли в вашем случае сильно ускорит), если затык с алгоритмами opencv, то можно попробовать найти более быстрый аналог.

Answer 1 · 2022-06-21 16:28:24

Dimonchik @dimonchik2013

non progredi est regredi

ABBYY конечно

Ответ написан более трёх лет назад

2 комментария

Какую библиотеку/sdk выбрать для распознавания таблиц?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт