Извлечение таблиц со спецификациями из PDF чертежей металлоконструкций — решаемо? Или я встрял?

Question

AianBack @AianBack

Извлечение таблиц со спецификациями из PDF чертежей металлоконструкций — решаемо? Или я встрял?

Извлечение таблиц-спецификаций из технических чертежей: двухэтапный подход с Mistral OCR

Теги: python, ocr, pdf, таблицы, mistral-ai, техническая-документация

Суть задачи
Нахожусь в раздумьях по поводу технического решения. Заказчик хочет автоматизировать составление смет из технических чертежей со спецификациями. Я пока на первом этапе — выделение таблиц из чертежей.

Специфика документов

Технические чертежи в PDF (обычно сканы)
Таблицы-спецификации с заголовками: "Поз.", "Обозначение", "Наименование", "Кол."
Русские чертежные шрифты ГОСТ — основная проблема
Размер файлов: 2-10 МБ, многостраничные документы (10-50 страниц)
Качество сканирования часто оставляет желать лучшего

Текущая проблема
Пробовал Mistral OCR API для обработки всего PDF целиком:

ocr_response = client.ocr.process(<br>
    model="mistral-ocr-latest",<br>
    document={"type": "document_url", "document_url": pdf_url}<br>
)

Результат: Хорошо понимает структуру таблиц и возвращает markdown, но плохо распознает русские технические шрифты. Плюс обрабатывает весь чертеж (50 страниц), а мне нужны только 2-3 страницы со спецификациями.

Моя идея решения
Думаю о двухэтапном подходе:

Этап 1: Найти в PDF только страницы с таблицами-спецификациями (по ключевым словам "специф", "спецификация", анализу плотности линий и т.д.)
Этап 2: Вырезать найденные страницы и отправить только их в Mistral OCR

Преимущества такого подхода:

Обрабатываем 2-3 страницы вместо 50 — быстрее и дешевле
Меньше шума для OCR — только релевантный контент
Можно предобработать найденные страницы (улучшить контрастность, качество)
Mistral OCR сможет лучше сосредоточиться на таблицах

Примерный алгоритм

# Этап 1: Поиск страниц со спецификациями<br>
def find_specification_pages(pdf_bytes):<br>
    pages_with_specs = []<br>
    <br>
    # Поиск по ключевым словам<br>
    for page_num, page in enumerate(pdf_pages):<br>
        text = extract_text_from_page(page)<br>
        if any(keyword in text.lower() for keyword in ["специф", "спецификация", "поз.", "обозначение"]):<br>
            pages_with_specs.append(page_num)<br>
    <br>
    return pages_with_specs<br>
<br>
# Этап 2: Обработка найденных страниц через Mistral<br>
def process_specification_pages(pages):<br>
    for page in pages:<br>
        # Вырезаем страницу<br>
        page_pdf = extract_single_page(page)<br>
        <br>
        # Отправляем в Mistral OCR<br>
        result = mistral_ocr_process(page_pdf)<br>
        <br>
        # Обрабатываем результат<br>
        tables = extract_tables_from_markdown(result)

Вопросы к сообществу

Имеет ли смысл такой двухэтапный подход? Или лучше сразу весь PDF обрабатывать?
Какими инструментами лучше искать страницы с таблицами? PyMuPDF, PDFPlumber, или что-то еще?
Стоит ли предобрабатывать найденные страницы (повышение контрастности, бинаризация) перед отправкой в Mistral OCR?
Может, есть готовые решения для поиска таблиц в многостраничных PDF?

Ожидаемый результат
Получить таблицы-спецификации в структурированном виде (JSON/CSV/Excel) с корректно распознанными русскими наименованиями для дальнейшего создания смет.

Готов предоставить примеры проблемных файлов и более детальный код по запросу.

Буду благодарен за любые советы по реализации такого подхода!

Вопрос задан 23 июн.
430 просмотров

Комментировать

Подписаться Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Skillbox

Python-разработчик

10 месяцев

Далее
ProductStar

Профессия: Python-разработчик

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+2 ещё

Простой
Как получить доступ к элементам внутри shadow-root (closed)?
- 1 подписчик
- 09 дек.
- 100 просмотров
1

ответ
Python

+1 ещё

Простой
Как повысить читабельность кода?
- 1 подписчик
- 08 дек.
- 160 просмотров
0

ответов
Python

Простой
Как получить конкретный атрибут приложенный в обьект?
- 1 подписчик
- 28 нояб.
- 214 просмотров
1

ответ
Python

Простой
Как сохранить курсор в строке ввода при перезапуске explorer.exe?
- 1 подписчик
- 28 нояб.
- 142 просмотра
1

ответ
Python

Простой
Ошибка IndexError: string index out of range в написании реализации системы Линденмайера – от чего происходит и как исправить?
- 1 подписчик
- 27 нояб.
- 139 просмотров
1

ответ
Python

+1 ещё

Простой
Как сделать рассылку в viber в фоне?
- 1 подписчик
- 22 нояб.
- 106 просмотров
0

ответов
Python

Простой
Каким образом я могу запускать привязанных ботов в основном, что-бы основной loop не ломался и не дублировался?
- 1 подписчик
- 15 нояб.
- 253 просмотра
1

ответ
PHP

+2 ещё

Простой
Как сконвертировать файл в формате excel в pdf?
- 4 подписчика
- 14 нояб.
- 431 просмотр
4

ответа
Excel

+2 ещё

Простой
Как в Excel 2016 быстро, по всем ячейкам дописать нужные строки?
- 3 подписчика
- 14 нояб.
- 226 просмотров
4

ответа
Python

Простой
Почему конвертация .py файла в .exe с помощью auto-py-to-exe происходит аномально долго и как это исправить?
- 1 подписчик
- 08 нояб.
- 296 просмотров
1

ответ
Показать ещё Загружается…

Специалист по API и автоматизации данных (Google Apps Script / Python)

Агентство ШОЛЬЧЕВ

До 100 000 ₽

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python Software Engineer - ML/LLM

Ennabl • Лимассол

от 650 000 ₽

Answer 1 · 2025-06-23 13:25:18

Имхо без комбинации подходов ловить вообще нечего. Найди инструмент (и набор предобработок), который найдёт тебе разметку таблиц, выдерни содержимое отдельных ячеек, и подбирай предобработки+инструмент, который будет распознавать ячейки.

Answer 2 · 2025-06-23 17:53:01

Было дело работал с российскими нормативными документами гостами. По сталям и фиттингам для трубопроводов.

1. Качество pdf очень важная история. Если совсем плохое парсер не возьмет (нужно искать в интеренте) есть открытые нормативные базы.
2. парсеры (tabula, camelot) с множеством настроек, в зависимости от того, как настроишь зависит практически все.
3. Ну и pandas обе библиотеки вернут список с дата фреймами, где фрейм это каждая таблица. Обычно требует много пост процессинга, например две таблицы на странице а их конкатенировать одна на одну, таблицы имеют "многоуровневую шапку" column multi index на языке пандаса и т.д.

После пункта три, до желаемого результата одна строчка кода.

Извлечение таблиц со спецификациями из PDF чертежей металлоконструкций — решаемо? Или я встрял?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт