Что лучше зоопарк или VLM для извлечения данных из ЖД накладных (грязные сканы, печати, рукопись)?

Question

potioN @potioN

Что лучше зоопарк или VLM для извлечения данных из ЖД накладных (грязные сканы, печати, рукопись)?

Всем доброго времени суток.

Пытаюсь помочь коллегам и убрать обезьянью работу по ручному извлечению данных из PDF.
Документ: Импортная накладная. Внутри намешано всё подряд: печатный текст + рукописные поля + печати/штампы.
Что конкретно происходит:
Номер накладной, станция отправления и станция прибытия пропечатаны текстом. Но на них периодически попадают печати. Для человека всё читаемо, но OCR начинает сходить с ума.
Номер вагона пишется от руки. Причём бывает так, что номер сначала пишут, потом зачеркивают и рядом пишут новый.
Дата подписания договора стоит внутри печати. Иногда её сложно разобрать даже человеку.
Номер транзитной декларации — это вообще главная головная боль. Часть номера — синяя печать, хвост — рукопись.
Хотелось бы максимально железобетонно извлекать хотя бы печатные данные, а если получится — то и остальные поля.
Вопрос к знающим: в какую сторону лучше двигаться?

Делать всё локально и модульно: детекция зон (yolo/analogue) + кропы + preprocessing/postprocessing + печатный OCR + отдельные маленькие опен-соурс модели под рукописные поля (HTR), которые при необходимости дообучить.

или

Поднимать где-нибудь VM (например в Google Cloud) и пробовать использовать какую-нибудь мощную VLM/LLM-модель для извлечения данных из сканов.
Отдельный важный фактор: утечка данных/сущностей, которую хотелось бы минимизировать (поэтому условные внешние API типа Google Vision / Azure / Amazon Textract не очень хочется использовать), ну и в принципе возможность масштабирования не хотелось бы выбрасывать из проекта.

Буду благодарен за любые советы, кейсы и рекомендации (модели/инструменты/архитектура).

Вопрос задан 5 часов назад
40 просмотров

Комментировать

Подписаться 4 Средний Комментировать

Помогут разобраться в теме Все курсы

Нетология

Специалист по искусственному интеллекту

11 месяцев

Далее
Академия Eduson

Machine Learning

7 месяцев

Далее
Skillbox

Нейросети. Практический курс

3 месяца

Далее

Пригласить эксперта

Ответы на вопрос 2

1 комментарий

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Google

+2 ещё

Средний
Gemini не поддерживается в рабочем профиле android, как исправить?
- 1 подписчик
- 02 февр.
- 94 просмотра
3

ответа
Искусственный интеллект

Простой
Есть ли альтернатива Gliner?
- 1 подписчик
- 28 янв.
- 111 просмотров
2

ответа
Android

+2 ещё

Средний
Visual studio code + AI агенты + Android = реализация?
- 3 подписчика
- 26 янв.
- 327 просмотров
1

ответ
Боты

+2 ещё

Простой
Как автоматизировать общение с рекрутером?
- 1 подписчик
- 25 янв.
- 219 просмотров
3

ответа
Искусственный интеллект

+1 ещё

Простой
Какие есть инструменты на основе генеративного ИИ для создания ассетов для игр на момент начала 2026 года?
- 2 подписчика
- 25 янв.
- 97 просмотров
1

ответ
Искусственный интеллект

Средний
Как собрать и картировать доступную информацию об истории создания и развития НИИ?
- 1 подписчик
- 23 янв.
- 99 просмотров
0

ответов
Карьера в IT

+1 ещё

Средний
С какой стороны подобраться к изучению программирования в области ИИ?
- 1 подписчик
- 23 янв.
- 445 просмотров
5

ответов
Google

+1 ещё

Простой
"gemini недоступен в вашем регионе", несмотря на то что полгода все работало?
- 3 подписчика
- 06 янв.
- 1628 просмотров
3

ответа
Искусственный интеллект

Простой
Что делать, если Claude Pro не правильно считает лимиты?
- 1 подписчик
- 06 янв.
- 218 просмотров
2

ответа
Показать ещё Загружается…

Flutter Developer

DevTeam.Space

от 1 500 до 3 000 $

Data Scientist / ML Engineer

Synapse AI • Москва

от 180 000 ₽

Мобильный разработчик (IOS, Android)

Товеко

До 150 000 ₽

Answer 1 · 2026-02-05 22:58:53

Осторожно, облачные llm могут быть не совместимы с правилами и законами, по которым у вас есть доступ к распознаваемым документам, т.е. их нельзя отдавать 'на лево'... только локальное распознавание, и вот тут начинаются проблемы, относительно терпимое качество не совместимо с русским (и как я вижу там у вас китайский плюс английский, и все это одновременно).

Ни один современный ИИ не сможет разобраться с этим документом с налета одним промптом... вам так или иначе понадобится сложный агент, в котором вы фактически будете закладывать все мыслимые особенности задачи.... очевидные вам но совершенное нет машине.

p.s. печати убираются фильтрами по цвету, OCR можно тюнить на используемые шрифты, рукописные тексты так же можно заложить в модель (это одна из первых задач при обучении нейронным сетям)... и да, просто не будет

p.p.s. не пытайтесь решить всю задачу целиком... заходите с другой стороны, решите сначала самые простые случаи, дайте человеку не результат, а инструмент, с помощью которого он ускорит свою работу (например интерфейс подразумевающий автоматическое распознование с обязательной проверкой).. собирайте данные, они вам понадобятся для обучения моделей и расширения функционала

Answer 2 · 2026-02-05 23:28:17

Заставить контрАгентов присылать нормальные документы.
Либо нанять человека который будет вручную это разгребать. судя по тому что даже вручную это сложно, никакая ИИ Вам не поможет

Что лучше зоопарк или VLM для извлечения данных из ЖД накладных (грязные сканы, печати, рукопись)?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт