Задать вопрос

Что лучше зоопарк или VLM для извлечения данных из ЖД накладных (грязные сканы, печати, рукопись)?

Всем доброго времени суток.

Пытаюсь помочь коллегам и убрать обезьянью работу по ручному извлечению данных из PDF.
Документ: Импортная накладная. Внутри намешано всё подряд: печатный текст + рукописные поля + печати/штампы.
Что конкретно происходит:
Номер накладной, станция отправления и станция прибытия пропечатаны текстом. Но на них периодически попадают печати. Для человека всё читаемо, но OCR начинает сходить с ума.
Номер вагона пишется от руки. Причём бывает так, что номер сначала пишут, потом зачеркивают и рядом пишут новый.
Дата подписания договора стоит внутри печати. Иногда её сложно разобрать даже человеку.
Номер транзитной декларации — это вообще главная головная боль. Часть номера — синяя печать, хвост — рукопись.
Хотелось бы максимально железобетонно извлекать хотя бы печатные данные, а если получится — то и остальные поля.
Вопрос к знающим: в какую сторону лучше двигаться?

Делать всё локально и модульно: детекция зон (yolo/analogue) + кропы + preprocessing/postprocessing + печатный OCR + отдельные маленькие опен-соурс модели под рукописные поля (HTR), которые при необходимости дообучить.

или

Поднимать где-нибудь VM (например в Google Cloud) и пробовать использовать какую-нибудь мощную VLM/LLM-модель для извлечения данных из сканов.
Отдельный важный фактор: утечка данных/сущностей, которую хотелось бы минимизировать (поэтому условные внешние API типа Google Vision / Azure / Amazon Textract не очень хочется использовать), ну и в принципе возможность масштабирования не хотелось бы выбрасывать из проекта.

Буду благодарен за любые советы, кейсы и рекомендации (модели/инструменты/архитектура).

6984f186ea27a307958065.jpeg
  • Вопрос задан
  • 40 просмотров
Подписаться 4 Средний Комментировать
Помогут разобраться в теме Все курсы
  • Нетология
    Специалист по искусственному интеллекту
    11 месяцев
    Далее
  • Академия Eduson
    Machine Learning
    7 месяцев
    Далее
  • Skillbox
    Нейросети. Практический курс
    3 месяца
    Далее
Пригласить эксперта
Ответы на вопрос 2
@rPman
Осторожно, облачные llm могут быть не совместимы с правилами и законами, по которым у вас есть доступ к распознаваемым документам, т.е. их нельзя отдавать 'на лево'... только локальное распознавание, и вот тут начинаются проблемы, относительно терпимое качество не совместимо с русским (и как я вижу там у вас китайский плюс английский, и все это одновременно).

Ни один современный ИИ не сможет разобраться с этим документом с налета одним промптом... вам так или иначе понадобится сложный агент, в котором вы фактически будете закладывать все мыслимые особенности задачи.... очевидные вам но совершенное нет машине.

p.s. печати убираются фильтрами по цвету, OCR можно тюнить на используемые шрифты, рукописные тексты так же можно заложить в модель (это одна из первых задач при обучении нейронным сетям)... и да, просто не будет

p.p.s. не пытайтесь решить всю задачу целиком... заходите с другой стороны, решите сначала самые простые случаи, дайте человеку не результат, а инструмент, с помощью которого он ускорит свою работу (например интерфейс подразумевающий автоматическое распознование с обязательной проверкой).. собирайте данные, они вам понадобятся для обучения моделей и расширения функционала
Ответ написан
@Drno
Заставить контрАгентов присылать нормальные документы.
Либо нанять человека который будет вручную это разгребать. судя по тому что даже вручную это сложно, никакая ИИ Вам не поможет
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы