Распознавание таблиц и текстов, какие технологии могут это реализовать?
Здравствуйте! На работе приходится работать с большим количеством бумаги, анализировать таблицы с данными по 20-30 страниц. Решил упростить задачу, фоткать страницы и через FineReader переносить их в Excel. На деле FineReader ужасно распознает таблицы, да и текст с цифрами. Корректировать все баги отнимает очень много времени, быстрее все в ручную переписать получается.
Какие есть варианты упрощение такой задачи? С фото - в --> excel в форме таблиц. Может готовые решения? или подходящие технологии? или языки программирования, библиотеки?
Для "таблиц", точнее заполненных "форм" (заполненные бумажные бланки, их фотографии - джипеги, тиффы, pdf-ки являющиеся картинкой, а не текстом), есть специальная "надстройка" - FineReader Forms... Поискал, бардак :(. Теперь это в разных редакциях и называется по разному, но вот, для понимания.
Ezhyg, почитал и как понял это создание шаблонов областей для таблицы. К сожалению на практике если фоткать по 20 страниц, то линия страниц не получаются прямыми что вызывает очередные трудности.
ProgerFromGod, там границы определяются автоматически и изображение поворачивается автоматически (ну или вручную). Во всяком случае так было раньше, не думаю, что стало хуже.