Как обычно работают сервисы конвертирующие какие-нибудь pdf в docx?
Вижу, что открытых распространённых готовых решений для такой задачи не очень много и работают они через раз, в частности это headless libreoffice и pandoc. Оба меня не устраивают.
Чего нельзя сказать про сервисы которые делают это автоматически и что удивительно, таких сервисов довольно много и почти все на ура справляются с этой задачей, не уступая ни в качестве, ни в объёмах. Тут есть какой-то секрет? Они используют какое-то своё проприетарное ПО?
сергей кузьмин, libreoffice долго конвертирует и результат оказывается не таким как в исходном документе, таблицы съезжают. Pandoc также имеет недостаток в несоответствии результата исходному файлу.
сергей кузьмин, наверное, метрики шрифты и всё такое. Насколько знаю, нет ни одного способа исправить это или как-то подкорректировать. Разве у pdf не множество имплементаций каждая из которых разная, поэтому и тяжело это всё?
VladChekunov, у PDF нет "множества имплементаций", у нее есть четкий стандарт с вариантами, которые ориентированы на разное - потому что у типографий, библиотек и веба банально разные требования к документу. Ну, и ряд версий, в которых добавлялись плюшки по мере развития стандарта.
Задача же распознавания документа с неизвестно каким источником уверенно решается только методами эмпирического распознавания - как картинку файнридером. Потому что увидеть, что вот именно этот текст и эти линии - это таблица, человек может сразу, а читающий PDF компьютер - нет. Ну, и создать эти линии и этот текст именно на этих позициях можно сильно по-разному, закономерности не всегда прослеживаются. И легкие алгоритмы, пытающиеся просто угадать такие закономерности, будут закономерно давать неважные результаты.