Как обычно работают сервисы конвертирующие какие-нибудь pdf в docx?

Question

VladChekunov @VladChekunov

Как обычно работают сервисы конвертирующие какие-нибудь pdf в docx?

Вижу, что открытых распространённых готовых решений для такой задачи не очень много и работают они через раз, в частности это headless libreoffice и pandoc. Оба меня не устраивают.

Чего нельзя сказать про сервисы которые делают это автоматически и что удивительно, таких сервисов довольно много и почти все на ура справляются с этой задачей, не уступая ни в качестве, ни в объёмах. Тут есть какой-то секрет? Они используют какое-то своё проприетарное ПО?

Вопрос задан более двух лет назад
144 просмотра

7 комментариев

Подписаться 1 Средний 7 комментариев

mayton2019 @mayton2019

Вряд-ли бесплатные сервисы будут качественно продавать услугу. Они - либо толкают свою
рекламу в виде водяного знака на пол-страницы.

Либо занимаются сбором сведений. Тоесть тупо шпионажем под прикрытием сервиса конвертации.

Написано более двух лет назад
сергей кузьмин @sergueik

Оба меня не устраивают. - чем ?

Написано более двух лет назад
VladChekunov @VladChekunov Автор вопроса

сергей кузьмин, libreoffice долго конвертирует и результат оказывается не таким как в исходном документе, таблицы съезжают. Pandoc также имеет недостаток в несоответствии результата исходному файлу.

Написано более двух лет назад
сергей кузьмин @sergueik

VladChekunov, долго включается ? фонты другие и метрики считаются неточно или вовсе набок ? пдфу как стандарту лет 30 и больше ... поскрипту точнее

Написано более двух лет назад
VladChekunov @VladChekunov Автор вопроса

сергей кузьмин, наверное, метрики шрифты и всё такое. Насколько знаю, нет ни одного способа исправить это или как-то подкорректировать. Разве у pdf не множество имплементаций каждая из которых разная, поэтому и тяжело это всё?

Написано более двух лет назад
сергей кузьмин @sergueik

зависит от задачи

грубо говоря количество колонок и столбцов как в оригинале и текст найден уже счастье

Написано более двух лет назад
Adamos @Adamos

VladChekunov, у PDF нет "множества имплементаций", у нее есть четкий стандарт с вариантами, которые ориентированы на разное - потому что у типографий, библиотек и веба банально разные требования к документу. Ну, и ряд версий, в которых добавлялись плюшки по мере развития стандарта.

Задача же распознавания документа с неизвестно каким источником уверенно решается только методами эмпирического распознавания - как картинку файнридером. Потому что увидеть, что вот именно этот текст и эти линии - это таблица, человек может сразу, а читающий PDF компьютер - нет. Ну, и создать эти линии и этот текст именно на этих позициях можно сильно по-разному, закономерности не всегда прослеживаются. И легкие алгоритмы, пытающиеся просто угадать такие закономерности, будут закономерно давать неважные результаты.

Написано более двух лет назад

Помогут разобраться в теме Все курсы

Учебный центр IBS

AL-1802 Администрирование Astra Linux Special Edition 1.8

2 недели

Далее
Skillbox

Linux для робототехников

3 месяца

Далее
Skillfactory

Профессия C++ разработчик

11 месяцев

Далее

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Linux

+2 ещё

Простой
В shinobi отображаются видео только за 24 часа, как увидеть все?
- 3 подписчика
- вчера
- 105 просмотров
0

ответов
Linux

+1 ещё

Средний
Почему не монтируются сетевые шары при VPN?
- 3 подписчика
- 23 нояб.
- 672 просмотра
1

ответ
Linux

+2 ещё

Средний
StrongSwan IKEv2/IPSec и fail2ban, как правильно настроить?
- 2 подписчика
- 22 нояб.
- 387 просмотров
0

ответов
Программное обеспечение и интернет-сервисы

+1 ещё

Простой
Какую нейронку с API (чтоб оплата принималась в рублях) выбрать?
- 3 подписчика
- 22 нояб.
- 323 просмотра
3

ответа
Программное обеспечение и интернет-сервисы

+1 ещё

Простой
Как убрать артефакты на скриншотах в ShareX?
- 1 подписчик
- 21 нояб.
- 60 просмотров
1

ответ
Программное обеспечение и интернет-сервисы

+1 ещё

Простой
Как проверить битые ссылки на YouTube канале?
- 1 подписчик
- 19 нояб.
- 108 просмотров
1

ответ
Linux

+2 ещё

Простой
Какие подходящие характеристики для VPN?
- 1 подписчик
- 19 нояб.
- 885 просмотров
3

ответа
Linux

Сложный
Как вылечить инфокиоск?
- 1 подписчик
- 19 нояб.
- 472 просмотра
1

ответ
Linux

+1 ещё

Простой
Какие есть простенькие скрипты «HTTP over Email», чтоб поставить у себя на серваке?
- 1 подписчик
- 14 нояб.
- 439 просмотров
1

ответ
Linux

+3 ещё

Простой
Fedora 6 как починить загрузчик grub?
- 2 подписчика
- 13 нояб.
- 244 просмотра
1

ответ
Показать ещё Загружается…

Linux Systems Engineer (Asterisk/SIP)

IT ATLAS • Москва

от 200 000 ₽

DevOps

IT ATLAS • Москва

от 200 000 до 250 000 ₽

Ведущий инженер-проектировщик линий электропередачи (ЛЭП)

ЭЛСИ Энергопроект • Новосибирск

от 121 000 ₽

Вряд-ли бесплатные сервисы будут качественно продавать услугу. Они - либо толкают свою
рекламу в виде водяного знака на пол-страницы.

Либо занимаются сбором сведений. Тоесть тупо шпионажем под прикрытием сервиса конвертации.
сергей кузьмин, libreoffice долго конвертирует и результат оказывается не таким как в исходном документе, таблицы съезжают. Pandoc также имеет недостаток в несоответствии результата исходному файлу.
VladChekunov, долго включается ? фонты другие и метрики считаются неточно или вовсе набок ? пдфу как стандарту лет 30 и больше ... поскрипту точнее
сергей кузьмин, наверное, метрики шрифты и всё такое. Насколько знаю, нет ни одного способа исправить это или как-то подкорректировать. Разве у pdf не множество имплементаций каждая из которых разная, поэтому и тяжело это всё?
зависит от задачи

грубо говоря количество колонок и столбцов как в оригинале и текст найден уже счастье
VladChekunov, у PDF нет "множества имплементаций", у нее есть четкий стандарт с вариантами, которые ориентированы на разное - потому что у типографий, библиотек и веба банально разные требования к документу. Ну, и ряд версий, в которых добавлялись плюшки по мере развития стандарта.

Задача же распознавания документа с неизвестно каким источником уверенно решается только методами эмпирического распознавания - как картинку файнридером. Потому что увидеть, что вот именно этот текст и эти линии - это таблица, человек может сразу, а читающий PDF компьютер - нет. Ну, и создать эти линии и этот текст именно на этих позициях можно сильно по-разному, закономерности не всегда прослеживаются. И легкие алгоритмы, пытающиеся просто угадать такие закономерности, будут закономерно давать неважные результаты.

Как обычно работают сервисы конвертирующие какие-нибудь pdf в docx?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт