Здравствуйте!
Стоит задача конвертировать pdf на сервере в html.
Нашел pdf2htmlEX, но он генерит в css файл, кучу не нужного и тем самым не подходит.
Есть еще какие нибудь библиотеки или онлайн сервисы?
PDF, по природе своей, сильно отличается в смысле разметки и структуры документа от HTML. Так что красиво сконвертировать его в HTML напрямую - практически невозможно, особенно при некоторых настройках экспорта при генерации самого PDF. Можно попытаться оптимизировать и "почистить" HTML на выходе, но с риском все испортить. Иногда, внезапно, лучший результат дают системы оптического распознавания текстов - они могут быть более успешны в части разбиения текста на абзацы вместо тупого конвертирования текстовых блоков построчно (как они хранятся в PDF).