Задать вопрос

Библиотеки для преобразования PDF в HTML для .Net

Привествую всех!
Столкнулся с задачей: нужно вытянуть с определённого сайта множество pdf-файлов с таблицами и извлечь из них определённую информацию.
Раньше в подобных случаях пользовался библиотекой Apache PDFBox for .Net, она умеет конвертировать pdf в html, который уже можно распарсить регэкспами и вытянуть оттуда нужную инфу.
Однако в этот раз так легко сделать не получилось, то ли пдфки слишком хорошие, то ли ещё что, но html-код из них получается очень странный, в некоторых случаях парсить его практически невозможно.
Знаете ли вы аналоги PDFBox, которые можно попробовать использовать в .NET для такой задачи?
  • Вопрос задан
  • 2671 просмотр
Подписаться 3 Оценить 1 комментарий
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы
18 дек. 2024, в 11:03
5000 руб./за проект
18 дек. 2024, в 10:44
130000 руб./за проект
18 дек. 2024, в 10:02
7000 руб./за проект