Библиотеки для преобразования PDF в HTML для .Net

Привествую всех!
Столкнулся с задачей: нужно вытянуть с определённого сайта множество pdf-файлов с таблицами и извлечь из них определённую информацию.
Раньше в подобных случаях пользовался библиотекой Apache PDFBox for .Net, она умеет конвертировать pdf в html, который уже можно распарсить регэкспами и вытянуть оттуда нужную инфу.
Однако в этот раз так легко сделать не получилось, то ли пдфки слишком хорошие, то ли ещё что, но html-код из них получается очень странный, в некоторых случаях парсить его практически невозможно.
Знаете ли вы аналоги PDFBox, которые можно попробовать использовать в .NET для такой задачи?
  • Вопрос задан
  • 2670 просмотров
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы