Задать вопрос

Библиотеки для преобразования PDF в HTML для .Net

Привествую всех!
Столкнулся с задачей: нужно вытянуть с определённого сайта множество pdf-файлов с таблицами и извлечь из них определённую информацию.
Раньше в подобных случаях пользовался библиотекой Apache PDFBox for .Net, она умеет конвертировать pdf в html, который уже можно распарсить регэкспами и вытянуть оттуда нужную инфу.
Однако в этот раз так легко сделать не получилось, то ли пдфки слишком хорошие, то ли ещё что, но html-код из них получается очень странный, в некоторых случаях парсить его практически невозможно.
Знаете ли вы аналоги PDFBox, которые можно попробовать использовать в .NET для такой задачи?
  • Вопрос задан
  • 2675 просмотров
Подписаться 3 Оценить 1 комментарий
Помогут разобраться в теме Все курсы
  • Нетология
    Веб-разработчик с нуля: профессия с выбором специализации
    14 месяцев
    Далее
  • Академия Эдюсон
    Frontend-разработчик: тариф PRO
    10 месяцев
    Далее
  • ProductStar × РБК
    Профессия: Инженер по тестированию
    6 месяцев
    Далее
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы