Библиотеки для преобразования PDF в HTML для .Net

Привествую всех!
Столкнулся с задачей: нужно вытянуть с определённого сайта множество pdf-файлов с таблицами и извлечь из них определённую информацию.
Раньше в подобных случаях пользовался библиотекой Apache PDFBox for .Net, она умеет конвертировать pdf в html, который уже можно распарсить регэкспами и вытянуть оттуда нужную инфу.
Однако в этот раз так легко сделать не получилось, то ли пдфки слишком хорошие, то ли ещё что, но html-код из них получается очень странный, в некоторых случаях парсить его практически невозможно.
Знаете ли вы аналоги PDFBox, которые можно попробовать использовать в .NET для такой задачи?

Вопрос задан более трёх лет назад
2677 просмотров

1 комментарий

Подписаться 3 Оценить 1 комментарий

Помогут разобраться в теме Все курсы

Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее
Академия Эдюсон

Frontend-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Инженер по тестированию + ИИ

6 месяцев

Далее

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

HTML

+2 ещё

Простой
Как запретить формирования ссылок вида /tel:?
- 2 подписчика
- 01 июл.
- 292 просмотра
3

ответа
HTML

+1 ещё

Средний
Как выставить элементу ширину по содержимому при переносах?
- 1 подписчик
- 30 июн.
- 167 просмотров
1

ответ
HTML

+3 ещё

Средний
Как создать каркас верстки который будет считаться по высоте, а не по ширине?
- 4 подписчика
- 26 июн.
- 387 просмотров
4

ответа
JavaScript

+2 ещё

Простой
Не работает тень + слайдер, есть варианты?
- 2 подписчика
- 21 июн.
- 200 просмотров
1

ответ
HTML

+1 ещё

Простой
Как оформить так карточку типа бенто стиль?
- 1 подписчик
- 13 июн.
- 239 просмотров
3

ответа
HTML

+2 ещё

Простой
Как блок уведомлений поднять выше dialog?
- 2 подписчика
- 21 мая
- 197 просмотров
2

ответа
HTML

+1 ещё

Простой
Как свг заменить на фон?
- 1 подписчик
- 08 мая
- 299 просмотров
1

ответ
HTML

+1 ещё

Простой
Чем препроцессить в HTML сокращения?
- 2 подписчика
- 04 мая
- 354 просмотра
1

ответ
JavaScript

+1 ещё

Простой
Почему у поля input атрибут required не срабатывает?
- 2 подписчика
- 01 мая
- 392 просмотра
2

ответа
JavaScript

+1 ещё

Простой
Как обновлять данные массива, чтобы по нажатию на кнопку на странице добавлялся еще один элемент массива?
- 3 подписчика
- 12 апр.
- 771 просмотр
4

ответа
Показать ещё Загружается…

Библиотеки для преобразования PDF в HTML для .Net

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт