Привествую всех!
Столкнулся с задачей: нужно вытянуть с определённого сайта множество pdf-файлов с таблицами и извлечь из них определённую информацию.
Раньше в подобных случаях пользовался библиотекой Apache PDFBox for .Net, она умеет конвертировать pdf в html, который уже можно распарсить регэкспами и вытянуть оттуда нужную инфу.
Однако в этот раз так легко сделать не получилось, то ли пдфки слишком хорошие, то ли ещё что, но html-код из них получается очень странный, в некоторых случаях парсить его практически невозможно.
Знаете ли вы аналоги PDFBox, которые можно попробовать использовать в .NET для такой задачи?
Преобразования в HTML не знаю но во внутренностях PDF можно копаться с помощью sourceforge.net/projects/itextsharp/, возможно конвертация в HTML и не понадобится.