Есть ли какой нормальный конвертер pdf с таблицей в html, csv, объект?

Нужно получить из таблицы в pdf адекватные данные. При использовании https://github.com/mgufrone/pdf-to-html в некоторых случаях столбцы таблицы объединяются в один столбец, если текст в ячейке таблицы слева расположен сильно близко к тексту в ячейке таблицы справа.
Например, файл rupoisk.pro/78.pdf - строка таблицы с номером 85.
Текст из второго и третьего столбца объединяется в один тег при конвертации. И получается
<p style="position:absolute;top:257px;left:102px;white-space:nowrap" class="ft00">85</p>
<p style="position:absolute;top:257px;left:140px;white-space:nowrap" class="ft00">Серия, номер и дача выдачи свидетельства 64 002369255</p>

Хотя "Серия, номер и дача выдачи свидетельства" и "64 002369255" должны быть в разных тегах p. Нужен конвертер, работающий на linux, желательно на debian. Спасибо.
  • Вопрос задан
  • 28 просмотров
Пригласить эксперта
Ответы на вопрос 1
dyuriev
@dyuriev
A posteriori
Я устал отвечать на вопрос про парсинг PDF
Идеального варианта нет и не будет
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы