Есть ли какой нормальный конвертер pdf с таблицей в html, csv, объект?

Нужно получить из таблицы в pdf адекватные данные. При использовании https://github.com/mgufrone/pdf-to-html в некоторых случаях столбцы таблицы объединяются в один столбец, если текст в ячейке таблицы слева расположен сильно близко к тексту в ячейке таблицы справа.
Например, файл rupoisk.pro/78.pdf - строка таблицы с номером 85.
Текст из второго и третьего столбца объединяется в один тег при конвертации. И получается
<p style="position:absolute;top:257px;left:102px;white-space:nowrap" class="ft00">85</p>
<p style="position:absolute;top:257px;left:140px;white-space:nowrap" class="ft00">Серия, номер и дача выдачи свидетельства 64 002369255</p>

Хотя "Серия, номер и дача выдачи свидетельства" и "64 002369255" должны быть в разных тегах p. Нужен конвертер, работающий на linux, желательно на debian. Спасибо.
  • Вопрос задан
  • 54 просмотра
Пригласить эксперта
Ответы на вопрос 1
dyuriev
@dyuriev
A posteriori
Я устал отвечать на вопрос про парсинг PDF
Идеального варианта нет и не будет
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы
19 апр. 2024, в 03:52
1000 руб./за проект
19 апр. 2024, в 03:01
1000 руб./за проект
18 апр. 2024, в 21:56
2000 руб./за проект