Задать вопрос

Иван Иванов @romalu

pdf

PDF

Есть ли какой нормальный конвертер pdf с таблицей в html, csv, объект?

Нужно получить из таблицы в pdf адекватные данные. При использовании https://github.com/mgufrone/pdf-to-html в некоторых случаях столбцы таблицы объединяются в один столбец, если текст в ячейке таблицы слева расположен сильно близко к тексту в ячейке таблицы справа.
Например, файл rupoisk.pro/78.pdf - строка таблицы с номером 85.
Текст из второго и третьего столбца объединяется в один тег при конвертации. И получается

<p style="position:absolute;top:257px;left:102px;white-space:nowrap" class="ft00">85</p>
<p style="position:absolute;top:257px;left:140px;white-space:nowrap" class="ft00">Серия, номер и дача выдачи свидетельства 64 002369255</p>

Хотя "Серия, номер и дача выдачи свидетельства" и "64 002369255" должны быть в разных тегах p. Нужен конвертер, работающий на linux, желательно на debian. Спасибо.

Вопрос задан более трёх лет назад
65 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillfactory

DevOps-инженер

6 месяцев

Далее
Нетология

Python-разработчик с нуля

6 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

dyuriev

Денис Юрьев @dyuriev

A posteriori

Я устал отвечать на вопрос про парсинг PDF
Идеального варианта нет и не будет

Ответ написан более трёх лет назад

Комментировать

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PDF

+1 ещё

Простой
Как в PDF поставить штамп или сделать визуализацию ЭП при трехстороннем и более подписании?
- 2 подписчика
- 25 сент.
- 2291 просмотр
5

ответов
Windows

+4 ещё

Простой
Существует ли виртуальный PDF принтер со встроенным эффектом сканера?
- 4 подписчика
- 24 сент.
- 5590 просмотров
2

ответа
PDF

Простой
Есть ли альтернатива wkhtmltopdf?
- 1 подписчик
- 28 июл.
- 159 просмотров
2

ответа
Docker

+1 ещё

Простой
Как установить wkhtmltopdf на ларавель?
- 1 подписчик
- 28 июл.
- 145 просмотров
1

ответ
Python

+3 ещё

Простой
Извлечение таблиц со спецификациями из PDF чертежей металлоконструкций — решаемо? Или я встрял?
- нет подписчиков
- 23 июн.
- 403 просмотра
2

ответа
PDF

Простой
PDF Стилер (Или вредоносный код) возможно?
- 1 подписчик
- 06 июн.
- 179 просмотров
1

ответ
Программное обеспечение и интернет-сервисы

+2 ещё

Простой
Какое ПО может посчитать количество страниц PDF документов в папке?
- 1 подписчик
- 28 апр.
- 416 просмотров
3

ответа
SQL

+2 ещё

Простой
Как внести большое количество данных из Excel и pdf файла в БД?
- 2 подписчика
- 23 апр.
- 359 просмотров
3

ответа
Программное обеспечение и интернет-сервисы

+2 ещё

Простой
Есть ли простой способ правильно напечатать pdf в виде книжки, если у него по две страницы на листе?
- 2 подписчика
- 10 апр.
- 302 просмотра
2

ответа
Windows

+3 ещё

Простой
Как вытащить иконку pdf-файлов из MS Edge?
- 1 подписчик
- 31 мар.
- 209 просмотров
3

ответа
Показать ещё Загружается…

Intern Backend Developer (NestJS) One Day Offer

critica agency

До 50 000 ₽

РНР Developer

INFOTECH

от 250 000 до 300 000 ₽

Аналитик процессов (Битрикс, 1С, RPA)

Первый Бит • Челябинск

от 170 000 ₽