Задать вопрос

Иван Иванов @romalu

pdf

PDF

Есть ли какой нормальный конвертер pdf с таблицей в html, csv, объект?

Нужно получить из таблицы в pdf адекватные данные. При использовании https://github.com/mgufrone/pdf-to-html в некоторых случаях столбцы таблицы объединяются в один столбец, если текст в ячейке таблицы слева расположен сильно близко к тексту в ячейке таблицы справа.
Например, файл rupoisk.pro/78.pdf - строка таблицы с номером 85.
Текст из второго и третьего столбца объединяется в один тег при конвертации. И получается

<p style="position:absolute;top:257px;left:102px;white-space:nowrap" class="ft00">85</p>
<p style="position:absolute;top:257px;left:140px;white-space:nowrap" class="ft00">Серия, номер и дача выдачи свидетельства 64 002369255</p>

Хотя "Серия, номер и дача выдачи свидетельства" и "64 002369255" должны быть в разных тегах p. Нужен конвертер, работающий на linux, желательно на debian. Спасибо.

Вопрос задан более трёх лет назад
68 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

1С-программист

10 месяцев

Далее
Skillbox

Профессия 1C-разработчик

8 месяцев

Далее
Hi-TECH Academy

KL 004.2.4 Kaspersky SD-WAN

2 дня

Далее

Пригласить эксперта

Ответы на вопрос 1

dyuriev

Денис Юрьев @dyuriev

A posteriori

Я устал отвечать на вопрос про парсинг PDF
Идеального варианта нет и не будет

Ответ написан более трёх лет назад

Комментировать

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

+2 ещё

Простой
Как сконвертировать файл в формате excel в pdf?
- 4 подписчика
- 14 нояб.
- 448 просмотров
4

ответа
Python

+1 ещё

Простой
Как исправить проблему с Docling?
- 1 подписчик
- 28 окт.
- 182 просмотра
0

ответов
Windows

+1 ещё

Простой
Как вернуть встроенный предпросмотр PDF в Windows?
- 2 подписчика
- 25 окт.
- 2050 просмотров
3

ответа
PDF

+1 ещё

Простой
Как в PDF поставить штамп или сделать визуализацию ЭП при трехстороннем и более подписании?
- 2 подписчика
- 25 сент.
- 2494 просмотра
5

ответов
Windows

+4 ещё

Простой
Существует ли виртуальный PDF принтер со встроенным эффектом сканера?
- 4 подписчика
- 24 сент.
- 5650 просмотров
2

ответа
PDF

Простой
Есть ли альтернатива wkhtmltopdf?
- 1 подписчик
- 28 июл.
- 181 просмотр
2

ответа
Docker

+1 ещё

Простой
Как установить wkhtmltopdf на ларавель?
- 1 подписчик
- 28 июл.
- 163 просмотра
1

ответ
Python

+3 ещё

Простой
Извлечение таблиц со спецификациями из PDF чертежей металлоконструкций — решаемо? Или я встрял?
- нет подписчиков
- 23 июн.
- 432 просмотра
2

ответа
PDF

Простой
PDF Стилер (Или вредоносный код) возможно?
- 1 подписчик
- 06 июн.
- 198 просмотров
1

ответ
Программное обеспечение и интернет-сервисы

+2 ещё

Простой
Какое ПО может посчитать количество страниц PDF документов в папке?
- 1 подписчик
- 28 апр.
- 446 просмотров
3

ответа
Показать ещё Загружается…

Графический дизайнер

Estate Barcelona

от 100 до 200 €

Junior Backend Developer (NestJS) One Day Offer

critica agency

До 50 000 ₽

Python Developer

DevTeam.Space • Москва

от 1 500 до 3 000 $