@AbaGardon

Есть ли возможность прочитать таблицу из PDF и перенести в HTML, и как?

Есть задача перенести все таблицы которые есть в PDF файле на сайт чтобы было все на HTML таблицах.
Вопрос:
Есть ли возможность прочитать таблицу из PDF и перенести в HTML, и как ?
  • Вопрос задан
  • 165 просмотров
Пригласить эксперта
Ответы на вопрос 3
@Wentixon
С помощью скрипта на сервере. Погуглите pdf to html + ваш язык
Ответ написан
Moskus
@Moskus
PDF, как правило, не хранит структуру документа, это, по большей части, векторный графический формат, а не семантический. Потому, самый эффективный способ - распознавание через OCR. Всякого рода средства, которые пытаются извлекать таблицы просто на основании положения текста работают, конечно, быстрее, а результат дают хуже. Так что решайте, шашечки или ехать.
Ответ написан
Комментировать
A1ejandro
@A1ejandro
youtube блогер, ИТ-специалист
Нет, такого конвертера нет. Более того, некоторые PDF вообще являются сканами документов (картинками). Поэтому о каком универсальном конверторе может идти речь? Другое дело распознавание (OCR). В принципе это самое реалистичное, что вы можете использовать. Если же документ явно является оцифрованным (текст, векторная графика), то можно попробовать утянуть фрагментарно и вставить это куда-то с попыткой сохранения структуры. Но часто такие попытки оканчиваются неудачей. Хотя иногда не получается утянуть при использовании Acrobat Reader, но получаются при использовании Foxit Reader... Успехов.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы