@Don_Sudak

Как получить из pdf файла информацию о character spacing и word spacing?

Использовал Pymupdf столкнулся с проблемой получения информации о тексте в пдф файле
Спросил в дискорд канале библиотеки о возможности получения информации об интервалах, но мне ответили что библиотека не умеет работать с ними
Возможно есть другие бибилиотеки, которые могут это?
P.S. Пытался посмотреть в других библиотеках но не нашёл. Возможно что-то пропустил....
  • Вопрос задан
  • 88 просмотров
Пригласить эксперта
Ответы на вопрос 2
Adamos
@Adamos
Задумался, есть ли в языке Postscript, лежащем в основе PDF, вообще команды разбивки букв и слов.
Проверил, таки есть: ashow и widthshow соответственно.
Так что теоретически можно конвертировать PDF обратно в PS и просто прочитать значения перед нужной командой.
Но не факт, что та программа, которая создавала PDF, использовала эти команды, а не просто раскидала глифы / слова по отдельным выводам с точными координатами.
Ответ написан
Комментировать
mayton2019
@mayton2019
Bigdata Engineer
Судя по описанию Pymupdf (Python) использует MuPdf (C) https://mupdf.com/ следовательно все ответы на вопросы надо искать там.

Сам вопрос звучит странно
character spacing и word spacing

автор хочет узнать из PDF документа есть ли информация о межбуквенном расстоянии прочее.

Это расстояние может быть не свойством документа а неким дефолтным свойством шрифта например.
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы
23 апр. 2024, в 20:08
400000 руб./за проект
23 апр. 2024, в 19:21
300 руб./за проект
23 апр. 2024, в 19:05
15000 руб./за проект