Задать вопрос
@Don_Sudak

Как получить из pdf файла информацию о character spacing и word spacing?

Использовал Pymupdf столкнулся с проблемой получения информации о тексте в пдф файле
Спросил в дискорд канале библиотеки о возможности получения информации об интервалах, но мне ответили что библиотека не умеет работать с ними
Возможно есть другие бибилиотеки, которые могут это?
P.S. Пытался посмотреть в других библиотеках но не нашёл. Возможно что-то пропустил....
  • Вопрос задан
  • 106 просмотров
Подписаться 1 Средний 1 комментарий
Пригласить эксперта
Ответы на вопрос 2
Adamos
@Adamos
Задумался, есть ли в языке Postscript, лежащем в основе PDF, вообще команды разбивки букв и слов.
Проверил, таки есть: ashow и widthshow соответственно.
Так что теоретически можно конвертировать PDF обратно в PS и просто прочитать значения перед нужной командой.
Но не факт, что та программа, которая создавала PDF, использовала эти команды, а не просто раскидала глифы / слова по отдельным выводам с точными координатами.
Ответ написан
Комментировать
mayton2019
@mayton2019
Bigdata Engineer
Судя по описанию Pymupdf (Python) использует MuPdf (C) https://mupdf.com/ следовательно все ответы на вопросы надо искать там.

Сам вопрос звучит странно
character spacing и word spacing

автор хочет узнать из PDF документа есть ли информация о межбуквенном расстоянии прочее.

Это расстояние может быть не свойством документа а неким дефолтным свойством шрифта например.
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы