Возможно ли программно определить шрифт текста в pdf?
Хочу попробовать перевести книгу с помощью гугл переводчика , в последнее время он стал переводить очень даже не худо! Как все мы знаем в книгах обычный текст отличается от всего (идентификаторов, кода, терминов...) определенным шрифтом.
Так вот я подумал почему бы не переводить книги ? Выбор ЯП разнится между C и Py
Если у кого есть мысли по данному поводу, вы очень поможете в продвижении вопроса)
Pdf достаточно сложная штука. Там несколько слоёв. В частности есть текстовый и графический. Текст может быть и там и там. В особо сложных случаях одновременно. Текстовый слой, конечно, хранит информацию о шрифтах. Не радномно же он выбирается. Текст с картинки распознать можно только с помощью ocr. Все известные мне решения с приемлемым качеством распознавания проприетарные.