Pdf достаточно сложная штука. Там несколько слоёв. В частности есть текстовый и графический. Текст может быть и там и там. В особо сложных случаях одновременно. Текстовый слой, конечно, хранит информацию о шрифтах. Не радномно же он выбирается. Текст с картинки распознать можно только с помощью ocr. Все известные мне решения с приемлемым качеством распознавания проприетарные.