Основные проблемы с PDF.
1. Там может быть текст, тогда есть много вариантов, а может быть картинка. Катринку, соответсвенно, какой-то распознавалкой.
2. Даже когда там текст, смысл PDF в показе картинки, поэтому слово может быть словом, может быть отдельными буквами, под видимым текстом может оказаться кусочек "ненужного" невидимого (лично нашел однажды!), который прочитается конвертером.