Делали как-то простой поиск по pdf. Конвертили pdf2xml, потом тупо искали по xml.
В вашем случае, думаю, это мало поможет, потому что верстка от страницы к странице отличается, а в xml пишутся текстовые блоки с координатами расположения текста и непосредственно текстом. То есть структурированные данные получить едва ли удастся.