Доброго, человеки.
Приколов в жизни разрабов хватает. Особенно с фантазиями заказчиков. Очередной такой прикол постиг и меня.
Есть каталог запчастей к строительной технике. В формате… PDF.
25 Gb файлов содержат взрыв-схемы, номера запчастей, названия и прочую нужную информацию. И нужно это превосходное количество перегнать в приемлемый формат БД. В данный момент SQL.
Я уверен, что есть текстовый формат. Но предоставлять его никто не будет. Конкуры и производитель в этом не заинтересованы. Всякие AutoCD зашиты в закрытый формат.
Подскажите самый короткий путь от PDF до SQL. Пока мне в голову лезет только PDF->XLSX->Parser->SQL
Но фиг его знает. Вдруг кто сталкивался.
Делали как-то простой поиск по pdf. Конвертили pdf2xml, потом тупо искали по xml.
В вашем случае, думаю, это мало поможет, потому что верстка от страницы к странице отличается, а в xml пишутся текстовые блоки с координатами расположения текста и непосредственно текстом. То есть структурированные данные получить едва ли удастся.