Автоматизированный перегон PDF в SQL

Question

AJ @2ball

Хардкор кодер

Автоматизированный перегон PDF в SQL

Доброго, человеки.
Приколов в жизни разрабов хватает. Особенно с фантазиями заказчиков. Очередной такой прикол постиг и меня.
Есть каталог запчастей к строительной технике. В формате… PDF.
25 Gb файлов содержат взрыв-схемы, номера запчастей, названия и прочую нужную информацию. И нужно это превосходное количество перегнать в приемлемый формат БД. В данный момент SQL.
Я уверен, что есть текстовый формат. Но предоставлять его никто не будет. Конкуры и производитель в этом не заинтересованы. Всякие AutoCD зашиты в закрытый формат.

Подскажите самый короткий путь от PDF до SQL. Пока мне в голову лезет только PDF->XLSX->Parser->SQL
Но фиг его знает. Вдруг кто сталкивался.

Заранее спасибо за ответы.

Вопрос задан более трёх лет назад
4729 просмотров

Комментировать

Подписаться 7 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее
ProductStar

Профессия: Web-разработчик

8 месяцев

Далее
Skillfactory

Профессия Веб-разработчик

12 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 4

1 комментарий

Комментировать

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Веб-разработка

Средний
Какие есть программы/инструменты для создания веб каталога запчастей?
- 3 подписчика
- 08 дек.
- 369 просмотров
3

ответа
Веб-разработка

Простой
Ограничение в РФ, как обойти и не потерять клиентов?
- 1 подписчик
- 08 дек.
- 363 просмотра
4

ответа
Парсинг

Простой
Видит ли администрация сайта сканирование,и можно ли скрыть?
- 1 подписчик
- 07 дек.
- 389 просмотров
2

ответа
SQL

Простой
Как получить последнюю запись для определённого поля?
- 1 подписчик
- 03 дек.
- 217 просмотров
2

ответа
JavaScript

+2 ещё

Простой
Элемент стилизации на js, как сделать чтобы не было резкой смены картинки фона?
- 1 подписчик
- 27 нояб.
- 215 просмотров
1

ответ
Парсинг

Средний
Вся сложность парсинга Авито. Как это сделать правильно?
- 1 подписчик
- 26 нояб.
- 270 просмотров
1

ответ
Веб-разработка

+1 ещё

Простой
Как включить ai ассистента в dev-tools в рф?
- 1 подписчик
- 25 нояб.
- 287 просмотров
0

ответов
Веб-разработка

+1 ещё

Простой
Подойдет ли desktop-ubuntu для разворачивания web- сервера?
- 2 подписчика
- 25 нояб.
- 636 просмотров
5

ответов
WordPress

+2 ещё

Простой
Как создать сайт с музыкой?
- 2 подписчика
- 24 нояб.
- 590 просмотров
5

ответов
Telegram

+1 ещё

Простой
Как спарсить подписчиков своего телеграм канала?
- 1 подписчик
- 20 нояб.
- 558 просмотров
2

ответа
Показать ещё Загружается…

Fullstack Next.js Cursor Developer

Nocodered

от 60 000 до 120 000 ₽

SEO-специалист (Сеть образовательных проектов)

Профессиональный Стандарт • Москва

До 100 000 ₽

PHP / WordPress разработчик ACF, Elementor (удаленный, свободный график)

Nomadic Soft

от 1 200 до 1 800 $

Answer 1 · 2012-12-20 10:14:52

Sergey @Ualde

Посмотрите, там близко к теме, особенно в комментах: habrahabr.ru/post/130601/

Ответ написан более трёх лет назад

1 комментарий

Answer 2 · 2012-12-20 11:51:22

Вот еще утилита для извлечения текста multivalent.sourceforge.net/Tools/ Кстати, и у ABBY есть утилита, которая может оказаться полезной

Честно говоря, PDF может быть таким хитро навороченным, что фиг из него чего достанешь в машинно читаемом виде

Answer 3 · 2012-12-21 14:21:14

Делали как-то простой поиск по pdf. Конвертили pdf2xml, потом тупо искали по xml.
В вашем случае, думаю, это мало поможет, потому что верстка от страницы к странице отличается, а в xml пишутся текстовые блоки с координатами расположения текста и непосредственно текстом. То есть структурированные данные получить едва ли удастся.

Answer 4 · 2012-12-21 16:47:55

Александр @akalend

программирую

PDF -> text -> parser -> sql

Ответ написан более трёх лет назад

1 комментарий

Автоматизированный перегон PDF в SQL

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт