@lookingfor2

Как достать необходимые мне данные из файла pdf?

Есть микросервис на node.
На вход поступает pdf файл, из которого мне нужно достать следующую информацию:
- фио пользователя
- наименование компании
- некие числа, показатели

Pdf файлы не стандартизированы, могут иметь разную верстку, в зависимости от компании.
На данный момент,, предполагаю сделать это так:
1-> Валидируем по типу, файл должен быть pdf и тд
2-> Обрезаем шапку с помощью puppeteer, мы должны достать логотип компании
3-> Определяем наименовании компании с помощью tesseractjs
4-> Парсим все данные из pdf подготавливаем строку с помощью pdfjs-dist
5 -> На основании результата парсинга наименования компании(3) переходим в определенную стратегию по поиску в тексте(4) нужной информации с помощью регулярных выражений.
6 -> Возвращаем наименование компании, фио пользователя, некие числа

По наблюдениям, наименование компании может не встретиться в pdf файле, поэтому определять хочу по логотипу.

Алгоритм выше, выглядит сложно, как можно реализовать это проще?
Есть возможность написать на другом языке, golang/python. если это будет эффективнее.
  • Вопрос задан
  • 66 просмотров
Пригласить эксперта
Ответы на вопрос 1
@mr_Daniel_Khorn
Никак. С PDF все сложно у него нет стандартизированной структуры что бы можно было вытянуть данные. Если бы хотя бы были все варианты одного стиля тогда да а так врядле
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы