Есть микросервис на node.
На вход поступает pdf файл, из которого мне нужно достать следующую информацию:
- фио пользователя
- наименование компании
- некие числа, показатели
Pdf файлы не стандартизированы, могут иметь разную верстку, в зависимости от компании.
На данный момент,, предполагаю сделать это так:
1-> Валидируем по типу, файл должен быть pdf и тд
2-> Обрезаем шапку с помощью puppeteer, мы должны достать логотип компании
3-> Определяем наименовании компании с помощью tesseractjs
4-> Парсим все данные из pdf подготавливаем строку с помощью pdfjs-dist
5 -> На основании результата парсинга наименования компании(3) переходим в определенную стратегию по поиску в тексте(4) нужной информации с помощью регулярных выражений.
6 -> Возвращаем наименование компании, фио пользователя, некие числа
По наблюдениям, наименование компании может не встретиться в pdf файле, поэтому определять хочу по логотипу.
Алгоритм выше, выглядит сложно, как можно реализовать это проще?
Есть возможность написать на другом языке, golang/python. если это будет эффективнее.
Никак. С PDF все сложно у него нет стандартизированной структуры что бы можно было вытянуть данные. Если бы хотя бы были все варианты одного стиля тогда да а так врядле