Как достать необходимые мне данные из файла pdf?

Question

lookingfor2 @lookingfor2

Node.js

Как достать необходимые мне данные из файла pdf?

Есть микросервис на node.
На вход поступает pdf файл, из которого мне нужно достать следующую информацию:
- фио пользователя
- наименование компании
- некие числа, показатели

Pdf файлы не стандартизированы, могут иметь разную верстку, в зависимости от компании.
На данный момент,, предполагаю сделать это так:
1-> Валидируем по типу, файл должен быть pdf и тд
2-> Обрезаем шапку с помощью puppeteer, мы должны достать логотип компании
3-> Определяем наименовании компании с помощью tesseractjs
4-> Парсим все данные из pdf подготавливаем строку с помощью pdfjs-dist
5 -> На основании результата парсинга наименования компании(3) переходим в определенную стратегию по поиску в тексте(4) нужной информации с помощью регулярных выражений.
6 -> Возвращаем наименование компании, фио пользователя, некие числа

По наблюдениям, наименование компании может не встретиться в pdf файле, поэтому определять хочу по логотипу.

Алгоритм выше, выглядит сложно, как можно реализовать это проще?
Есть возможность написать на другом языке, golang/python. если это будет эффективнее.

Вопрос задан более двух лет назад
153 просмотра

Комментировать

Подписаться 1 Простой Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Бэкенд на Node.js для фронтенд-разработчиков

3 месяца

Далее
Skillbox

Node.js

2 месяца

Далее
Нетология

Node.js для backend-разработки

6 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

JavaScript

+1 ещё

Простой
Как идентифицировать проксированные ошибки?
- 1 подписчик
- вчера
- 79 просмотров
1

ответ
Node.js

+1 ещё

Простой
Какие есть пакеты для генерации уникальных, числовых идентификаторов длиной 10 цифр?
- 1 подписчик
- 10 нояб.
- 288 просмотров
2

ответа
Node.js

+1 ещё

Простой
Перевод бэкенда с PHP на NodeJs?
- 1 подписчик
- 26 окт.
- 450 просмотров
3

ответа
Node.js

+4 ещё

Простой
Как решить ситуацию с импортом файлов во время сборки проекта?
- 1 подписчик
- 15 окт.
- 141 просмотр
0

ответов
Node.js

Средний
Как обойти «засыпание» хостинга для cron-задач Node Js приложения?
- 1 подписчик
- 17 сент.
- 133 просмотра
0

ответов
Node.js

Простой
Почему возникает ошибка при загрузке csv?
- 1 подписчик
- 10 сент.
- 100 просмотров
2

ответа
Node.js

+4 ещё

Простой
В чем разница между selenium, playwright и puppeteer?
- 3 подписчика
- 09 сент.
- 304 просмотра
2

ответа
Node.js

+1 ещё

Простой
NODE.JS – парсинг контента. При скачивании изображений получаю битые файлы. Как поправить?
- 1 подписчик
- 08 сент.
- 141 просмотр
1

ответ
Node.js

+3 ещё

Сложный
Как считывать данные с принтеров Canon?
- 2 подписчика
- 04 сент.
- 300 просмотров
1

ответ
JavaScript

+1 ещё

Простой
Почему не работает прокси в Axios на Electon JS (в файле preload.js)?
- 1 подписчик
- 04 сент.
- 86 просмотров
0

ответов
Показать ещё Загружается…

Node.js backend разработчик (Middle+/Senior)

DataLouna

от 250 000 до 350 000 ₽

Senior full stack node.js , react

Jiffy

от 2 000 до 3 000 $

Node.js разработчик (middle+/senior)

STARVELL

от 250 000 до 280 000 ₽

Answer 1 · 2023-03-06 15:14:59

Никак. С PDF все сложно у него нет стандартизированной структуры что бы можно было вытянуть данные. Если бы хотя бы были все варианты одного стиля тогда да а так врядле

Как достать необходимые мне данные из файла pdf?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт