Есть ли хорошие библиотеки для сравнения pdf файлов?

Question

Kentavr16 @Kentavr16

long cold winter

Есть ли хорошие библиотеки для сравнения pdf файлов?

Сейчас для сравнения пдф-документов приходится его парсить и сравнивать построчно (код фактически легаси). Есть более адекватные решения для ноды?

Вопрос задан 02 июл.
233 просмотра

20 комментариев

Подписаться 2 Простой 20 комментариев

d'Ivan @2ord

Есть ли какой-то практический смысл в сравнении? Не достаточно ли определения разницы?

Написано 02 июл.
WbICHA @WblCHA

А задача какая? Сказать идентичны ли они? Если да, можешь хеш сравнить.

Написано 02 июл.
Kentavr16 @Kentavr16 Автор вопроса

Everything_is_not_so_bad, WbICHA, в данный момент парсится построчно, проверяя текст и "(минимально) форматирование. Буквально что на какой строке. Выглядит ужасно, потому как при любом изменении документа концы с концами не свести.

Написано 02 июл.
WbICHA @WblCHA

Kentavr16, ещё раз, напиши в чём конкретно заключается задача? Что значит "сравнение pdfилов"? Результат какой ты ждёшь?

Написано 02 июл.
Kentavr16 @Kentavr16 Автор вопроса

WbICHA, есть документ, который содержит динамически изменяющиеся данные. Есть тест который проверяет документ на соответствие шаблону - строкам и регулярным выражениям там где информация меняется. В силу того что пдф не просто текст ,поддержание такой проверки довольно геморройный процесс. Думаю как можно оптимизировать.

Написано 03 июл.
Kentavr16 @Kentavr16 Автор вопроса

WbICHA, по поводу логичности действий не спрашивайте - проверка есть,с этим остаётся пока только смириться. не я имплементровал.

Написано 03 июл.
WbICHA @WblCHA

Kentavr16, всё ещё непонятно. ОЦРом достаётся текст и проверяется регулярками? А месторасположение строк неважно?

Написано 03 июл.
d'Ivan @2ord

В описании задачи довольно поверхностно описано и можно мало чего понять.

есть документ, который содержит динамически изменяющиеся данные. Есть тест который проверяет документ на соответствие шаблону - строкам и регулярным выражениям там где информация меняется. В силу того что пдф не просто текст ,поддержание такой проверки довольно геморройный процесс. Думаю как можно оптимизировать.
вот это уже ближе к делу. Что необходимо обнаружить? Извлечь данные кандидатов на подходящую должность?

Написано 03 июл.
Kentavr16 @Kentavr16 Автор вопроса

WbICHA, есть массив, который содержит строки или регулярки, и функция которая парсит пдф, разделяя текст по символу новой строки. Далее перебором сравниваются строки из пдф с соответствующим по индексу значением из первого массива. Потому порядок важен. Не совсем представляю куда бежать чтобы привести все это в нормальное состояние.

Написано 03 июл.
d'Ivan @2ord

Грубо говоря, в конечном итоге происходит что-то наподобие сравнения двух текстовых файлов?
Предположим, в двух PDF находятся распечатки исходного кода и нужно сравнить их?
Не хватит ли в данном случае что-то типа команды diff?

Написано 03 июл.
WbICHA @WblCHA

Kentavr16, без примера невидно, чтобы что-то можно было поменять.

Написано 03 июл.
pfg21 @pfg21

Kentavr16, пдфка генерится програмно на основе каких-либо выгрузок или делается/редактируется человеком

Написано 03 июл.
calculator212 @calculator212

Kentavr16, а сами документы - это заранее сформированные отчеты, которые легко парсить или это случайный документ с непредсказуемыми вложениями/структурой?

Написано 03 июл.
mayton2019 @mayton2019

Есть более адекватные решения для ноды?

Тебе не стоит так ставить вопрос. Если вы докатились до такого состояния что старые библиотеки
не могут то ищите "вне ноды". Решение с интеграцией например Python + Node может стоить вам
дешевле чем такой брейн-фак с старой библиотекой.

Кроме того, ты до сих пор не описал задание. Ты говоришь - "сравнение". Но что должно быть результатом
сравнения - люди в топике не понимают. Если true или false - то это будет одно решнеие. Легкое.
Если хочешь чтоб оно как diff показывало текст - то решение будет дорогим и трудным разработке.

Написано 03 июл.
d'Ivan @2ord

Автор вопроса так и не смог четко формулировать задачу.

Написано 06 июл.
Kentavr16 @Kentavr16 Автор вопроса
Everything_is_not_so_bad, mayton2019, calculator212, pfg21, WbICHA, был занят.
Итак, вводные. Есть код написанный не мной. В нем перед автором поставили задачу - нужно проверять в автоматическом режиме пдф на соответствие теста в нем определенным критериям. При этом чтобы хоть немного проверялось форматирование - вторая строка не вылезала на четвертую и так далее.
Автор решил вопрос так - установил библиотеку pdf-parse, которая парсит документ (спасибо, кэп)) . В результате текст документа получаем как массив строк -

"string1", "string2", "string3".

Представим для наглядности, что в документе строка 1 и 2 - неизменяемы, а 3 - может заканчиваться на любые цифры. Наш анонимный автор для такого сравнения написал функцию, представлю в виде псевдокода -

const 1 = [ "string1", "string2", "string3" ]; const 2 = [ "string1", "string2", /^string\d$/ //возможно ошибся в регулярке)) ] if(1 > 2) ошибка - несовпадение длинны. Проверяем дальше. 2.forEach( если элемент строка - сравниваем с аналогичным (по индексу) элементом массива 1 если элемент регулярка - проверяем на регулярку ) выводим массив несовпадений

Вот и думаю есть ли поудобнее инструменты для подобных сравнений, или нужно переписывать код основываясь на том что есть. Надеюсь поток сознания хоть немного прояснил ситуацию.
Написано 11 июл.
WbICHA @WblCHA

Kentavr16, непонятно чти именно может быть удобнее, с учётом, что тебе всё равно надо будет сравнивать текст на полное и частичное совпадения.
Разве что можешь все строк заджойнить и написать один большой регексп.

Написано 11 июл.
WbICHA @WblCHA

Kentavr16, вообще, я тут подумал, а ты можешь валидировать этот массив валидатором, тем же zod, написав правило для каждого элемента массива.

Написано 11 июл.
Kentavr16 @Kentavr16 Автор вопроса

WbICHA, есть несколько мелких проблем. Кроме того что функция раздута и вплетена в логику другого функционала, она при условном добавлении одной строки по индексу 1 будет выдавать зафейленые проверки на каждую строку в документе, так как индексы съедут на 1 позицию. Если знаешь как это работает то ничего страшного, но не по фен-шую. Наверное придется дописывать/улучшать что есть.

Написано 12 июл.
WbICHA @WblCHA

Kentavr16, в таком кейсе ничего не сделать, в любом случае будет фейл. Разве что проверять на соответствие следующего паттерна, чтобы точнее место ошибки показать.

Написано 12 июл.

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Node.js

+1 ещё

Простой
Можно ли создавать и сохранять LaTeX-изображения в Node.js?
- 1 подписчик
- вчера
- 37 просмотров
2

ответа
Node.js

+2 ещё

Средний
Webstrom в меню настроек нет пункта node.js and NPM, как его добавить?
- 1 подписчик
- 19 дек.
- 43 просмотра
2

ответа
Node.js

+1 ещё

Простой
Почему не работает dark mode в tailwind?
- 2 подписчика
- 16 дек.
- 88 просмотров
1

ответ
Веб-разработка

+1 ещё

Простой
Есть ли аналог inertiajs на node.js для быстрой разработки web сервисов?
- 1 подписчик
- 11 дек.
- 97 просмотров
1

ответ
Боты

+1 ещё

Средний
Как отправить игре клики мыши и клавиатуры в неактивном режиме?
- 2 подписчика
- 11 дек.
- 96 просмотров
3

ответа
Node.js

Простой
Оптимален ли такой кастомный SSG на основе сборщика Vite?
- 1 подписчик
- 09 дек.
- 39 просмотров
0

ответов
JavaScript

+2 ещё

Простой
Как сделать общим хедер для всех страниц на express.js?
- 1 подписчик
- 08 дек.
- 93 просмотра
1

ответ
Node.js

+3 ещё

Средний
Как организовать паралельную и последовательную обработку задач по условиям?
- 1 подписчик
- 07 дек.
- 110 просмотров
0

ответов
JavaScript

+4 ещё

Простой
Как решить проблемы с линтингом в Vue 3 + TypeScript?
- 1 подписчик
- 06 дек.
- 90 просмотров
0

ответов
JavaScript

+3 ещё

Простой
Как правильно передать xpath в Cypress?
- 1 подписчик
- 03 дек.
- 27 просмотров
0

ответов
Показать ещё Загружается…

Разработчик Node.js (BackEnd) Middle +

Wanted.

от 250 000 до 330 000 ₽

Middle Backend Developer (Node.js)🔥

Fundraise Up

от 3 800 до 5 500 $

Node.js Backend разработчик (удаленно)

IT Force

от 180 000 до 660 000 ₽

Простое приложение на андроид

21 дек. 2024, в 18:06

3000 руб./за проект

Помочь с установкой Asterick

21 дек. 2024, в 16:56

180000 руб./за проект

Верстка по макету из Figma

21 дек. 2024, в 16:14

40000 руб./за проект

Есть ли какой-то практический смысл в сравнении? Не достаточно ли определения разницы?
А задача какая? Сказать идентичны ли они? Если да, можешь хеш сравнить.
Everything_is_not_so_bad, WbICHA, в данный момент парсится построчно, проверяя текст и "(минимально) форматирование. Буквально что на какой строке. Выглядит ужасно, потому как при любом изменении документа концы с концами не свести.
Kentavr16, ещё раз, напиши в чём конкретно заключается задача? Что значит "сравнение pdfилов"? Результат какой ты ждёшь?
WbICHA, есть документ, который содержит динамически изменяющиеся данные. Есть тест который проверяет документ на соответствие шаблону - строкам и регулярным выражениям там где информация меняется. В силу того что пдф не просто текст ,поддержание такой проверки довольно геморройный процесс. Думаю как можно оптимизировать.
WbICHA, по поводу логичности действий не спрашивайте - проверка есть,с этим остаётся пока только смириться. не я имплементровал.
Kentavr16, всё ещё непонятно. ОЦРом достаётся текст и проверяется регулярками? А месторасположение строк неважно?
В описании задачи довольно поверхностно описано и можно мало чего понять.

есть документ, который содержит динамически изменяющиеся данные. Есть тест который проверяет документ на соответствие шаблону - строкам и регулярным выражениям там где информация меняется. В силу того что пдф не просто текст ,поддержание такой проверки довольно геморройный процесс. Думаю как можно оптимизировать.
вот это уже ближе к делу. Что необходимо обнаружить? Извлечь данные кандидатов на подходящую должность?
WbICHA, есть массив, который содержит строки или регулярки, и функция которая парсит пдф, разделяя текст по символу новой строки. Далее перебором сравниваются строки из пдф с соответствующим по индексу значением из первого массива. Потому порядок важен. Не совсем представляю куда бежать чтобы привести все это в нормальное состояние.
Грубо говоря, в конечном итоге происходит что-то наподобие сравнения двух текстовых файлов?
Предположим, в двух PDF находятся распечатки исходного кода и нужно сравнить их?
Не хватит ли в данном случае что-то типа команды diff?
Kentavr16, без примера невидно, чтобы что-то можно было поменять.
Kentavr16, пдфка генерится програмно на основе каких-либо выгрузок или делается/редактируется человеком
Kentavr16, а сами документы - это заранее сформированные отчеты, которые легко парсить или это случайный документ с непредсказуемыми вложениями/структурой?
Есть более адекватные решения для ноды?

Тебе не стоит так ставить вопрос. Если вы докатились до такого состояния что старые библиотеки
не могут то ищите "вне ноды". Решение с интеграцией например Python + Node может стоить вам
дешевле чем такой брейн-фак с старой библиотекой.

Кроме того, ты до сих пор не описал задание. Ты говоришь - "сравнение". Но что должно быть результатом
сравнения - люди в топике не понимают. Если true или false - то это будет одно решнеие. Легкое.
Если хочешь чтоб оно как diff показывало текст - то решение будет дорогим и трудным разработке.
Автор вопроса так и не смог четко формулировать задачу.
Kentavr16, непонятно чти именно может быть удобнее, с учётом, что тебе всё равно надо будет сравнивать текст на полное и частичное совпадения.
Разве что можешь все строк заджойнить и написать один большой регексп.
Kentavr16, вообще, я тут подумал, а ты можешь валидировать этот массив валидатором, тем же zod, написав правило для каждого элемента массива.
WbICHA, есть несколько мелких проблем. Кроме того что функция раздута и вплетена в логику другого функционала, она при условном добавлении одной строки по индексу 1 будет выдавать зафейленые проверки на каждую строку в документе, так как индексы съедут на 1 позицию. Если знаешь как это работает то ничего страшного, но не по фен-шую. Наверное придется дописывать/улучшать что есть.
Kentavr16, в таком кейсе ничего не сделать, в любом случае будет фейл. Разве что проверять на соответствие следующего паттерна, чтобы точнее место ошибки показать.

Есть ли хорошие библиотеки для сравнения pdf файлов?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт