Everything_is_not_so_bad, WbICHA, в данный момент парсится построчно, проверяя текст и "(минимально) форматирование. Буквально что на какой строке. Выглядит ужасно, потому как при любом изменении документа концы с концами не свести.
WbICHA, есть документ, который содержит динамически изменяющиеся данные. Есть тест который проверяет документ на соответствие шаблону - строкам и регулярным выражениям там где информация меняется. В силу того что пдф не просто текст ,поддержание такой проверки довольно геморройный процесс. Думаю как можно оптимизировать.
В описании задачи довольно поверхностно описано и можно мало чего понять.
есть документ, который содержит динамически изменяющиеся данные. Есть тест который проверяет документ на соответствие шаблону - строкам и регулярным выражениям там где информация меняется. В силу того что пдф не просто текст ,поддержание такой проверки довольно геморройный процесс. Думаю как можно оптимизировать.
вот это уже ближе к делу. Что необходимо обнаружить? Извлечь данные кандидатов на подходящую должность?
WbICHA, есть массив, который содержит строки или регулярки, и функция которая парсит пдф, разделяя текст по символу новой строки. Далее перебором сравниваются строки из пдф с соответствующим по индексу значением из первого массива. Потому порядок важен. Не совсем представляю куда бежать чтобы привести все это в нормальное состояние.
Грубо говоря, в конечном итоге происходит что-то наподобие сравнения двух текстовых файлов?
Предположим, в двух PDF находятся распечатки исходного кода и нужно сравнить их?
Не хватит ли в данном случае что-то типа команды diff?
Kentavr16, а сами документы - это заранее сформированные отчеты, которые легко парсить или это случайный документ с непредсказуемыми вложениями/структурой?
Тебе не стоит так ставить вопрос. Если вы докатились до такого состояния что старые библиотеки
не могут то ищите "вне ноды". Решение с интеграцией например Python + Node может стоить вам
дешевле чем такой брейн-фак с старой библиотекой.
Кроме того, ты до сих пор не описал задание. Ты говоришь - "сравнение". Но что должно быть результатом
сравнения - люди в топике не понимают. Если true или false - то это будет одно решнеие. Легкое.
Если хочешь чтоб оно как diff показывало текст - то решение будет дорогим и трудным разработке.