Как сравнить есть ли уже такой файл в базе или нет?

Question

AstonMartin @AstonMartin

Как сравнить есть ли уже такой файл в базе или нет?

Добрый день!

Помогите с задачей, пожалуйста.

Есть несколько сотен тысяч PDF файлов. Постоянно добавляются новые файлы и надо оперативно определять есть ли уже такой файл среди существующих или нет, с точностью совпадения, допустим в 99%. Поэтому по хэшам не подходит.

Как бы вы подошли к решению такой задачи? Какие есть готовые инструменты для этого? Идеально если под node.js

Вопрос задан более трёх лет назад
296 просмотров

3 комментария

Подписаться 2 Простой 3 комментария

Akina @Akina

с точностью совпадения, допустим в 99%. Поэтому по хэшам не подходит.
Вот как раз при высокой, но не 100% точности, сравнение хэшей подходит как нельзя лучше.

Или Вы неверно формулируете задачу. И Вам нужно контролировать не полное, а частичное совпадение файлов. Тогда задача вообще не решается - один и тот же файл можно сохранить в два настолько разных PDF... например, в одном текст будет картинкой, а в другом тот же текст, но обфуськанный кастомным внедрённым шрифтом.

Написано более трёх лет назад
AstonMartin @AstonMartin Автор вопроса

Akina, а как при не 100% точности подходит сравнение хэшей?
Их вся суть же в том, что при незначительном изменении файла хэш меняется полностью.

Думали еще из файлов выдирать контент, закидывать его в elasticsearch и потом для новых файлов по нему делать поиск. Если находятся данные с 99% совпадением, то считаем их одинаковыми.

Написано более трёх лет назад
Akina @Akina

а как при не 100% точности подходит сравнение хэшей?

Равенство хэшей не гарантирует равенства исходных объектов. Я имел в виду, что при равенстве хэшей без проверки самих файлов есть ненулевой шанс на коллизию.

Думали еще из файлов выдирать контент, закидывать его в elasticsearch и потом для новых файлов по нему делать поиск.
В описанных мной вариантах - в первом Вы вообще ничего не выдерете (если не прикрутите безошибочный OCR, которого не существует), во втором Вы получите малоосмысленный набор символов, пригодный только как упражнение на дешифровку многозначного подстановочного шифра (и его тоже проще распознать. чем дешифровать).

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Яндекс Практикум

Мидл фронтенд-разработчик

5 месяцев

Далее
Яндекс Практикум

Фулстек-разработчик

16 месяцев

Далее
Яндекс Практикум

Профессиональная вёрстка на HTML и CSS

3 месяца

Далее

Пригласить эксперта

Ответы на вопрос 4

4 комментария

AstonMartin @AstonMartin Автор вопроса

Да, про хэши конечно подумал.
Но файлы могут отличаться на чуть чуть. Поэтому и написал, чтобы можно было определять совпадение на 99%.
Типа как делают поисковые системы.

Написано более трёх лет назад
Довольный Айтишникъ @borisdenis

AstonMartin, Тогда, мне кажется, придется анализировать уже содержимое файла, привлекать к этому нейронные сети, чтоб узнать процент схожести. Посмотрим что ответят остальные, так как любопытно какие еще есть варианты.

Написано более трёх лет назад
AstonMartin @AstonMartin Автор вопроса

Довольный Жизнью, нейронные сети тут, по моему, ни при чем. Им же надо много образцов правильных решений.

Рассматриваем этот проект https://fusejs.io/ и эластик.

Написано более трёх лет назад
d'Ivan @2ord

Довольный Жизнью , это подходит для 100% совпадения. А у дубликаты документа с 99% совпадения не будут найдены.
Кроме того, для определения 100% совпадения вместо комбинации MD5 и SHA1 проще просто взять SHA-256/BLAKE2.

Написано более трёх лет назад

1 комментарий

2 комментария

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Алгоритмы

Средний
Как создать алгоритм для ракеты в игре?
- 2 подписчика
- 30 окт.
- 215 просмотров
1

ответ
Алгоритмы

Простой
Как решать алгоритмические хакатоны и учится?
- 1 подписчик
- 27 окт.
- 154 просмотра
2

ответа
Node.js

+1 ещё

Простой
Перевод бэкенда с PHP на NodeJs?
- 1 подписчик
- 26 окт.
- 411 просмотров
3

ответа
Node.js

+1 ещё

Простой
Можно ли настроить grafana на отображение логов как у меня в терминале?
- 1 подписчик
- 20 окт.
- 106 просмотров
0

ответов
Базы данных

+1 ещё

Простой
Как правильно реализовать обновление порядка (поле order) в бд?
- 1 подписчик
- 19 окт.
- 185 просмотров
2

ответа
Алгоритмы

Простой
Как открыть файл сжатый с помощью алгоритма Brotli на пк?
- 1 подписчик
- 19 окт.
- 155 просмотров
0

ответов
Node.js

+4 ещё

Простой
Как решить ситуацию с импортом файлов во время сборки проекта?
- 1 подписчик
- 15 окт.
- 131 просмотр
0

ответов
JavaScript

+2 ещё

Простой
Как решить задачку из контеста?
- 1 подписчик
- 13 окт.
- 265 просмотров
1

ответ
Алгоритмы

+1 ещё

Простой
Как отконвертировать 3D-меш в наклонные треугольники?
- 2 подписчика
- 02 окт.
- 163 просмотра
1

ответ
Node.js

Средний
Как обойти «засыпание» хостинга для cron-задач Node Js приложения?
- 1 подписчик
- 17 сент.
- 124 просмотра
0

ответов
Показать ещё Загружается…

Full-Stack Developer (Angular & Node.js / NestJS)

IT ATLAS • Лимассол

от 3 500 до 6 000 €

Tech Lead Vue Frontend

Icons8

от 350 000 ₽

Middle Fullstack Engineer

Asphera Technologies

от 60 000 ₽

с точностью совпадения, допустим в 99%. Поэтому по хэшам не подходит.
Вот как раз при высокой, но не 100% точности, сравнение хэшей подходит как нельзя лучше.

Или Вы неверно формулируете задачу. И Вам нужно контролировать не полное, а частичное совпадение файлов. Тогда задача вообще не решается - один и тот же файл можно сохранить в два настолько разных PDF... например, в одном текст будет картинкой, а в другом тот же текст, но обфуськанный кастомным внедрённым шрифтом.
Akina, а как при не 100% точности подходит сравнение хэшей?
Их вся суть же в том, что при незначительном изменении файла хэш меняется полностью.

Думали еще из файлов выдирать контент, закидывать его в elasticsearch и потом для новых файлов по нему делать поиск. Если находятся данные с 99% совпадением, то считаем их одинаковыми.
а как при не 100% точности подходит сравнение хэшей?

Равенство хэшей не гарантирует равенства исходных объектов. Я имел в виду, что при равенстве хэшей без проверки самих файлов есть ненулевой шанс на коллизию.

Думали еще из файлов выдирать контент, закидывать его в elasticsearch и потом для новых файлов по нему делать поиск.
В описанных мной вариантах - в первом Вы вообще ничего не выдерете (если не прикрутите безошибочный OCR, которого не существует), во втором Вы получите малоосмысленный набор символов, пригодный только как упражнение на дешифровку многозначного подстановочного шифра (и его тоже проще распознать. чем дешифровать).

Answer 1 · 2021-06-23 15:59:20

Вести базу MD5 и SHA1 хешей для всех файлов, при добавлении нового файла высчитываем для него эти хеши и смотрим по базе, нет ли у нас файла. у которого оба хеша совпали, если есть - значит такой файл уже загружен и можно его повторно не загружать.

Answer 2 · 2021-06-23 16:30:44

с точностью совпадения, допустим в 99%.

Вот посмотрите Как сравнить два текста в JS? . https://stackoverflow.com/questions/5042873/javasc...

Проверку на хеш в вашем случае тоже можно делать, т.к. pdf довольно редко редактируют и все передают одну и ту же книгу.

Есть несколько сотен тысяч PDF файлов.

Это реальная проблема или просто от нечего делать придумали? Слишком мало информации по самим документам. в некоторых сферах, где много типовых отчетов это обычное дело когда документ на 95% похож на другой, поменяться может например только одна цифра в дате, и такой документ нельзя будет отбраковывать. И из пдфа вы не всегда можете извлечь текст для сравнения. В общем довольно много подводных камней. Поэтому стоит более конкретно определиться с задачей.

upd: в общем есть еще такая особенность, что нужно правильно выбрать средство для извлечения текста, т.к. многие средства извлекают не всегда весь текст. Ну и еще интересно как быстро вы сравните 1 pdf со 200-300к других pdf, как по мне затраты на этот процесс будут слишком большими. Можно конечно сравнить только часть текста. Да кстати, извлечение текста из pdf медленный процесс, текст из некоторых страниц может извлекаться больше секунды на обычных процах (тестил на документах в 600-700 страниц), я пользовался только некоммерческими решениями, возможно вы найдете что-то быстрее, но парсить pdf вам придется явно не на ноде, т.к. это слишком медленно будет.

Answer 3 · 2021-06-23 16:46:53

Очевидно pdf -> картинка -> одна из множества технологий поиска по картинкам, на хабре полно статей.

Вот только сама задача - бред. PDF - это документ, документы имеют определённый формат и похожи друг на друга по умолчанию. Отличие документа от того же документа с подписью гендира технически - минимально, практически - абсолютно.

Так что выкиньте это из головы, и юзайте хэши.

Answer 4 · 2021-06-24 00:48:37

Можно использовать что-то наподобие перцептивного хэша, а для определения схожести между документом и набором других использовать поиск по СУБД при помощи расстояния Хэмминга.

По описанию задачи перекликается с вопросом Как сравниваются перцептивные хэши?

Как сравнить есть ли уже такой файл в базе или нет?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт