Как сравнить есть ли уже такой файл в базе или нет?

Question

AstonMartin @AstonMartin

Как сравнить есть ли уже такой файл в базе или нет?

Добрый день!

Помогите с задачей, пожалуйста.

Есть несколько сотен тысяч PDF файлов. Постоянно добавляются новые файлы и надо оперативно определять есть ли уже такой файл среди существующих или нет, с точностью совпадения, допустим в 99%. Поэтому по хэшам не подходит.

Как бы вы подошли к решению такой задачи? Какие есть готовые инструменты для этого? Идеально если под node.js

Вопрос задан более трёх лет назад
304 просмотра

3 комментария

Подписаться 2 Простой 3 комментария

Akina @Akina

с точностью совпадения, допустим в 99%. Поэтому по хэшам не подходит.
Вот как раз при высокой, но не 100% точности, сравнение хэшей подходит как нельзя лучше.

Или Вы неверно формулируете задачу. И Вам нужно контролировать не полное, а частичное совпадение файлов. Тогда задача вообще не решается - один и тот же файл можно сохранить в два настолько разных PDF... например, в одном текст будет картинкой, а в другом тот же текст, но обфуськанный кастомным внедрённым шрифтом.

Написано более трёх лет назад
AstonMartin @AstonMartin Автор вопроса

Akina, а как при не 100% точности подходит сравнение хэшей?
Их вся суть же в том, что при незначительном изменении файла хэш меняется полностью.

Думали еще из файлов выдирать контент, закидывать его в elasticsearch и потом для новых файлов по нему делать поиск. Если находятся данные с 99% совпадением, то считаем их одинаковыми.

Написано более трёх лет назад
Akina @Akina

а как при не 100% точности подходит сравнение хэшей?

Равенство хэшей не гарантирует равенства исходных объектов. Я имел в виду, что при равенстве хэшей без проверки самих файлов есть ненулевой шанс на коллизию.

Думали еще из файлов выдирать контент, закидывать его в elasticsearch и потом для новых файлов по нему делать поиск.
В описанных мной вариантах - в первом Вы вообще ничего не выдерете (если не прикрутите безошибочный OCR, которого не существует), во втором Вы получите малоосмысленный набор символов, пригодный только как упражнение на дешифровку многозначного подстановочного шифра (и его тоже проще распознать. чем дешифровать).

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Node.js для backend-разработки

6 месяцев

Далее
Академия Эдюсон

Node.js-разработчик

8 месяцев

Далее
ProductStar × РБК

Профессия: Frontend-разработчик + ИИ

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 4

4 комментария

AstonMartin @AstonMartin Автор вопроса

Да, про хэши конечно подумал.
Но файлы могут отличаться на чуть чуть. Поэтому и написал, чтобы можно было определять совпадение на 99%.
Типа как делают поисковые системы.

Написано более трёх лет назад
Довольный Айтишникъ @borisdenis

AstonMartin, Тогда, мне кажется, придется анализировать уже содержимое файла, привлекать к этому нейронные сети, чтоб узнать процент схожести. Посмотрим что ответят остальные, так как любопытно какие еще есть варианты.

Написано более трёх лет назад
AstonMartin @AstonMartin Автор вопроса

Довольный Жизнью, нейронные сети тут, по моему, ни при чем. Им же надо много образцов правильных решений.

Рассматриваем этот проект https://fusejs.io/ и эластик.

Написано более трёх лет назад
d'Ivan @2ord

Довольный Жизнью , это подходит для 100% совпадения. А у дубликаты документа с 99% совпадения не будут найдены.
Кроме того, для определения 100% совпадения вместо комбинации MD5 и SHA1 проще просто взять SHA-256/BLAKE2.

Написано более трёх лет назад

1 комментарий

2 комментария

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Алгоритмы

Простой
Как реализовать поиск слов в файлах?
- 2 подписчика
- 06 апр.
- 332 просмотра
3

ответа
Node.js

Простой
Как решить данную ошибку?
- 2 подписчика
- 20 мар.
- 283 просмотра
1

ответ
Алгоритмы

Простой
Как распознавать полосу для робота на шахматной доске?
- 1 подписчик
- 19 мар.
- 195 просмотров
1

ответ
MySQL

+1 ещё

Простой
Как удалить число содержащееся в ячейке таблицы бд Mysql среди чисел через запятую, если таких чисел 2 или более удалить только первое найденое?
- 1 подписчик
- 19 февр.
- 227 просмотров
1

ответ
Алгоритмы

Простой
Какие данные берет функция для генерации случайного числа?
- 1 подписчик
- 18 февр.
- 251 просмотр
4

ответа
JavaScript

+1 ещё

Простой
Как правильно сделать запрос на страницу для получения данных не по апи?
- 1 подписчик
- 12 февр.
- 271 просмотр
2

ответа
C++

+1 ещё

Простой
Почему не решает задачу?
- 1 подписчик
- 05 февр.
- 405 просмотров
1

ответ
Node.js

+2 ещё

Средний
Как правильно поставить Newman + Allure reporter через nvm, чтобы не ловить EACCES и «could not find allure»?
- нет подписчиков
- 23 янв.
- 95 просмотров
0

ответов
Node.js

Простой
Почему на vps с pm2 сбрасывается server.js?
- 1 подписчик
- 16 янв.
- 140 просмотров
1

ответ
Node.js

+1 ещё

Простой
Можно ли получить ссылку на профиль пользователя по id?
- 1 подписчик
- 04 янв.
- 537 просмотров
2

ответа
Показать ещё Загружается…

с точностью совпадения, допустим в 99%. Поэтому по хэшам не подходит.
Вот как раз при высокой, но не 100% точности, сравнение хэшей подходит как нельзя лучше.

Или Вы неверно формулируете задачу. И Вам нужно контролировать не полное, а частичное совпадение файлов. Тогда задача вообще не решается - один и тот же файл можно сохранить в два настолько разных PDF... например, в одном текст будет картинкой, а в другом тот же текст, но обфуськанный кастомным внедрённым шрифтом.
Akina, а как при не 100% точности подходит сравнение хэшей?
Их вся суть же в том, что при незначительном изменении файла хэш меняется полностью.

Думали еще из файлов выдирать контент, закидывать его в elasticsearch и потом для новых файлов по нему делать поиск. Если находятся данные с 99% совпадением, то считаем их одинаковыми.
а как при не 100% точности подходит сравнение хэшей?

Равенство хэшей не гарантирует равенства исходных объектов. Я имел в виду, что при равенстве хэшей без проверки самих файлов есть ненулевой шанс на коллизию.

Думали еще из файлов выдирать контент, закидывать его в elasticsearch и потом для новых файлов по нему делать поиск.
В описанных мной вариантах - в первом Вы вообще ничего не выдерете (если не прикрутите безошибочный OCR, которого не существует), во втором Вы получите малоосмысленный набор символов, пригодный только как упражнение на дешифровку многозначного подстановочного шифра (и его тоже проще распознать. чем дешифровать).

Answer 1 · 2021-06-23 15:59:20

Вести базу MD5 и SHA1 хешей для всех файлов, при добавлении нового файла высчитываем для него эти хеши и смотрим по базе, нет ли у нас файла. у которого оба хеша совпали, если есть - значит такой файл уже загружен и можно его повторно не загружать.

Answer 2 · 2021-06-23 16:30:44

с точностью совпадения, допустим в 99%.

Вот посмотрите Как сравнить два текста в JS? . https://stackoverflow.com/questions/5042873/javasc...

Проверку на хеш в вашем случае тоже можно делать, т.к. pdf довольно редко редактируют и все передают одну и ту же книгу.

Есть несколько сотен тысяч PDF файлов.

Это реальная проблема или просто от нечего делать придумали? Слишком мало информации по самим документам. в некоторых сферах, где много типовых отчетов это обычное дело когда документ на 95% похож на другой, поменяться может например только одна цифра в дате, и такой документ нельзя будет отбраковывать. И из пдфа вы не всегда можете извлечь текст для сравнения. В общем довольно много подводных камней. Поэтому стоит более конкретно определиться с задачей.

upd: в общем есть еще такая особенность, что нужно правильно выбрать средство для извлечения текста, т.к. многие средства извлекают не всегда весь текст. Ну и еще интересно как быстро вы сравните 1 pdf со 200-300к других pdf, как по мне затраты на этот процесс будут слишком большими. Можно конечно сравнить только часть текста. Да кстати, извлечение текста из pdf медленный процесс, текст из некоторых страниц может извлекаться больше секунды на обычных процах (тестил на документах в 600-700 страниц), я пользовался только некоммерческими решениями, возможно вы найдете что-то быстрее, но парсить pdf вам придется явно не на ноде, т.к. это слишком медленно будет.

Answer 3 · 2021-06-23 16:46:53

Очевидно pdf -> картинка -> одна из множества технологий поиска по картинкам, на хабре полно статей.

Вот только сама задача - бред. PDF - это документ, документы имеют определённый формат и похожи друг на друга по умолчанию. Отличие документа от того же документа с подписью гендира технически - минимально, практически - абсолютно.

Так что выкиньте это из головы, и юзайте хэши.

Answer 4 · 2021-06-24 00:48:37

Можно использовать что-то наподобие перцептивного хэша, а для определения схожести между документом и набором других использовать поиск по СУБД при помощи расстояния Хэмминга.

По описанию задачи перекликается с вопросом Как сравниваются перцептивные хэши?

Как сравнить есть ли уже такой файл в базе или нет?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт