Как быстро сравнить схожесть офисного файла со списком существующих?
Суть вопроса в следующем - есть база файлов офиса (doc, docx, ppt, pptx, xls, ..).
Как при добавлении нового файла на php проверить его существование в базе.
Имена файлов могут быть любыми.
Количество файлов в базе 1000-5000.
Из идей - переиндексировать существующую базу, получить какие ты хеши (какие лучше?) и сверять с хешами новых файлов. Минус метода- небольшие изменения приведут к смене хеша и соответственно дубликат проверку пройдет.