Допустим один документ с подписью, а другой без. И надо признать их одинаковыми и не добавлять копию в базу.
а как при не 100% точности подходит сравнение хэшей?
Думали еще из файлов выдирать контент, закидывать его в elasticsearch и потом для новых файлов по нему делать поиск.В описанных мной вариантах - в первом Вы вообще ничего не выдерете (если не прикрутите безошибочный OCR, которого не существует), во втором Вы получите малоосмысленный набор символов, пригодный только как упражнение на дешифровку многозначного подстановочного шифра (и его тоже проще распознать. чем дешифровать).
с точностью совпадения, допустим в 99%. Поэтому по хэшам не подходит.Вот как раз при высокой, но не 100% точности, сравнение хэшей подходит как нельзя лучше.
мне хотя бы просто осмыслить, как создать эти два последних столбца
Провайдеры их до сих пор используют. В здание заводиться оптика, ставиться кросс, а дальше если клиентов не много медиаконвертор.
WHERE user_id = CURRENT_USER()