По идее и при правильном MD5, результат вычисления хеша должен максимально соответствовать закону нормального распределения.
Другими словами, MD5 хеши от двух файлов с различием в один бит должны соответствовать друг другу, как произвольная выборка двух значений белого шума.
Иными словами - два хеша от двух разных файлов соответствуют друг другу, как два произвольно взятых значения.
Еще проще - хеши MD5 сравнивать бесполезно!