Что в вашем понимании степень похожести векторов ?
Если вы берете хеш от данных, то он никак не связан с "похожестью вектора".
Для кластеризации по хешу, достаточно использовать хеш как 32 (64, или другое) битное число, и взять остаток от деления на кол-во необходимых вам групп.