Пусть бинарные последовательности - это предложения.
А набор характеристик в них - это слова.
Пусть разделитель - символ пробела.
Тогда используя этот алгоритм
Как определить похожесть двух строк?
мы можем выбрать нужные нам записи с наименьшими затратами на производительность.