Используйте метрики для поиска похожих объектов - ключевые слова Jaccard Similarity, shingling, minhashing. Можно почитать тут
infolab.stanford.edu/~ullman/mmds/book.pdf , Глава 3 Finding Similar Items.
По этой книге есть курс на курсере, можно посмотреть видюшки с живыми примерами и объяснениями -
https://class.coursera.org/mmds-003 , материал второй недели, как раз стал доступен, я этот курс сейчас прохожу. Ну и по материалам этой же книги, есть курс от Computer Science Center, и там тоже эти вопросы рассматриваются,
https://www.lektorium.tv/course/22822 . Но мне этот курс не понравился, как раз когда объяснялась нужная вам тема, девочка явно путалась в объяснениях.