$sovpalo=similar_text($stroka1,$stroka2,$prc);
if ($prc>10 && $sovpalo>=mb_strlen($stroka1)/2) {
/*
(если процент совпадения больше 10 и кол-во совпавших символов больше половины)
помещаем в подпункт...
*/
}
В узкой тематике эффективно использование конечных автоматов.
В широкой будет очень много ошибок, нужно сортировать по тематикам. После применять лемматизацию и далее оценивать через схожесть пословно.
В итоге получается достаточно медленно на выборках более 50 фраз.
По этой причине может быть эффективнее использовать леммы путем урезания суффиксов, приставок и окончания выделяя только корни (как для англоязычных фраз), далее искать похожие. По производительности будет приемлемо, но ошибок будет больше.