Возвращаюсь к вопросу, немного осмыслив высказанное в ответ.
Я попробовал similar_text но он оказался слишком прост для моей задачи. Попробую ее конкретизировать.
У меня есть, например 30 текстов. Они распределены по 5 категориям. Задача: сравнить все 30, чтобы объединить их в меньшее количество по схожести. Язык — php, база — mysql