сходства у этих строк по смыслу и рассортировать на 3-4 группы словосочетаний
Если именно помыслу, то смотрите наверное в сторону нейросетей. Как вариант возможно хорошо сработает цепь Маркова (но она скорее для больших текстов, чем для словосочетаний )