В общем суть довольна проста. Есть набор текстов на разных языках.
Есть два этапа, первый - определение качества текста, второй разбиение на категории.
Первый этап. Стоит задача разбиения текстов на группы внутри языка по принципу нравится он мне или нет.
Второй этап - разделение текста на группы по признаку общности или схожести. Самый простой пример: отделять стихи от прозы.
Поэтому ряд вопросов:
1. С чего начинать?
2. Как такие вещи вообще делаются на практике? Какие существуют бесплатные решения для подобных задач?
Если предложит кто-то решения на PHP, буду благодарен. Решения на Python - это какой-то ад зависимостей, норовящий исправить кусок ОС.