zoonman
@zoonman
⋆⋆⋆⋆⋆

Как создать классификатор текстов?

В общем суть довольна проста. Есть набор текстов на разных языках.
Есть два этапа, первый - определение качества текста, второй разбиение на категории.
Первый этап. Стоит задача разбиения текстов на группы внутри языка по принципу нравится он мне или нет.
Второй этап - разделение текста на группы по признаку общности или схожести. Самый простой пример: отделять стихи от прозы.
Поэтому ряд вопросов:
1. С чего начинать?
2. Как такие вещи вообще делаются на практике? Какие существуют бесплатные решения для подобных задач?

Если предложит кто-то решения на PHP, буду благодарен. Решения на Python - это какой-то ад зависимостей, норовящий исправить кусок ОС.
  • Вопрос задан
  • 339 просмотров
Решения вопроса 2
begemot_sun
@begemot_sun
Программист в душе.
С байесовского классификатора:
https://github.com/loguntsov/bayes
Ответ написан
al_gon
@al_gon
Да Naive Bayes classifier (https://ru.wikipedia.org/wiki/%D0%9D%D0%B0%D0%B8%D... ) хороший для вашей задачи вариант.
Возмите готовое решение, которое работает на любой машине. (Java, python etc.)
Из очень известных Apache Mahout ( https://mahout.apache.org/ ) и Weka ( www.cs.waikato.ac.nz/~ml/weka/downloading.html )

Простой и доступный пример по Weka есть здесь https://github.com/DmitryKey/weka-mnb-sentiment-an...
Ответ написан
Комментировать
Пригласить эксперта
Ответы на вопрос 1
@nazandr
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы