Chieftec
@Chieftec
Родился и вырос

Сравнение большого количества текстов (php+mysql)

День добрый!
Возникла задача на одном проекте сравнивать тексты из БД.
Я попробовал similar_text но он оказался слишком прост для моей задачи. Попробую ее конкретизировать.
У меня есть, например 30 текстов. Они распределены по 5 категориям. Задача: сравнить все 30, чтобы объединить их в меньшее количество по схожести. Язык — php, база — mysql
Что лучше всего использовать?
  • Вопрос задан
  • 3735 просмотров
Пригласить эксперта
Ответы на вопрос 3
7workers
@7workers
Попробуйте сравнивать слова, а не символы. В общем это — Байесовская категоризация. Но если у Вас действительно ~30 текстов а не 30тыс, то это проще сделать руками :)
Ответ написан
@MaxUp
можете посмотреть в сторону Simple NaiveBayesClassifier for PHP

Хороший цикл статей про Байесовскую категоризацию на php:
Implement Bayesian inference using PHP

+
на хабре недавно — Вероятностные модели: байесовские сети
Ответ написан
alt-j
@alt-j
Если количество классов на выходе работы неизвестно, то, наверное, байесовская классификация вам не поможет, и надо смотреть в сторону кластеризации.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы