Сравнение большого количества текстов (php+mysql)

Question

Кирилл Сиренко @Chieftec

Родился и вырос

Сравнение большого количества текстов (php+mysql)

День добрый!
Возникла задача на одном проекте сравнивать тексты из БД.
Я попробовал similar_text но он оказался слишком прост для моей задачи. Попробую ее конкретизировать.
У меня есть, например 30 текстов. Они распределены по 5 категориям. Задача: сравнить все 30, чтобы объединить их в меньшее количество по схожести. Язык — php, база — mysql
Что лучше всего использовать?

Вопрос задан более трёх лет назад
3741 просмотр

3 комментария

Подписаться 7 Оценить 3 комментария

Помогут разобраться в теме Все курсы

Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее
Stepik

PHP (pro)

2 недели

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 3

5 комментариев

Кирилл Сиренко @Chieftec Автор вопроса

30 текстов — ежедневно :)

Написано более трёх лет назад
Max @7workers

Может быть, если категории определены, то можно сделать карту объединения? Например мы знаем, что категории «томаты» и «капуста» нужно объединять в «овощи» и т.д.

Написано более трёх лет назад
Кирилл Сиренко @Chieftec Автор вопроса

к сожалению, не пойдет. Ситуация скорее такая:
Политика 1
— Вообще неведомая новость
— Выборы президента Венесуэлы
— Другая новость

Политика 2
— Главу Рослесхоза отправили в отставку
— Президента Венесуэлы выбрали!
— Еще новость
— И еще новость

Политика 3
— Новый президент Венесуэлы
— Отставка Виктора Маслякова

Написано более трёх лет назад
Кирилл Сиренко @Chieftec Автор вопроса

Исходя из такого набора, мой скрипт как бы найдет сходство между текстами про выборы, междуу текстами про отставку.

Написано более трёх лет назад
Max @7workers

Попробуйте что-то вроде similar_text() только для слов целиком, мне кажется должно сработать — разбиваете такст на слова и находите пересечение массивов слов. Однако если будет новсть про отставку президента, то все они могу объединиться: выборы + президент + выборы + отставка.

Написано более трёх лет назад

1 комментарий

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Веб-разработка

+4 ещё

Простой
Как хранить публичный медиа-контент сайта?
- 1 подписчик
- 03 июл.
- 169 просмотров
3

ответа
Веб-разработка

Простой
В какой программе/сайте можно создать и выгрузить html сайт?
- 3 подписчика
- 21 июн.
- 844 просмотра
3

ответа
PHP

Средний
Как сделать что бы переменная avatar($ank['id']); не конфликтовала с другим файлом?
- 1 подписчик
- 17 июн.
- 192 просмотра
2

ответа
PHP

+2 ещё

Средний
Как решить проблему с smtp сервером?
- 1 подписчик
- 03 июн.
- 425 просмотров
1

ответ
Веб-разработка

+2 ещё

Средний
Как избежать вездесущего agentic coding и остаться в IT?
- 7 подписчиков
- 01 июн.
- 3676 просмотров
12

ответов
PHP

Средний
Как составить регулярное выражение?
- 1 подписчик
- 31 мая
- 240 просмотров
2

ответа
PHP

+2 ещё

Простой
Как настроить php_curl для php8 под windows?
- 1 подписчик
- 28 мая
- 187 просмотров
3

ответа
Веб-разработка

+2 ещё

Средний
Как правильно хранить видео в Django?
- 2 подписчика
- 28 мая
- 460 просмотров
3

ответа
Веб-разработка

Простой
Какую панель для хостинга выбрать в моём случае?
- 2 подписчика
- 25 мая
- 509 просмотров
6

ответов
Веб-разработка

+1 ещё

Средний
Изоляция сетевого слоя (WebSockets/Fetch) в Web Worker для высоконагруженного UI: используют ли такой паттерн в реальном проде?
- 1 подписчик
- 24 мая
- 222 просмотра
4

ответа
Показать ещё Загружается…

а сравнить-то как? Просто по общей степени схожести, поблочно, по ключевым словам, антиплагиат?
думаю, что по общей степени. А поблочно — это как?:)
человеческая цель: найти тексты на схожую тему, так что надо по степени схожести и ключевым словам, я думаю.

Answer 1 · 2013-04-22 09:01:04

Попробуйте сравнивать слова, а не символы. В общем это — Байесовская категоризация. Но если у Вас действительно ~30 текстов а не 30тыс, то это проще сделать руками :)

Answer 2 · 2013-04-22 09:14:38

можете посмотреть в сторону Simple NaiveBayesClassifier for PHP

Хороший цикл статей про Байесовскую категоризацию на php:
Implement Bayesian inference using PHP

+
на хабре недавно — Вероятностные модели: байесовские сети

Answer 3 · 2013-04-22 18:23:46

Если количество классов на выходе работы неизвестно, то, наверное, байесовская классификация вам не поможет, и надо смотреть в сторону кластеризации.

Сравнение большого количества текстов (php+mysql)

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт