Как найти список точных совпадений фраз из БД в заданном тексте с помощью PHP?

Question

Barakud @Barakud

PHP
MySQL

Как найти список точных совпадений фраз из БД в заданном тексте с помощью PHP?

Есть БД с 100к ключевых фраз, таких как:

большой дом
кафельная плитка
зеленая машина в саду

К нам приходит на обработку текст, вида:

В ноябре в Лондоне большой человек купил большой дом для своей большой семьи. В доме была кафельная панель.

Нужно найти в этом тексте все полные совпадения из БД, то есть в нашем случае:
большой дом
Пробовал FULLTEXT INDEX, запрос вида:

SELECT * FROM `phrases` WHERE MATCH(`phrase`) AGAINST('В ноябре в Лондоне большой человек купил большой дом для своей большой семьи. В доме была кафельная панель.')

Возвращает:

большой дом
кафельная плитка

Пробовал с использованием IN BOOLEAN MODE и сравнением кол-ва слов в фразе в БД с кол-вом найденых совпадений, но тогда соответственно вообще не получаю результатов.

Можно ли это как-то сделать на индексированном поисковом движке (будь то средства MySQL или Sphinx) и есть да, то как?

UPD. Судя по ответам, вопрос задан непонятно: у меня база коротких фраз (100000 фраз по 1-2 слова) и на вход я получаю текст (1000 слов). Я ищу текстом по фразам , а не наоборот. Текст не находится в БД и не проиндексирован. Его я получаю извне и не могу контроллировать. Мне нужно, получив текст, выдать для него подходящие фразы из БД.

Вопрос задан более трёх лет назад
1813 просмотров

Комментировать

Подписаться 4 Оценить Комментировать

Помогут разобраться в теме Все курсы

Skillbox

Веб-разработчик на PHP

9 месяцев

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее
Stepik

Язык программирования PHP

1 неделя

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 4

1 комментарий

4 комментария

Barakud @Barakud Автор вопроса

Проблема в том, что LIKE будет перебирать каждый раз всю базу в 100000 фраз. А нужно, чтобы оно держало достаточно высокую нагрузку по запросам.

Написано более трёх лет назад
Immortal_pony @Immortal_pony Куратор тега PHP

Barakud, если боитесь за нагрузку, то пробегайтесь like-ом по результатам match...against'а

Написано более трёх лет назад
Barakud @Barakud Автор вопроса

Сейчас так и делаю, все равно запрос с большим текстом занимает порядка полусекунды, да и выглядит решиние больше как костыль конечно... Я думал, может существует инструмент как-раз для таких целей.

Написано более трёх лет назад
Immortal_pony @Immortal_pony Куратор тега PHP

Barakud, от MySQL-я вряд ли добьетесь большего в данном вопросе.

Написано более трёх лет назад

2 комментария

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

Простой
Как сделать это?
- 1 подписчик
- 11 дек.
- 222 просмотра
2

ответа
MySQL

Простой
Влияет ли размер индекса на скорость MySQL?
- 3 подписчика
- 09 дек.
- 278 просмотров
2

ответа
PHP

+1 ещё

Простой
Как найти значение в XML?
- 2 подписчика
- 06 дек.
- 224 просмотра
1

ответ
PHP

+1 ещё

Простой
Как на PHP пушнуть в ассоциативный массив?
- 1 подписчик
- 05 дек.
- 203 просмотра
1

ответ
PHP

Простой
Проблема с PDO LIKE?
- 1 подписчик
- 04 дек.
- 171 просмотр
0

ответов
PHP

Простой
При попытке регистрации на сайте выдаёт ошибку A PHP Error was encountered. Что делать?
- 1 подписчик
- 03 дек.
- 149 просмотров
2

ответа
PHP

Простой
Как исправить include в php 8.3?
- 1 подписчик
- 02 дек.
- 311 просмотров
3

ответа
PHP

Простой
Ошибка в php, как исправить?
- 1 подписчик
- 29 нояб.
- 288 просмотров
2

ответа
MySQL

+1 ещё

Простой
Как правильно реализовать структуру таблиц продукт и цены продуктов?
- 1 подписчик
- 20 нояб.
- 199 просмотров
2

ответа
PHP

+2 ещё

Простой
Как сконвертировать файл в формате excel в pdf?
- 4 подписчика
- 14 нояб.
- 439 просмотров
4

ответа
Показать ещё Загружается…

Fullstack-разработчик (PHP, Vue.js)

Qwintry

от 1 200 до 2 000 $

Веб-разработчик (PHP) в продукт из сферы FinTech

ITWORK AGENCY • Москва

До 500 000 ₽

TeamLead PHP (Symfony)

AGIMA • Москва

от 210 000 ₽

Answer 1 · 2015-11-19 18:41:17

На данный момент остановился на решении вида:

SELECT * FROM `phrases` WHERE MATCH(`phrase`) AGAINST('{$text}' IN BOOLEAN MODE)>=`numWords` AND LOCATE(`phrase`,'{$text}') > 0 ORDER BY `numWords` DESC

Функционально выполняет именно то, что нужно, но перформанс у такого запроса слабый, да и выглядит скорее как костыль. Буду пробовать еще на sphinxql.

Answer 2 · 2015-11-19 16:32:54

Фильтр блума пробуйте
исходные сортируйте и 2-3-4 словным наборам и каждый набор - в фильтр,
входящий - нарезайте по 4-3-2 и прогоняйте через фильтры

думаю, все же проше будет по-быстрому всунуть приходящий текст в RT индекс сфинкс и по всем фразам
php.net/manual/en/sphinxclient.setmatchmode.php SPH_MATCH_PHRASE

Answer 3 · 2015-11-19 18:06:10

Нужно найти в этом тексте все полные совпадения из БД.

Тогда используйте простой поиск, а не умный:

SELECT * 
FROM `phrases`
WHERE 
    'В ноябре в Лондоне большой человек купил большой дом для своей большой семьи. В доме была кафельная панель.' 
    LIKE CONCAT('%', phrases.`phrase` , '%')

Answer 4 · 2015-11-19 17:05:04

xmoonlight @xmoonlight

https://sitecoder.blogspot.com

dev.mysql.com/doc/refman/5.7/en/fulltext-query-exp...

Ответ написан более трёх лет назад

2 комментария

Answer 5 · 2015-11-19 19:41:56

Инструменты для таких целей, насколько мне известно, выглядят примерно так:
- все фразы разбиваются на слова, у них ищется морфологическая основа
- в базе хранятся все слова и фразы, в которых они встречаются (точнее, уже id слова в таблице слов и id фразы в хранилище фраз - там необязательно хранится именно фраза, но она может быть оттуда восстановлена)
- по входящей фразе вы делаете то же самое - разбираете на слова и по базе находите фразы, в которых эти слова встречаются
Вот потом уже на этой, довольно ограниченной, выборке вы можете применять сколь угодно изощренный поиск.

Как найти список точных совпадений фраз из БД в заданном тексте с помощью PHP?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт