Как имея большой текст, найти совпадения всех предложений?

Question

Роман Сарваров @megakor

Senior Go developer at VK Video

Как имея большой текст, найти совпадения всех предложений?

Представим есть таблица sentences, где хранятся сотни тысяч каких-то предложений или словосочетаний.
И есть текст из 5000 слов, который ввел пользователь (к примеру).

Есть ли какой-то способ или алгоритм, чтобы рационально используя вычислительные ресурсы выделить в тексте все совпадения (например через str_replace) из всей таблицы sentences?

Вопрос задан более трёх лет назад
520 просмотров

4 комментария

Подписаться 8 Простой 4 комментария

granty @granty

1. Вам же не надо выделять сотни тысяч совпадений, выделять надо только те, которые будут выведены на экран пользователя.
Поэтому задача разбивается на 2:
- поиск совпадений и их постраничный вывод
- подсветка результатов вывода
именно так и делают ПС.

2. Морфологию надо учитывать? "способ" -> "способы" -> "способов" -X-> "способности"

3. Семантику надо учитывать?

За песчанной косой,
косоглазый косой,
пал под острой косой
Косой бабы с косой.

какое из слов "косой" собираетесь выделять?

4. "Расстояние" между словами надо учитывать? "пластиковая карта" == "пластиковая банковская карта" или нет

5. Синонимы надо учитывать? "компьютер" == "ПК" или нет?

Написано более трёх лет назад
Роман Сарваров @megakor Автор вопроса

granty, нет, точные совпадения.

Написано более трёх лет назад
Роман Сарваров @megakor Автор вопроса
Вообще в идеале, чтобы в таблице sentences была колонка regular_expression с регулярным выражением.

Если сделать так:

SELECT * FROM `sentences` WHERE ('Сюда вставить какой-то большой текст' REGEXP regular_expression)

То всё работает, даже если вставить текст на 5000 слов. Но я переживаю, что будет если этих регулярок будет тысячи?
Написано более трёх лет назад
granty @granty

Роман Сарваров, статья https://habr.com/ru/company/alconost/blog/339894/ прокрутить до заголовка Как все это сделать НА ПРАКТИКЕ?. Там приведена куча инструментов и библиотек для организации поиска, и есть список литературы о теории этого дела.

Скорее всего вам придётся строить инвертированный (обратный) индекс, как у Поисковых Систем, но привязывать его не к URL страниц, а к номеру записи в БД.

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Go-разработчик с нуля + нейросети

9 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 3

1 комментарий

3 комментария

2 комментария

Роман Сарваров @megakor Автор вопроса

Мне нужно точное совпадение. Разве шинглы с этим могут помочь?

Написано более трёх лет назад
Александр Аксентьев @Sanasol

Роман Сарваров, на выходе же будет какой-то процент совпадения или полный дубликат.

Только непонятно какое полное совпадение вы хотите получить, у вас же набор предложений, а не два текста которые надо сравнить на похожесть.

В статье есть ссылка на какой-то анализ алгоритмов
rcdl2007.pereslavl.ru/papers/paper_65_v1.pdf

Может что-то из них больше подойдёт.

В самом простом случае надо поделить текст на предложения(по точкам очевидно), а потом найти в базе каждое из предложений, это не должно быть очень долго и ресурсозатратно.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Алгоритмы

Простой
Стоит ли читать книгу «Грокаем алгоритмы»?
- 1 подписчик
- 27 мая
- 314 просмотров
0

ответов
Алгоритмы

Простой
Как реализовать поиск слов в файлах?
- 2 подписчика
- 06 апр.
- 383 просмотра
3

ответа
Алгоритмы

Простой
Как распознавать полосу для робота на шахматной доске?
- 1 подписчик
- 19 мар.
- 217 просмотров
1

ответ
Нейронные сети

+1 ещё

Простой
Какую нейронку с API и web поиском можете посоветовать?
- 1 подписчик
- 01 мар.
- 170 просмотров
1

ответ
Поисковая оптимизация

+3 ещё

Простой
Как продвинуть сайт в поиске?
- 2 подписчика
- 25 февр.
- 705 просмотров
4

ответа
Алгоритмы

Простой
Какие данные берет функция для генерации случайного числа?
- 1 подписчик
- 18 февр.
- 276 просмотров
4

ответа
C++

+1 ещё

Простой
Почему не решает задачу?
- 1 подписчик
- 05 февр.
- 425 просмотров
1

ответ
Поисковые системы

Простой
Эффективны ли программы, защищающие фото и видеофайлы от систем поиска по лицу?
- 1 подписчик
- 11 янв.
- 193 просмотра
3

ответа
Алгоритмы

Средний
Как создать алгоритм для ракеты в игре?
- 2 подписчика
- 30 окт. 2025
- 401 просмотр
1

ответ
Алгоритмы

Простой
Как решать алгоритмические хакатоны и учится?
- 1 подписчик
- 27 окт. 2025
- 293 просмотра
2

ответа
Показать ещё Загружается…

1. Вам же не надо выделять сотни тысяч совпадений, выделять надо только те, которые будут выведены на экран пользователя.
Поэтому задача разбивается на 2:
- поиск совпадений и их постраничный вывод
- подсветка результатов вывода
именно так и делают ПС.

2. Морфологию надо учитывать? "способ" -> "способы" -> "способов" -X-> "способности"

3. Семантику надо учитывать?

За песчанной косой,
косоглазый косой,
пал под острой косой
Косой бабы с косой.

какое из слов "косой" собираетесь выделять?

4. "Расстояние" между словами надо учитывать? "пластиковая карта" == "пластиковая банковская карта" или нет

5. Синонимы надо учитывать? "компьютер" == "ПК" или нет?
Вообще в идеале, чтобы в таблице sentences была колонка regular_expression с регулярным выражением.

Если сделать так:

SELECT * FROM `sentences` WHERE ('Сюда вставить какой-то большой текст' REGEXP regular_expression)

То всё работает, даже если вставить текст на 5000 слов. Но я переживаю, что будет если этих регулярок будет тысячи?
Роман Сарваров, статья https://habr.com/ru/company/alconost/blog/339894/ прокрутить до заголовка Как все это сделать НА ПРАКТИКЕ?. Там приведена куча инструментов и библиотек для организации поиска, и есть список литературы о теории этого дела.

Скорее всего вам придётся строить инвертированный (обратный) индекс, как у Поисковых Систем, но привязывать его не к URL страниц, а к номеру записи в БД.

Answer 1 · 2020-04-20 00:08:08

А почему, собственно, вы эту задачу хотите с помощью постгреса решать, а не с помощью намного более подходящих решений на базе инвертированных индексов - Lucene, Elasticsearch и т. д.?