Какие есть Алгоритмы поиска синонимов?

Question

shift196 @shift196

Какие есть Алгоритмы поиска синонимов?

Здравствуйте.
Имеется база документов на 1,500млн документов. Каждый состоит из тайтла и небольшого текста (200-300 символов).
Мне нужно реализовать поиск, который бы учитывал возможные сокращения (аббрв), альтернативные названия предметов, и т.д. - в полностью автоматическом режиме.
К примеру: вов, варкрафт, world of warcraft, и просто warcraft это именно те синонимы, которые мне нужно извлечь.

Ембеддинги не подходят, т.к. они: 1) работают лишь на уровне слов, 2) скорее всего поставят где-то рядом wow, wot - хотя это совсем разное, 3) хочется математической строгости и закономерности, а также высокой точности, плюс необходима высокая скорость работы, т.к. данные документы прибавляются каждый день и там есть новые документы, дообучать постоянно условный w2v будет очень трудно.

Как я вижу:
1) вытянуть список коллокаций (устойчивых слов, которые идут всегда строго по порядку), таким образом получится вытянуть всевозможные названия, к примеру "world of tanks". Минус, что оно также найдет еще фразы типа "добрый день"... (как?)
2) на второй итерации, вытянуть также найденные в первом шаге возможные сочитания + слова (или как?), которые часто встречаются рядом с ними, чтобы "wot" попало "рядом" к "world of tanks" в один кластер.
3) из каждого документа выдерать списки таких найденных "признаков" (или как?), сохранять как-то id этих признаков.
4) когда производится поиск, выбирать ранее найденные фразы-признаки из поискового запроса (к примеру "world of warcraft"), находить им альтернативные фразы (варкрафт, вов и т.д.), и уже затем составлять автоматом перефразированный запрос.
Типа оригинальный запрос: "warcraft скачать", после всех манипуляций станет: (warcraft|wow|вов|варкрафт|....) (скачать|download|загрузить...)
Вопрос как это можно реализовать полностью автоматически?
Заранее спасибо.

Вопрос задан более года назад
1713 просмотров

3 комментария

Подписаться 3 Средний 3 комментария

mayton2019 @mayton2019

Несколько мыслей.

1) Мне кажется что математически строгий алгоритм здесь нельзя будет вывести.

И даже если теоретически предположить что ты придумал метод нахождения синонимов то тогда
не только WOT будет сведен к основе но и "Добрый день" и многие другие sentences, tokens
могут тоже автоматически сжаться до какого то уж очень рафинированного текста.

2) Мне вспоминается пример из vectorized-db, где параллельным переносом из точки "king man"
можно было получить "queen". Возможно танковая игра тоже будет такой точкой внутри vectorized
пространства можно получить wot и все прочее.

Короче я-бы не сбрасывал со счетов векторизации документов.

Написано более года назад
shift196 @shift196 Автор вопроса

mayton2019, сбрасывать или не сбрасывать тут хз, но ресурсов для обучения каждый день векторы для новых документов нет...

Написано более года назад
mayton2019 @mayton2019

shift196, у вас вопрос тегирован АЛГОРИТМЫ и ОБРАБОТКА ЯЗЫКА.

Откуда-же у нас пошли лимиты на ресурсы и тогда уж коли они есть - опишите что есть.

Написано более года назад

Помогут разобраться в теме Все курсы

Нетология

Go-разработчик с нуля + нейросети

9 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 1

2 комментария

Пригласить эксперта

Ответы на вопрос 2

8 комментариев

shift196 @shift196 Автор вопроса

а как гугл взял, что вов - варкрафт, а не война?
но по факту, нужен парсер именно вышеуказанных сочитаний.
Никакие инструменты в ElasticSearch не найдут
world of warcraft, если забить в поиск "вов". А вручную этот словать составлять никто не будет.

https://ya.ru/search/?text=%D0%B2%D0%BE%D0%B2 - а тут где война?)

Написано более года назад
N @Fernus

shift196,

Никакие инструменты в ElasticSearch не найдут

Мне кажется вам надо правильно понять "предобработку запроса"...на уровне того же Elastic...вам нужно свести все "входные слова" к единой форме и уже по ней искать...так же использовать эти же "правила" при индексации текста...

UPD:

Типа оригинальный запрос: "warcraft скачать", после всех манипуляций станет: (warcraft|wow|вов|варкрафт|....) (скачать|download|загрузить...)
Вопрос как это можно реализовать полностью автоматически?

У Вас будто от "обратного"...из-за одного слова - куча синонимов для поиска...

Написано более года назад
fenrir @fenrir1121

shift196
а как гугл взял, что вов - варкрафт, а не война?
потому что поиск в гугл и яндекс персонализирован

мой поиск

Никакие инструменты в ElasticSearch не найдут
world of warcraft, если забить в поиск "вов"
Не найдут (хотя icu_transform мог бы частично помочь). Потому что любые сокращения могут мапится с бесконечным множеством слов. Как выше сказано, вам в таком случае нужно самостоятельно их слова генерировать все что вы зовёте "синонимами" и искать по ним.

Написано более года назад
shift196 @shift196 Автор вопроса

fenrir, на wikidata есть сокращение вов, которое ведет на войну
Мне кажется это не перс. поиск, т.к. Мне DDG тоже показал про войну, в то же время гугл и яндекс без кук через разные впн - игры. Но не суть)
Подскажите, вот именно это я и хочу - ""нужно самостоятельно их слова генерировать все что вы зовёте "синонимами" и искать по ним"".
Как этого добиться можно?
Если брать пример с варкрафт, то "Wrath of the Lich King Classic" должно быть также "рядом" с "вов"... и т.д.
Как выдрать именно такие пары из текста без эмбеддингов?

Написано более года назад
shift196 @shift196 Автор вопроса

N, так можно и при индексации сокращать world of tanks => wot, не суть важно
просто ранкер bm25, потому мне проще добавить в запрос слова, а не изменять оригиналы текстов....

Написано более года назад
N @Fernus

shift196, Могу предложить вот это...видел выше Вы про "векторы" говорили...вот тут при правильном подходе: можно организовать ресурсы с минимальными затратами...

https://manticoresearch.com/blog/vector-search/

P.S.: Моделей можно найти готовых для векторов...+ накидать своих "правил"...

UPD:
Изучите документацию по ManticoreSearch и best practices в интернете...думаю, - это Вам больше подходит, чем - Elastic (с его аппетитами).

Написано более года назад
Михаил Ливач @Mausglov

https://ya.ru/search/?text=%D0%B2%D0%BE%D0%B2 - а тут где война?)

shift196, у меня на второй странице поиска. Но Яндекс персонализирует выдачу, у Вас может быть по-другому

Написано более года назад
hint000 @hint000

shift196,
а тут где война?
У меня так. А если в приватном окне окрывать, то на первое место выходит ещё одна про WoW, а потом эти же две занимают второе и третье место.

Написано более года назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Алгоритмы

Простой
Стоит ли читать книгу «Грокаем алгоритмы»?
- 1 подписчик
- 27 мая
- 327 просмотров
0

ответов
Машинный перевод с одного языка на другой

+1 ещё

Сложный
Кто писал собственный NLP-пайплайн перевода слов?
- 1 подписчик
- 19 мая
- 90 просмотров
2

ответа
Нейронные сети

+1 ещё

Средний
Где найти мне датасет для обучения малюсенькой LLM?
- 2 подписчика
- 07 апр.
- 248 просмотров
1

ответ
Алгоритмы

Простой
Как реализовать поиск слов в файлах?
- 2 подписчика
- 06 апр.
- 389 просмотров
3

ответа
Алгоритмы

Простой
Как распознавать полосу для робота на шахматной доске?
- 1 подписчик
- 19 мар.
- 220 просмотров
1

ответ
Алгоритмы

Простой
Какие данные берет функция для генерации случайного числа?
- 1 подписчик
- 18 февр.
- 281 просмотр
4

ответа
C++

+1 ещё

Простой
Почему не решает задачу?
- 1 подписчик
- 05 февр.
- 427 просмотров
1

ответ
Машинное обучение

+1 ещё

Средний
Может, у кого-то есть дампы с реальными наименованиями товаров/услуг и кодами ОКПД2 для обучения NLP-модели?
- 1 подписчик
- 16 янв.
- 141 просмотр
0

ответов
Алгоритмы

Средний
Как создать алгоритм для ракеты в игре?
- 2 подписчика
- 30 окт. 2025
- 405 просмотров
1

ответ
Алгоритмы

Простой
Как решать алгоритмические хакатоны и учится?
- 1 подписчик
- 27 окт. 2025
- 295 просмотров
2

ответа
Показать ещё Загружается…

Несколько мыслей.

1) Мне кажется что математически строгий алгоритм здесь нельзя будет вывести.

И даже если теоретически предположить что ты придумал метод нахождения синонимов то тогда
не только WOT будет сведен к основе но и "Добрый день" и многие другие sentences, tokens
могут тоже автоматически сжаться до какого то уж очень рафинированного текста.

2) Мне вспоминается пример из vectorized-db, где параллельным переносом из точки "king man"
можно было получить "queen". Возможно танковая игра тоже будет такой точкой внутри vectorized
пространства можно получить wot и все прочее.

Короче я-бы не сбрасывал со счетов векторизации документов.
mayton2019, сбрасывать или не сбрасывать тут хз, но ресурсов для обучения каждый день векторы для новых документов нет...
shift196, у вас вопрос тегирован АЛГОРИТМЫ и ОБРАБОТКА ЯЗЫКА.

Откуда-же у нас пошли лимиты на ресурсы и тогда уж коли они есть - опишите что есть.

Answer 1 · 2025-03-22 01:58:05

Можно табличным методом решить.

Составь 2 таблицы в любой БД, например SQLite:

Synonyms: поля group(int),name(text).
Paronyms: поля name1(text), name2(text).

Всё храни и используй в верхнем регистре.
В Synonyms все имена с одинаковым group считаются синонимами.
В Paronyms name1 и name2 составляют пару, невозможную для таблицы Synonyms в одной группе.

Составь и потихоньку заполняй их.
А проверки все делаются на обычном SQL.
Перед вставкой новых значений в Synonyms проверяй на наличие в паронимах. Если обнаружено в паронимах, вручную решай, что делать, убрать пароним или не вставлять.

База наполнится и начнёт работать. Размеры будут не сильно большими, несколько десятков тысяч записей на каждую таблицу. Впрочем, зависит от области применения.

Answer 2 · 2025-03-21 17:40:27

Какие есть Алгоритмы поиска синонимов?

К примеру: вов, варкрафт, world of warcraft, и просто warcraft

А вас не смущает что в вашем примере нет ни одного синонима? Если хотите математическую точность решения, начинайте с математической точности запроса.

Я здесь вижу транслитерацию, сокращение и совокупность транслитерации и сокращения. Причём сокращение это всегда узкая дорожка, когда вы что-то додумали за пользователя: с чего вы взяли что вов это "ворлд оф варкрафт", а не "великая отечественная война"?

Вопрос как это можно реализовать полностью автоматически?

Взять готовые инструменты для нечёткого поиска, например ElasticSearch

Answer 3 · 2025-03-22 10:43:30

Можно попробовать расширять текстовый запрос по такой формуле

вов => "вов OR wow"

Здесь преобразования достаточно простые.

По поводу world of warcraft => warcraft я не согласен. Это вообще другая игра, поэтому и результат поиска будет не верный. Хотя это на откуп автору. Если его база содержит только игры последних лет то пускай комбинирует слова через or.

Какие есть Алгоритмы поиска синонимов?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт