Есть ли хорошие алгоритмы для смыслового сравнения текстов?

Question

redduckrobot @redduckrobot

Есть ли хорошие алгоритмы для смыслового сравнения текстов?

Здравствуйте, пытаюсь разобраться с тем как можно сравнить тексты и пока не нашел ничего толкового, собственно вопрос в том есть ли в данный момент какие-то алгоритмы для подобных задач, а то пока что выглядит все очень больно и печально.

Задача по сути такого рода: есть исходный документ doc0, на вход поступает множество других документов doc_n (тематика текстов разношерстная) и нужно с какой-то степенью вероятности сказать что, к примеру, в doc_10 идет речь о том же что и в doc_0 (попадаются очень хорошо переписанные тексты об одном и том же). Важно именно такое сравнение, я пробовал LSI в целом штука забавная, но как по мне она больше подходит для группировки документов нежели их "осмысленное" сравнение. Шилинги, n-граммы и т.п. весьма неоднозначны. Подскажите, пожалуйста, существует ли вообще подобные решения и какие? И что можно почитать хорошо по данной тематике из книг?

Вопрос задан более трёх лет назад
4729 просмотров

1 комментарий

Подписаться 25 Сложный 1 комментарий

Пригласить эксперта

Ответы на вопрос 4

1 комментарий

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Алгоритмы

+1 ещё

Простой
Как в квантовый компьютер вводятся данные?
- 1 подписчик
- вчера
- 139 просмотров
3

ответа
IT-образование

+2 ещё

Средний
LLM для школьных экспериментов. Существует ли что то подходящее?
- 1 подписчик
- 03 авг.
- 223 просмотра
3

ответа
Нейронные сети

+1 ещё

Простой
Как вычисляется MSE в VAE?
- 1 подписчик
- 24 июл.
- 55 просмотров
0

ответов
Машинное обучение

+1 ещё

Простой
Reverse engineering black box ML-модели?
- 1 подписчик
- 10 июл.
- 134 просмотра
3

ответа
Алгоритмы

+1 ещё

Средний
Как можно предиктить дату регистрации при массиве данных?
- 1 подписчик
- 03 июл.
- 144 просмотра
1

ответ
Программирование

+1 ещё

Простой
Как работает регистрация и аутентификация с помощью ЭЦП?
- 1 подписчик
- 26 июн.
- 276 просмотров
3

ответа
Компьютерные сети

+1 ещё

Простой
Как построить топологию сетей (данные в FDB таблице) когда связи замкнуты в кольцо?
- 2 подписчика
- 25 июн.
- 472 просмотра
2

ответа
Алгоритмы

Средний
Какие переходы для ДП у «Гелифиш и незабудка» codeforce?
- 1 подписчик
- 12 июн.
- 88 просмотров
1

ответ
C#

+1 ещё

Простой
Почему неправильно работает Keeloq?
- 1 подписчик
- 05 июн.
- 122 просмотра
1

ответ
Алгоритмы

Простой
Какие переходы для ДП Codeforces Петя и пауки?
- 1 подписчик
- 27 мая
- 165 просмотров
1

ответ
Показать ещё Загружается…

Разработчик бэкенда в команду коммуникационной платформы

Яндекс • Москва

от 300 000 до 490 000 ₽

Разработчик в буткемп Core Infrastructure

Яндекс • Москва

от 300 000 до 490 000 ₽

Разработчик бэкенда сервисов телефонии

Яндекс • Москва

от 300 000 до 490 000 ₽

Answer 1 · 2017-11-17 09:40:39

Задача называется Semantic Similiarity. Я с этим направлением не работал вообще, но интуитивно могу предположить LSTM/CNN и разные вариации на тему Siamese/Triplet networks.

Answer 2 · 2017-11-19 21:13:39

Судя по всему Вам нужен doc2vec. После того как обучите модель, можно будет использовать метод n_similarity. Идея в том, чтоб представить тексты ввиде векторов, после чего можно будет посчитать их cosine similarity.

Answer 3 · 2017-11-17 20:47:05

Dimonchik @dimonchik2013

non progredi est regredi

см. gensim

Ответ написан более трёх лет назад

Комментировать

Answer 4 · 2018-11-02 12:38:35

Doc2Vec пригоден для большого количества документов (с 5-10 тысяч), хотя многое зависит от их длины. Можно увеличивать размерность векторов, количество интераций, уменьшить окно, но это для малого числа документов слабо помогает. То есть для небольшого количества данных лучше LSI.

Есть ли хорошие алгоритмы для смыслового сравнения текстов?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт