Что посоветуете для сравнения двух предложений по смыслу?

Question

Astrohas @Astrohas

Python/Django Developer

Что посоветуете для сравнения двух предложений по смыслу?

Здравствуете, уважаемы тостерчане! В одном проекте специализирующем на тестах, требуется семантическое и смысловое сравнение двух коротких (2-5 слов) предложений. Что можете посоветовать?
Пока что думаю над канонизацией и анализом через pymorphy2 а потом на основе базы синонимов унифицировать в один формат а потом сравнить.
Хотелось бы узнать ваш опыт по этому направлению.

Вопрос задан более трёх лет назад
1811 просмотров

6 комментариев

Подписаться 3 Оценить 6 комментариев

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 2

2 комментария

Комментировать

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Хранение данных

+3 ещё

Средний
Как организовать обучение нейронной сети?
- 1 подписчик
- вчера
- 84 просмотра
2

ответа
Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 199 просмотров
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 525 просмотров
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 486 просмотров
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 277 просмотров
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 500 просмотров
1

ответ
Нейронные сети

Средний
Как в AI ToolKit для тренировки LorA указать свои модели?
- 1 подписчик
- 09 июн.
- 68 просмотров
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 212 просмотров
2

ответа
Python

+2 ещё

Простой
Как правильно настроить статические и медиафайлы на хостинге?
- 1 подписчик
- 04 июн.
- 124 просмотра
1

ответ
Python

Простой
Как отправить видео в мессенджер MAX с прогрессом загрузки Python (tqdm)?
- 2 подписчика
- 30 мая
- 330 просмотров
1

ответ
Показать ещё Загружается…

Смотря какого качества сравнение нужно. Для надежного что-то типа облачного IBM Watson IMHO
Astrohas, а откуда взять базу синонимов? (не поделитесь линком?)
Astrohas, Нормально, так! Спасибо большое!
xmoonlight, на всякий случай - https://nlpub.ru/YARN/%D0%A4%D0%BE%D1%80%D0%BC%D0%... документация к Xml формату.

Answer 1 · 2017-09-08 17:58:58

Унифицирование подойдет как препроцессинг текста. Т.е, есть некоторое множество < K, V >, где K - числовое описание класса синонима ( например, различные синонимы в один класс ), V - тензор синонимов, где по 0-й оси отложены вектора со словами, содержащие кодированные ( Unicode, так понимаю в данном случае ) слова. Стоит обратная задача нахождения по V соответствующего K, почти как словарь, но наоборот. Предложение трансформируется в последовательность K_i, после чего эта унифицированная, как вы правильно сказали, анализируется. Перед анализом унифицированный вектор надо отобразить в пространство фиксированной размерностью, чтобы все предложения были как бы одинаковой длины. Можно просто дописать нули, например, чтобы вектор стал с 5 компонентами ( максимальная длина предложения )

Тут два варианта. 1-й более эффективный и сложный, 2-й более простой
1) LSTM-сети. Почему LSTM? Потому что данный вид RNN сетей наиболее подходит для анализа последовательностей.
По выходу определяете смысловой класс. Т.е, имеем RNN с 5 входами, и выходами, равными количеству смысловых классов, дающее k-мерный вектор распределения вероятностей по классам. argmax(output) будет наш класс. Типичная задача мультиклассовой классификации, но при помощи RNN сетей. Если с рнн не разберетесь, можно обычную MLP-сеть, но выход будет хреновеньким, т.к это последовательность завязанная на предыдущих состояниях элемента. У нас не бывает предложений вроде "привет нет да пока эх машина".

Нужно предобучение на огромной базе размеченной вручную. Т.е, такой вектор - такой класс.

2) Можно пойти по простому пути, без нейронных сетей использовать норму разницы между двумя векторами. Требуемым, и введенным, чем меньше норма - тем более близкое по смыслу предложение. Ведь числовая последовательность предложения является вектором в n-мерном пространстве. В нашем случае после нормализации в 5-мерном пространстве. А норма - это обобщение расстояния на большие размерности, т.е при разницы векторов предложений мы получаем третий вектор, чья длина - расстояние между векторами. Можно использовать различные метрики. Какая больше нравится. Я бы предпочел метрику минковского c p = 2.

Предобучение не требуется, никаких сложностей тоже. Просто школьная арифметика. Но и предложения, например:

"Сегодня я пошел в школу снова" и "Завтра я поеду в командировку опять" могут показаться одинаковыми по смыслу. О чем и говорил Максим Чернятевич, имея ввиду, что с базой синонимов можно сделать только самый простой анализ, т.к после нормализации по синонимам в один вектор, скорее будут полностью равны.

Answer 2 · 2019-07-20 00:12:02

xmoonlight @xmoonlight

https://sitecoder.blogspot.com

Вот такой вариант.
RNNTagger
UD_Russian_SynTagRus

Ответ написан более трёх лет назад

Комментировать

Что посоветуете для сравнения двух предложений по смыслу?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт