Как определять похожесть текста?

Question

Семён Семёнов @man_without_face

студент

Как определять похожесть текста?

Предположим, что у нас есть твиты или заголовки статей. Хотелось бы понимать, что вот эти 10 новостей или твитов относятся к одному и тому же (например, к компании или событию). Как это делается? Хотя наверное немного глупый вопрос, но хотя бы как называется данный круг задач? Впервые в нём.

Кстати. Полагаю, что агрегаторы новостей примерно так и делают, т.е. они же их как-то группируют, верно?

Вопрос задан более трёх лет назад
428 просмотров

Комментировать

Подписаться 3 Оценить Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillbox

Архитектор ПО

4 месяца

Далее
Stepik

Алгоритмы: теория и практика. Структуры данных

1 неделя

Далее

Пригласить эксперта

Ответы на вопрос 3

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Алгоритмы

Средний
Как создать алгоритм для ракеты в игре?
- 2 подписчика
- 30 окт.
- 243 просмотра
1

ответ
Алгоритмы

Простой
Как решать алгоритмические хакатоны и учится?
- 1 подписчик
- 27 окт.
- 165 просмотров
2

ответа
Базы данных

+1 ещё

Простой
Как правильно реализовать обновление порядка (поле order) в бд?
- 1 подписчик
- 19 окт.
- 190 просмотров
2

ответа
Алгоритмы

Простой
Как открыть файл сжатый с помощью алгоритма Brotli на пк?
- 1 подписчик
- 19 окт.
- 163 просмотра
0

ответов
JavaScript

+2 ещё

Простой
Как решить задачку из контеста?
- 1 подписчик
- 13 окт.
- 297 просмотров
1

ответ
Алгоритмы

+1 ещё

Простой
Как отконвертировать 3D-меш в наклонные треугольники?
- 2 подписчика
- 02 окт.
- 168 просмотров
1

ответ
Алгоритмы

Сложный
Поиск оптимального маршрута с наимешьшим влиянием на цену в сети ethereum?
- 1 подписчик
- 29 авг.
- 153 просмотра
2

ответа
Алгоритмы

Простой
Как можно еще уменьшить количество комбинаций в игре крестики нолики?
- 1 подписчик
- 22 авг.
- 243 просмотра
2

ответа
Алгоритмы

Простой
Как можно уменьшить количество комбинаций в игре крестики нолики?
- 1 подписчик
- 19 авг.
- 191 просмотр
2

ответа
Алгоритмы

+1 ещё

Простой
Как в квантовый компьютер вводятся данные?
- 1 подписчик
- 12 авг.
- 308 просмотров
3

ответа
Показать ещё Загружается…

Разработчик WebRTC-сервисов на Go в видеоплатформу

Яндекс • Москва

от 300 000 до 490 000 ₽

Разработчик в буткемп Core Infrastructure

Яндекс • Москва

от 300 000 до 490 000 ₽

C++ разработчик (Поиск)

Сбер • Москва

от 250 000 до 400 000 ₽

Answer 1 · 2016-04-25 00:52:32

это делается не одной функцией

извлекаются сущности, сравниваются тексты и т.п.
см. https://tech.yandex.ru/tomita/

для коротких можно и реения попроще, вроде поиска по отстемменому тексту

Answer 2 · 2016-04-24 21:43:42

Александр Скуснов @AlexSku

не буду отвечать из-за модератора

Есть ещё алгоритм Jaro-Winkler'а.

Ответ написан более трёх лет назад

Комментировать

Answer 3 · 2017-09-26 21:01:30

Называется тематическая кластеризация - идёт учёт синонимов и их "весов" между собой в зависимости от присутствия других рядом стоящих конкретных слов в связанной цепочке (публикации, комментарии или одном предложении).

Подобное, можно делать с помощью выделения сущностей (существительных и имён собственных: фио человека, названия и т.д.) и извлечения контекстных зависимостей.

Получить близкий поиск по таким цепочкам - можно здесь.

Как определять похожесть текста?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт