Как программно определить принадлежность фразы к определённой тематике?

Как определить принадлежность фразы к определённой тематике?
Например, фраза "покраска стен" относится к тематике строительства, а "магнитная буря в Москве" - нет.
Какие используются алгоритмы в подобных задачах? Что копать? Машинное обучение? Нейронные сети? Может, что попроще!?
  • Вопрос задан
  • 612 просмотров
Пригласить эксперта
Ответы на вопрос 4
alsopub
@alsopub
Чисто как вариант - проанализировать выдачу в Яндекс.Каталоге.
Каких рубрик больше - к тому фраза и относится.
https://yandex.ru/yaca/?text=%D0%BF%D0%BE%D0%BA%D1...
Ответ написан
Комментировать
xmoonlight
@xmoonlight
https://sitecoder.blogspot.com
В любом случае - это сегментация, а сегментация - это дерево с поиском по-вхождениям цепочек или НС.
Если совсем просто и "на-пальцах": берёте дерево категорий и теги с любого сайта и составляете дерево сегментации: категория -> тег->вес.
Ответ написан
Комментировать
begemot_sun
@begemot_sun
Программист в душе.
https://github.com/loguntsov/bayes - обучить, и производить классификацию :)
Вам нужно составить как можно большое кол-во пар обучения, ну а дальше дело техники.
Ответ написан
yorko
@yorko
Data Scientist
Topic Modelling (тематическое моделирование) - интересная и насыщенная математикой тема. Знакомиться лучше по видео К.В. Воронцова, например, в курсе с Яндексом и МФТИ на Coursera.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы