Как программно определить принадлежность фразы к определённой тематике?
Как определить принадлежность фразы к определённой тематике?
Например, фраза "покраска стен" относится к тематике строительства, а "магнитная буря в Москве" - нет.
Какие используются алгоритмы в подобных задачах? Что копать? Машинное обучение? Нейронные сети? Может, что попроще!?
В любом случае - это сегментация, а сегментация - это дерево с поиском по-вхождениям цепочек или НС.
Если совсем просто и "на-пальцах": берёте дерево категорий и теги с любого сайта и составляете дерево сегментации: категория -> тег->вес.
https://github.com/loguntsov/bayes - обучить, и производить классификацию :)
Вам нужно составить как можно большое кол-во пар обучения, ну а дальше дело техники.
Topic Modelling (тематическое моделирование) - интересная и насыщенная математикой тема. Знакомиться лучше по видео К.В. Воронцова, например, в курсе с Яндексом и МФТИ на Coursera.