Какой есть алгоритм для поиска пользователей в соц. сетях по ключевым словам?
Посоветуйте, какие могут быть подходы для поиска пользователей в соцсетях (фейсбук, linkedin) по запросу. Запрос представляет сбой одно-несколько ключевых слов. Неформально, хочется находить пользователей с интересами, указанными в запросе. При этом хочется чтобы поиск не был булевым, т.е. в результат попадали даже те юзеры, у которых не было точного совпадения, но были "близкие" термины.
Что здесь можно сделать? У меня такие идеи:
- моделировать топики через LSA, потом маппить в новое пространство юзеров и сам запрос
- как-то использовать коллаборативную фильтрацию (как?)
- использовать булев поиск, расширяя поисковый запрос
Проблема осложняется тем, что не так много данных, и они не размечены. Но последнее можно сделать.
Может быть кто-то сталкивался с подобным, поделитесь плз.
Так как данных мало, а размеченных совсем нет - сделал финт ушами. Взял word2vec утилитку от гугловых разработчиков и натравил на кусок википедии. После этого замапил профайлы и запросы в новое пространство и применил косинусное расстояние. Получилось сносно, хотя и с аномалиями.
Чой-то пропустил ваш комментарий. Извиняюсь. Есть несклько вариантов. 1 - среднее 2 - максимальное расстояние до самого релевантного объекта. Но, по правде говоря, сейчас появились более мощные подходы. Можно целую строку представить таким вектором (см paragraph vector и подобные). Это снимает проблему выбора варианта композиции векторов.