Что и где почитать про алгоритмы определения интереса(ов) пользователей?
Добрый день всем.
Может кто-то сталкивался с материалами (книгами / статьями / обзорами), описывающими алгоритмы и/или подходы по определению интересов пользователя на основании нечётких данных (электронная переписка / телефонные звонки (голос) / может, например, на основании логов каких-то / круга контактов / итд)?
Очень много маркетинговой информации по этой теме из серии «Big Data — это насущно», это помогло кому-то повысить продажи / уличить сотрудников в воровстве / улучшить логистику и т.д.
Но вот информации по используемым алгоритмам, методам и тд — как то очень мало. В основном упоминания заканчиваются на использованых технологиях (типа MapReduce, реализациях BigTable итд). Касательно же самих алгоритмов я как то не находил. Может подскажете где искать?
Имеется в виду, в контексте простого, но наиболее схожего примера (из того, что я думаю должно существовать как готоые алгоритмя, потом адаптировать под себя). Показ рекомендуемыъ продуктов на сайте магазина, учитывая какие статьи он читает (будем считать что тегов у статей не было — текст надо анализировать). Или, как почтовые системы, на основании содержимого твоей переписки, начинают выдавать контекстную рекламу. Это то что приходит в голову первым. Линкед-ин, например, по профилю (только ли?) даёт рекомендации по статьям и вакансиям, которые могут быть интересны.
По аналогии таких алгоритмов уже бы копал в свою задачу.
Может есть хорошие книги, которые рассказывают человеческим языком?
Могу посоветовать книжку, где в примерах на Python'е освещаются подобные вопросы:
«Программируем коллективный разум.» Тоби Сегаран — правда, не совсем
уверен, что Вы именно то спросили…
я занимаюсь похожей задачей, с тем отличием, что анализ предпочтений идет для службы знакомств. Прикладная сторона — вычислять спамера, предложения разных услуг… т.е. чьи цели НЕ познакомиться.
У каждого пользователя есть некоторые показатели (у нас их более 50). Собирается информация на каждом шаге пользоввателя нахождения на сайте. Далее мы данные прокручиваем через статистику, и выявляем кластеры пользователей. Аномальные пользователи «неадексаты», те, чье расстояние на n-мерном пространстве более, чем две медианы кластера.