Кластеризация схожих массивов

Question

axmakarov @axmakarov

Кластеризация схожих массивов

Приветствую! Столкнулся с такой проблемой: передо мной стоит задача нечеткой кластеризации неких пользовательских запросов на основе схожести людей их задававших. В моих данных каждому запросу в однозначное соответствие поставлен массив людей, которые обращались в систему с таким запросом. Для лучшей иллюстрации приведу пример (xls) . В файле каждому запросу Query в соответствие поставлен массив размерностью 25, но на практике размерность может различаться, все зависит от того сколько человек обращались с таким запросом. Необходимо произвести нечеткую кластеризацию на основе степени похожести массивов. Мой вопрос в том какой алгоритм кластеризации лучше всего использовать для этой задачи, возможно в составе уже существующих библиотек Data Mining'a (на C# или Python), а также с чего стоит начать, например, каким образом рассчитать расстояние между объектами.

Вопрос задан более трёх лет назад
3410 просмотров

Комментировать

Подписаться 6 Оценить Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Системный аналитик

9 месяцев

Далее
Skillbox

Нейросети: практический курс

3 месяца

Далее
Нетология

Аналитик данных: расширенный курс

11 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Компьютерные сети

+4 ещё

Средний
Как настроить кластер коммутаторов на mikrotik?
- нет подписчиков
- 28 янв.
- 477 просмотров
1

ответ
Linux

+2 ещё

Простой
Как можно организовать кластерный аналог CRON?
- 1 подписчик
- 18 янв.
- 199 просмотров
5

ответов
Кластеры

+2 ещё

Средний
Всем привет. Какой метод лучше всего использовать для кластеризации и как его реализовать (нужно подсчитать количество и размер кластеров)?
- 1 подписчик
- более года назад
- 70 просмотров
1

ответ
Нейронные сети

+2 ещё

Средний
Как сделать нечёткую кластеризацию текстов?
- 2 подписчика
- более года назад
- 340 просмотров
1

ответ
PostgreSQL

+1 ещё

Средний
Как можно настроить автопереключение потоковой реплики на новый мастер?
- 2 подписчика
- более двух лет назад
- 177 просмотров
0

ответов
Кластеры

+2 ещё

Средний
Кластер непрерывной доступности (Fault Tolerance или Continuous Availability) на Openstack как настроить?
- 2 подписчика
- более двух лет назад
- 116 просмотров
0

ответов
Кластеризация

Средний
Сегментации изображения, термограммы. Какой способ выбрать?
- 1 подписчик
- более двух лет назад
- 71 просмотр
1

ответ
Виртуализация

+1 ещё

Простой
Как создать одну виртуальную машину использующую несколько серверов?
- 1 подписчик
- более двух лет назад
- 639 просмотров
2

ответа
JavaScript

+2 ещё

Простой
Как задать модификатор для шаблона кластера у yandex maps при использовании objectManager?
- 1 подписчик
- более двух лет назад
- 145 просмотров
0

ответов
Data Mining

+1 ещё

Средний
Система управления майниг — ЦОДом, такое вообще существует?
- 2 подписчика
- более двух лет назад
- 164 просмотра
2

ответа
Показать ещё Загружается…

IT-архитектор

АВ Софт • Москва

от 300 000 ₽

Маркетинговый аналитик

МТС Web Services • Грозный

от 60 000 ₽

Senior DWH Analyst

Анвио Парк

от 200 000 до 300 000 ₽

Answer 1 · 2014-02-04 23:51:25

Если кол-во данных позволяет, посчитайте кол-во общих пользователей "С" между анализируемым запросом и референсным. Если длина исходных выборок (25 в Вашем примере) может сильно варьироваться (обозначим "N[0]" для анализируемой и "N[i]" для референсной), то наверное имеет смысл это число еще и отнормировать, например, "2*C/(N[0]+N[i])" или "C/SQRT(N[0]*N[i])" или "С/N[0]+C/N[i]".

Если кол-во данных не позволяет ("С" статистически близко к "0"), то возможно будет оправданно "расширить круг" исследуемого запроса и референсного, включив в их выборки (естественно уже с весами, отражающими частоты) другие запросы, которыми интересовались люди, которые интересовались исследуемым и референсным запросами (порознь). Пройдет ли такой маневр - зависит от предметной области, то есть семантических связей между пользователями и запросами.

Answer 2 · 2016-02-10 03:59:25

xmoonlight @xmoonlight

https://sitecoder.blogspot.com

Посмотрите вот тут: Как определить похожесть двух строк?

Ответ написан более трёх лет назад

Комментировать

Кластеризация схожих массивов

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт