Ответы пользователя dmshar по тегу «Кластеризация»

Задать вопрос

Ответы пользователя по тегу Кластеризация

Выбор оптимального метода распределения банкоматов по территории города?

dmshar @dmshar

А что тут советовать. Метод выбрали. Метод МОЖЕТ сработать (гарантии предварительно дать никто не может), значит надо просто пробовать. Получиться - отлично. Нет - будете разбираться почему и искать пути решения возникших по ходу вопросов. Если вопрос а том, как использовать выбранный метод - то глупо об этом спрашивать на форуме. Просто открываете соответствующие книги, читаете и применяете. Там все написано - подробно, с примерами и даже кое где с реализациями.
По второй задаче - а не расшифруете, что вы имели ввиду под "определить оптимальное количество на n территории"? То-ли каково тут должно быть число n - но тогда надо определять, что такое "оптимальность" в данном случае. То-ли вы имели ввиду как распределить банкоматы на n-ной территории". То-ли ві хотели определить, а сколько банкоматов вам вообще нужно. Дайте точную формулировку. Тогда и говорить о чем-то будет можно.

Ответ написан более трёх лет назад

2 комментария

2 комментария
Как предсказание кластеризации превратить в текст?

dmshar @dmshar

Можно. Преобразуйте элементы списка (они у вас строковые) в строку.

Ответ написан более трёх лет назад

1 комментарий

1 комментарий
Какой лучше выбрать алгоритм для кластеризации большого количества данных?

dmshar @dmshar

Вы не сообщили главного - в сколько параметров описывают ваши данные?
При двух-трех параметрах время вряд-ли будет катастрофически долгим.

Тем не менее.
Попробуйте DBSCAN например. Он не требует обработки всех данных на каждом шаге. Его вычислительная сложность O(NlogN), в худшем случае - O(N**2). Вот тут https://habr.com/ru/post/322034/
его рекомендуют для случая, когда у вас данных порядка 10**6 и даже больше, если можете распараллелить реализацию.

Ответ написан более трёх лет назад

Комментировать

Комментировать
Как разделить "веса" на кластеры КОРРЕКТНО?

dmshar @dmshar

В алгоритмах кластеризации использующих центроиды (да и вообще - построенные на метрических мерах) как правило требуется задание количества кластеров, на которые вы желаете разбить свой набор данных в качестве входного параметра. Измените приведенный выше вами пример на такой - 1,2,4,11,12,18,19,20. И вот уже непонятно, тут три или четыре кластера? Просто в одномерном случае мы можем построить рисуночек и ответить на вопрос визуально. В многомерном так не получается, и определение "корректного" количества кластеров выливается в отдельную и весьма не простую задачу. И точног, абсолютно обоснованного решения, кстати, может и не иметь. Можете поискать "метод колена при кластеризации". Только зачем себе жизнь усложнять?

Если же исходить из того, что данные к вам поступают, например, потоком и их надо бить на некоторые кластеры, то я бы вообще - в одномерном случае!!! - задал правило и не мучился бы. Например, в один кластер попадают точки, отстающие от ближайшей точки кластера не далее чем на 1. Или на 2, или на 3 или вообще на 100 - но это как раз и будет тем семантически зависимым параметром вашего алгоритма. При этом надо признать, что количество кластеров может изменяться. Причем и увеличиваться и уменьшаться. Например, в потоке 8,5,4,1,6,7 - у вас последовательно будет 1,2,2,3,3,2 кластера. Но это более менее согласуется с нашим интуитивным представлением. И главное, опровергнуть корректность именно такого количества кластеров - при заданном правиле - не удастся.

Ответ написан более трёх лет назад

11 комментариев

11 комментариев
Как кластеризовать пользователей в рекомендательных системах для выявления атаки?

dmshar @dmshar

Поделитесь своими мыслями или статьями.
Если не понятен вопрос, могу переформулировать.
Да тут вроде как понятливые собрались, так что можно и не переформулировать. Но если хотите - то конечно можете. А пока вы будете переформулировать отвечу кратко, что знаю.
Лично этой задачей не занимаюсь, но знаю людей, которые ей занимаются профессионально, т.е. для серьезных заказчиков. Так вот никто вам в открытую свои результаты не расскажет - как только такая информация становиться открытой - моментально найдутся особо умственно одаренные, которые будут пытаться это защиту обойти. Кому это надо?
А так, анализ проводится обычными методами из области Fraud Detection. Таких методов и инструментов много, книги на этот счет пишут. Но это все "нежное введение" в тему, далекие подступы к реальным кейсам. Ну как в банковских системах все наслышаны о методах ловли мошеннических операций, о которых пишут. Вроде как и вот-она, информация доступная всем - отклонения, поиск аномалий, 3 сигма, пространственные разрывы и пр. - , а как реально это функционирует в реальных банках - увы "know how" и тайна за семью печатями.

Ответ написан более трёх лет назад

Комментировать

Комментировать
Кластеризация взаимных связей. Какие варианты?

dmshar @dmshar

Поиск сильносвязанных компонент в графе.
https://ru.wikipedia.org/wiki/Компонента_сильной_с...

Ответ написан более трёх лет назад

1 комментарий

1 комментарий
Как попроще кластеризовать данные?

dmshar @dmshar

Не понятен вопрос "куда засунуть"? А каким инструментом Вы пользуетесь?
Если R - вот, выбирайте из имеющихся:
https://www.hackerearth.com/practice/machine-learn...
Если на Python - то некоторые готовые решения описаны тут
py-algorithm.blogspot.com/2014/10/blog-post_12.html
Если на SPSS - то выбирайте тут
www.datuapstrade.lv/rus/spss/section_20/8
Если на SAS - то https://www.sas.com/content/dam/SAS/ru_ru/doc/acad...
В Statistica - свои средства - cdo.bseu.by/stat1/lab_3.htm
Свои средства кластеризации есть у TensorFlow, в RapidMiner, в KNIME.
Везде - готовое и несложное. Выбирайте, чем Вы лучше владеете.

Ответ написан более трёх лет назад

Комментировать

Комментировать