Ответы пользователя по тегу Кластеризация
  • Выбор оптимального метода распределения банкоматов по территории города?

    @dmshar
    А что тут советовать. Метод выбрали. Метод МОЖЕТ сработать (гарантии предварительно дать никто не может), значит надо просто пробовать. Получиться - отлично. Нет - будете разбираться почему и искать пути решения возникших по ходу вопросов. Если вопрос а том, как использовать выбранный метод - то глупо об этом спрашивать на форуме. Просто открываете соответствующие книги, читаете и применяете. Там все написано - подробно, с примерами и даже кое где с реализациями.
    По второй задаче - а не расшифруете, что вы имели ввиду под "определить оптимальное количество на n территории"? То-ли каково тут должно быть число n - но тогда надо определять, что такое "оптимальность" в данном случае. То-ли вы имели ввиду как распределить банкоматы на n-ной территории". То-ли ві хотели определить, а сколько банкоматов вам вообще нужно. Дайте точную формулировку. Тогда и говорить о чем-то будет можно.
    Ответ написан
  • Как предсказание кластеризации превратить в текст?

    @dmshar
    Можно. Преобразуйте элементы списка (они у вас строковые) в строку.
    Ответ написан
    1 комментарий
  • Какой лучше выбрать алгоритм для кластеризации большого количества данных?

    @dmshar
    Вы не сообщили главного - в сколько параметров описывают ваши данные?
    При двух-трех параметрах время вряд-ли будет катастрофически долгим.

    Тем не менее.
    Попробуйте DBSCAN например. Он не требует обработки всех данных на каждом шаге. Его вычислительная сложность O(NlogN), в худшем случае - O(N**2). Вот тут https://habr.com/ru/post/322034/
    его рекомендуют для случая, когда у вас данных порядка 10**6 и даже больше, если можете распараллелить реализацию.
    Ответ написан
    Комментировать
  • Как разделить "веса" на кластеры КОРРЕКТНО?

    @dmshar
    В алгоритмах кластеризации использующих центроиды (да и вообще - построенные на метрических мерах) как правило требуется задание количества кластеров, на которые вы желаете разбить свой набор данных в качестве входного параметра. Измените приведенный выше вами пример на такой - 1,2,4,11,12,18,19,20. И вот уже непонятно, тут три или четыре кластера? Просто в одномерном случае мы можем построить рисуночек и ответить на вопрос визуально. В многомерном так не получается, и определение "корректного" количества кластеров выливается в отдельную и весьма не простую задачу. И точног, абсолютно обоснованного решения, кстати, может и не иметь. Можете поискать "метод колена при кластеризации". Только зачем себе жизнь усложнять?

    Если же исходить из того, что данные к вам поступают, например, потоком и их надо бить на некоторые кластеры, то я бы вообще - в одномерном случае!!! - задал правило и не мучился бы. Например, в один кластер попадают точки, отстающие от ближайшей точки кластера не далее чем на 1. Или на 2, или на 3 или вообще на 100 - но это как раз и будет тем семантически зависимым параметром вашего алгоритма. При этом надо признать, что количество кластеров может изменяться. Причем и увеличиваться и уменьшаться. Например, в потоке 8,5,4,1,6,7 - у вас последовательно будет 1,2,2,3,3,2 кластера. Но это более менее согласуется с нашим интуитивным представлением. И главное, опровергнуть корректность именно такого количества кластеров - при заданном правиле - не удастся.
    Ответ написан
  • Как кластеризовать пользователей в рекомендательных системах для выявления атаки?

    @dmshar
    Поделитесь своими мыслями или статьями.
    Если не понятен вопрос, могу переформулировать.

    Да тут вроде как понятливые собрались, так что можно и не переформулировать. Но если хотите - то конечно можете. А пока вы будете переформулировать отвечу кратко, что знаю.
    Лично этой задачей не занимаюсь, но знаю людей, которые ей занимаются профессионально, т.е. для серьезных заказчиков. Так вот никто вам в открытую свои результаты не расскажет - как только такая информация становиться открытой - моментально найдутся особо умственно одаренные, которые будут пытаться это защиту обойти. Кому это надо?
    А так, анализ проводится обычными методами из области Fraud Detection. Таких методов и инструментов много, книги на этот счет пишут. Но это все "нежное введение" в тему, далекие подступы к реальным кейсам. Ну как в банковских системах все наслышаны о методах ловли мошеннических операций, о которых пишут. Вроде как и вот-она, информация доступная всем - отклонения, поиск аномалий, 3 сигма, пространственные разрывы и пр. - , а как реально это функционирует в реальных банках - увы "know how" и тайна за семью печатями.
    Ответ написан
    Комментировать
  • Как попроще кластеризовать данные?

    @dmshar
    Не понятен вопрос "куда засунуть"? А каким инструментом Вы пользуетесь?
    Если R - вот, выбирайте из имеющихся:
    https://www.hackerearth.com/practice/machine-learn...
    Если на Python - то некоторые готовые решения описаны тут
    py-algorithm.blogspot.com/2014/10/blog-post_12.html
    Если на SPSS - то выбирайте тут
    www.datuapstrade.lv/rus/spss/section_20/8
    Если на SAS - то https://www.sas.com/content/dam/SAS/ru_ru/doc/acad...
    В Statistica - свои средства - cdo.bseu.by/stat1/lab_3.htm
    Свои средства кластеризации есть у TensorFlow, в RapidMiner, в KNIME.
    Везде - готовое и несложное. Выбирайте, чем Вы лучше владеете.
    Ответ написан
    Комментировать