Задать вопрос
@olav24

Какой лучше выбрать алгоритм для кластеризации большого количества данных?

Я хотел бы подобрать алгоритм, который будет делить набор из 10 млн строк примерно на 12 кластеров. Например, самый известный kMeans в данном случае не подойдет из-за экспоненциальной сложности алгоритма. Есть ли какой-то алгоритм для такого количества данных, но при этом выполнение которого будет занимать адекватное колитчество времени?
  • Вопрос задан
  • 98 просмотров
Подписаться 2 Средний Комментировать
Пригласить эксперта
Ответы на вопрос 2
@dmshar
Вы не сообщили главного - в сколько параметров описывают ваши данные?
При двух-трех параметрах время вряд-ли будет катастрофически долгим.

Тем не менее.
Попробуйте DBSCAN например. Он не требует обработки всех данных на каждом шаге. Его вычислительная сложность O(NlogN), в худшем случае - O(N**2). Вот тут https://habr.com/ru/post/322034/
его рекомендуют для случая, когда у вас данных порядка 10**6 и даже больше, если можете распараллелить реализацию.
Ответ написан
Комментировать
@zexer
А вы уже пробовали использовать k means или просто предположили, что будет долго?
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы