Какой лучше выбрать алгоритм для кластеризации большого количества данных?

Question

olav24 @olav24

Какой лучше выбрать алгоритм для кластеризации большого количества данных?

Я хотел бы подобрать алгоритм, который будет делить набор из 10 млн строк примерно на 12 кластеров. Например, самый известный kMeans в данном случае не подойдет из-за экспоненциальной сложности алгоритма. Есть ли какой-то алгоритм для такого количества данных, но при этом выполнение которого будет занимать адекватное колитчество времени?

Вопрос задан более трёх лет назад
100 просмотров

Комментировать

Подписаться 2 Средний Комментировать

Пригласить эксперта

Ответы на вопрос 2

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

IT-образование

+2 ещё

Средний
LLM для школьных экспериментов. Существует ли что то подходящее?
- 1 подписчик
- 03 авг.
- 194 просмотра
3

ответа
Нейронные сети

+1 ещё

Простой
Как вычисляется MSE в VAE?
- 1 подписчик
- 24 июл.
- 54 просмотра
0

ответов
Машинное обучение

+1 ещё

Простой
Reverse engineering black box ML-модели?
- 1 подписчик
- 10 июл.
- 134 просмотра
3

ответа
Алгоритмы

+1 ещё

Средний
Как можно предиктить дату регистрации при массиве данных?
- 1 подписчик
- 03 июл.
- 138 просмотров
1

ответ
Программирование

+1 ещё

Простой
Как работает регистрация и аутентификация с помощью ЭЦП?
- 1 подписчик
- 26 июн.
- 267 просмотров
3

ответа
Компьютерные сети

+1 ещё

Простой
Как построить топологию сетей (данные в FDB таблице) когда связи замкнуты в кольцо?
- 2 подписчика
- 25 июн.
- 471 просмотр
2

ответа
Алгоритмы

Средний
Какие переходы для ДП у «Гелифиш и незабудка» codeforce?
- 1 подписчик
- 12 июн.
- 87 просмотров
1

ответ
C#

+1 ещё

Простой
Почему неправильно работает Keeloq?
- 1 подписчик
- 05 июн.
- 121 просмотр
1

ответ
Алгоритмы

Простой
Какие переходы для ДП Codeforces Петя и пауки?
- 1 подписчик
- 27 мая
- 163 просмотра
1

ответ
Алгоритмы

Простой
Какую букву в игре поле чудес в этом случае лучше всего открыть? правильное ли это решение?
- 1 подписчик
- 20 мая
- 249 просмотров
3

ответа
Показать ещё Загружается…

Разработчик бэкенда в команду коммуникационной платформы

Яндекс • Москва

от 300 000 до 490 000 ₽

Разработчик в буткемп Core Infrastructure

Яндекс • Москва

от 300 000 до 490 000 ₽

Разработчик WebRTC-сервисов на Go в видеоплатформу

Яндекс • Москва

от 300 000 до 490 000 ₽

Answer 1 · 2021-02-19 20:38:56

Вы не сообщили главного - в сколько параметров описывают ваши данные?
При двух-трех параметрах время вряд-ли будет катастрофически долгим.

Тем не менее.
Попробуйте DBSCAN например. Он не требует обработки всех данных на каждом шаге. Его вычислительная сложность O(NlogN), в худшем случае - O(N**2). Вот тут https://habr.com/ru/post/322034/
его рекомендуют для случая, когда у вас данных порядка 10**6 и даже больше, если можете распараллелить реализацию.

Answer 2 · 2021-02-19 19:58:04

zexer @zexer

А вы уже пробовали использовать k means или просто предположили, что будет долго?

Ответ написан более трёх лет назад

Комментировать

Какой лучше выбрать алгоритм для кластеризации большого количества данных?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт