Вообще вам надо обеспечить доступ широкому кругу лиц или только себе? Ссылки на статику не обновить, надо чтобы существующие заработали, или сможете обновить? Например, пустить через CloudFront.
надо бы как-то распараллелить, чтобы не было single point of failure.
Проплатить виртуальные машинки в разных ДЦ на 50 лет вперед?.
Думал, может, есть какое-то общеизвестное решение.
Коммент опять переполнен водой и обращением к личности, а не теме вопроса. Здесь принятно писать по существу. Переписать коммент можно было бы так:
----
«
1. в k-means "пустоты" не оцениваются никак, ибо он относится к алгоритмам на основе анализа метрик, а не на основе анализа плотностей.
К алгоритмам на основе анализа плотностей относится, например, алгоритм DBSCAN.
2. практически все алгоритмы не оценивают что-то после своей работы, а наоборот, они строят кластеры так, чтобы удовлетворить каким-то наперед заданным критериям. Не нужно проверять "а есть-ли пустота между кластерами", алгоритм построен так, что результатом его работы будет набор максимально возможных "плотных" на заданном наборе данных скоплений точек.
3. в конкретном одномерном случае я бы посоветовал просто оценить плотность точек на всем интервале возможных значений. DBSCAN в одномерном случае именно это и делает.
»
dmshar, опять намутили воду, много воды, и ничего по делу. k-means я уже применяю в других задачах по этому датасету. Тут дело в том, что куча строк. В некоторых такое четкое деление на 2 кластера есть. В некоторых нет. И я у опытных дата сайентистов интересуюсь, каким методом лучше это есть/нет определять. python, pandas, sklearn.
Так в приведённом простейшем случае, не обкладываясь книгами, зная по секрету все секреты и пройдя несколько курсов по кластерному анализу, вы бы как решали задачку элементарную?