Ответы пользователя nirvimel по тегу «Big data»

Задать вопрос

Ответы пользователя по тегу Big data

Подсчет уникальных значений с минимальной погрешностью?

nirvimel @nirvimel

Все зависит от формата хранения/представления этих данных. Должен быть свой кастомный формат, компактный (чтобы сократить доступ к памяти) и удобный исключительно для быстрого сканирования (прохода по всем записям), и ни для чего другого. Я бы написал это под Cython или Numba с компактным представлением данных в Numpy. При таком большом количестве мелких записей и, в общем то, тривиальном алгоритме их обработки основным bottleneck в плане производительности становится не CPU, а доступ к RAM, поэтому от "хитрости" самого алгоритма подсчета (какие тут могут быть хитрости?) тут мало что зависит, зато компактность структуры данных (даже за счет не очень удобного доступа к ней) будет играть решающую роль.

Ответ написан более трёх лет назад

Комментировать

Комментировать
Как организовать алгоритм бартерных цепочек?
nirvimel @nirvimel
Ваша структура данных называется ориентированный граф. Вершины графа - контрагенты. Направленные ребра - ситуации, когда контрагент А предлагает товар, который контрагент Б желает приобрести (запрос на выборку таких ситуаций пишется на SQL элементарно и отрабатывает почти мгновенно при наличие правильных индексов).
У вас есть две задачи:
Нахождение циклов в ориентированном графе (идеальный вариант). Готовые решения существуют.
Нахождение самого длинного пути в ориентированном графе. Некоторые подходящие алгоритмы также можно найти.

Ответ написан более трёх лет назад

4 комментария
4 комментария
Как устроить быстрое чтение рандомных участков в файле в 400 гб?

nirvimel @nirvimel

Автор должен был сразу указать, что речь идет не о физическом сервере, а о гипервизоре azure microsoft.
Это объясняет многое... Нет, это объясняет все!
И слово SSD будет лучше убрать, если вы этот "SSD" сами в руках не держали (и никто его в руках не держал, т.к. это просто виртуалка под гипервизором).

Ответ написан более трёх лет назад

8 комментариев

8 комментариев

Самые активные сегодня

Eugenius Kostrubinas
- 2 ответа
- 0 вопросов
VoidVolker
- 2 ответа
- 0 вопросов
Akina
- 1 ответ
- 1 вопрос
Михаил Р.
- 1 ответ
- 0 вопросов
Виктор Таран
- 0 ответов
- 1 вопрос
De Slow
- 0 ответов
- 1 вопрос

Подсчет уникальных значений с минимальной погрешностью?

Как организовать алгоритм бартерных цепочек?

Как устроить быстрое чтение рандомных участков в файле в 400 гб?

Войдите на сайт