Ответы пользователя по тегу Big data
  • Подсчет уникальных значений с минимальной погрешностью?

    @nirvimel
    Все зависит от формата хранения/представления этих данных. Должен быть свой кастомный формат, компактный (чтобы сократить доступ к памяти) и удобный исключительно для быстрого сканирования (прохода по всем записям), и ни для чего другого. Я бы написал это под Cython или Numba с компактным представлением данных в Numpy. При таком большом количестве мелких записей и, в общем то, тривиальном алгоритме их обработки основным bottleneck в плане производительности становится не CPU, а доступ к RAM, поэтому от "хитрости" самого алгоритма подсчета (какие тут могут быть хитрости?) тут мало что зависит, зато компактность структуры данных (даже за счет не очень удобного доступа к ней) будет играть решающую роль.
    Ответ написан
    Комментировать
  • Как организовать алгоритм бартерных цепочек?

    @nirvimel
    Ваша структура данных называется ориентированный граф. Вершины графа - контрагенты. Направленные ребра - ситуации, когда контрагент А предлагает товар, который контрагент Б желает приобрести (запрос на выборку таких ситуаций пишется на SQL элементарно и отрабатывает почти мгновенно при наличие правильных индексов).
    У вас есть две задачи:
    1. Нахождение циклов в ориентированном графе (идеальный вариант). Готовые решения существуют.
    2. Нахождение самого длинного пути в ориентированном графе. Некоторые подходящие алгоритмы также можно найти.

    Ответ написан
    4 комментария
  • Как устроить быстрое чтение рандомных участков в файле в 400 гб?

    @nirvimel
    Автор должен был сразу указать, что речь идет не о физическом сервере, а о гипервизоре azure microsoft.
    Это объясняет многое... Нет, это объясняет все!
    И слово SSD будет лучше убрать, если вы этот "SSD" сами в руках не держали (и никто его в руках не держал, т.к. это просто виртуалка под гипервизором).
    Ответ написан
    8 комментариев