Ответы пользователя по тегу Алгоритмы
  • Как крупные веб сервисы хранят массивы данных?

    VoidVolker
    @VoidVolker
    Dark side eye. А у нас печеньки! А у вас?
    Так же как и все - в БД плюс специальные архитектурные решения. Для разных типов данных используются различные механизмы доступа - все зависит от того, что и как использует эти данные. Там на самом деле куча различных как программных решений и систем, так и железных - типа специальных БД, нескольких уровней кэширования на SSD/RAM и прочего.

    как подобные сервизы хранят большие объёмы данных привязанные к единому элементу, например в канале находятся несколько сотен или даже тысяч пользователей

    Точно так же как и в более простых случаях - по ID в реляционных БД и в иерархии в иерархических БД, например. Для межсистемного взаимодействия используется специальный ID для передачи его между разными API.

    Какой в целом предпочтительный способ хранения подобного вида информацию

    Зависит от конкретных требований в конкретном случае. Горячие данные - в кэше, холодные - на диске. И т.п.
    Ответ написан
    Комментировать
  • Как ускорить поиск элементов из статичного string[] по подстроке?

    VoidVolker
    @VoidVolker Куратор тега C#
    Dark side eye. А у нас печеньки! А у вас?
    Раз нет ограничений по памяти и надо максимально быстро, то можно разложить весь массив в дерево таблиц переходов с шагом в один символ на таблицу. Самый быстрый и самый затратный по памяти. Таблица на каждый символ - 256 байт. Скорость поиска зависит только от размера строки и не зависит от объема данных: один символ - один переход в таблице к следующей таблице или конец поиска, если ноль. Я так уже делал: использовать имеет смысл на объемах примерно от 4 гигабайт данных (чем больше объем - тем меньше затраты на каждый символ). Но, если память позволяет и цель именно в скорости - то вполне нормальная плата памятью за скорость. Можно сократить расход памяти, если перекодировать строки в кодировку по числу используемых символов. Тогда таблица переходов будет в несколько раз меньше. Более экономный и более медленный вариант - дерево массивов/списков с шагом в 2/4/8 символов, при этом в поиске сравнение не по символам делать, а сразу по 2/4/8 байт: т.е., работаем со строкой как с массивом байтов и получаем оттуда uint16/uint32/uint64 и их и сравниваем, ибо процессору все равно какую инструкцию выполнять - один байт сравнить или 8. Возможно, конечно, оптимизатор в поиске по строке это все и оптимизирует. Я давно уже не смотрю на результаты его работы - так что тут только опытным путем. Ну и щас еще других вариантов накидают с деревьями тоже.

    UPD1:
    Можно все несколько упростить (или усложнить - смотря с какой стороны смотреть), если перекодировать строки из стандартной кодировки во что-то более компактное либо самостоятельно сделать кодировку под набор данных.

    Еще можно ускорить, если искать в несколько потоков, разбив весь набор данных на несколько групп.

    UPD2:
    Таки нашел немного времени и откопал исходники для шарпа и провел несколько тестов по расходу памяти.

    Число строк / общий размер данных / итоговый размер дерева

    5 символов:
    1000000 / 55.9MB / 13.2GB
    2000000 / 111.6MB / 25.2GB

    10 символов:
    100000 / 8.1MB / 4.1GB
    200000 / 16.1MB / 8GB
    300000 / 24.2MB / 11.9GB
    400000 / 32.2MB / 15.7GB
    500000 / 40.3MB / 19.5GB

    15 символов:
    100000 / 10.5MB / 6.6GB
    200000 / 21MB / 13.1GB
    300000 / 31.5MB / 19.5GB
    400000 / 42MB / 25.8GB

    20 символов:
    100000 / 13MB / 9.1GB
    200000 / 25.9MB / 18.1GB
    300000 / 38.9MB / 27GB


    Максимальный размер дерева для глубины в 5 символов на платформе х64:
    • Для диапазона 0-255 - до 8Тб и до 4 311 810 305 узлов
    • Для диапазона 0-70 - до 13.5Гб и до 24 357 971 узлов

    Максимальный размер дерева для глубины в 4 символа для диапазона 0-255: ~17Гб и ~33Гб для х86 и для х64 соответственно и лимит в 16 843 009 узлов. Ну и в коде есть функция для вычисления максимального числа узлов и размера дерева.

    Как видно по результатам - чем выше объем и короче строки, т.е., плотность, тем выше эффективность размещения на единицу памяти. Скорость поиска в таком дереве зависит лишь от числа символов в слове/строке и всегда константа независимо от объема. ТС имеет смысл оптимизировать алгоритм под свои данные, если там обычный текст - то вероятно имеет смысл сделать индекс слов, подобрать компактную кодировку, а далее уже список строк с этим словом. Т.е., сначала идет поиск в дереве по слову, а далее уже по списку строк. И можно будет хоть в гигабайтах искать мгновенно, но памяти там надо будет уже терабайты.

    И соответственно код: https://github.com/VoidVolker/search-tree/tree/master (предупреждаю сразу: код старый, по сути экспериментальный, не вылизанный и вероятно приведет кого-то в ужас). Но, главное, что работает.
    код

    Тестовый код:
    static Random rnd = new Random();
    static string[] GenStrings(int cnt, int strLen)
    {
        string[] arr = new string[cnt];
        var i = 0;
        while (i < cnt)
        {
            var sb = new StringBuilder();
            for (var j = 0; j < strLen; j++)
            {
                sb.Append(rnd.Next(0, 256));
                //sb.Append(TAbc[rnd.Next(0, TAbc.Length)]);
            }
            arr[i++] = sb.ToString();
        }
        return arr;
    }
    
    var arraySize = 300000;
    var stringSize = 20;
    
    var GCStartArr = GC.GetTotalMemory(true);
    
    var strings = GenStrings(arraySize, stringSize);
    
    var GCEndArr = GC.GetTotalMemory(true);
    var GCStart = GC.GetTotalMemory(true);
    
    var tree = new ArrayTree<string>();
    foreach (string s in strings)
    {
        tree.Add(Encoding.UTF8.GetBytes(s), s);
    }
    
    var GCEnd = GC.GetTotalMemory(true);
    
    Console.WriteLine("Array x string size / Array memory used / Tree memory used");
    Console.WriteLine($"{arraySize} х {stringSize} / {BytesToString(GCEndArr - GCStartArr)} / {BytesToString(GCEnd - GCStart)}");
    Ответ написан
  • В каком порядке учить темы по алгоритмам?

    VoidVolker
    @VoidVolker
    Dark side eye. А у нас печеньки! А у вас?
    От простого к сложному. Ну и сначала, конечно те, от которых зависят более сложные. А вообще - не принципиально. Можно просто по списку.
    Ответ написан
    Комментировать
  • Как составлять алгоритмы и блок схемы в xmind? Возможно есть сервисы лучше?

    VoidVolker
    @VoidVolker
    Dark side eye. А у нас печеньки! А у вас?
    Например:
    https://www.draw.io/ - пользуюсь этим, больше нравится, достаточно гибкий и удобный
    https://www.lucidchart.com/
    https://mermaid.js.org/ - тоже отличнейший вариант, саму схему описываешь текстом, при этом схема описания очень простая и понятная
    Ответ написан
    2 комментария
  • Как и где искать алгоритмы?

    VoidVolker
    @VoidVolker
    Dark side eye. А у нас печеньки! А у вас?
    Это называется библиотеки и программы. По факту любая программа и есть алгоритм, а любой алгоритм - и есть программа. Соответственно и самый известный сайт данного направления: https://github.com
    Способ поиска как и всегда - по ключевым словам в гугле. Если результата ноль - значит, надо просто самому разработать алгоритм/программу.
    Ответ написан
    Комментировать
  • Поиск решения задачи, не похожей на предыдущие. Есть ли идеальный алгоритм?

    VoidVolker
    @VoidVolker
    Dark side eye. А у нас печеньки! А у вас?
    Это очень простой алгоритм на самом деле. Этим людям явно не хватает мотивации, чтобы включить мозг и решить новую для них задачу. Дело не в том, что они не могут найти решение, а в том что для этого нужно включить мозг и подумать. Если человек ленив или не способен к мышлению, особенно к творческому (а поиск решения и разработка нового для себя алгоритма - это таки творческий процесс) — то ему уже ничего не поможет, кроме кнута и палки.
    В данном случае надо этих джуниоров загнать в тупик и под давлением стресса заставить работать. Например, дать вот такую новую задачу, запереть в кабинете и дать час-два: все то время, которое он потратит на поиск решения более часа-двух - вычесть из зарплаты. Или, например, уменьшить премию. И пускай решает хоть целый месяц, но решит. Уверен, большинство быстро сообразят, что лучше таки включить мозг и ненмого напрячься, чем потом сосать лапу или искать новую работу. Ну а те, кто не таки не смог решить такую новую задачу, даже когда их в жопу клюнул жареных петух... Думаю ответ очевиден — пускай ищут профессию по умениям и навыкам. Ибо IT и программирование — это ежедневная учеба и усвоение новых знаний. Без этих навыков человеку в IT делать нечего. Кстати, программирвоание по тяжести труда тяжелее добычи ископаемых в шахтах.
    Ответ написан
  • Способ организации обмена данными между 2мя системами

    VoidVolker
    @VoidVolker
    Dark side eye. А у нас печеньки! А у вас?
    Джедайская вполне схема первая.
    Ответ написан