Как ускорить поиск элементов из статичного string[] по подстроке?

Question

Владимир @Degot

Как ускорить поиск элементов из статичного string[] по подстроке?

Имеется статичный массив из 25 млн строк разной длины ([A-Z0-9А-Я\s]+).
Простой For + string.Contains выполняется в среднем за 1110 ms, а For + Regex.IsMatch за 3410 ms

Вопрос: Если пренебречь памятью и зная что массив статичный в какую структуру его можно преобразовать для ускорения поиска элементов по подстроке (LIKE '%substring%')?

Спасибо.

Вопрос задан 07 февр.
951 просмотр

32 комментария

Подписаться 3 Простой 32 комментария

# @mindtester Куратор тега C#

мне очень понравились ответы коллег. один вопрос - на сколько динамичный набор?
- затраты на построение дерева в сравнении с частотой его обновления?
- Regex популярен в силу универсальности, менее на слуху его затратность... так что в вашем случае это точно не вариант ;))
... обычно мне удавались парсинги на основе сравнения фрагментов строк, примерно также, если не лучше, обходившие Regex по скорости ;))

Написано 07 февр.
Everything_is_not_so_bad @2ord

поиска элементов по подстроке (LIKE '%substring%')

похоже на полнотекстовый поиск в СУБД

Написано 07 февр.
# @mindtester Куратор тега C#

какие у вас ресурсы? увлекся... попытался сгенерировать массив 25М.. при лимите 20 символов.. и толи выспаться надо.. то ли вылетает на фиг с лимитом памяти )))

Написано 07 февр.
Владимир @Degot Автор вопроса

#, набор обновляется раз в 15 минут... а поиск.. необходимо максимально приблизиться к ~100 параллельных в секунду.

Написано 07 февр.

# @mindtester Куратор тега C#

Владимир,обидно.. на своих 16 ГБ.. смог позволить себе генерацию,

лишь 1500 строк по 20 символов..

using System.Runtime.Serialization.Formatters;
using System.Text;

static class m20
{
    public static List<string> arr = new List<string>();
    public static int cnt = 15_000;
    public static Random rnd = new Random();
    public static int l = 20;
    static void Main()
    {
        gen();
        ".. вроде готово".print();
    }
    static void gen()
    {
        var sb = new StringBuilder();
        for (var i = 0; i <= cnt; i++)
        {
            for (var j = 0; j < l; j++) sb.Append(rnd.Next('!', '}'));
            arr.Add(sb.ToString());
        }
    }
    static void print(this string s) => Console.WriteLine(s);
}

Написано 07 февр.

# @mindtester Куратор тега C#

Владимир, чем дальше в лес, тем интереснее.. я поиграюсь на генеренереных массивах, если что - отпишусь..
а вы помедитируйте над brightstardb и аналогами ))

Написано 07 февр.
# @mindtester Куратор тега C#

Владимир, а еще есть такая штука Dictionary c#.. не примеряли?

Написано 07 февр.
# @mindtester Куратор тега C#

Владимир, и чем подробнее о задаче, тем больше шансы на успех.. поиск ключевых слов? )).. тогда словарь..

Написано 07 февр.

# @mindtester Куратор тега C#

Владимир? кхех.. "и на старуху бывает проруха"

немного не ожиданно, но расположение StringBuilder() оказывает сильное влияние на память (25М по 20 символов влезло)

using System.Text;

static class m20
{
    public static List<string> arr = new List<string>();
    public static int cnt = 25_000_000;
    public static Random rnd = new Random();
    public static int l = 20;
    static void Main()
    {
        gen();
        ".. вроде готово".print();
        arr.Count.ToString().print();
    }
    static void gen()
    {
        for (var i = 0; i < cnt; i++)
        {
            var sb = new StringBuilder();
            for (var j = 0; j < l; j++) sb.Append(rnd.Next('!', '}'));
            arr.Add(sb.ToString());
        }
    }
    static void print(this string s) => Console.WriteLine(s);
}

.. поиграюсь со скоростями - отпишусь, если будет о чем ))

Написано 07 февр.

Владимир @Degot Автор вопроса

#, Есть массив строк различной длины, надо найти те строки, которые содержат подстроку, предоставленную пользователем.

На SQL выглядит так: SELECT text FROM strings WHERE text LIKE '%substring%'.
На LINQ выглядит: strings.Where(s => s.Contains("substring"))

Написано 07 февр.
# @mindtester Куратор тега C#

Владимир, а время на sql? и время на plinq? ... или не пробовали?

Написано 07 февр.
Владимир @Degot Автор вопроса

#, Для plinq'а ядер маловато.

Написано 07 февр.
Everything_is_not_so_bad @2ord

А в какой СУБД хранятся данные? Её средствами нельзя делать поиск?

Написано 07 февр.
# @mindtester Куратор тега C#

из азарта... как протрезвею.. попробую чистый шарп ))

Написано 07 февр.
# @mindtester Куратор тега C#

Владимир, эмм .. ну да... у меня их 20.. вроде.. может быть не равная игра.. но и на 4х можно найти выигрыш ))
вопрос в цене (времени исполнения) между преобразованием в дерево.. и баланс между ценой преобразования... и ценой времени поиска

Написано 07 февр.
# @mindtester Куратор тега C#

Владимир, у меня в однопоточном, на 25М, рандомно от 15 до 25 символов.. уже порядка 14-16 сек.. а если у тебя строки длиннее.. ни че так набор для кручения в оперативке ))
.. зацепило.. если что найду - напишу

Написано 07 февр.
# @mindtester Куратор тега C#

Владимир, возможно ключевой вопрос - место исполнения? vds? одно ядро?... от этого зависят пути поисков вариантов ускорения )))

Написано 07 февр.

# @mindtester Куратор тега C#

Владимир,

предварительная разминка

using System.Threading;
using System.Diagnostics;
using System.Text;
using Microsoft.VisualBasic;

static class m20
{
    public static List<string> arr = new List<string>();
    public static int cnt = 25_000_000;
    public static Random rnd = new Random();
    public static int l = 20;
    public static Stopwatch stopWatch = new Stopwatch();
    public static List<string> req = new List<string>();
    public static int rcnt = 20;
    public static List<string> res = new List<string>();
    static void Main()
    {
        gen();
        ".. вроде готово".print();
        arr.Count.ToString().print();
        rgen();
        req.Count.ToString().print();
        find();
        res.Count.ToString().print();
    }
    static void gen()
    {
        stopWatch.Start();
        for (var i = 0; i < cnt; i++)
        {
            l = rnd.Next(15, 25);
            var sb = new StringBuilder();
            for (var j = 0; j < l; j++) sb.Append(rnd.Next('!', '}'));
            arr.Add(sb.ToString());
        }
        stopWatch.Stop();
        stopWatch.Elapsed.print();
    }
    static void rgen()
    {
        stopWatch.Start();
        for (var i = 0; i < rcnt; i++)
        {
            var rn = rnd.Next(1_000_000, arr.Count - 1);
            req.Add(arr[rn].Substring(5, 5));
        }
        stopWatch.Stop();
        stopWatch.Elapsed.print();
    }
    static void find()
    {
        stopWatch.Start();
        foreach (var s in arr)
            foreach (var q in req)
                if (s.Contains(q)) res.Add(s);
        stopWatch.Stop();
        stopWatch.Elapsed.print();
    }

    public static void print(this string s) => Console.WriteLine(s);
    public static void print(this TimeSpan ts) => Console.WriteLine($"{ts.Hours}:{ts.Minutes}:{ts.Seconds}.{ts.Milliseconds / 10}");
}

выхлоп (это tще ни каких plinq, но поиск примерно 20 хвостовых...)

Написано 07 февр.

# @mindtester Куратор тега C#

Владимир, исправил выше ... скрин по началу криво вставил

Написано 07 февр.
# @mindtester Куратор тега C#

Владимир, уточните задачу:
- искомые слова могут бы в любом месте строки?
- искомое слово всегда отдельное слово?
- искомые слова постоянный список? или так же произвольный?
... возможно ни какие деревья/графы вам не подойдут... все зависит от ответов на эти вопросы ))

Написано 07 февр.
Владимир @Degot Автор вопроса

- искомые слова могут бы в любом месте строки? - Да
- искомое слово всегда отдельное слово? - Да или часть слова
- искомые слова постоянный список? или так же произвольный? - произвольный

Написано 07 февр.
# @mindtester Куратор тега C#

Владимир, жаль что вы изменили на "псевдо шарп"... очень хотелось попробовать и понять избранный вами вариант.. но.. быт, извините ))
.. может и этот пойму, кажется вы выбрали БД? (первое впечатление, не успел вчитаться)

Написано 09 февр.
Владимир @Degot Автор вопроса

#, Я использую Sqlite для двух случаев: 1) Тест FTS5 2) Для моей реализации как хранилище. Дабы не городить велосипед.

Написано 09 февр.
# @mindtester Куратор тега C#

Владимир, уточните, правильно ли понял? (может и нет?..
вы разбиваете исходный массив на слова? (с указанием строк)..
а поиск по первому слову "подстроки"?
(зацепила задача )))..
и сколько ядер? vds и одно?

Написано 09 февр.
Владимир @Degot Автор вопроса

#,
вы разбиваете исходный массив на слова? (с указанием строк)..
Да

а поиск по первому слову "подстроки"?

1. searchTerm делю на слова => searchTermWords
2. Ищу все слова из словаря, которые содержат в себе слова searchTermWords
3. Для каждого найденного слова из словаря вытаскиваю индексы исходных строк и фильтрую

Написано 09 февр.
# @mindtester Куратор тега C#

Владимир, хорошо )))... если хотя бы опробую, не претендую на лучшее решение... ну и может для сравнения pliq, если руки дойдут...
.. а как результат на сегодня? устраивает?
и все таки о ядрах - это дома? или платный vds? ..(не лезу в чужой карман.. просто plinq и на двух ядрах хорошо...
.. если разберусь с вашим вариантом, кину пару своих .. с р и без ))

Написано 09 февр.
# @mindtester Куратор тега C#

Владимир, киньте лимиты по оперативке и ядрам, частоты.. у меня зверинец виртуалок... могу эмулировать многое )))
- требования по времени построения "дерева"
- требования по времени запроса
.. )))

Написано 09 февр.
Владимир @Degot Автор вопроса

.. а как результат на сегодня? устраивает?

да.

Написано 09 февр.
# @mindtester Куратор тега C#

Владимир, ну вот блин... уйду без решения? )))... да не, покурю твое... можно если что спрошу?...
.. (если что сам еще найду - вернусь, не сомневайся ;))

Написано 09 февр.
# @mindtester Куратор тега C#

Владимир, искомая "подстрока":
- одно или более слов?
- вероятность полного совпадения, хотя бы первого слова?
- "не четкие совпадения" тебя интересуют? (опечатка оператора?....

Написано 09 февр.
Владимир @Degot Автор вопроса

#, "одно или более слов" или их состовляющих. Fuzzy string search не нужен.

Написано 09 февр.
# @mindtester Куратор тега C#

Владимир, и все же, на какие ограничения ориентироваться?
- есть i7-1280p, 20 ядер, 16 озу на хосте, вин11 (wsl2, hyper-v, vmvare.. на хосте gpu..
- есть i5-3330, 4 ядра, 12 озу на хосте, на разных дисках вин10 и федора 39, все автономно... есть бюджетный nvidia
в рамках озу, ядра, а также ос, и gpu (тот же postgresql умеет ускорять запросы на gpu
.. могу смоделировать почти все ))

Написано 09 февр.

Решения вопроса 3

7 комментариев

Владимир @Degot Автор вопроса

Разве префиксные деревья подойдут для полноценной замены Contains ?
Они скорее для замены StartsWith(). Или я не прав?

Написано 07 февр.
Wataru @wataru Куратор тега Алгоритмы

Владимир, почитайте хотя бы википедию. Это обобщение алгоритма КМП на много паттернов. Суть в том, что вы поддерживаете позицию в этом дереве и двигаете ее на каждый один символ строки текста. Если текущая позиция является концом какого-то паттерна, то вы нашли вхождение.

Написано 07 февр.
Wataru @wataru Куратор тега Алгоритмы

Владимир, именно префиксные ссылки делают Contains из StartsWith.

Написано 07 февр.
Владимир @Degot Автор вопроса

Судя по статье в википедии, этот алгоритм строит дерево по словарю, а потом ищет вхождения слов словаря в переданной строке. в моём случае у меня нет изначального "словаря"...
те я ищу не "слово из словаря во входной строке", а "слово из словоря которое содержит входную строку"

Написано 07 февр.
Wataru @wataru Куратор тега Алгоритмы

Владимир, строки в словаре насколько длинные?

Написано 07 февр.
Владимир @Degot Автор вопроса

Wataru, ~ Медиана: 800 символов, Макс: 2500

Написано 07 февр.
Wataru @wataru Куратор тега Алгоритмы

Владимир, Исправил ответ.

Написано 07 февр.

10 комментариев

Владимир @Degot Автор вопроса

Честно признаюсь, дерево таблиц переходов мне кажется очень смахивает на prefix tree (верно?). Тогда как делать поиск аля Contains("substr"), когда поиск происходит в "середине" ?

Написано 07 февр.
VoidVolker @VoidVolker Куратор тега C#

А никак ) Надо было тогда сразу в вопросе этот момент указывать. Есть ограничения на минимальную длину поиска?

Написано 07 февр.
Владимир @Degot Автор вопроса

VoidVolker, Поэтому я и написал Contains и IsMatch -> вместо StartsWith.

Есть ограничения на минимальную длину поиска?

Думаю 2 или 3 символа сделать.
Смотрю в сторону генерации n-gram'ов... но пока не вкурил как делать поиск соответствующий по ним.

Написано 07 февр.
VoidVolker @VoidVolker Куратор тега C#

Владимир,

Поэтому я и написал Contains и IsMatch -> вместо StartsWith.

А, действительно, не обратил внимания. Ну, бывает )

Смотрю в сторону генерации n-gram'ов... но пока не вкурил как делать поиск соответствующий по ним.

Да-да, они самые. Пройтись по всем строкам и построить граф массивами/списками по всем группам символов с линковкой к строке в исходном массиве. Можно, конечно и таблицами - но там расход памяти будет запредельный скорее всего. Имеет смысл разве что на первые несколько уровней так делать, а дальше - массив/список. Зависит от самих данных - это надо делать испытания и смотреть расход памяти. Поиск делается точно так же как с обычной строкой: только сравнение идет по группам символов.

UPD:
Можно все несколько упростить (или усложнить - смотря с какой стороны смотреть), если перекодировать строки из стандартной кодировки во что-то более компактное либо самостоятельно сделать кодировку под набор данных.

Написано 07 февр.
VoidVolker @VoidVolker Куратор тега C#

UPD: добавил более точные данные по расходу памяти и код.

Написано 14 февр.
Everything_is_not_so_bad @2ord

VoidVolker,

в стандартную 7 битную кодировку уместится 2 символа в байт, а если кодировать группами по три символа - одним числом от 1 до 211, то оно как раз в байт уместится.
а можно подробнее о кодировке символов и упаковке в байты?

Написано 14 февр.
VoidVolker @VoidVolker Куратор тега C#

Иерокопус Таманский Так-с, я немного неточно выразился по поводу кодировки (поправлю, дабы не вводить в заблуждение). У ТС текст из символов /[A-Z0-9А-Я\s]/ - это 26 + 10 + 33 + 1 = 70 символов. В стандартной ASCII кодировке 255 символов. 255-70 = 185 не используемых значений остается. 70x70 = 4900 вариантов последовательностей из двух символов, что в байт не уместится тоже конечно, но можно поступить хитрее и использовать часть битов одного байта и часть битов другого байта. Например, в UTF8 символ может быть длиной от одного байта до 4 байт (7-21 бит). Кроме того, т.к. исходные данные считаются статическими, то можно оставить только те последовательности, которые встречаются, а так же исключить бессмысленные - например два пробела или два мягких/твердых знака. Это еще немного сократит варианты. В общем, получится что-то типа словаря. Аналогично можно сделать и для трех символов - в общем, битовая эквилибристика и другие хаки.

Написано 14 февр.
Владимир @Degot Автор вопроса
там обычный текст - то вероятно имеет смысл сделать индекс слов

Посыпая голову пеплом, признаю, что я этого не уточнил, а это сильно влияет на решение задачи.
Да, там обычный текст. На своих данных я пошёл по пути индексации слов:

строка + индекс строки => нормализация => разделение на слова => индексация => сжатие индекса.

После кучи оптимизаций индекс из 25 000 000 объектов * 4 строковых поля (Код продукта, Организация, Торговое Наименование, Международное наименование ) "весит" 295MB, а время в ms:

GenerateWords -> SPLIT WORDS -> 39800
GenerateWords -> COMPRESS WORDS -> 18321

TestWords -> LoadWords -> 448
TestWords -> Max: 3776, Avg: 12, Median: 0
Написано 15 февр.
VoidVolker @VoidVolker Куратор тега C#

Ага, понятно. Наименования на русском и английском полностью раздельные? Тогда их можно ужать раздельной перекодировкой в 6 бит, например. Чем и как сжимаете индекс? Ссылку на код я закинул - если будете щупать/проверять - было бы интересно услышать результаты. На вскидку могу сказать, что при средней длине слова в 6-7 символов индекс на ArrayTree в 300 мегабайт может сожрать объем очень примерно в 70-100 гигов. А вот на более медленном ListTree уже компактнее: 5000000 х 7 / 329.8MB / 10.3GB. Вообще, можно и скомбинировать - например первые 4-7 символов в ArrayTree, а дальше уже ListTree, в конце которого ссылка на искомую строку. В 6 битной кодировке можно в 32 бита, т.е. 4 байта, уместить 5 символов. Так что комбинируя разные решения можно подобрать оптимальное соотношение скорости поиска и затрат памяти.

Написано 15 февр.
Владимир @Degot Автор вопроса

Наименования на русском и английском полностью раздельные?

Нее, микс.

Чем и как сжимаете индекс?

Индекс представляет собой словарь из wordId: int -> object_ids: int[]
Сжимал int[] сначала сжимал FastPFor, сейчас тестирую WAH и смотрю в сторону RoamingBitmap

Написано 15 февр.

14 комментариев

# @mindtester Куратор тега C#

эмм.. var dict= new Dictionary<string, List<int>>(); не соответствует изначальной постановке вопроса... или правьте код... или вопрос )))

Написано 07 февр.
# @mindtester Куратор тега C#

я азартен, в тч в плане производительности, на моем поле игры... но вопрос должен быть точен

Написано 07 февр.
Владимир @Degot Автор вопроса

#, это справовчник для помощи поиска по основному массиву strings

Написано 07 февр.
# @mindtester Куратор тега C#

Владимир, кхм.. в общем случае, справочник самодостаточен и удобен.. но.. я правильно понял? поиск может быть по "серединке" и даже "хвосту"? тогда "справочник" не пляшет.. это тема бд (в общем случае) сколько у вас ядер и озу? .. от этого зависит выбор БД.. или кодовая эквилибристика.. (которая в общем случае тоже возможна..

Написано 07 февр.
# @mindtester Куратор тега C#

Владимир, вы можете сами опробовать все.. раньше чем я раскачаюсь )))

Написано 07 февр.
Wataru @wataru Куратор тега Алгоритмы

Владимир, Два списка int-ов, если они остортированы можно сливать достаточно просто, как в алгоритме сортировки слиянием. Если 2 первых элемента равны - они идут в пересечение, иначе меньший можно выкинуть.

Но у вас там списков будет много, так что лучший вариант с использованием heap. Кладете в heap певрвые элементы всех списков. Потом достаете оттуда элементы, считая, сколько раз текущий элемент повторяется. Если встретили элемент столько раз, сколько списков - он идет в ответ. При вынимании элемента из кучи надо туда будет назад положить элемент из того же списка. Поэтому надо будет в кучу класть что-то вроде {элемент, какой спискок, какой номер элемента в списке}.

Написано 07 февр.
# @mindtester Куратор тега C#

Владимир, шарп не так идеален как считал... особенно StringBuilder() .. стоит его вынести за цикл, и.. ж... очень хочу поиграться с вашей задачей.. пожалуйста... дайте ориентир по железу (эмуляции)

Написано 11 февр.
Владимир @Degot Автор вопроса

#, 512МБ памяти, 2 ядра - 2.4Гц. Выжать максимум для поиска + раз в 10 - 15 минут обновление "данных для поиска"

Написано 12 февр.
# @mindtester Куратор тега C#

Владимир, vds?

Написано 12 февр.
# @mindtester Куратор тега C#

Владимир, внимательнее перечитал вашу крайнюю версию.. не убирайте плз ))).. лучше каментами под ней!!!

Написано 12 февр.
# @mindtester Куратор тега C#

Владимир, а то я так и не успею что то интересное опробовать ))
нет гордыни - сделаю лучше..
просто то что опробовал - завело ))

!!!вопрос - имеет смысл пробовать поиск нескольких "фраз"?
.. это имело бы ценность для вас?
сколько слов во фразе? (в теории..
(если смотрели прикидки, у меня будет генеренка рандомная... и потом поиск )))

Написано 12 февр.
# @mindtester Куратор тега C#

Владимир, и почему прошу не убирать версии.. может сам чему то научусь... ;)))

Написано 12 февр.
# @mindtester Куратор тега C#

Владимир, 2 ядра можно и plinq.. но если там еще веб, или еще что.. ну как бы логика вроде понятна ))

Написано 12 февр.
# @mindtester Куратор тега C#

Владимир, все таки - vds? .. ща смеяться будешь.. может.. а кто тебе сказал, что у этих пуганых 2х ядер, нет хипертрейдинга.. да хоть они амд? )))

Написано 12 февр.

Пригласить эксперта

Ответы на вопрос 1

3 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

C#

+2 ещё

Простой
Что делать если персонаж двигается влево после добавления скрипта на врага?
- 1 подписчик
- 5 часов назад
- 20 просмотров
1

ответ
Алгоритмы

Простой
Проверка на достижимость в направленном графе?
- 1 подписчик
- 15 часов назад
- 49 просмотров
2

ответа
C#

+1 ещё

Простой
TcpClient не отправляет данные. Что делать?
- 1 подписчик
- 17 часов назад
- 55 просмотров
1

ответ
C#

+1 ещё

Простой
При прикосновении игрока к вертикальному обьекту и движению в его сторону игрок зависает рядом со стеной в Unity2D?
- 1 подписчик
- вчера
- 77 просмотров
1

ответ
C#

+1 ещё

Простой
Как настроить TCP/HTTP обмен данных между двумя c# программами на одном сервере?
- 2 подписчика
- 23 июл.
- 126 просмотров
1

ответ
Алгоритмы

+1 ещё

Простой
Как называется алгоритм?
- 2 подписчика
- 23 июл.
- 4544 просмотра
2

ответа
C#

Простой
Что содержит в себе файл с расширением .sln?
- 1 подписчик
- 23 июл.
- 179 просмотров
1

ответ
C#

+1 ещё

Средний
Как обезопасить программу С# от взлома?
- 3 подписчика
- 21 июл.
- 3304 просмотра
10

ответов
HTML

+1 ещё

Средний
Как изменить определенный id в HTML с помощью C#?
- 3 подписчика
- 21 июл.
- 176 просмотров
1

ответ
C#

+1 ещё

Простой
Не подключается к комнате, хотя название комнаты совпадают (Photon + Unity)?
- 1 подписчик
- 21 июл.
- 49 просмотров
2

ответа
Показать ещё Загружается…

Fullstack QA engineer (C#)

Альфа-Банк • Москва

от 200 000 ₽

C# developer

uGo games

от 250 000 ₽

C# Unity dev

Бюро Цифровых Технологий • Санкт-Петербург

До 140 000 ₽

Верстка дизайна

26 июл. 2024, в 23:29

15000 руб./за проект

Заставить работать приложение на react+php (найти активацию)

26 июл. 2024, в 22:36

5000 руб./за проект

Сделать логотип в векторе

26 июл. 2024, в 22:02

2000 руб./за проект

мне очень понравились ответы коллег. один вопрос - на сколько динамичный набор?
- затраты на построение дерева в сравнении с частотой его обновления?
- Regex популярен в силу универсальности, менее на слуху его затратность... так что в вашем случае это точно не вариант ;))
... обычно мне удавались парсинги на основе сравнения фрагментов строк, примерно также, если не лучше, обходившие Regex по скорости ;))
поиска элементов по подстроке (LIKE '%substring%')

похоже на полнотекстовый поиск в СУБД
какие у вас ресурсы? увлекся... попытался сгенерировать массив 25М.. при лимите 20 символов.. и толи выспаться надо.. то ли вылетает на фиг с лимитом памяти )))
#, набор обновляется раз в 15 минут... а поиск.. необходимо максимально приблизиться к ~100 параллельных в секунду.
Владимир,обидно.. на своих 16 ГБ.. смог позволить себе генерацию,
лишь 1500 строк по 20 символов..
using System.Runtime.Serialization.Formatters; using System.Text; static class m20 { public static List<string> arr = new List<string>(); public static int cnt = 15_000; public static Random rnd = new Random(); public static int l = 20; static void Main() { gen(); ".. вроде готово".print(); } static void gen() { var sb = new StringBuilder(); for (var i = 0; i <= cnt; i++) { for (var j = 0; j < l; j++) sb.Append(rnd.Next('!', '}')); arr.Add(sb.ToString()); } } static void print(this string s) => Console.WriteLine(s); }
Владимир, чем дальше в лес, тем интереснее.. я поиграюсь на генеренереных массивах, если что - отпишусь..
а вы помедитируйте над brightstardb и аналогами ))
Владимир, а еще есть такая штука Dictionary c#.. не примеряли?
Владимир, и чем подробнее о задаче, тем больше шансы на успех.. поиск ключевых слов? )).. тогда словарь..
Владимир? кхех.. "и на старуху бывает проруха"
немного не ожиданно, но расположение StringBuilder() оказывает сильное влияние на память (25М по 20 символов влезло)
using System.Text; static class m20 { public static List<string> arr = new List<string>(); public static int cnt = 25_000_000; public static Random rnd = new Random(); public static int l = 20; static void Main() { gen(); ".. вроде готово".print(); arr.Count.ToString().print(); } static void gen() { for (var i = 0; i < cnt; i++) { var sb = new StringBuilder(); for (var j = 0; j < l; j++) sb.Append(rnd.Next('!', '}')); arr.Add(sb.ToString()); } } static void print(this string s) => Console.WriteLine(s); }
.. поиграюсь со скоростями - отпишусь, если будет о чем ))
#, Есть массив строк различной длины, надо найти те строки, которые содержат подстроку, предоставленную пользователем.

На SQL выглядит так: SELECT text FROM strings WHERE text LIKE '%substring%'.
На LINQ выглядит: strings.Where(s => s.Contains("substring"))
Владимир, а время на sql? и время на plinq? ... или не пробовали?
А в какой СУБД хранятся данные? Её средствами нельзя делать поиск?
из азарта... как протрезвею.. попробую чистый шарп ))
Владимир, эмм .. ну да... у меня их 20.. вроде.. может быть не равная игра.. но и на 4х можно найти выигрыш ))
вопрос в цене (времени исполнения) между преобразованием в дерево.. и баланс между ценой преобразования... и ценой времени поиска
Владимир, у меня в однопоточном, на 25М, рандомно от 15 до 25 символов.. уже порядка 14-16 сек.. а если у тебя строки длиннее.. ни че так набор для кручения в оперативке ))
.. зацепило.. если что найду - напишу
Владимир, возможно ключевой вопрос - место исполнения? vds? одно ядро?... от этого зависят пути поисков вариантов ускорения )))
Владимир,
предварительная разминка
using System.Threading; using System.Diagnostics; using System.Text; using Microsoft.VisualBasic; static class m20 { public static List<string> arr = new List<string>(); public static int cnt = 25_000_000; public static Random rnd = new Random(); public static int l = 20; public static Stopwatch stopWatch = new Stopwatch(); public static List<string> req = new List<string>(); public static int rcnt = 20; public static List<string> res = new List<string>(); static void Main() { gen(); ".. вроде готово".print(); arr.Count.ToString().print(); rgen(); req.Count.ToString().print(); find(); res.Count.ToString().print(); } static void gen() { stopWatch.Start(); for (var i = 0; i < cnt; i++) { l = rnd.Next(15, 25); var sb = new StringBuilder(); for (var j = 0; j < l; j++) sb.Append(rnd.Next('!', '}')); arr.Add(sb.ToString()); } stopWatch.Stop(); stopWatch.Elapsed.print(); } static void rgen() { stopWatch.Start(); for (var i = 0; i < rcnt; i++) { var rn = rnd.Next(1_000_000, arr.Count - 1); req.Add(arr[rn].Substring(5, 5)); } stopWatch.Stop(); stopWatch.Elapsed.print(); } static void find() { stopWatch.Start(); foreach (var s in arr) foreach (var q in req) if (s.Contains(q)) res.Add(s); stopWatch.Stop(); stopWatch.Elapsed.print(); } public static void print(this string s) => Console.WriteLine(s); public static void print(this TimeSpan ts) => Console.WriteLine($"{ts.Hours}:{ts.Minutes}:{ts.Seconds}.{ts.Milliseconds / 10}"); }
выхлоп (это tще ни каких plinq, но поиск примерно 20 хвостовых...)
Владимир, исправил выше ... скрин по началу криво вставил
Владимир, уточните задачу:
- искомые слова могут бы в любом месте строки?
- искомое слово всегда отдельное слово?
- искомые слова постоянный список? или так же произвольный?
... возможно ни какие деревья/графы вам не подойдут... все зависит от ответов на эти вопросы ))
- искомые слова могут бы в любом месте строки? - Да
- искомое слово всегда отдельное слово? - Да или часть слова
- искомые слова постоянный список? или так же произвольный? - произвольный
Владимир, жаль что вы изменили на "псевдо шарп"... очень хотелось попробовать и понять избранный вами вариант.. но.. быт, извините ))
.. может и этот пойму, кажется вы выбрали БД? (первое впечатление, не успел вчитаться)
#, Я использую Sqlite для двух случаев: 1) Тест FTS5 2) Для моей реализации как хранилище. Дабы не городить велосипед.
Владимир, уточните, правильно ли понял? (может и нет?..
вы разбиваете исходный массив на слова? (с указанием строк)..
а поиск по первому слову "подстроки"?
(зацепила задача )))..
и сколько ядер? vds и одно?
#,
вы разбиваете исходный массив на слова? (с указанием строк)..
Да

а поиск по первому слову "подстроки"?

1. searchTerm делю на слова => searchTermWords
2. Ищу все слова из словаря, которые содержат в себе слова searchTermWords
3. Для каждого найденного слова из словаря вытаскиваю индексы исходных строк и фильтрую
Владимир, хорошо )))... если хотя бы опробую, не претендую на лучшее решение... ну и может для сравнения pliq, если руки дойдут...
.. а как результат на сегодня? устраивает?
и все таки о ядрах - это дома? или платный vds? ..(не лезу в чужой карман.. просто plinq и на двух ядрах хорошо...
.. если разберусь с вашим вариантом, кину пару своих .. с р и без ))
Владимир, киньте лимиты по оперативке и ядрам, частоты.. у меня зверинец виртуалок... могу эмулировать многое )))
- требования по времени построения "дерева"
- требования по времени запроса
.. )))
.. а как результат на сегодня? устраивает?

да.
Владимир, ну вот блин... уйду без решения? )))... да не, покурю твое... можно если что спрошу?...
.. (если что сам еще найду - вернусь, не сомневайся ;))
Владимир, искомая "подстрока":
- одно или более слов?
- вероятность полного совпадения, хотя бы первого слова?
- "не четкие совпадения" тебя интересуют? (опечатка оператора?....
#, "одно или более слов" или их состовляющих. Fuzzy string search не нужен.
Владимир, и все же, на какие ограничения ориентироваться?
- есть i7-1280p, 20 ядер, 16 озу на хосте, вин11 (wsl2, hyper-v, vmvare.. на хосте gpu..
- есть i5-3330, 4 ядра, 12 озу на хосте, на разных дисках вин10 и федора 39, все автономно... есть бюджетный nvidia
в рамках озу, ядра, а также ос, и gpu (тот же postgresql умеет ускорять запросы на gpu
.. могу смоделировать почти все ))

Answer 1 · 2024-02-07 09:32:38

Сначала объедините все ваши строки в одну через какой-то раздилитель, которого не может быть в искомой строке (можно и без него, но с ним код чуть проще будет). В конце поставьте этот же разделитель 2 раза. Вроде "строка1$строка2$строка3$...$строкаN$$".

Вот уже ваша задача - быстро искать какую-то остроку в фиксированном тексте, а не куче строк.
Тут есть много вариантов. Например, постройте суффиксное дерево алгоритмом Укконена. Вот эта ваша структура. При запросе, как в боре, поищите искомую строку в этом дереве. Если где-то перехода нет - вхождения вы не нашли. Если вы остановились на какой-то вершине (или ребре в дереве), то вам осталось каким-нибудь обходом в глубину найти все листья в поддереве этого места. Каждый лист соответствует вхождению. Еще при построении суффиксного дерева вы каждый лист пометите началом суффикса. Можно в тот же момент место в строке и конкатенаций перобразовать в номер исходной строки (например, бинпоиском по индексам начал строк в тексте. Или просто заведите массив, где для каждого символа в тексте при построении запишите, какая изначальная строка там была).

Если разделитель не использовать, то могут быть лишние результаты - где искомый шаблон приложился между двух исходных строк в тексте. Их надо будет выкинуть.

Другой вариант - через преобразование Барроуза — Уилера. Вот есть лекция. Этот алгоритм часто упоминается в курсах по биоинформатике. Реализацию может даже найдете где-то. Потом можно найти номера исходных строк из индексов вхождений через тот же бинпоиск по сортированному массиву индексов начал всех строк в тексте.

Да, проблема тут будет, если у вас шаблон короткий, то вы найдете все вхождения, включая повторы в каждой из исходных строк. Тогда эти алгоритмы могут работать не сильно лучше наивного.

Учтите, что построение структуры данных тут будет в несколько раз медленнее простого for+Contains. Выигрыш вы получите, если у вас текст действительно статичный и вы в нем много раз что-то ищите.

Answer 2 · 2024-02-07 09:35:11

Раз нет ограничений по памяти и надо максимально быстро, то можно разложить весь массив в дерево таблиц переходов с шагом в один символ на таблицу. Самый быстрый и самый затратный по памяти. Таблица на каждый символ - 256 байт. Скорость поиска зависит только от размера строки и не зависит от объема данных: один символ - один переход в таблице к следующей таблице или конец поиска, если ноль. Я так уже делал: использовать имеет смысл на объемах примерно от 4 гигабайт данных (чем больше объем - тем меньше затраты на каждый символ). Но, если память позволяет и цель именно в скорости - то вполне нормальная плата памятью за скорость. Можно сократить расход памяти, если перекодировать строки в кодировку по числу используемых символов. Тогда таблица переходов будет в несколько раз меньше. Более экономный и более медленный вариант - дерево массивов/списков с шагом в 2/4/8 символов, при этом в поиске сравнение не по символам делать, а сразу по 2/4/8 байт: т.е., работаем со строкой как с массивом байтов и получаем оттуда uint16/uint32/uint64 и их и сравниваем, ибо процессору все равно какую инструкцию выполнять - один байт сравнить или 8. Возможно, конечно, оптимизатор в поиске по строке это все и оптимизирует. Я давно уже не смотрю на результаты его работы - так что тут только опытным путем. Ну и щас еще других вариантов накидают с деревьями тоже.

UPD1:
Можно все несколько упростить (или усложнить - смотря с какой стороны смотреть), если перекодировать строки из стандартной кодировки во что-то более компактное либо самостоятельно сделать кодировку под набор данных.

Еще можно ускорить, если искать в несколько потоков, разбив весь набор данных на несколько групп.

UPD2:
Таки нашел немного времени и откопал исходники для шарпа и провел несколько тестов по расходу памяти.

Число строк / общий размер данных / итоговый размер дерева

5 символов:

1000000 / 55.9MB / 13.2GB
2000000 / 111.6MB / 25.2GB

10 символов:

100000 / 8.1MB / 4.1GB
200000 / 16.1MB / 8GB
300000 / 24.2MB / 11.9GB
400000 / 32.2MB / 15.7GB
500000 / 40.3MB / 19.5GB

15 символов:

100000 / 10.5MB / 6.6GB
200000 / 21MB / 13.1GB
300000 / 31.5MB / 19.5GB
400000 / 42MB / 25.8GB

20 символов:

100000 / 13MB / 9.1GB
200000 / 25.9MB / 18.1GB
300000 / 38.9MB / 27GB

Максимальный размер дерева для глубины в 5 символов на платформе х64:

Для диапазона 0-255 - до 8Тб и до 4 311 810 305 узлов
Для диапазона 0-70 - до 13.5Гб и до 24 357 971 узлов

Максимальный размер дерева для глубины в 4 символа для диапазона 0-255: ~17Гб и ~33Гб для х86 и для х64 соответственно и лимит в 16 843 009 узлов. Ну и в коде есть функция для вычисления максимального числа узлов и размера дерева.

Как видно по результатам - чем выше объем и короче строки, т.е., плотность, тем выше эффективность размещения на единицу памяти. Скорость поиска в таком дереве зависит лишь от числа символов в слове/строке и всегда константа независимо от объема. ТС имеет смысл оптимизировать алгоритм под свои данные, если там обычный текст - то вероятно имеет смысл сделать индекс слов, подобрать компактную кодировку, а далее уже список строк с этим словом. Т.е., сначала идет поиск в дереве по слову, а далее уже по списку строк. И можно будет хоть в гигабайтах искать мгновенно, но памяти там надо будет уже терабайты.

И соответственно код: https://github.com/VoidVolker/search-tree/tree/master (предупреждаю сразу: код старый, по сути экспериментальный, не вылизанный и вероятно приведет кого-то в ужас). Но, главное, что работает.

код

Тестовый код:

static Random rnd = new Random();
static string[] GenStrings(int cnt, int strLen)
{
    string[] arr = new string[cnt];
    var i = 0;
    while (i < cnt)
    {
        var sb = new StringBuilder();
        for (var j = 0; j < strLen; j++)
        {
            sb.Append(rnd.Next(0, 256));
            //sb.Append(TAbc[rnd.Next(0, TAbc.Length)]);
        }
        arr[i++] = sb.ToString();
    }
    return arr;
}

var arraySize = 300000;
var stringSize = 20;

var GCStartArr = GC.GetTotalMemory(true);

var strings = GenStrings(arraySize, stringSize);

var GCEndArr = GC.GetTotalMemory(true);
var GCStart = GC.GetTotalMemory(true);

var tree = new ArrayTree<string>();
foreach (string s in strings)
{
    tree.Add(Encoding.UTF8.GetBytes(s), s);
}

var GCEnd = GC.GetTotalMemory(true);

Console.WriteLine("Array x string size / Array memory used / Tree memory used");
Console.WriteLine($"{arraySize} х {stringSize} / {BytesToString(GCEndArr - GCStartArr)} / {BytesToString(GCEnd - GCStart)}");

Answer 3 · 2024-02-07 16:36:33

Я сравнил несколько вариантов: Contains, SqliteFTS, Words. И выбрал реализацию Words.
Псевдо-C#:

var strings = new string[]; //25 млн записей

var words = new Dictionary<string,HashSet<int>>();
//формирование "справочника"
var str = string.Empty;
for(var stringId = strings.Length - 1; stringId >= 0; stringId--)
{
    str = strings[stringId];
    var stringWords = NormalizeString(str).Split(' ');
    foreach(var stringWord in stringWords )
    {
        words[stringWord].Add(stringId);
    }
}

//поиск
var searchTermWords= NormilizeString(searchTerm).Split(' ')
var foundIds = new HashSet<int>();
foreach(var searchTermWord in searchTermWords)
{
   foreach(var matchWord in words.Keys.Where(x => x.Contains(searcgTermWord)))
   {
  if (words.TryGetValue(matchWord, out var stringIds))
  {
    if (foundIds  == null)
    {
        foundIds = stringIds;
    }
    else
    {
        foundIds = stringIds.Where(x => foundIds .Contains(x)).ToHashSet();
    }
 }
 else
 {
     foundIds  = null;
 }
}
}

Console.WriteLine($"Найдено строк: {foundIds.Count} ");

Тесты разных вариантов для списка объектов с 4мя строковыми полями:

Поиск: 100 циклов поиска 1-3 символьной подстроки по одному полю

records: ~5 000 000

TestContains (ms):
  -> Max: 434, Avg: 295.56, Median: 281

TestSqliteFTS (ms):
  CREATE -> 111
  INSERT DATA -> 34697 //INSERT INTO temp_table(object_id, поле0, поле1, поле2,  поле3)
  INSERT INDEX -> 161683 // INSERT INTO fts_index(object_id, поле0, поле1, поле2,  поле3 ) SELECT * FROM temp_table
  DROP DATA -> 1191
  VACUUM -> 15849

  -> sqlite.db (FTS5: 1.6GB, tokenize = 'trigram', content='',columnsize=0, detail='column')
  -> Max: 10, Avg: 1.16, Median: 0
  
TestWords (ms):
  CREATE -> 89
  INSERT DATA -> 98851 //INSERT INTO temp_table(word_id, object_id)
  AGGREGATE DATA -> 28504 //SELET object_id FROM temp_table WHERE @word_id  -> FastPFor -> INSERT word_id, object_ids_as_bytes
  DROP DATA -> 1360
  CREATE INDICES-> 9
  VACUUM -> 262

  -> sqlite.db (CUSTOM: 9.5MB, (tbl: fields -> id, value), (tbl: words -> id, field_id, value), (tbl: data -> word_id INTEGER, integersQty INTEGER, bytes BLOB))
  -> Max: 128, Avg: 18.78, Median: 1
  
  Статы:
    field_id    wordsQty   maxRefsQty  avgRefsQty  maxRefsBytes    avgRefsBytes
    0           24075	    6461929	    271         910000          52
    1	        5339	    23858735	4515	    3336816         667
    2       	3602	    6766040     1913        952808          295
    3	        11825	    7595099     744         1069508         123


records: ~25 000 000

TestContains (ms):
  -> Max: 2568, Avg: 1524.47, Median: 1437.5

TestSqliteFTS (ms):
  CREATE -> 135
  INSERT DATA -> 255882 //INSERT INTO temp_table(object_id, поле0, поле1, поле2,  поле3)
  INSERT INDEX -> 1022499 // INSERT INTO fts_index(object_id, поле0, поле1, поле2,  поле3 ) SELECT * FROM temp_table
  DROP DATA -> 370118
  VACUUM -> 1230845
  
  -> sqlite.db (FTS5: 8.1GB, tokenize = 'trigram', content='',columnsize=0, detail='column')
  -> Max: 587, Avg: 11.53, Median: 0

TestWords (ms):
  CREATE -> 107
  INSERT DATA -> 581050 //INSERT INTO temp_table(word_id, object_id)
  AGGREGATE DATA -> 132700 //SELET object_id FROM temp_table WHERE @word_id  -> FastPFor -> INSERT word_id, object_ids_as_bytes
  DROP DATA -> 6855
  CREATE INDICES-> 32
  VACUUM -> 1161

  -> sqlite.db (CUSTOM: 35MB, (tbl: fields -> id, value), (tbl: words -> id, field_id, value), (tbl: data -> word_id INTEGER, integersQty INTEGER, bytes BLOB))
  -> Max: 492, Avg: 64,87, Median: 1
  
  Статы:
    field_id    wordsQty   maxRefsQty  avgRefsQty  maxRefsBytes    avgRefsBytes    
    0       	24075	    32570729	1355        4586324         205
    1	        5339	    120257135	22577       16818780        3192
    2	        3602	    34103240	9566        4802092         1372
    3	        11825	    38282299	3723        5390372         542

P.S. После тестирования FastPFor, WAH, RoamingBitmap и LZO для хранения индексов (слово -> индекс строки[]) остановился на Delta + LZO. Итоговый размер индекса: 17MB. Максимальное время поиска 600ms, среднее 7ms.

Answer 4 · 2024-02-07 11:21:06

как вариант (да простят коллеги) - многосвязный граф из уникальных подстрок с глубиной..

25 млн строк

не хилая заявка..
все что повторяется - узлы графа, уникальные хвосты - их содержимое
тут появляется возможность использовать графовые БД.
раз у нас тег C# brightstardb возможно? это умозаключения, не имел достаточной практики утверждать уверенно

ps если память не изменяет - brightstardb легковесная, может работать как сервис, так и встраиваемая, мозгами пораскинуть придется.. производительна.. но все познается в сравнении бенчмарков

pps естественно это не единственная графовая бд, в тч под шарп ))

ppps ... а обход массива с plinq не пробовали?... ну может ядер много? ;)))

Как ускорить поиск элементов из статичного string[] по подстроке?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт