Короче стоит задача пропарсить пару сотен тысяч веб адресов и найти в них одинаковые строки. Причём это нужно сделать не за пару тысяч лет ;). В скорости передачи с интернета не проблема. Сама загвоздка в алгоритме поиска одинаковых строк… В какую сторону смотреть????
что подрузамевается под одинаковыми строками?
Важен ли регистр букв?
Лимиты длины какие?
Длина строки, длина слов, количество слов в строке вы это уже определили?
Или вы намереваетесь строки длиной в войну и мир искать?
— что подрузамевается под одинаковыми строками?
Важен ли регистр букв?
— лексика не имеет значения! ищу например фразы например «created using joomla». И не важно это может быть
Created using joomla.
Created using Joomla?
CrEaTed UsInG JOOMLA
и т.д.
— Лимиты длины какие? Или вы намереваетесь строки длиной в войну и мир искать?
— не больше предложения
В смысле структура данных!? Тупа мне нужно както пропарсить кучу текста (который возвращается спомощью webrequest) и найти повторяющиеся куски текста в List. Вопрос в том как найти эти повторяющиеся куски.
у вас один текст или массив строк? если один текст тогда суффиксный массив. Если же у вас массив строк и вам среди них нужно найти одинаковые — то используйте хэш таблицу, где по одному ключу могут хранится несколько значений и тогда просто пройдете по всей таблице и определите сразу все дубликаты