Поиск одинаковых строк

Короче стоит задача пропарсить пару сотен тысяч веб адресов и найти в них одинаковые строки. Причём это нужно сделать не за пару тысяч лет ;). В скорости передачи с интернета не проблема. Сама загвоздка в алгоритме поиска одинаковых строк… В какую сторону смотреть????
  • Вопрос задан
  • 4303 просмотра
Пригласить эксперта
Ответы на вопрос 3
@boodda
что подрузамевается под одинаковыми строками?
Важен ли регистр букв?
Лимиты длины какие?
Длина строки, длина слов, количество слов в строке вы это уже определили?
Или вы намереваетесь строки длиной в войну и мир искать?
Ответ написан
@Seter17
Ну все упирает в структуру данных которые в собираетесь использовать. Хэш таблицы вам в помощь, наверно.
Ответ написан
@boodda
Есть уже написаные движки поисковых ботов, причем опенсурс. попробуйте использовать их.

либо мутите словарь для слов ID|слово
потом словарь словоформ
а потом преобразовывайте предложения в поток ID1 ID2 ID3 и ищите в базе

Помнится тут писали о том как сформирован поиск в письмах от mail.ru и о том как используются словоформы в яндексе vs гугл
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы