Поиск одинаковых строк

Question

Сергей Кожокару @Bl00dra1n

Поиск одинаковых строк

Короче стоит задача пропарсить пару сотен тысяч веб адресов и найти в них одинаковые строки. Причём это нужно сделать не за пару тысяч лет ;). В скорости передачи с интернета не проблема. Сама загвоздка в алгоритме поиска одинаковых строк… В какую сторону смотреть????

Вопрос задан более трёх лет назад
4309 просмотров

Комментировать

Подписаться 2 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Разработчик игр на Unity

13 месяцев

Далее
Академия Эдюсон

Разработчик игр на Unity + ИИ

6 месяцев

Далее
Stepik

PRO C#. Профессия "Backend разработчик"

4 месяца

Далее

Пригласить эксперта

Ответы на вопрос 3

1 комментарий

2 комментария

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Windows

+1 ещё

Сложный
Потеря связи до домена на одном компьютере?
- 1 подписчик
- 21 июл.
- 187 просмотров
1

ответ
Компьютерные сети

+1 ещё

Средний
Как делать цепочки в Xray?
- 1 подписчик
- 19 июл.
- 262 просмотра
1

ответ
Компьютерные сети

Простой
Как подключиться к сети ПК с мобильного интернета и использовать ПК интернет?
- 2 подписчика
- 19 июл.
- 215 просмотров
1

ответ
Компьютерные сети

+3 ещё

Средний
Почему с домашнего интернета не проходит исходящий UDP до моего VPS?
- 1 подписчик
- 19 июл.
- 235 просмотров
4

ответа
Компьютерные сети

Простой
Лучшая практика монтажа кабеля между этажами?
- 3 подписчика
- 16 июл.
- 618 просмотров
4

ответа
Компьютерные сети

+1 ещё

Простой
Не могу сделать в программе softether белый список. Где проблема и что не так?
- 1 подписчик
- 09 июл.
- 268 просмотров
1

ответ
Компьютерные сети

+2 ещё

Сложный
Почему не проходит интернет через радиомост?
- 1 подписчик
- 04 июл.
- 335 просмотров
1

ответ
Компьютерные сети

+3 ещё

Средний
Как настроить нормальную работу UnboundDNS в OPNSense?
- 1 подписчик
- 01 июл.
- 156 просмотров
2

ответа
Компьютерные сети

+3 ещё

Сложный
Почему ASUS RT-BE88U сбрасывает линк WAN до 100 Мбит/с на линии МТС, тогда как TP-Link Archer BE230 на ней же работает на 1 Гбит/с?
- 1 подписчик
- 30 июн.
- 328 просмотров
2

ответа
Компьютерные сети

+2 ещё

Средний
Почему не работает режим VPN (tun mode) в v2rayN?
- 1 подписчик
- 23 июн.
- 873 просмотра
2

ответа
Показать ещё Загружается…

Answer 1 · 2013-04-25 21:31:31

что подрузамевается под одинаковыми строками?
Важен ли регистр букв?
Лимиты длины какие?
Длина строки, длина слов, количество слов в строке вы это уже определили?
Или вы намереваетесь строки длиной в войну и мир искать?

Answer 2 · 2013-04-25 21:33:21

Ну все упирает в структуру данных которые в собираетесь использовать. Хэш таблицы вам в помощь, наверно.

Answer 3 · 2013-04-25 22:00:00

Есть уже написаные движки поисковых ботов, причем опенсурс. попробуйте использовать их.

либо мутите словарь для слов ID|слово
потом словарь словоформ
а потом преобразовывайте предложения в поток ID1 ID2 ID3 и ищите в базе

Помнится тут писали о том как сформирован поиск в письмах от mail.ru и о том как используются словоформы в яндексе vs гугл

Поиск одинаковых строк

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт