Комментарии пользователя CommonNewbie

Задать вопрос

Комментарии

Как лучше оптимизировать crawler для сайта?

CommonNewbie @CommonNewbie Автор вопроса

Нет, все ссылки мне не нужны. У львиной доли будет 404 ответ. А с тех, что с 200 нужны только те, что содержат нужную строку. Имеет ли смысл разделить сбор ссылок и поиск нужной строки, так будет гораздо быстрее парсить? Хотя проанализировав работу своего скрипта понял, что проверка наличия строки - это редкое событие. В основном - 404

Написано более трёх лет назад
Как лучше оптимизировать crawler для сайта?

CommonNewbie @CommonNewbie Автор вопроса

Антон Шаманов, Не подойдёт.
Все ссылки с сайта займут пару десятков террабайт. Ссылки на сайте регистрозависимые и что-то я не нашел в документации как их можно на лету генерировать по маске в wget

Написано более трёх лет назад
Как лучше оптимизировать crawler для сайта?

CommonNewbie @CommonNewbie Автор вопроса

Тоесть с помощью wget получать страницу grep'ом проверять, есть ли строка?
Ещё не совсем понятно, как ему генерировать ссылки, т.е. в баше сделать какой-то цикл?
Всего их 3521614606208 вариантов, если верить crunch, так что заранее сгенерировать их и читать с файла никак не получится

Написано более трёх лет назад

Самые активные сегодня

DenisYahnovec
- 5 ответов
- 0 вопросов
Drno
- 2 ответа
- 0 вопросов
Refguser
- 2 ответа
- 0 вопросов
Dupych
- 2 ответа
- 0 вопросов
Valdemar Smörman
- 2 ответа
- 0 вопросов
Steel_Balls
- 2 ответа
- 0 вопросов

Как лучше оптимизировать crawler для сайта?

Как лучше оптимизировать crawler для сайта?

Как лучше оптимизировать crawler для сайта?

Войдите на сайт