Нет, все ссылки мне не нужны. У львиной доли будет 404 ответ. А с тех, что с 200 нужны только те, что содержат нужную строку. Имеет ли смысл разделить сбор ссылок и поиск нужной строки, так будет гораздо быстрее парсить? Хотя проанализировав работу своего скрипта понял, что проверка наличия строки - это редкое событие. В основном - 404
Антон Шаманов, Не подойдёт.
Все ссылки с сайта займут пару десятков террабайт. Ссылки на сайте регистрозависимые и что-то я не нашел в документации как их можно на лету генерировать по маске в wget
Тоесть с помощью wget получать страницу grep'ом проверять, есть ли строка?
Ещё не совсем понятно, как ему генерировать ссылки, т.е. в баше сделать какой-то цикл?
Всего их 3521614606208 вариантов, если верить crunch, так что заранее сгенерировать их и читать с файла никак не получится
Написано
Войдите на сайт
Чтобы задать вопрос и получить на него квалифицированный ответ.