EugeneOne77
@EugeneOne77
Laravel, Vue, Wordpress разработчик.

Как скачать с помощью wget по маске не зная какие страницы есть?

Есть вот такого вида ссылки: somename.livejournal.com/593.html
Число перед .html может быть любое. Списка нет и число возрастает не по порядку. Следующий может быть somename.livejournal.com/22593.html, но последнее число я знаю.
Можно ли одной командой wget скачать все существующие посты? Если да - то как? Огромная просьба написать готовый ответ, потому что я покурил маны и как-то не сложилось.
По идее там регулярку как-то вставить. Либо, мне подойдет скрипт на баше с использованием wget.
Заранее благодарен.
  • Вопрос задан
  • 392 просмотра
Решения вопроса 1
OrlovEvgenii
@OrlovEvgenii
golang developer / DevOps
#!/bin/bash
start= 593 #номер поста с которого начинаем брутфорсить
end=22593 #номер поста на котором заканчиваем

for (( i=start; i<=end; i++ ))
do  
    uri=https://somename.livejournal.com/$i.html
    #скачиваем только со статусом 200
    wget --server-response $uri -O $i.html 2>&1| grep -c 'HTTP/1.1 200 OK'
done
Ответ написан
Пригласить эксперта
Ответы на вопрос 1
@Germanjon
Есть идея, куда копнуть:
- В любом посте ЖЖ есть ссылка на следующий пост и предыдущий (ссылка вида /www.livejournal.com/go.bml?journal=someone&itemid=123456&dir=next или dir=prev ).
Можно попробовать эмулировать "переход" по ссылке, а потом "вытаскивать" id получившейся записи. А вот как это сделать, пока не придумал.
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы