Как скачать с помощью wget по маске не зная какие страницы есть?

Question

Evgenii Borovoi @EugeneOne77

Laravel, Vue, Wordpress разработчик.

Wget

Как скачать с помощью wget по маске не зная какие страницы есть?

Есть вот такого вида ссылки: somename.livejournal.com/593.html
Число перед .html может быть любое. Списка нет и число возрастает не по порядку. Следующий может быть somename.livejournal.com/22593.html, но последнее число я знаю.
Можно ли одной командой wget скачать все существующие посты? Если да - то как? Огромная просьба написать готовый ответ, потому что я покурил маны и как-то не сложилось.
По идее там регулярку как-то вставить. Либо, мне подойдет скрипт на баше с использованием wget.
Заранее благодарен.

Вопрос задан более трёх лет назад
518 просмотров

Комментировать

Подписаться 1 Средний Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillbox

1C-разработчик

8 месяцев

Далее
Нетология

Python-разработчик с нуля

6 месяцев

Далее

Решения вопроса 1

6 комментариев

Germanjon @Germanjon

Не забанит ли за попытку перебора?

Написано более трёх лет назад
O . J @OrlovEvgenii

Germanjon, Вам в любом случае нужно делать перебор по всем постам, так как у вас нет актуального списка постов.

Можно попробовать эмулировать "переход" по ссылке, а потом "вытаскивать" id получившейся записи. А вот как это сделать, пока не придумал.

даже в этом случае у Вас будет перебор всех постов и так же будет вероятность попасть под rate limit.

По поводу бана, скорее всего нет, мне кажется у livejournal нет rate limit на получение записей.

Написано более трёх лет назад
Germanjon @Germanjon

O . J, можно чуть усовершенствовать Ваше решение (сделать меньше количество запросов):
1. Открывать страницу вида somename.livejournal.com/?skip=1 (значение skip подставлять в цикле), последний номер skip можно получить, посмотрев количество записей в профиле пользователя.
2. Вытаскивать URL первой записи на полученной странице (например, первый встреченный паттерн вида "someone.livejournal.com/*.html").
3. Закачивать указанный URL.

Написано более трёх лет назад
O . J @OrlovEvgenii

Germanjon, круто, делайте!

Написано более трёх лет назад
Evgenii Borovoi @EugeneOne77 Автор вопроса

O . J, Спасибо большое!!!

Написано более трёх лет назад
Evgenii Borovoi @EugeneOne77 Автор вопроса

Кстати, защита от перебора у них есть.
Причем она не работала пока скрипт один был, как только я паралельно запустил с виртуалки его же - забанили по ip.
Сделал sleep 3.1 в цикле, вторые сутки позволяет парсить.

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 1

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Windows

+2 ещё

Простой
Как скопировать сайт с помощью PowerShell на Windows 11?
- 1 подписчик
- 13 февр.
- 1356 просмотров
2

ответа
Windows

+1 ещё

Средний
Не работает Wget на Windows 11?
- 1 подписчик
- 10 янв.
- 553 просмотра
2

ответа
Wget

Средний
Как скачать файлы с директории сайта, если не знаешь имени файлов?
- 2 подписчика
- 23 дек. 2024
- 470 просмотров
2

ответа
Wget

Простой
Как укоротить путь к файлу при скачивании через wget?
- 1 подписчик
- более года назад
- 115 просмотров
2

ответа
Wget

Простой
Как загружать правильно через wget файлы, у которых названия одинаковые, но регистр разный?
- 1 подписчик
- более года назад
- 195 просмотров
1

ответ
Парсинг

+1 ещё

Средний
Как выкачать все gif с сайта?
- 1 подписчик
- более года назад
- 368 просмотров
2

ответа
Wget

Простой
Можно ли в Wget сохранять файл по имени запроса?
- 1 подписчик
- более года назад
- 29 просмотров
0

ответов
Linux

+1 ещё

Средний
Как выкачать часть сайта через wget?
- 2 подписчика
- более года назад
- 277 просмотров
2

ответа
Wget

Средний
Как совместить в опциях wget -nc и -k?
- 1 подписчик
- более двух лет назад
- 59 просмотров
0

ответов
Wget

Сложный
Как ускорить wget, убрав подозрительные страницы из списка с символами \&quot; но не \&quot;\&quot;?
- 1 подписчик
- более двух лет назад
- 101 просмотр
0

ответов
Показать ещё Загружается…

Backend-разработчик в команду управления доступами

SMALL

от 3 400 до 4 700 $

Mobile-Backend QA Engineer (Automation)

SMALL

от 150 000 до 200 000 ₽

React Native разработчик

SMALL

от 180 000 до 250 000 ₽

Answer 1 · 2020-01-02 16:29:08

#!/bin/bash
start= 593 #номер поста с которого начинаем брутфорсить
end=22593 #номер поста на котором заканчиваем

for (( i=start; i<=end; i++ ))
do  
    uri=https://somename.livejournal.com/$i.html
    #скачиваем только со статусом 200
    wget --server-response $uri -O $i.html 2>&1| grep -c 'HTTP/1.1 200 OK'
done

Answer 2 · 2020-01-03 08:43:40

Есть идея, куда копнуть:
- В любом посте ЖЖ есть ссылка на следующий пост и предыдущий (ссылка вида /www.livejournal.com/go.bml?journal=someone&itemid=123456&dir=next или dir=prev ).
Можно попробовать эмулировать "переход" по ссылке, а потом "вытаскивать" id получившейся записи. А вот как это сделать, пока не придумал.

Как скачать с помощью wget по маске не зная какие страницы есть?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт