hottabxp
@hottabxp
Эксперт по BeautifulSoup(но это не точно!)

Как скачать wget'от ссылки из файла и сохранять не index.html, а site.ru?

Есть файл с сайтами *.ru:
01-PLAN.RU
01-POKROV.RU
01-PRINT.RU
01-PROFI.RU
01-PTM.RU
01-R.RU
01-REGION.RU
01-REMONT.RU
01-RU.RU
01-S.RU
01-SB.RU
01-SBERBANK.RU
Далее около 5 млн. записей

Мне нужно с помощью wget в несколько потоков скачать главные страницы сайтов(если конечно сайт рабочий)
Нашел вот такую штуку:
cat ru.txt | xargs -t -P 20 -n1 wget
Оно работает, но сохраняет html файлы так: 'index.html', 'index.html.1' и т.д. А мне нужно чтобы файлы сохранялись так, как они записаны в файле.
Знаю что это с помощью bash сделать легко, но я запутался.
  • Вопрос задан
  • 120 просмотров
Решения вопроса 1
Пригласить эксперта
Ответы на вопрос 3
dzolotarev
@dzolotarev
Этот мир крэшится - я собираю дампы
trapwalker
@trapwalker
Программист, энтузиаст
Предыдущий немногословный оратор имел в виду, что у wget есть ключ -O, который говорит под каким именем надо сохранить скачанное.
Ссылка на мануал, как бы, намекает на правильный путь поиска подобных решений и мне такой воспитательный подход крайне импонирует.

Однако я вам рекомендую вместо xargs использовать вот такое:
while read -r; do wget $REPLY -O $REPLY.html; done < ru.txt
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы
Абсолют Банк Москва
от 150 000 до 170 000 ₽
MSP360 Санкт-Петербург
от 80 000 до 130 000 ₽
Золотое Яблоко Екатеринбург
До 70 000 ₽
04 апр. 2020, в 23:07
30000 руб./за проект
04 апр. 2020, в 23:05
100000 руб./за проект
04 апр. 2020, в 22:57
2000 руб./за проект