Как скачать wget'от ссылки из файла и сохранять не index.html, а site.ru?

Question

Сергей Карбивничий @hottabxp

Сначала мы жили бедно, а потом нас обокрали..

Как скачать wget'от ссылки из файла и сохранять не index.html, а site.ru?

Есть файл с сайтами *.ru:

01-PLAN.RU
01-POKROV.RU
01-PRINT.RU
01-PROFI.RU
01-PTM.RU
01-R.RU
01-REGION.RU
01-REMONT.RU
01-RU.RU
01-S.RU
01-SB.RU
01-SBERBANK.RU
Далее около 5 млн. записей

Мне нужно с помощью wget в несколько потоков скачать главные страницы сайтов(если конечно сайт рабочий)
Нашел вот такую штуку:
cat ru.txt | xargs -t -P 20 -n1 wget
Оно работает, но сохраняет html файлы так: 'index.html', 'index.html.1' и т.д. А мне нужно чтобы файлы сохранялись так, как они записаны в файле.
Знаю что это с помощью bash сделать легко, но я запутался.

Вопрос задан более трёх лет назад
301 просмотр

Комментировать

Подписаться 1 Простой Комментировать

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 2

1 комментарий

Karpion @Karpion
Я бы советовал брать имя переменной окружения в фиг.скобки:
while read -r; do wget ${REPLY} -O ${REPLY}.html; done < ru.txt
А то топиккастер при модификации скрипта запросто может нарваться на труднопонимаемые проблемы.

И я не уверен, что топиккастеру надо ".html" в конце имени файла.

А вообще - это самое универсальное и расширяемое по функциональности решение.
Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Linux

+1 ещё

Простой
Как убрать luks?
- 1 подписчик
- 16 минут назад
- 10 просмотров
0

ответов
Linux

+1 ещё

Простой
BigBlueButton ошибка подключения по 443 порту?
- 1 подписчик
- 2 часа назад
- 77 просмотров
1

ответ
Linux

+2 ещё

Простой
Linphone, sip keepalife или что?
- 2 подписчика
- 2 часа назад
- 43 просмотра
0

ответов
Linux

+2 ещё

Средний
Почему не получается произвести аутентификацию нод?
- 1 подписчик
- вчера
- 65 просмотров
0

ответов
Linux

+1 ещё

Простой
Как сделать так, чтобы программы не закрывались при входе системы в режим ожидания?
- 1 подписчик
- вчера
- 65 просмотров
0

ответов
Linux

+1 ещё

Простой
Что за файлы и как с ними жить дальше?
- 3 подписчика
- вчера
- 1127 просмотров
1

ответ
Linux

+2 ещё

Простой
Почему в centos lvm не видит pv на shared iscsi lun?
- 2 подписчика
- вчера
- 65 просмотров
1

ответ
Linux

+2 ещё

Простой
Как правильно настроить SSH и RDP через reverse ssh через третий хост?
- 1 подписчик
- вчера
- 83 просмотра
0

ответов
Linux

+2 ещё

Простой
Как создать ICQ сервер?
- 1 подписчик
- вчера
- 303 просмотра
2

ответа
Linux

+1 ещё

Простой
Как исправить ошибку?
- 1 подписчик
- вчера
- 104 просмотра
1

ответ
Показать ещё Загружается…

Программист C для Embedded Linux

Radiofid • Санкт-Петербург

от 120 000 до 180 000 ₽

Linux Администратор DevOps

ИМАГ • Москва

от 150 000 до 170 000 ₽

Программист C/C++ embedded Linux

РТК Автоматика • Москва

от 170 000 до 250 000 ₽

Перенести базу знаний в формат lms (На подобии Obsidium)

26 апр. 2024, в 17:02

35000 руб./за проект

Составить единую таблицу SQL

26 апр. 2024, в 16:51

2000 руб./в час

Сверстать 2 транзакционных письма по макету figma

26 апр. 2024, в 16:36

3000 руб./за проект

Answer 1 · 2020-03-12 20:32:03

Vitaly Karasik @vitaly_il1

DevOps Consulting

cat sites.txt| xargs -I % -t -P 20 -n1 wget % -O %

Ответ написан более трёх лет назад

Комментировать

Answer 2 · 2020-03-12 20:36:19

Предыдущий немногословный оратор имел в виду, что у wget есть ключ -O, который говорит под каким именем надо сохранить скачанное.
Ссылка на мануал, как бы, намекает на правильный путь поиска подобных решений и мне такой воспитательный подход крайне импонирует.

Однако я вам рекомендую вместо xargs использовать вот такое:

while read -r; do wget $REPLY -O $REPLY.html; done < ru.txt

Answer 3 · 2020-03-13 03:35:33

Виктор Таран @shambler81 Куратор тега Linux

wget $(cat ru.txt)
а так ?

Ответ написан более трёх лет назад

Комментировать

Как скачать wget'от ссылки из файла и сохранять не index.html, а site.ru?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт