Как скачать wget'от ссылки из файла и сохранять не index.html, а site.ru?

Question

Сергей Карбивничий @hottabxp

Сначала мы жили бедно, а потом нас обокрали..

Как скачать wget'от ссылки из файла и сохранять не index.html, а site.ru?

Есть файл с сайтами *.ru:

01-PLAN.RU
01-POKROV.RU
01-PRINT.RU
01-PROFI.RU
01-PTM.RU
01-R.RU
01-REGION.RU
01-REMONT.RU
01-RU.RU
01-S.RU
01-SB.RU
01-SBERBANK.RU
Далее около 5 млн. записей

Мне нужно с помощью wget в несколько потоков скачать главные страницы сайтов(если конечно сайт рабочий)
Нашел вот такую штуку:
cat ru.txt | xargs -t -P 20 -n1 wget
Оно работает, но сохраняет html файлы так: 'index.html', 'index.html.1' и т.д. А мне нужно чтобы файлы сохранялись так, как они записаны в файле.
Знаю что это с помощью bash сделать легко, но я запутался.

Вопрос задан более трёх лет назад
384 просмотра

Комментировать

Подписаться 1 Простой Комментировать

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 2

1 комментарий

Karpion @Karpion
Я бы советовал брать имя переменной окружения в фиг.скобки:
while read -r; do wget ${REPLY} -O ${REPLY}.html; done < ru.txt
А то топиккастер при модификации скрипта запросто может нарваться на труднопонимаемые проблемы.

И я не уверен, что топиккастеру надо ".html" в конце имени файла.

А вообще - это самое универсальное и расширяемое по функциональности решение.
Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Linux

+4 ещё

Простой
Возможно ли получить интернет с openwrt в proxmox?
- 1 подписчик
- 42 минуты назад
- 27 просмотров
1

ответ
Linux

+2 ещё

Простой
Как настроить Matrix Synapse сервер, чтобы работал клиент Element X (Element подключается)?
- 1 подписчик
- 8 часов назад
- 40 просмотров
1

ответ
Linux

Средний
Какой Linux поставить в виртуалку, чтобы поднять на нём OpenVPN клиент и 3proxy сервер для локального использования?
- 4 подписчика
- 15 окт.
- 337 просмотров
4

ответа
Linux

Простой
Как запустить две копии программы в Linux?
- 2 подписчика
- 14 окт.
- 401 просмотр
4

ответа
Linux

+1 ещё

Простой
Какой самый стабильный и лучший вариант собрать QUIC для curl [cross-compilation]?
- 1 подписчик
- 14 окт.
- 101 просмотр
0

ответов
Linux

+2 ещё

Средний
Существует ли готовое решение или проект для организации Linux-шлюза с маршрутизацией, VPN и DPI-обходом?
- 5 подписчиков
- 13 окт.
- 915 просмотров
2

ответа
Linux

+1 ещё

Средний
Не вижу трафика клиентов и их онлайн в панели 3x-ui, что можно сделать?
- 2 подписчика
- 13 окт.
- 637 просмотров
2

ответа
Linux

+1 ещё

Простой
Как запретить удаление папки в Linux?
- 1 подписчик
- 13 окт.
- 289 просмотров
2

ответа
Linux

+3 ещё

Средний
FireWall (Linux) для VLESS (Nekoray) и с разными профилями VPN (IP, Port). Как настроить Kill Switch?
- 1 подписчик
- 11 окт.
- 332 просмотра
3

ответа
Linux

Простой
В чем разница символической ссылки и скопированного пути?
- 3 подписчика
- 08 окт.
- 486 просмотров
5

ответов
Показать ещё Загружается…

Ведущий инженер-проектировщик линий электропередачи (ЛЭП)

ЭЛСИ Энергопроект • Новосибирск

от 121 000 ₽

Специалист первой линии технической поддержки

Петрович-Тех

До 52 882 ₽

Системный администратор Linux

Abc staff • Москва

До 250 000 ₽

Answer 1 · 2020-03-12 20:32:03

Vitaly Karasik @vitaly_il1

DevOps Consulting

cat sites.txt| xargs -I % -t -P 20 -n1 wget % -O %

Ответ написан более трёх лет назад

Комментировать

Answer 2 · 2020-03-12 20:36:19

Предыдущий немногословный оратор имел в виду, что у wget есть ключ -O, который говорит под каким именем надо сохранить скачанное.
Ссылка на мануал, как бы, намекает на правильный путь поиска подобных решений и мне такой воспитательный подход крайне импонирует.

Однако я вам рекомендую вместо xargs использовать вот такое:

while read -r; do wget $REPLY -O $REPLY.html; done < ru.txt

Answer 3 · 2020-03-13 03:35:33

Виктор Таран @shambler81 Куратор тега Linux

wget $(cat ru.txt)
а так ?

Ответ написан более трёх лет назад

Комментировать

Как скачать wget'от ссылки из файла и сохранять не index.html, а site.ru?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт