Задача варьируется от тривиальной: for loop в bash,
до весьма интересной в которой вы:
- Создаете и поддерживаете rotating proxy server через tor(20 запущенных tor инстасов за лоад балансером, для смены ip )
- Поддерживаете параллельную закачку(и соответственно message queue) для уникальных текущих/удаленных/недоступных в данных момент URL
- Поддерживаете автоматический кравлинг URL на странице, в случае если вы хотите переходить по ссылкам
- Поддерживаете несколько типов кравлеров(phantomjs/casperjs/standart http request)
- Поддерживаете спуффинг клиента(чтобы вас не засекли ботоловилки с каптчей)
- Поддерживаете некоторую эвристику которая должна засекать настоящая ли это страница или honeypot для бота
И это только первые проблемы которые приходят на ум.
------
В случае если вам нужен dirty скачивальщик. То да, wget в for loop оптимальное решение. (Не факт что рабочее)