@Soloviev_Live

Как отфильтровать URLв и скачать файлы по ним?

Как извлечь(отсортировать) из большого(+1 Гб)текстового файла ссылки с требуемым расширением(planxxx.pdf .xml .xls и тд), можно не по одному, а по нескольким - это первое. Второе, мне надо скачать эти файлы, например Curl'oм (массовое скачивание). Текстовый файл состоит из построчных ссылок на файл(ы) с разными расширениями.
  • Вопрос задан
  • 118 просмотров
Пригласить эксперта
Ответы на вопрос 1
xotkot
@xotkot
хорошо есть и хорошо весьма
допустим есть большой файл(urls1.txt) где находятся только ссылки с расчетом один URL на строку
awk '/\.pdf$|\.xls$|\.xml$/ {print "url="$0}' urls1.txt > urls2.txt

отбираем нужные url-адреса и формируем список urls2.txt для последующего скармливания curl

curl --remote-name-all --parallel -K urls2.txt
закачиваем файлы параллельно из списка urls2.txt

п.с.
для удобства сам список можно разбить на несколько, например по 1000 ссылок на файл
mkdir urls
split --lines=1000 --numeric-suffixes=1 urls2.txt urls/list_

в папке urls появятся файлы по типу list_xxxx
после чего можно по очереди их скармливать curl
curl --remote-name-all --parallel -K list_xxxx
ну и обернуть всё это в цикл при желании
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы