Как отфильтровать URLв и скачать файлы по ним?

Question

Soloviev_Live @Soloviev_Live

Как отфильтровать URLв и скачать файлы по ним?

Как извлечь(отсортировать) из большого(+1 Гб)текстового файла ссылки с требуемым расширением(planxxx.pdf .xml .xls и тд), можно не по одному, а по нескольким - это первое. Второе, мне надо скачать эти файлы, например Curl'oм (массовое скачивание). Текстовый файл состоит из построчных ссылок на файл(ы) с разными расширениями.

Вопрос задан более двух лет назад
140 просмотров

6 комментариев

Подписаться 1 Простой 6 комментариев

paran0id @paran0id

grep '\.pdf\|\.xls\|\.xml' links.txt | xargs wget

Написано более двух лет назад
d'Ivan @2ord

paran0id, а переварится ли такое количество через xargs?

Написано более двух лет назад
Soloviev_Live @Soloviev_Live Автор вопроса

paran0id, пока работает) нужные опции по wget'у сам изучу, добавлю. Спасибо

Написано более двух лет назад
paran0id @paran0id

у меня смутное ощущение, что я постил в ответы, а не в комменты, ну да ладно

Написано более двух лет назад
mayton2019 @mayton2019

Тут - аккурано нужно. При массовом скачивании у нас есть 2 простые стратегии. Первое - качать линки строго последовательно. Но при этом какая-то недоступная линка будет надолго блокировать всю очередь. Второе - качать все параллельно но при этом надо помнить об ограничениях на сокеты и количество процессов в linux. Вобщем обе простые стратегии - плохие. В более гибком варианте - нам нужен пул процессов закачки но мне кажется что это выходит за рамки grep + wget и надо звать в топик программиста чтоб написал нормальное приложение с пулом.

Написано более двух лет назад
Алан Гибизов @phaggi

mayton2019, за программистом надо идти на freelance.

Написано более двух лет назад

Помогут разобраться в теме Все курсы

Учебный центр «Микротест»

Linux уровень 1. Основы администрирования систем Linux (Линукс)

1 неделя

Далее
Учебный центр «Микротест»

Linux уровень 2. Расширенное администрирование систем Linux (Линукс)

1 неделя

Далее
teamcoding

TC200PY Разработка PHP веб-приложений на Yii2. Шаблон приложения advanced

3 месяца

Далее

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Telegram

+2 ещё

Простой
Как настроить репост из телеграм канала в вк группу?
- 1 подписчик
- 21 окт.
- 111 просмотров
1

ответ
Linux

+2 ещё

Простой
Как настроить Matrix Synapse сервер, чтобы работал клиент Element X (Element подключается)?
- 1 подписчик
- 17 окт.
- 128 просмотров
1

ответ
Ubuntu

+1 ещё

Средний
Как исправить кривое отображение файлов ipynb в Pycharm на Ubuntu 24.04 при прокрутке?
- 1 подписчик
- 09 окт.
- 107 просмотров
0

ответов
Ubuntu

Средний
Как создать несколько копий проги 3proxy на vps ubuntu?
- 1 подписчик
- 08 окт.
- 198 просмотров
1

ответ
Ubuntu

+1 ещё

Простой
Почему после обновления Ubuntu не находит сервис gitlab?
- 1 подписчик
- 01 окт.
- 155 просмотров
0

ответов
Ubuntu

+4 ещё

Средний
С помощью чего создать тунель между Ubuntu и Cisco?
- 1 подписчик
- 24 сент.
- 272 просмотра
2

ответа
Автоматизация

+1 ещё

Простой
Как изучать SCADA и программирование ПЛК самостоятельно дома?
- 1 подписчик
- 19 сент.
- 114 просмотров
1

ответ
Ubuntu

Средний
Подключение к рабочему столу пользователя, Ubuntu 24.04 какие варианты?
- 2 подписчика
- 15 сент.
- 266 просмотров
2

ответа
Ubuntu

+2 ещё

Сложный
Как передать реальный IP при переадресации NAT с помощью iptables?
- 1 подписчик
- 14 сент.
- 248 просмотров
4

ответа
Windows

+2 ещё

Средний
Почему жестко лагает VirtualBox на производительном ноутбуке?
- 3 подписчика
- 13 сент.
- 771 просмотр
2

ответа
Показать ещё Загружается…

Fullstack-разработчик сайтов laravel

WEB ALTERNATIVE

от 65 000 ₽

Системный администратор Linux

Abc staff • Москва

До 250 000 ₽

DevOps-инженер (СI/CD)

ЛСЦТ • Москва

от 280 000 ₽

paran0id, а переварится ли такое количество через xargs?
paran0id, пока работает) нужные опции по wget'у сам изучу, добавлю. Спасибо
у меня смутное ощущение, что я постил в ответы, а не в комменты, ну да ладно
Тут - аккурано нужно. При массовом скачивании у нас есть 2 простые стратегии. Первое - качать линки строго последовательно. Но при этом какая-то недоступная линка будет надолго блокировать всю очередь. Второе - качать все параллельно но при этом надо помнить об ограничениях на сокеты и количество процессов в linux. Вобщем обе простые стратегии - плохие. В более гибком варианте - нам нужен пул процессов закачки но мне кажется что это выходит за рамки grep + wget и надо звать в топик программиста чтоб написал нормальное приложение с пулом.
mayton2019, за программистом надо идти на freelance.

Answer 1 · 2022-11-06 15:18:21

допустим есть большой файл(urls1.txt) где находятся только ссылки с расчетом один URL на строку

awk '/\.pdf$|\.xls$|\.xml$/ {print "url="$0}' urls1.txt > urls2.txt

отбираем нужные url-адреса и формируем список urls2.txt для последующего скармливания curl

curl --remote-name-all --parallel -K urls2.txt
закачиваем файлы параллельно из списка urls2.txt

п.с.
для удобства сам список можно разбить на несколько, например по 1000 ссылок на файл

mkdir urls
split --lines=1000 --numeric-suffixes=1 urls2.txt urls/list_

в папке urls появятся файлы по типу list_xxxx
после чего можно по очереди их скармливать curl
curl --remote-name-all --parallel -K list_xxxx
ну и обернуть всё это в цикл при желании

Как отфильтровать URLв и скачать файлы по ним?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт