Как вытащить все ссылки на загрузку файлов с сайта?

Question

Badarus @Badarus

Парсинг

Как вытащить все ссылки на загрузку файлов с сайта?

Добрый день.
Есть такой ресурс: https://uristhome.ru/document
На нем более 5000 документов которые нужно выгрузить.
Третий день уже ломаю голову как это сделать....
Хотя бы каким-то образом вытащить ссылки на загрузку каждого файла.
Ссылки на загрузку идут по пути: https://uristhome.ru/sites/default/files/doc/

Как можно выгрузить с минимальными усилиями? Буду благодарен за помощь.

Вопрос задан более трёх лет назад
5114 просмотров

Комментировать

Подписаться 2 Простой Комментировать

Помогут разобраться в теме Все курсы

Stepik

Парсинг на Python для начинающих

2 недели

Далее
Хекслет

Фронтенд-разработчик

10 месяцев

Далее
Skillfactory

Профессия Python-разработчик PRO

12 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 3

9 комментариев

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Парсинг

Средний
Вся сложность парсинга Авито. Как это сделать правильно?
- 1 подписчик
- 26 нояб.
- 233 просмотра
1

ответ
Telegram

+1 ещё

Простой
Как спарсить подписчиков своего телеграм канала?
- 2 подписчика
- 20 нояб.
- 479 просмотров
2

ответа
Веб-разработка

+1 ещё

Простой
Каким образом правильно сделать скрипт?
- 2 подписчика
- 15 нояб.
- 380 просмотров
2

ответа
Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт.
- 194 просмотра
0

ответов
Парсинг

Простой
Как получить ID всех ПВЗ?
- 1 подписчик
- 24 сент.
- 267 просмотров
0

ответов
Парсинг

+1 ещё

Простой
Как увеличить охват поисковых фраз Wildberries и ускорить?
- 2 подписчика
- 23 сент.
- 206 просмотров
0

ответов
Парсинг

Простой
Как парсить несколько сайтов, отличающихся друг от друга?
- 2 подписчика
- 09 сент.
- 208 просмотров
3

ответа
Node.js

+4 ещё

Простой
В чем разница между selenium, playwright и puppeteer?
- 3 подписчика
- 09 сент.
- 304 просмотра
2

ответа
Node.js

+1 ещё

Простой
NODE.JS – парсинг контента. При скачивании изображений получаю битые файлы. Как поправить?
- 1 подписчик
- 08 сент.
- 141 просмотр
1

ответ
Python

+2 ещё

Средний
Как правильно принимать платежи пользователей в сети Tron?
- 1 подписчик
- 03 сент.
- 232 просмотра
3

ответа
Показать ещё Загружается…

C++ / Qt Разработчик

Алабуга • Екатеринбург

от 127 500 ₽

Разработчик JavaScript/NodeJS, специалист технической поддержки

A-Parser

от 600 до 800 $

Python Developer

Strikt

от 100 000 до 150 000 ₽

Answer 1 · 2022-05-06 10:52:43

1 ) Скачиваешь и устанавливаешь Python. ( ставишь галочку для PATH )https://www.python.org/downloads/
2) Win+R -> pip install requests > OK
3) Win+R -> pip install bs4 > OK
4) Создаешь папку на рабочем столе.
5) Создаешь два фаила в папке.
5.1) Первый фаил например get_links.py , туда вставляешь этот

КОД

import requests
from bs4 import BeautifulSoup

main_url = 'https://uristhome.ru'
docs_url = "https://uristhome.ru/document"
headers = {"User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36"}

down_link = []

r = requests.get(docs_url, headers=headers)
soup = BeautifulSoup(r.content, 'html.parser')
for doc in soup.find("ul",{"class": "y_articles-document-list"}):
    down_link.append(main_url+doc.find("a").attrs['href'])
    
with open('download_link.txt', 'a') as nf:
    nf.writelines('\n'.join(docs))

потом сохраняешь фаил.
5.2) Создаешь второй фаил например download_links.py туда вставляешь уже этот

КОД

import requests
from bs4 import BeautifulSoup

headers = {"User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36"}
down_link = open('download_links.txt', 'r')

docs = []
counter = 0 
for links in down_link.readlines():
    try:
        r = requests.get(links, headers=headers)
        soup = BeautifulSoup(r.content, 'html.parser')
        x = soup.find("div",{"class": "filefield-file"}).find("a").attrs['href']
        counter += 1
        print(counter)
        print(x)
        docs.append(x)
    except:
        pass

with open('documents_link.txt', 'a') as nf:
    nf.writelines('\n'.join(docs))

Как это работает:
1) открываешь get_links.py в папке создается текстовой файл с ссылками на документы
2) отрываешь download_links.py он будет обрабатывать тот текстовой файл. по окончанию создаст еще 1 текстовой файл documents_link.txt с ссылками на документы.

Answer 2 · 2022-05-06 08:48:35

Проще простого через регулярки
1. получить все ссылки на страницы с документами
2. Зайти по каждой этой ссылке
3. Найти на этой странице все ссылки на документы
4. Скачать документы

Answer 3 · 2022-05-06 11:59:40

Если не умеете в программирование - го в гугл.

https://www.google.ru/search?q=get+all+links+from+site

например https://chrome.google.com/webstore/detail/link-kli...

Answer 4 · 2022-05-06 14:28:09

Без программирования, но придется разобраться в параметрах утилиты

Взять WGET и скачать файлы определенного типа с рекурсивным обходом разделов сайта.

Возможно получится добиться нужных настроек через GUI WGET или найти нужные ключи в примерах из интернета.

Как вытащить все ссылки на загрузку файлов с сайта?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт