1 ) Скачиваешь и устанавливаешь Python. ( ставишь галочку для PATH )
https://www.python.org/downloads/
2) Win+R ->
pip install requests > OK
3) Win+R ->
pip install bs4 > OK
4) Создаешь папку на рабочем столе.
5) Создаешь два фаила в папке.
5.1) Первый фаил например get_links.py , туда вставляешь этот
КОДimport requests
from bs4 import BeautifulSoup
main_url = 'https://uristhome.ru'
docs_url = "https://uristhome.ru/document"
headers = {"User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36"}
down_link = []
r = requests.get(docs_url, headers=headers)
soup = BeautifulSoup(r.content, 'html.parser')
for doc in soup.find("ul",{"class": "y_articles-document-list"}):
down_link.append(main_url+doc.find("a").attrs['href'])
with open('download_link.txt', 'a') as nf:
nf.writelines('\n'.join(docs))
потом сохраняешь фаил.
5.2) Создаешь второй фаил например download_links.py туда вставляешь уже этот
КОДimport requests
from bs4 import BeautifulSoup
headers = {"User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36"}
down_link = open('download_links.txt', 'r')
docs = []
counter = 0
for links in down_link.readlines():
try:
r = requests.get(links, headers=headers)
soup = BeautifulSoup(r.content, 'html.parser')
x = soup.find("div",{"class": "filefield-file"}).find("a").attrs['href']
counter += 1
print(counter)
print(x)
docs.append(x)
except:
pass
with open('documents_link.txt', 'a') as nf:
nf.writelines('\n'.join(docs))
Как это работает:
1) открываешь
get_links.py в папке создается текстовой файл с ссылками на документы
2) отрываешь
download_links.py он будет обрабатывать тот текстовой файл. по окончанию создаст еще 1 текстовой файл
documents_link.txt с ссылками на документы.