Ответы пользователя datka по тегу «Парсинг»

Парсинг пагинация?

datka @datka

Узнаешь сколько страниц.
и тупо перебираешь урл с page-1, page-2, page-3 ... page-8 в вашем случае

import requests

base_url = "https://www.ursus.ru/catalogue/zashchita_ot_padeniy_s_vysoty/page-"

pages = 8

for i in range(1, pages + 1):
    print(f"Page: {i}")
    print(f"{base_url}{i}/")
    requests.get(f"{base_url}{i}.")

Ответ написан более года назад

1 комментарий

Не работает парсер на pyhton bs4, что делать?

datka @datka

Скорее всего проблема в header-ax

добавь в код

headers = {
    "User-Agent": "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N)\
AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Mobile Safari/537.36"
}

и поменяй
data = requests.get(url, headers=headers)

import requests
from bs4 import BeautifulSoup

url = "https://realt.by/sale-flats/object/2562548/"


headers = {
    "User-Agent": "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N)\
AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Mobile Safari/537.36"
}

data = requests.get(url, headers=headers)
soup = BeautifulSoup(data.text, features="html.parser")
img = (
    soup.find("div", attrs={"class": "swiper-wrapper"})
    .findAll("img", class_="blur-sm scale-105")[1]
    .get("src")
)
print(img)

https://static.realt.by/thumb/c/600x400/6f57b1d409f96f2b1ede7f082f120b50/ja/e/site15nf8eja/7c30f38145.jpg

Ответ написан более года назад

1 комментарий

Почему метод find_all из bs4 возвращает пустой список?

datka @datka

spoiler

from bs4 import BeautifulSoup
import requests


headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36"}

estrade_url = 'https://www.instagram.com/estrade.pmk/'
page = requests.get(estrade_url,headers=headers)
soup = BeautifulSoup(page.content, 'html.parser')
print(soup.prettify())

Сравните ввыдод print(soup.prettify()) с тем что видите вы.
Без selenium тут не обойтись.
Я бы поступил так. Получил через селениум страницу. сохранил ее как index.html и дальше парсил.
Или не сохранял, а просто через селениум спарсил цифру.

Подход у всех разный

Ответ написан более двух лет назад

Комментировать

Как вытащить все ссылки на загрузку файлов с сайта?

datka @datka

1 ) Скачиваешь и устанавливаешь Python. ( ставишь галочку для PATH )https://www.python.org/downloads/
2) Win+R -> pip install requests > OK
3) Win+R -> pip install bs4 > OK
4) Создаешь папку на рабочем столе.
5) Создаешь два фаила в папке.
5.1) Первый фаил например get_links.py , туда вставляешь этот

КОД

import requests
from bs4 import BeautifulSoup

main_url = 'https://uristhome.ru'
docs_url = "https://uristhome.ru/document"
headers = {"User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36"}

down_link = []

r = requests.get(docs_url, headers=headers)
soup = BeautifulSoup(r.content, 'html.parser')
for doc in soup.find("ul",{"class": "y_articles-document-list"}):
    down_link.append(main_url+doc.find("a").attrs['href'])
    
with open('download_link.txt', 'a') as nf:
    nf.writelines('\n'.join(docs))

потом сохраняешь фаил.
5.2) Создаешь второй фаил например download_links.py туда вставляешь уже этот

КОД

import requests
from bs4 import BeautifulSoup

headers = {"User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36"}
down_link = open('download_links.txt', 'r')

docs = []
counter = 0 
for links in down_link.readlines():
    try:
        r = requests.get(links, headers=headers)
        soup = BeautifulSoup(r.content, 'html.parser')
        x = soup.find("div",{"class": "filefield-file"}).find("a").attrs['href']
        counter += 1
        print(counter)
        print(x)
        docs.append(x)
    except:
        pass

with open('documents_link.txt', 'a') as nf:
    nf.writelines('\n'.join(docs))

Как это работает:
1) открываешь get_links.py в папке создается текстовой файл с ссылками на документы
2) отрываешь download_links.py он будет обрабатывать тот текстовой файл. по окончанию создаст еще 1 текстовой файл documents_link.txt с ссылками на документы.

Войдите на сайт