Python. Проблема с парсингом. В чем проблема?

Question

rusyska55011 @rusyska55011

Python. Проблема с парсингом. В чем проблема?

Непонятная ситуация с BeautifulSoup
Пытаюсь найти теги, используя метод finaAll(), однако у меня возникают следующие ситуации:

Я получаю список с названиями, при этом списки с ценами и датами пустой

Я получаю список с ценами и датой, при этом названия пусты

Я получаю пустые списки

Одно другое исключает, и неважно сколько раз я буду запускать программу - результат бывает разный. При этом я пробовал выводить в консоль html-код, искал все теги, и они на месте, а списки могут быть какими захотят
Что за бред, люди умные?)

import requests
from bs4 import BeautifulSoup

class Parse:
    def __init__(self, url):

        self.link = url
        self.html = Parse.__get_html(self.link) # получаем html-страницу

    def __get_html(link):
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.75 Safari/537.36'
                }
        req = requests.get(link, headers = headers)
        return req.text

    # Следующие методы ищут в собранной html-странице теги, содержащие называния, цены и даты, а затем собирают 
    # их в список и возвращают этот список
    def get_title(self):
        html = self.html
        soup = BeautifulSoup(html, 'html.parser')

        titles_tags = soup.findAll('div', class_ = 'snippet-title-row')
        titles = []
        for i in titles_tags:
            text = str(i)
            get_title = text.split('>')[4].split('<')[0].split('\n')[1]
            titles.append(get_title)
        return titles

    def get_price(self):
        html = self.html
        soup = BeautifulSoup(html, 'html.parser')

        price_tags = soup.findAll('span', class_ = 'price-text-1HrJ_ text-text-1PdBw text-size-s-1PUdo')
        prices = []
        for i in price_tags:
            text = str(i)
            get_price = text.split('>')[1].split('<')[0]
            prices.append(get_price)
        return prices

    def get_data(self):
        html = self.html
        soup = BeautifulSoup(html, 'html.parser')

        data_tags = soup.findAll('div', class_ = 'date-text-2jSvU text-text-1PdBw text-size-s-1PUdo text-color-noaccent-bzEdI')
        datas = []
        for i in data_tags:
            text = str(i)
            get_data = text.split('>')[1].split('<')[0]
            datas.append(get_data)
        return datas

# Здесь мы реализовываем методы
class Interface(Parse):
    def __init__(self, url):

        parse = Parse(url)                    # Создаем экземпляр класса, даем ссылку на страницу и получаем html-страницу
        self.title = parse.get_title()      # Получаем список, содержащий название
        self.prices = parse.get_price()  # Получаем список, содержащий цены
        self.data = parse.get_data()     # Получаем список, содержащий даты
        print(self.title)       
        print(self.prices)    
        print(self.data)      


Interface('https://www.avito.ru/pskov/tovary_dlya_kompyutera?q=i+7+7700')

Вот я просто перезапускаю код 3 раза, ничего не менял

Вопрос задан более трёх лет назад
456 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Skillbox

Python-разработчик

10 месяцев

Далее
ProductStar

Профессия: Python-разработчик

8 месяцев

Далее

Решения вопроса 1

1 комментарий

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Чтобы сделать несколько запросов к OpenAI серверу из Python, нужно каждый раз вызывать client.chat.completions.create?
- 1 подписчик
- вчера
- 74 просмотра
2

ответа
Python

Простой
Какой отлдачик для Python поставить новичку?
- 1 подписчик
- 20 дек.
- 114 просмотров
2

ответа
Python

Простой
Существует ли менеджер виртуальных окружений для python, который хранит все пакеты в одном месте?
- 3 подписчика
- 18 дек.
- 186 просмотров
1

ответ
Python

Простой
Почему не работает await event.message.delete()?
- 1 подписчик
- 16 дек.
- 217 просмотров
1

ответ
Python

Простой
Почему при установке iJulia у меня возникает ошибка, указывающая на отсутствие Conda?
- 1 подписчик
- 16 дек.
- 75 просмотров
0

ответов
Python

Простой
Почему выходит ошибка?
- 1 подписчик
- 15 дек.
- 197 просмотров
2

ответа
Python

+1 ещё

Средний
Разработка самообучающегося бота. Как лучше настроить экранное зрение?
- 2 подписчика
- 14 дек.
- 224 просмотра
1

ответ
Python

+2 ещё

Простой
Как получить доступ к элементам внутри shadow-root (closed)?
- 1 подписчик
- 09 дек.
- 141 просмотр
1

ответ
Python

+1 ещё

Простой
Как повысить читабельность кода?
- 1 подписчик
- 08 дек.
- 246 просмотров
0

ответов
Парсинг

Простой
Видит ли администрация сайта сканирование,и можно ли скрыть?
- 1 подписчик
- 07 дек.
- 400 просмотров
2

ответа
Показать ещё Загружается…

Специалист по API и автоматизации данных (Google Apps Script / Python)

Агентство ШОЛЬЧЕВ

До 100 000 ₽

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python Backend Developer

Hard Bootstrapping LLC. • Санкт-Петербург

от 175 000 до 350 000 ₽

Answer 1 · 2020-10-31 16:42:40

Случайные окончания классов намекают на то, что они генерируются динамически и не всегда существуют в коде. Используйте регулярные выражения, если хотите искать по классу все же

Но я бы сделал так

import requests
from bs4 import BeautifulSoup


url = 'https://www.avito.ru/pskov/tovary_dlya_kompyutera?q=i+7+7700'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.75 Safari/537.36'}

r = requests.get(url, headers=headers)

soup = BeautifulSoup(r.text, 'html.parser')
items = soup.find_all('div', {'class': 'item_table-wrapper'})

parsed_items = []
for item in items:
    parsed_items.append({'name': item.find('span', {'itemprop': 'name'}).get_text().strip(),
                         'price': item.find('meta', {'itemprop': 'price'})['content'],
                         'date': item.find('div', {'class': 'snippet-date-info'})['data-tooltip']
                         })

print(parsed_items)

Python. Проблема с парсингом. В чем проблема?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт