Как следить за изменениями на сайте?

Question

Markus-Zeyfert @Markus-Zeyfert

Beautiful Soup

Как следить за изменениями на сайте?

Есть задача - нужно первым получать свежее объявление на Авито.
Python, как язык, не знаю. Но что-то всё же сумел накидать своими силами.

Остановился вот на чём -- как теперь следить за тем, когда появляется новое объявление? (Речь о секундах, нужно получить данные новоприбывшего объявления за несколько секунд)

В какую сторону копать?
Вот код:

import requests
from bs4 import BeautifulSoup

URL = 'https://www.avito.ru/novosibirsk/kvartiry/prodam-ASgBAgICAUSSA8YQ?cd=1&f=ASgBAQICAUSSA8YQAUCQvg0Ulq41&proprofile=1&s=104'
HEADERS = {'user-agent': 'Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.111 Safari/537.36', 'accept': '*/*'}
HOST = 'https://www.avito.ru'

def get_html(url, params=None):
    r = requests.get(url, headers=HEADERS, params=params)
    return r

def get_content(html):
    soup = BeautifulSoup(html, 'html.parser')
    item = soup.find('div', class_='item__line')

    aparts = []
    # for item in items:
    M = item.find('span', class_='snippet-link-name').get_text(strip=True).find('м')
    SLASH = item.find('span', class_='snippet-link-name').get_text(strip=True).find('/')
    STREET = item.find('span', class_='item-address__string').get_text(strip=True)
    house = item.find('span', class_='item-address__string').get_text(strip=True).replace('д. ', '').replace('стр. ', '')
    rooms = item.find('span', class_='snippet-link-name').get_text(strip=True)[:1]
    meters = item.find('span', class_='snippet-link-name').get_text(strip=True)

    if rooms == 'К':
        rooms = '1'
        meters = meters[17:M-1]
    else:
        meters = meters[14:M-1]

    if STREET.find('у') == 0:
        street = item.find('span', class_='item-address__string').get_text(strip=True).split(', ')[0].replace('ул. ', '')
    else:
        street = item.find('span', class_='item-address__string').get_text(strip=True).split(', ')[-2].replace(' ул.', '')

    aparts.append({
        'price': item.find('span', class_='snippet-price').get_text(strip=True).replace('  ₽', '').replace(' ', '')[:-3],
        'rooms': rooms,
        'meters': meters,
        'floor': item.find('span', class_='snippet-link-name').get_text(strip=True)[M+4:SLASH],
        'street': street,
        'house': house.split(', ')[-1],
        'link': HOST + item.find('a', class_='snippet-link').get('href'),
    })
    print(aparts)

def parse():
    html = get_html(URL)
    if html.status_code == 200:
        get_content(html.text)
    else:
        print('Error')

parse()

Вопрос задан более трёх лет назад
494 просмотра

Комментировать

Подписаться 1 Средний Комментировать

Помогут разобраться в теме Все курсы

Нетология

1С-программист

10 месяцев

Далее
Skillbox

Профессия Графический дизайнер PRO

15 месяцев

Далее
Hi-TECH Academy

KL 004.2.4 Kaspersky SD-WAN

2 дня

Далее

Пригласить эксперта

Ответы на вопрос 2

2 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Beautiful Soup

Простой
Почему Soup.find возвращает None?
- 1 подписчик
- 03 авг.
- 87 просмотров
1

ответ
Python

+2 ещё

Простой
Как сделать, чтобы при парсинге bs4 как то надо нажать на кнопку «показать еще», чтобы подгрузило еще 20 постов?
- 1 подписчик
- 08 апр.
- 247 просмотров
2

ответа
Парсинг

+1 ещё

Простой
У меня не получается спарсить ссылку на фото с сайта, help?
- 1 подписчик
- 07 апр.
- 219 просмотров
2

ответа
Beautiful Soup

Средний
Как распарсить файл в табличной верстке через beatifulsoap?
- 1 подписчик
- 07 мар.
- 139 просмотров
1

ответ
Beautiful Soup

Простой
Нормально ли что парсинг занимает много оперативки?
- 2 подписчика
- более года назад
- 257 просмотров
2

ответа
Beautiful Soup

+1 ещё

Простой
Как пройти капчу при методе POST?
- 1 подписчик
- более года назад
- 261 просмотр
1

ответ
Beautiful Soup

Простой
Почему скачиваются миниатюры изображений вместо их полного размера?
- 1 подписчик
- более года назад
- 184 просмотра
0

ответов
Beautiful Soup

Простой
Почему парсер не выдаёт нужный результат?
- 1 подписчик
- более года назад
- 130 просмотров
1

ответ
Beautiful Soup

Простой
Python BeautifulSoup почему не работает код?
- 1 подписчик
- более года назад
- 81 просмотр
0

ответов
Beautiful Soup

Простой
Парсится только часть страницы. Как парсить всю страницу?
- 1 подписчик
- более года назад
- 84 просмотра
2

ответа
Показать ещё Загружается…

Менеджер проектов

Vital Partners • Москва

от 160 000 до 180 000 ₽

Database Administrator / Администратор PostgreSQL

Vital Partners

от 200 000 до 270 000 ₽

Technical support (Ассистент Product Owner)

uKit Group • Ростов-на-Дону

от 50 000 до 55 000 ₽

Answer 1 · 2020-10-29 09:46:46

zexer @zexer

Копать в сторону изучения их API.

Ответ написан более трёх лет назад

2 комментария

Answer 2 · 2020-10-29 10:40:19

у меня есть парсинг любого раздела на пхп, если чуть допилить - в принципе можно запускать хоть раз в секунду, но я даже не знаю как вам помочь - весь код сюда что ли тащить

Как следить за изменениями на сайте?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт