Как сделать автоматический парсер?

Question

iamXado @iamXado

Как сделать автоматический парсер?

Имеется вот такой код:

import telebot
import config
from time import sleep
from bs4 import BeautifulSoup
import requests

bot = telebot.TeleBot(config.token)

@bot.message_handler(commands = ['start'])
def start(message):

    html = requests.get("https://www.rbc.ru/short_news")
    soup = BeautifulSoup(html.text, 'lxml')
    title = soup.find('span', class_ = 'item__title-wrap')
    href = soup.find('div', class_ = 'item__wrap l-col-center')

    while html.status_code == 200:

        for t in title.find_all('span', class_ = 'item__title rm-cm-item-text')[:1]:

            answer_title = t.text.strip()
            print(answer_title)

        for h in href.find_all('a', class_ = 'item__link')[:1]:

            answer_href = h.get('href')
            print(answer_href)

            bot.send_message(message.chat.id, f'{answer_title}\n\n{answer_href}')

            sleep(5)

if __name__ == '__main__':
    bot.polling(none_stop = True)

Он парсит новости ленты с РБК (заголовок + ссылка), точнее последнюю новость.

У меня два вопроса.

1. Как спарсить не последнюю новость, а любую (например, предпоследнюю).
2. И как сделать проверку новых новостей, чтобы программа понимала, что вышла новая новость и сразу парсила её.

P.S. Ещё я обнаружил, что при таймере парсится одна и та же новость. То есть программа запущена, новость спарсилась и через указанный интервал времени, даже если на сайте появились новые новости будет парсится эта же новость, пока не перезапущу программу.

Вопрос задан более трёх лет назад
633 просмотра

Комментировать

Подписаться 1 Средний Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillbox

Python-разработчик

10 месяцев

Далее
Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

JavaScript

+1 ещё

Простой
GrammyJS | Почему после оплаты не отрабатывает эвент message:successful_payment?
- 1 подписчик
- 23 часа назад
- 53 просмотра
0

ответов
Python

Простой
Как получить конкретный атрибут приложенный в обьект?
- 1 подписчик
- вчера
- 122 просмотра
1

ответ
Python

Простой
Как сохранить курсор в строке ввода при перезапуске explorer.exe?
- 1 подписчик
- вчера
- 87 просмотров
1

ответ
Python

Простой
Ошибка IndexError: string index out of range в написании реализации системы Линденмайера – от чего происходит и как исправить?
- 1 подписчик
- 27 нояб.
- 82 просмотра
1

ответ
Парсинг

Средний
Вся сложность парсинга Авито. Как это сделать правильно?
- 1 подписчик
- 26 нояб.
- 164 просмотра
1

ответ
Telegram

Средний
Почему WebApp открывается в обычном браузере вместо Telegram?
- 2 подписчика
- 22 нояб.
- 128 просмотров
0

ответов
Python

+1 ещё

Простой
Как сделать рассылку в viber в фоне?
- 1 подписчик
- 22 нояб.
- 91 просмотр
0

ответов
Telegram

+1 ещё

Простой
Как спарсить подписчиков своего телеграм канала?
- 2 подписчика
- 20 нояб.
- 390 просмотров
2

ответа
Telegram

Простой
Сброс вебхука телеграм сразу после деплоя на Render. Можно ли побороть?
- 2 подписчика
- 19 нояб.
- 186 просмотров
1

ответ
Telegram

+1 ещё

Средний
Почему не грузит картинки и видео через mtproto proxy в телеграм?
- 1 подписчик
- 17 нояб.
- 262 просмотра
0

ответов
Показать ещё Загружается…

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python Software Engineer - ML/LLM

Ennabl • Лимассол

от 650 000 ₽

Python back-end engineer (+Kotlin)

YoloPrice

от 360 000 до 420 000 ₽

Answer 1 · 2020-09-17 19:03:58

1. Как спарсить не последнюю новость, а любую (например, предпоследнюю)

Логично, что нужно найти все новости, и выбрать предпоследнюю

2. И как сделать проверку новых новостей, чтобы программа понимала, что вышла новая новость и сразу парсила её.

А как вы понимаете, что новость новая? Скорее всего вы помните название последней новости, и при обновлении страницы опять находите последнюю статью, и сравниваете название с тем, которое помните? Неожидано, но для бота все точно так же. Находите последнюю на текущий момент статью -> сохраняете ее название в переменной -> через Х времени заново находите последнюю новость, и сравниваете названия.

Ещё я обнаружил, что при таймере парсится одна и та же новость. То есть программа запущена, новость спарсилась и через указанный интервал времени, даже если на сайте появились новые новости будет парсится эта же новость, пока не перезапущу программу.

Все правильно, вы один раз получили код страницы, и больше его не обновляли

html = requests.get("https://www.rbc.ru/short_news")

Как сделать автоматический парсер?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт