Как получать только одну новость в парсере? И как сделать из него телеграмм бота?

Question

tokyodead @tokyodead

Как получать только одну новость в парсере? И как сделать из него телеграмм бота?

Добрый день, подскажите пожалуйста, есть парсер, который берет объявления с сайта в формате json и сохраняет их.
Как его подключить к телеграм боту, и чтобы он отправлял только новые обьявления? Подскажите пожалуйста, код я нашел в интернете, только учусь, и хотелось бы для практики сделать такое.
Пытался написать функицю check_news_update но застопарился)

Вот код

import requests
import json
import os
import unicodedata
from bs4 import BeautifulSoup
import operator

URL = 'https://kolesa.kz/cars/'
HEADERS = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36','accept': '*/*'}
HOST = 'https://kolesa.kz/'
FILE = str(os.path.abspath(os.getcwd())) + '/file.json'

def get_html(url, params=None):
#получение html структуры сайта
	r = requests.get(url, headers=HEADERS, params=params)
	return r

def get_pages_count(html):
# колличество страниц для парсинга
	return int(1)

def get_content(html):
#получение данных объявления
	soup = BeautifulSoup(html, 'html.parser')
	items = soup.find_all('div', class_='a-elem')
	cars = []
	for item in items:
		cars.append({
			'title': item.find('span', class_='a-el-info-title').find_next('a').get_text(strip=True),
			'price': ''.join(filter(str.isdigit, item.find('span', class_='price').get_text())),
			'public_date': item.find('span', class_='date').get_text(strip=True),
			'link': HOST + item.find('a').get('href'),
			'city': item.find('div', class_='list-region').get_text(strip=True),
			})
	return cars

def save_file(items, path):
#сохранение в формате json с поддержкой кириллицы
	with open(path, 'w', encoding ='utf-8', newline='') as file:
		json.dump(items, file, sort_keys=False, indent=3, ensure_ascii=False, separators=(',', ': '))


def check_news_update():
	with open("file.json") as file:
		news_list = json.load(file)
		print(news_list)


def parse():
	html = get_html(URL)
	if html.status_code == 200:
		cars = []
		pages_count = get_pages_count(html.text)
		for page in range(1, pages_count + 1):
			print(f'Парсинг страницы {page} из {pages_count}')
			html = get_html(URL, params = {'page' : page})
			cars.extend(get_content(html.text))
		save_file(cars, FILE)
		print(f'Получено {len(cars)} автомобилей')
		# os.startfile(FILE)
	else:
		print('Error')

parse()

Вопрос задан более двух лет назад
95 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Пригласить эксперта

Ответы на вопрос 1

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

+1 ещё

Простой
Как изменить сообщение с текстом на сообщение с картинкой для тг бота в библиотеке py telebot?
- 2 подписчика
- 4 часа назад
- 42 просмотра
1

ответ
Telegram

+2 ещё

Простой
Отправка post на сервер Telegram, не правильный формат?
- 2 подписчика
- 4 часа назад
- 85 просмотров
1

ответ
Python

+1 ещё

Простой
Пишу телеграм бота на пайтон и вылезает ошибка KeyError: 'recipes'. Как решить?
- 1 подписчик
- 5 часов назад
- 36 просмотров
1

ответ
C++

+2 ещё

Простой
Как подключить библиотеку TgBot к срр проекту?
- 1 подписчик
- 6 часов назад
- 40 просмотров
1

ответ
Python

+2 ещё

Средний
Как скрыть данные в кнопке KeyboardButton?
- 1 подписчик
- 6 часов назад
- 30 просмотров
0

ответов
JavaScript

+2 ещё

Средний
Проблемы с telegram bot, а именно с сообщениями, как исправить?
- 1 подписчик
- 10 часов назад
- 57 просмотров
1

ответ
Python

+1 ещё

Простой
Выбор: парсить на питоне с aiohttp, asyncio, bs4 или requests + bs4?
- 1 подписчик
- 12 часов назад
- 108 просмотров
2

ответа
PHP

+2 ещё

Сложный
Интеграция Telegram с CRM системой. Что посоветуете?
- 1 подписчик
- 20 часов назад
- 118 просмотров
1

ответ
Python

+1 ещё

Простой
Почему не срабатывает клик по элементу при открытии станицы selenium python?
- 1 подписчик
- 22 часа назад
- 40 просмотров
1

ответ
JavaScript

+1 ещё

Простой
Как подключить кошелёк к web3 сайту?
- 1 подписчик
- 23 часа назад
- 71 просмотр
1

ответ
Показать ещё Загружается…

Team Lead (С++, Python)

TopAssistant • Москва

от 400 000 ₽

Python developer

Bell Integrator

До 350 000 ₽

Python developer

Greenway Global • Новосибирск

от 150 000 ₽

Настроить замки Omnitec для отеля, 12 замков

17 апр. 2024, в 21:41

30000 руб./за проект

Дизайнер

17 апр. 2024, в 21:40

500 руб./за проект

Девопс

17 апр. 2024, в 21:39

2000 руб./за проект

Answer 1 · 2021-12-09 18:48:50

На сайте сделайте в консоли listing.items

В парсере просто прогоните регулярку listing.items.push(*) - и тяните json
Пагинация тоже простая https://kolesa.kz/cars/?page=X
а пол кол-ву объявлений на странице и общему числу объявлений можно высчитать сколько страниц всего

Как получать только одну новость в парсере? И как сделать из него телеграмм бота?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт