Как получать только одну новость в парсере? И как сделать из него телеграмм бота?

Question

tokyodead @tokyodead

Как получать только одну новость в парсере? И как сделать из него телеграмм бота?

Добрый день, подскажите пожалуйста, есть парсер, который берет объявления с сайта в формате json и сохраняет их.
Как его подключить к телеграм боту, и чтобы он отправлял только новые обьявления? Подскажите пожалуйста, код я нашел в интернете, только учусь, и хотелось бы для практики сделать такое.
Пытался написать функицю check_news_update но застопарился)

Вот код

import requests
import json
import os
import unicodedata
from bs4 import BeautifulSoup
import operator

URL = 'https://kolesa.kz/cars/'
HEADERS = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36','accept': '*/*'}
HOST = 'https://kolesa.kz/'
FILE = str(os.path.abspath(os.getcwd())) + '/file.json'

def get_html(url, params=None):
#получение html структуры сайта
	r = requests.get(url, headers=HEADERS, params=params)
	return r

def get_pages_count(html):
# колличество страниц для парсинга
	return int(1)

def get_content(html):
#получение данных объявления
	soup = BeautifulSoup(html, 'html.parser')
	items = soup.find_all('div', class_='a-elem')
	cars = []
	for item in items:
		cars.append({
			'title': item.find('span', class_='a-el-info-title').find_next('a').get_text(strip=True),
			'price': ''.join(filter(str.isdigit, item.find('span', class_='price').get_text())),
			'public_date': item.find('span', class_='date').get_text(strip=True),
			'link': HOST + item.find('a').get('href'),
			'city': item.find('div', class_='list-region').get_text(strip=True),
			})
	return cars

def save_file(items, path):
#сохранение в формате json с поддержкой кириллицы
	with open(path, 'w', encoding ='utf-8', newline='') as file:
		json.dump(items, file, sort_keys=False, indent=3, ensure_ascii=False, separators=(',', ': '))


def check_news_update():
	with open("file.json") as file:
		news_list = json.load(file)
		print(news_list)


def parse():
	html = get_html(URL)
	if html.status_code == 200:
		cars = []
		pages_count = get_pages_count(html.text)
		for page in range(1, pages_count + 1):
			print(f'Парсинг страницы {page} из {pages_count}')
			html = get_html(URL, params = {'page' : page})
			cars.extend(get_content(html.text))
		save_file(cars, FILE)
		print(f'Получено {len(cars)} автомобилей')
		# os.startfile(FILE)
	else:
		print('Error')

parse()

Вопрос задан более трёх лет назад
97 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Пригласить эксперта

Ответы на вопрос 1

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Существуют ли сервисы: онлайн python editor для совместного использования?
- 1 подписчик
- 13 часов назад
- 53 просмотра
2

ответа
Python

Простой
На каком языке пишут описание функций в Python?
- 1 подписчик
- 26 сент.
- 250 просмотров
3

ответа
Telegram

+1 ещё

Простой
Ретранслятор сообщений от бота телеграмма?
- 3 подписчика
- 25 сент.
- 277 просмотров
2

ответа
Python

+2 ещё

Простой
Как получить данные в виде текста на русском языке из базы данных Paradox 4.5?
- 1 подписчик
- 23 сент.
- 230 просмотров
1

ответ
Telegram

Простой
Как посмотреть историю смены Username или имени в Телеграме?
- 1 подписчик
- 23 сент.
- 240 просмотров
1

ответ
Telegram

Простой
Телеграм удаляет webhook?
- 1 подписчик
- 18 сент.
- 269 просмотров
1

ответ
Telegram

Простой
Баг в телеграмм на айфоне?
- 1 подписчик
- 18 сент.
- 293 просмотра
0

ответов
Telegram

+1 ещё

Простой
Реклама в моем телеграм канале без разрешения?
- 1 подписчик
- 18 сент.
- 301 просмотр
2

ответа
Python

Простой
Как парсить pdf-ки с вк с помощью Python?
- 1 подписчик
- 16 сент.
- 322 просмотра
1

ответ
Python

+1 ещё

Простой
Почему возникает синтаксическая ошибка: invalid decimal literal?
- 1 подписчик
- 15 сент.
- 168 просмотров
2

ответа
Показать ещё Загружается…

Python developer

Digital Clouds

от 160 000 ₽

Python разработчик

Selecty

от 280 000 до 380 000 ₽

Python разработчик

ITK academy • Казань

от 75 000 ₽

Answer 1 · 2021-12-09 18:48:50

На сайте сделайте в консоли listing.items

В парсере просто прогоните регулярку listing.items.push(*) - и тяните json
Пагинация тоже простая https://kolesa.kz/cars/?page=X
а пол кол-ву объявлений на странице и общему числу объявлений можно высчитать сколько страниц всего

Как получать только одну новость в парсере? И как сделать из него телеграмм бота?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт