Как считать ID для статей?

Question

Mr. Anderson @roman_tonkoshkurov

Python
JSON

Как считать ID для статей?

Доброго времени суток.

Есть небольшой скрипт, который парсит новостной сайт и в JSON файл складывает новости. Проблема у меня в ID. Сейчас я их получаю из времени (убираю все символы и оставляю только числа и получается в итоге 202116061234). Это очень громоздко и я хочу просто получать ID с 0, и на каждую статья прибавлять по 1.

В первый раз проблем не возникает, статьям присваивается с 0. Но проблема у меня лично возникает при проверке на обновления. Как мне подтянуть самый последний ID, присвоить переменной номер и уже от неё плясать?

Прошу помощи. В Python у меня ну прям самый начальный уровень. Данный скрипт был взят из видео и переделан под себя.

Ниже листинг под спойлером.

test.py

import requests
from bs4 import BeautifulSoup
from datetime import datetime
import time
import json

headers = {
    # Paste User-Agent
}

url = "https://www.irk.ru/news/"
r = requests.get(url=url, headers=headers)
soup = BeautifulSoup(r.text, "lxml")
articles_cards = soup.find_all("li", class_="b-news-article-list-item")


# Функция получения новостей в первый раз
# Новости с сайта irk.ru
def get_first_news_irk():
    # Словарь для новостей с сайта irk.ru
    irk_news_dict = {}

    # Хочу ID присваивать с 0, что у каждой новости был понятный ID
    ids = 0

    for article in articles_cards:
        # Получаем заголовки новостей
        article_title = article.find("a").text.strip()
        # Получаем описание новостей
        article_desc = article.find("p").text.strip()
        # Получаем url новостей
        article_url = f'https://www.irk.ru{article.find("a").get("href")}'

        # Получаем время новостей
        article_date_time = article.find("time").get("datetime")
        # Преобразовываем время
        date_from_iso = datetime.fromisoformat(article_date_time)
        date_time = datetime.strftime(date_from_iso, "%Y-%m-%d %H:%M:%S")
        article_date_timestamp = time.mktime(datetime.strptime(date_time, "%Y-%m-%d %H:%M:%S").timetuple())

        # Делаем ID из даты новости
        # article_id = "".join(
        #     [article_date_time[i] for i in range(len(article_date_time)) if article_date_time[i] in '0123456789']
        # )

        # На каждой итерации заполняем словарь новостей
        # irk_news_dict[article_id] = {
        #     "article_date_timestamp": article_date_timestamp,
        #     "article_title": article_title,
        #     "article_url": article_url,
        #     "article_desc": article_desc
        # }

        irk_news_dict[ids] = {
            "article_date_timestamp": article_date_timestamp,
            "article_title": article_title,
            "article_url": article_url,
            "article_desc": article_desc
        }

        ids += 1

        # Записываем результат в json файл
        with open("src/test_dict.json", "w") as file:
            json.dump(irk_news_dict, file, indent=4, ensure_ascii=False)


# Функция для проверки на появление новых новостей
def check_irk_news_update():
    with open("src/test_dict.json") as file:
        irk_news_dict = json.load(file)

    # Словарь для заполнения свежими новостями
    irk_fresh_news_dict = {}
    for k, v in irk_news_dict.items():
        ids = k
    for article in articles_cards:
        article_date_time = article.find("time").get("datetime")

        # Делаем ID из даты новости
        # Глупое решение, пока не придумал чем заменить
        # article_id = "".join(
        #     [article_date_time[i] for i in range(len(article_date_time)) if article_date_time[i] in '0123456789']
        # )

        # Если id уже есть в подгружаемом словаре, то пропускаем
        # Иначе добавляем новую новость в новый словарь со свежими новостями
        # И записываем свежие новости в JSON файл
        if ids in irk_news_dict:
            continue
        else:
            article_url = f'https://www.irk.ru{article.find("a").get("href")}'

            article_title = article.find("a").text.strip()
            article_desc = article.find("p").text.strip()

            article_date_time = article.find("time").get("datetime")
            date_from_iso = datetime.fromisoformat(article_date_time)
            date_time = datetime.strftime(date_from_iso, "%Y-%m-%d %H:%M:%S")
            article_date_timestamp = time.mktime(datetime.strptime(date_time, "%Y-%m-%d %H:%M:%S").timetuple())

            irk_news_dict[ids] = {
                "article_date_timestamp": article_date_timestamp,
                "article_title": article_title,
                "article_url": article_url,
                "article_desc": article_desc
            }

            irk_fresh_news_dict[ids] = {
                "article_date_timestamp": article_date_timestamp,
                "article_title": article_title,
                "article_url": article_url,
                "article_desc": article_desc
            }

            ids += 1

    # Записываем результат в json файл
    with open("src/test_dict.json", "w") as file:
        json.dump(irk_news_dict, file, indent=4, ensure_ascii=False)

    # Функция возвращает словарь со свежими новостями
    return irk_fresh_news_dict


def main():
    # 1я функция вызывается единожды для получения новостей
    # get_first_news_irk()
    # 2я функция проверяет обновления на сайте
    # Если новости нет в json то добавляет в словарь и выводит на печать
    print(check_irk_news_update())


if __name__ == '__main__':
    main()

Вопрос задан более трёх лет назад
145 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillfactory

Профессия Python-разработчик

9 месяцев

Далее
Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее

Решения вопроса 1

5 комментариев

Mr. Anderson @roman_tonkoshkurov Автор вопроса

лексикографическая сортировка

Подскажите, пожалуйста, как по ней сортировать? Я сейчас сортирую просто sorted и соответственно все вперемешку.

И кстати, как он будет сортировать если например есть 2 статьи:
1я допустим в 14:30 с ID 20210627/auto
2я допустим в 15:00 с ID 20210627/fire

Если сортировать по ID, выведет же сначала ту которая позже (в 14:30). Т.к. 20210627 у обеих новостей одинаково, а если по алфавиту, то auto будет же раньше чем fire. А мне нужно, чтоб сначала вывелась новость самая свежая, ну и потом по убывающей(

Написано более трёх лет назад
Сергей Соколов @sergiks

Роман, со временем сложнее: откуда берётся время 15:00 и 14:30 ?

Написано более трёх лет назад
Mr. Anderson @roman_tonkoshkurov Автор вопроса

Сергей Соколов, с сайта. Это я к примеру взял (условно). В ключе в словаре время не фигурирует. Просто хотелось бы получать новости в той же хронологии, в которой они появляются на сайте.

Написано более трёх лет назад
Сергей Соколов @sergiks
Роман, если есть время – его дописывать после даты в формате HHMM – тогда сортировка будет как ожидается, хронологической.

sorted() работает как надо, вроде бы:
>>> posts = ['20210627/habr', '20210501/pervomay', '20210509/pobeda'] >>> sorted(posts) ['20210501/pervomay', '20210509/pobeda', '20210627/habr']
Написано более трёх лет назад
Mr. Anderson @roman_tonkoshkurov Автор вопроса

Сергей Соколов, это да. Но с сайта прилетает по 10-20 новостей в день. Видимо нужно писать еще с часами и минутами.

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Что делать если turtle в python не отвечает?
- 1 подписчик
- 22 окт.
- 149 просмотров
2

ответа
Python

Простой
Не могу разобраться почему не работает код python?
- 1 подписчик
- 22 окт.
- 265 просмотров
1

ответ
Python

Простой
Какие есть удобные API для генерации картинок через AI?
- 2 подписчика
- 20 окт.
- 167 просмотров
1

ответ
Python

Простой
Дублирование логов в python logging?
- 3 подписчика
- 19 окт.
- 258 просмотров
1

ответ
Python

+1 ещё

Средний
Как сделать чтоб аккаунт писал при подписке на канал?
- 1 подписчик
- 16 окт.
- 161 просмотр
0

ответов
Python

+1 ещё

Простой
Какие есть простые легковесные LLM для локального использования?
- 2 подписчика
- 14 окт.
- 608 просмотров
2

ответа
Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт.
- 134 просмотра
0

ответов
Python

+1 ещё

Простой
FastAPI Prometheus_fastapi_instrumentator где мне следует разместить?
- 1 подписчик
- 09 окт.
- 147 просмотров
1

ответ
Python

+1 ещё

Простой
Пытаюсь пропустить число 10 двумя способами.(правильный второй код) Почему эти два кода дают разный результат?
- 1 подписчик
- 09 окт.
- 565 просмотров
2

ответа
Python

+2 ещё

Простой
В каком слое DTO объект преобразовывать в словарь перед сохранением в БД?
- 1 подписчик
- 08 окт.
- 150 просмотров
2

ответа
Показать ещё Загружается…

Python Developer

Strikt

от 100 000 до 150 000 ₽

Backend Python Developer Middle/Senior

AppRoute

До 3 000 $

Python разработчик

ITK academy • Казань

от 75 000 ₽

Answer 1 · 2021-06-19 11:46:55

Я бы исходил из источника: у них статья идентифицируется датой и коротким словом (slag): например, /news/20210619/party/ – тут «ключ» статьи 20210619/party – почему бы и вам не брать это как уникальный ключ. К тому же, лексикографическая сортировка расставит статьи в хронологическом порядке, по датам.

При следующем запуске смотрите, за какую самую последнюю дату уже есть скачанные материалы. И далее тащить, начиная с этого же дня. Пропускать или перезаписывать уже имеющиеся статьи этого дня.

Answer 2 · 2021-06-19 10:52:03

Тут проблема в том, что когда вы запускаете скрипт повторно, он создаёт у старых новостей id по их дате и проверяет по нему есть ли новость в словаре. Конечно можно каждый раз при запуске скрипта продолжать id по порядку (как вы и хотите), но тогда как проверить, есть ли новость уже в словаре?

Мой вариант вашего кода, упрощенный

import requests
from bs4 import BeautifulSoup
import json


headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36',
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8'
}

def get_news_info(card):
    """
    Функция для получения информации об одной новости
    """

    # Получаем заголовки новости
    article_title = card.find("a").text.strip()

    # Получаем описание новости
    article_desc = card.find("p").text.strip()

    # Получаем url новости
    article_url = f'https://www.irk.ru{card.find("a").get("href")}'

    # Получаем время новости
    article_date_time = card.find("time").get("datetime")

    id = article_date_time.replace(' ', '').replace('-', '').replace(':', '')

    news = {
            "article_date_timestamp": article_date_time,
            "article_title": article_title,
            "article_url": article_url,
            "article_desc": article_desc
        }

    return (id, news)


def get_site_news(file_news_dict, articles_cards):
    """
    Функция для добавления новых новостей в словарь,
    возвращает словари со всеми новостями и с новыми новостями
    """

    new_news_dict = dict()

    for article in articles_cards:

        id, news = get_news_info(article)

        if id not in file_news_dict.keys():

            file_news_dict[id] = news

            new_news_dict[id] = news

    return (file_news_dict, new_news_dict)



def main():
    url = "https://www.irk.ru/news/"
    r = requests.get(url=url, headers=headers)
    soup = BeautifulSoup(r.text, "lxml")
    articles_cards = soup.find_all("li", class_="b-news-article-list-item")

    # Открываем файл с новостями
    with open("src/test_dict.json", "r+") as news_file:

        # Получаем словарь новостей из файла
        try:
            file_news_dict = json.load(news_file)
        except:
            # Если в файле не словарь, создаем пустой словарь
            file_news_dict = dict()

        # Обновляем новости
        file_news_dict, new_news_dict = get_site_news(file_news_dict, articles_cards)

        # Сохраняем новости
        json.dump(file_news_dict, news_file, indent=4, ensure_ascii=False)

        print(new_news_dict)


if __name__ == '__main__':
    main()

Как считать ID для статей?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт