Как извлечь выделенное определенным цветом слово?

Question

N T @RG2

Beautiful Soup

Как извлечь выделенное определенным цветом слово?

Есть у меня код, занимающийся парсингом информации о конкурсах с сайта РНФ. Да-да, снова парсинги. Но не волнуйтесь, я уже знаю, что да как. И написал код. Он у меня работает как часы. Ошибок никаких не выдает.

import requests
from bs4 import BeautifulSoup
import re
import os
from urllib.request import urlopen
import json
from urllib.parse import unquote

import warnings
warnings.filterwarnings("ignore")

BASE_URL = 'https://www.rscf.ru/contests'

session = requests.Session()
session.headers['User-Agent'] = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:100.0) Gecko/20100101 Firefox/100.0'

items = []
max_page = 10
for page in range(1, max_page + 1):
    url = f'{BASE_URL}/?PAGEN_2={page}/' if page > 1 else BASE_URL
    print(url)

    rs = session.get(url, verify=False)
    rs.raise_for_status()

    soup = BeautifulSoup(rs.content, 'html.parser')
    for item in soup.select('.classification-table-row.contest-table-row'):
        number = item.select_one('.contest-num').text
        title = item.select_one('.contest-name').text
        date = item.select_one('.contest-date').text.replace("\n", "")
        synopsis = item.select_one('.contest-status').text.replace("\n", " ")
        documents = item.select_one('.contest-docs').text.replace("\n", " ").replace("        ", " ").replace("    ", " ")
        items.append({
            'Номер': number,
            'Наименование конкурса': title,
            'Приём заявок': date,
            'Статус': synopsis,
            'Документы': documents,
        })

with open('out.json', 'w', encoding='utf-8') as f:
    json.dump(items, f, indent=4, ensure_ascii=False)

Всё работает, все в порядке. Есть один нюанс.
Дело в том, что на сайте есть такая фишка - цвет текста. В зависимости от того, действует ли конкурс или он завершён, статус окрашивается в определённый цвет. Если идёт приём заявок, то статус выделяется зелёным цветом. Если проводится экспертиза - оранжевый. А если конкурс завершён - красный. Вот тут конкурсы.
Ссылка удалена модератором.
И мне нужно, чтобы код выводил цветной текст. К сожалению, в Интернете найти похожее мне не удалось. Там только коды, которые окрашивают текст в цвет. Но не извлекают готовый.

Вопрос задан более двух лет назад
85 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

Фронтенд-разработчик

11 месяцев

Далее
Skillfactory

DevOps-инженер

6 месяцев

Далее
SF Education

Бизнес-аналитик

11 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 1

3 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Beautiful Soup

Простой
Почему Soup.find возвращает None?
- 1 подписчик
- 03 авг.
- 84 просмотра
1

ответ
Python

+2 ещё

Простой
Как сделать, чтобы при парсинге bs4 как то надо нажать на кнопку «показать еще», чтобы подгрузило еще 20 постов?
- 1 подписчик
- 08 апр.
- 242 просмотра
2

ответа
Парсинг

+1 ещё

Простой
У меня не получается спарсить ссылку на фото с сайта, help?
- 1 подписчик
- 07 апр.
- 218 просмотров
2

ответа
Beautiful Soup

Средний
Как распарсить файл в табличной верстке через beatifulsoap?
- 1 подписчик
- 07 мар.
- 138 просмотров
1

ответ
Beautiful Soup

Простой
Нормально ли что парсинг занимает много оперативки?
- 2 подписчика
- 17 нояб. 2024
- 254 просмотра
2

ответа
Beautiful Soup

+1 ещё

Простой
Как пройти капчу при методе POST?
- 1 подписчик
- 10 нояб. 2024
- 252 просмотра
1

ответ
Beautiful Soup

Простой
Почему скачиваются миниатюры изображений вместо их полного размера?
- 1 подписчик
- более года назад
- 183 просмотра
0

ответов
Beautiful Soup

Простой
Почему парсер не выдаёт нужный результат?
- 1 подписчик
- более года назад
- 130 просмотров
1

ответ
Beautiful Soup

Простой
Python BeautifulSoup почему не работает код?
- 1 подписчик
- более года назад
- 81 просмотр
0

ответов
Beautiful Soup

Простой
Парсится только часть страницы. Как парсить всю страницу?
- 1 подписчик
- более года назад
- 82 просмотра
2

ответа
Показать ещё Загружается…

Senior backend-разработчик в команду управления доступами

SMALL

от 3 400 до 4 700 $

Senior GO разработчик

SMALL

от 220 000 до 300 000 ₽

Инженер по инцидентам информационной безопасности

SMALL

от 3 400 до 4 700 $

Answer 1 · 2023-06-29 14:05:19

Пораскинув мозгами, я решил иначе и написал вот такой код:

import requests
from bs4 import BeautifulSoup
import re
import os
from urllib.request import urlopen
import json
from urllib.parse import unquote
 
import warnings
warnings.filterwarnings("ignore")
 
BASE_URL = 'https://www.rscf.ru/contests'
 
session = requests.Session()
session.headers['User-Agent'] = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:100.0) Gecko/20100101 Firefox/100.0'
 
items = []
max_page = 10
for page in range(1, max_page + 1):
    url = f'{BASE_URL}/?PAGEN_2={page}/' if page > 1 else BASE_URL
    print(url)
 
    rs = session.get(url, verify=False)
    rs.raise_for_status()
 
    soup = BeautifulSoup(rs.content, 'html.parser')
    for item in soup.select('.classification-table-row.contest-table-row'):
        number = item.select_one('.contest-num').text
        title = item.select_one('.contest-name').text
        date = item.select_one('.contest-date').text.replace("\n", "").replace("Подать заявку", "")
        documents = item.select_one('.contest-docs').text.replace("\n", " ").replace("        ", " ").replace("    ", " ")
        try:
            synopsis = [s.get_text(strip=True) for s in item.select(".contest-status") if s.get_text(strip=True)]
            del synopsis[:1]
            syn = str(synopsis).replace("['", '').replace("']", '')
        except:
            synopsis = [s.get_text(strip=True) for s in item.select(".contest-success") if s.get_text(strip=True)]
            del synopsis[:1]
            syn = str(synopsis).replace("['", '').replace("']", '')
        items.append({
            'Номер': number,
            'Наименование конкурса': title,
            'Приём заявок': date,
            'Статус': syn,
            'Документы': documents,
        })
 
with open('out.json', 'w', encoding='utf-8') as f:
    json.dump(items, f, indent=4, ensure_ascii=False)

Результат:

{
        "Номер": "92",
        "Наименование конкурса": " Конкурс на получение грантов РНФ по мероприятию «Проведение фундаментальных научных исследований и поисковых научных исследований отдельными научными группами»",
        "Приём заявок": "до 15.11.2023 17:00",
        "Статус": "Прием заявок",
        "Документы": " Извещение Конкурсная документация    "
    },
    {
        "Номер": "3005",
        "Наименование конкурса": "Конкурс на получение грантов РНФ «Проведение пилотных проектов НИОКР в рамках стратегических инициатив Президента РФ в научно-технологической сфере» по теме: «Разработка нитрид-галлиевого СВЧ-транзистора S-диапазона с выходной мощностью не менее 120 Вт»",
        "Приём заявок": "до 02.06.2023 17:00",
        "Статус": "Конкурс завершен",
        "Документы": " Извещение Конкурсная документация Список победителей "
    },
    {

Можете проверить, если что.

Answer 2 · 2023-06-27 14:42:12

в json нет опции цветной текст, поэтому ты ничего и не можешь найти (смотри спецификацию json), но ты можешь хранить строку с названием цвета в отдельном поле, чтобы использовать потом. Однако и это будет лишней информацией потому что понятно что цвет - функция от строки.

Как извлечь выделенное определенным цветом слово?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт