Как вывести при помощи парсера в формат JSON информацию о конкурсах из сайта РФФИ?

Question

N T @RG2

Как вывести при помощи парсера в формат JSON информацию о конкурсах из сайта РФФИ?

Снова по парсерам. На этот раз мне нужно спарсить информацию о конкурсах из сайта РФФИ. Вот ссылка: https://www.rfbr.ru/rffi/ru/contest?CONTEST_STATUS... Нужно спарсить это в формат JSON или XLSX. В парсере должны быть название, дата проведения, статус конкурса (открыт или закрыт) и полное описание. Также должны быть и документы. Собственно, вот как должно получиться.

{
  "Название": "",
  "Статус": "",
  "Время окончания приема заявок": "",
  "Полное описание условий конкурса": ""
  "Документы":
  {
   "Формы заявок":
   "Договора и инструкции":
   "Формы отчетов":
  }
},

Я написал первую часть кода. Вот как он выглядит:

import requests
import json
from bs4 import BeautifulSoup
import chardet
import xlsxwriter

PAGES_COUNT = 10
OUT_FILENAME = 'out.json'
OUT_XLSX_FILENAME = 'out.xlsx'


def get_soup(url, **kwargs):
    response = requests.get(url, **kwargs)
    if response.status_code == 200:
        soup = BeautifulSoup(response.text, features='html.parser')
    else:
        soup = None
    return soup


def crawl_products(pages_count):
    urls = []
    fmt = 'https://www.rfbr.ru/rffi/ru/contest?CONTEST_ITEMS=7&order=2&page={page}'

    for page_n in range(1, 1 + pages_count):
        print('page: {}'.format(page_n))

        page_url = fmt.format(page=page_n)
        soup = get_soup(page_url)
        if soup is None:
            break

        for tag in soup.select('.tr .link'):
            href = tag.attrs['href']
            url = 'https://www.rfbr.ru/rffi/ru/contest{}'.format(href)
            urls.append(url)
    return urls


def parse_products(urls):
    data = []

    for url in urls:
        print('product: {}'.format(url))

        soup = get_soup(url)
        if soup is None:
            break

        name = soup.select_one('a.link').text.strip()
        amount = soup.select_one('.ta-c').text.strip()
        timestart = soup.select_one('.ta-c').text.strip()
        fullrule = soup.select_one('p').text.strip()
        item = {
            'Название': name,
            'Статус': amount,
            'Время окончания приема заявок': timestart,
            'Полное описание условий конкурса': fullrule,
        }

        data.append(item)

    return data


def dump_to_json(filename, data, **kwargs):
    kwargs.setdefault('ensure_ascii', False)
    kwargs.setdefault('indent', 1)

    with open(OUT_FILENAME, 'w') as f:
        json.dump(data, f, **kwargs)


def dump_to_xlsx(filename, data):
    if not len(data):
        return None

    with xlsxwriter.Workbook(filename) as workbook:
        ws = workbook.add_worksheet()
        bold = workbook.add_format({'bold': True})

        headers = ['Название', 'Статус', 'Время окончания приема заявок', 'Полное описание условий конкурса']

        for col, h in enumerate(headers):
            ws.write_string(0, col, h, cell_format=bold)

        for row, item in enumerate(data, start=1):
            ws.write_string(row, 0, item['Название'])
            ws.write_string(row, 1, item['Статус'])
            ws.write_string(row, 2, item['Время окончания приема заявок'])
            ws.write_string(row, 3, item['Полное описание условий конкурса'])


def main():
    urls = crawl_products(PAGES_COUNT)
    data = parse_products(urls)
    dump_to_json(OUT_FILENAME, data)
    dump_to_xlsx(OUT_XLSX_FILENAME, data)

    with open(OUT_FILENAME, 'w') as f:
        json.dump(data, f, ensure_ascii=False, indent=1)


if __name__ == '__main__':
    main()

В целом, работает. Но... он не выводит то, что отмечено в таблице. А нужно, чтобы выводилось то, что написано в каждой ячейке таблицы в зависимости от столбца. Какой код мне нужно добавить? Что нужно заменить?

Вопрос задан более двух лет назад
88 просмотров

3 комментария

Подписаться 1 Простой 3 комментария

Сергей П @trapwalker

Ох уж эти нейропрограммисты. И это ты вот написал столько кода и дальше совсем никак? Даже гипотез нет в чем проблема?

Написано более двух лет назад
N T @RG2 Автор вопроса

Сергей П, да мне просто нужно, чтобы всё выводилось из таблицы. Например, нужно, чтобы "a.link" выводилось из таблицы, а не из страницы. Ну то есть, например, вместо "Карта сайта" была "Конкурс на лучшие проекты фундаментальных научных исследований, проводимых совместно российскими и китайскими учеными, проводимый совместно РФФИ и Академией общественных наук Китая". Что нужно именно добавить? Какой элемент? Просто скажите...

Написано более двух лет назад
Сергей П @trapwalker

N T, Вы понимаете, что пришли не по адресу? С вашими знаниями вам нужно во фриланс. Вы не справитесь, потому что даже проблему формулируете не конкретно

Написано более двух лет назад

Помогут разобраться в теме Все курсы

Stepik

Парсинг на Python для начинающих

2 недели

Далее
Skillfactory

Профессия Python-разработчик PRO

12 месяцев

Далее
Хекслет

Фронтенд-разработчик

10 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Excel

+1 ещё

Средний
PowerQuery эффективность применения при работе с большим к-вом файлов?
- 2 подписчика
- 12 дек.
- 84 просмотра
2

ответа
Парсинг

Простой
Видит ли администрация сайта сканирование,и можно ли скрыть?
- 1 подписчик
- 07 дек.
- 398 просмотров
2

ответа
Excel

+1 ещё

Простой
Как в VBA открыть книгу EXCEL полностью скрытно от пользователя?
- 2 подписчика
- 04 дек.
- 117 просмотров
1

ответ
Excel

Простой
Почему в Excel 2016 не сохраняет введенные данные?
- 2 подписчика
- 28 нояб.
- 201 просмотр
2

ответа
Парсинг

Средний
Вся сложность парсинга Авито. Как это сделать правильно?
- 1 подписчик
- 26 нояб.
- 286 просмотров
1

ответ
Telegram

+1 ещё

Простой
Как спарсить подписчиков своего телеграм канала?
- 1 подписчик
- 20 нояб.
- 605 просмотров
2

ответа
Веб-разработка

+1 ещё

Простой
Каким образом правильно сделать скрипт?
- 2 подписчика
- 15 нояб.
- 412 просмотров
2

ответа
PHP

+2 ещё

Простой
Как сконвертировать файл в формате excel в pdf?
- 4 подписчика
- 14 нояб.
- 448 просмотров
4

ответа
Excel

+2 ещё

Простой
Как в Excel 2016 быстро, по всем ячейкам дописать нужные строки?
- 3 подписчика
- 14 нояб.
- 248 просмотров
4

ответа
Excel

Простой
Почему не работают ссылки Excel в Р7-Офис?
- 2 подписчика
- 11 нояб.
- 197 просмотров
0

ответов
Показать ещё Загружается…

C++ / Qt Разработчик

Алабуга • Екатеринбург

от 127 500 ₽

Python Developer

Strikt

от 100 000 до 150 000 ₽

Node.js backend разработчик (Middle+/Senior)

DataLouna

от 250 000 до 350 000 ₽

Ох уж эти нейропрограммисты. И это ты вот написал столько кода и дальше совсем никак? Даже гипотез нет в чем проблема?
Сергей П, да мне просто нужно, чтобы всё выводилось из таблицы. Например, нужно, чтобы "a.link" выводилось из таблицы, а не из страницы. Ну то есть, например, вместо "Карта сайта" была "Конкурс на лучшие проекты фундаментальных научных исследований, проводимых совместно российскими и китайскими учеными, проводимый совместно РФФИ и Академией общественных наук Китая". Что нужно именно добавить? Какой элемент? Просто скажите...
N T, Вы понимаете, что пришли не по адресу? С вашими знаниями вам нужно во фриланс. Вы не справитесь, потому что даже проблему формулируете не конкретно

Answer 1 · 2023-06-17 08:49:32

Попробуй через пандас реаализовать то что ты написал там в две строки делается https://www.codecamp.ru/blog/pandas-dataframe-get-...

https://www.codecamp.ru/blog/json-to-pandas-dataframe/

Answer 2 · 2023-06-19 13:34:23

Уже ввёл код

import requests
import json
from bs4 import BeautifulSoup
import chardet
import xlsxwriter
import re
from datetime import date, timedelta

PAGES_COUNT = 100
OUT_FILENAME = 'out.json'

import warnings
warnings.filterwarnings("ignore")


def get_soup(url, **kwargs):
    response = requests.get(url, **kwargs, verify=False)
    if response.status_code == 200:
        soup = BeautifulSoup(response.text, features='html.parser')
    else:
        soup = None
    return soup


def crawl_products(pages_count):
    urls = []
    fmt = 'https://www.rfbr.ru/rffi/ru/contest?CONTEST_STATUS_ID=-1&CONTEST_TYPE=-1&CONTEST_YEAR=-1&page={page}'

    for page_n in range(1, 1 + pages_count):
        print('page: {}'.format(page_n))

        page_url = fmt.format(page=page_n)
        soup = get_soup(page_url)
        if soup is None:
            break

        for tag in soup.select('.tr .link'):
            href = tag.attrs['href']
            url = 'https://www.rfbr.ru/rffi/ru/contest{}'.format(href)
            urls.append(url)
    return urls


def parse_products(urls):
    data = []

    for url in urls:
        print('product: {}'.format(url))

        soup = get_soup(url)
        if soup is None:
            break

        for i in soup.find_all("h1"):
            name = i.text
        for j in soup.find_all("main", {"class":"template__main"}):
            for jj in j.find_all("div", {"class":"sfc l-3 mt-5 mb-10 lh-xl"}):
                ja = re.sub(r'[^\x00-\x7f]', r'', str(jj))
                jo = re.sub(r'\<[^>]*\>', '', str(ja))
                ji = re.sub(r'_', '', str(jo))
                ju = re.sub(r'  ', '', str(ji))
                je = re.sub(r' :', '', str(ju))
                jy = je[13:]
                amount = jy
        rponse = requests.get(url, verify=False)
        sp = BeautifulSoup(rponse.text, "lxml")
        document ={}
        dcs = sp(attrs={"class": "list-in article"})
        for z in dcs:
            document[z.h2.text] = list(z.ol.stripped_strings)
            # document[z.h2.text] = tuple(z.ol.stripped_strings)

        # в одну строку с разделителем запятая
        for z in dcs:
            document[z.h2.text] = ', '.join(z.ol.stripped_strings)
        try:
            article = [l.get_text(strip=True) for l in soup.find_all("p") if l.get_text(strip=True).startswith('Условия')]
            art = str(article).replace("['", '').replace("']", '')
        except:
            article = [l.get_text(strip=True) for l in soup.find_all("strong") if l.get_text(strip=True).startswith('Условия')]
            art = str(article).replace("['", '').replace("']", '')
        for row in soup.select('td'):
            cols = row.select('td')
            cols = [c.text.strip() for c in cols]
        item = {
            'Название': name,
            'Статус': 'Заявки не принимаются',
            'Время окончания приема заявок': amount,
            'Полное описание условий конкурса': art
        }
        item['Документы'] = document
        data.append(item)

    return data


def dump_to_json(filename, data, **kwargs):
    kwargs.setdefault('ensure_ascii', False)
    kwargs.setdefault('indent', 1)

    with open(OUT_FILENAME, 'w') as f:
        json.dump(data, f, **kwargs)


def main():
    urls = crawl_products(PAGES_COUNT)
    data = parse_products(urls)
    dump_to_json(OUT_FILENAME, data)

    with open(OUT_FILENAME, 'w') as f:
        json.dump(data, f, ensure_ascii=False, indent=1)


if __name__ == '__main__':
    main()

Как вывести при помощи парсера в формат JSON информацию о конкурсах из сайта РФФИ?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт