Код выводит предложение с определенного слова, но не из всех ссылок. Как исправить?

Question

N T @RG2

Python
JSON

Код выводит предложение с определенного слова, но не из всех ссылок. Как исправить?

Есть у меня код, который выводит парсер с сайта РФФИ. Сам парсер должен быть выведен в JSON и выглядеть следующим образом:

{
  "Название"
  "Статус"
  "Время окончания приема заявок"
  "Полное описание условий конкурса"
  "Документы" {
   "Формы заявок"
   "Договор и инструкции"
   "Формы отчетов"
  }
 }

import requests
import json
from bs4 import BeautifulSoup
import chardet
import xlsxwriter
import re
from datetime import date, timedelta
 
PAGES_COUNT = 100
OUT_FILENAME = 'out.json'
 
import warnings
warnings.filterwarnings("ignore")
 
 
def get_soup(url, **kwargs):
    response = requests.get(url, **kwargs, verify=False)
    if response.status_code == 200:
        soup = BeautifulSoup(response.text, features='html.parser')
    else:
        soup = None
    return soup
 
 
def crawl_products(pages_count):
    urls = []
    fmt = 'https://www.rfbr.ru/rffi/ru/contest?CONTEST_STATUS_ID=-1&CONTEST_TYPE=-1&CONTEST_YEAR=-1&page={page}'
 
    for page_n in range(1, 1 + pages_count):
        print('page: {}'.format(page_n))
 
        page_url = fmt.format(page=page_n)
        soup = get_soup(page_url)
        if soup is None:
            break
 
        for tag in soup.select('.tr .link'):
            href = tag.attrs['href']
            url = 'https://www.rfbr.ru/rffi/ru/contest{}'.format(href)
            urls.append(url)
    return urls
 
 
def parse_products(urls):
    data = []
 
    for url in urls:
        print('product: {}'.format(url))
 
        soup = get_soup(url)
        if soup is None:
            break
 
        for i in soup.find_all("h1"):
            name = i.text
        for j in soup.find_all("main", {"class":"template__main"}):
            for jj in j.find_all("div", {"class":"sfc l-3 mt-5 mb-10 lh-xl"}):
                ja = re.sub(r'[^\x00-\x7f]', r'', str(jj))
                jo = re.sub(r'\<[^>]*\>', '', str(ja))
                ji = re.sub(r'_', '', str(jo))
                ju = re.sub(r'  ', '', str(ji))
                je = re.sub(r' :', '', str(ju))
                jy = je[13:]
                amount = jy
        rponse = requests.get(url, verify=False)
        sp = BeautifulSoup(rponse.text, "lxml")
        document ={}
        dcs = sp(attrs={"class": "list-in article"})
        for z in dcs:
            document[z.h2.text] = list(z.ol.stripped_strings)
            # document[z.h2.text] = tuple(z.ol.stripped_strings)
 
        # в одну строку с разделителем запятая
        for z in dcs:
            document[z.h2.text] = ', '.join(z.ol.stripped_strings)
        try:
            article = [l.get_text(strip=True) for l in soup.find_all("p") if l.get_text(strip=True).startswith('Условия')]
            art = str(article).replace("['", '').replace("']", '')
        except:
            article = [l.get_text(strip=True) for l in soup.find_all("strong") if l.get_text(strip=True).startswith('Условия')]
            art = str(article).replace("['", '').replace("']", '')
        for row in soup.select('td'):
            cols = row.select('td')
            cols = [c.text.strip() for c in cols]
        item = {
            'Название': name,
            'Статус': 'Заявки не принимаются',
            'Время окончания приема заявок': amount,
            'Полное описание условий конкурса': art
        }
        item['Документы'] = document
        data.append(item)
 
    return data
 
 
def dump_to_json(filename, data, **kwargs):
    kwargs.setdefault('ensure_ascii', False)
    kwargs.setdefault('indent', 1)
 
    with open(OUT_FILENAME, 'w') as f:
        json.dump(data, f, **kwargs)
 
 
def main():
    urls = crawl_products(PAGES_COUNT)
    data = parse_products(urls)
    dump_to_json(OUT_FILENAME, data)
 
    with open(OUT_FILENAME, 'w') as f:
        json.dump(data, f, ensure_ascii=False, indent=1)
 
 
if __name__ == '__main__':
    main()

Или вот ещё вариант:

import requests
import json
from bs4 import BeautifulSoup
import chardet
import xlsxwriter
import re
from datetime import date, timedelta

PAGES_COUNT = 100
OUT_FILENAME = 'out.json'

import warnings
warnings.filterwarnings("ignore")


def get_soup(url, **kwargs):
    response = requests.get(url, **kwargs, verify=False)
    if response.status_code == 200:
        soup = BeautifulSoup(response.text, features='html.parser')
    else:
        soup = None
    return soup


def crawl_products(pages_count):
    urls = []
    fmt = 'https://www.rfbr.ru/rffi/ru/contest?CONTEST_STATUS_ID=-1&CONTEST_TYPE=-1&CONTEST_YEAR=-1&page={page}'

    for page_n in range(1, 1 + pages_count):
        print('page: {}'.format(page_n))

        page_url = fmt.format(page=page_n)
        soup = get_soup(page_url)
        if soup is None:
            break

        for tag in soup.select('.tr .link'):
            href = tag.attrs['href']
            url = 'https://www.rfbr.ru/rffi/ru/contest{}'.format(href)
            urls.append(url)
    return urls


def parse_products(urls):
    data = []

    for url in urls:
        print('product: {}'.format(url))

        soup = get_soup(url)
        if soup is None:
            break

        for i in soup.find_all("h1"):
            name = i.text
        for j in soup.find_all("main", {"class":"template__main"}):
            for jj in j.find_all("div", {"class":"sfc l-3 mt-5 mb-10 lh-xl"}):
                ja = re.sub(r'[^\x00-\x7f]', r'', str(jj))
                jo = re.sub(r'\<[^>]*\>', '', str(ja))
                ji = re.sub(r'_', '', str(jo))
                ju = re.sub(r'  ', '', str(ji))
                je = re.sub(r' :', '', str(ju))
                jy = je[13:]
                amount = jy
        rponse = requests.get(url, verify=False)
        sp = BeautifulSoup(rponse.text, "lxml")
        document ={}
        dcs = sp(attrs={"class": "list-in article"})
        for z in dcs:
            document[z.h2.text] = list(z.ol.stripped_strings)
            # document[z.h2.text] = tuple(z.ol.stripped_strings)

        # в одну строку с разделителем запятая
        for z in dcs:
            document[z.h2.text] = ', '.join(z.ol.stripped_strings)
        article = [l.get_text(strip=True) for l in soup.find_all("p") if l.get_text(strip=True).startswith('Условия')]
        art = str(article).replace("['", '').replace("']", '')
        for row in soup.select('td'):
            cols = row.select('td')
            cols = [c.text.strip() for c in cols]
        item = {
            'Название': name,
            'Статус': 'Заявки не принимаются',
            'Время окончания приема заявок': amount,
            'Полное описание условий конкурса': art
        }
        item['Документы'] = document
        data.append(item)

    return data


def dump_to_json(filename, data, **kwargs):
    kwargs.setdefault('ensure_ascii', False)
    kwargs.setdefault('indent', 1)

    with open(OUT_FILENAME, 'w') as f:
        json.dump(data, f, **kwargs)


def main():
    urls = crawl_products(PAGES_COUNT)
    data = parse_products(urls)
    dump_to_json(OUT_FILENAME, data)

    with open(OUT_FILENAME, 'w') as f:
        json.dump(data, f, ensure_ascii=False, indent=1)


if __name__ == '__main__':
    main()

Код работает. И всё бы ничего. Но тут есть нюанс.
Нужно, чтобы в одном из массивов выводилось предложение со слов "Условия конкурса". Оно выводится. Но не из всех ссылок.

Что и где нужно исправить? Я если что не прошу, чтобы за меня написали код. Я это могу сделать сам. Просто дайте подсказку.

Вопрос задан более двух лет назад
60 просмотров

1 комментарий

Подписаться 1 Простой 1 комментарий

N T @RG2 Автор вопроса

Вот отрывок из out.json. После запуска одного из кодов.

{
  "Название": "Конкурс научных проектов фундаментальных исследований, выполняемых молодыми учеными, проводимый совместно РФФИ и Правительством города Москвы",
  "Статус": "Заявки не принимаются",
  "Время окончания приема заявок": "18.02.2021 23:59",
  "Полное описание условий конкурса": "Условия конкурса(утверждены решением бюро совета РФФИ, протокол заседания бюро совета РФФИ № 15 (242) от 02.12.2020 года)', 'Условия предоставления гранта на реализацию проекта на следующий этап реализации проекта:",
  "Документы": {
   "Формы заявок": "Форма 6. Предварительный бюджет проекта, Форма 1. Данные о проекте, Форма 9. Публикация, Форма 8. Содержание проекта, Форма 2. Данные о физическом лице, Форма 3. Сведения об организации, Форма 1_en. Данные о проекте на английском языке",
   "Договор и инструкции": "Инструкция по оформлению и отправке отчёта в КИАС РФФИ, Справочная информация для заполнения приложения «Сведения о выплатах, произведенных организацией...», Договор о предоставлении гранта победителю конкурса и реализации научного проекта, Инструкция по подтверждению согласия предоставлять условия для реализации проекта, Инструкция по оформлению договора о предоставлении гранта победителю конкурса и реализации научного проекта, Инструкция по оформлению заявки в КИАС РФФИ",
   "Формы отчетов": "Форма 502(итог). Краткий научный отчет на английском языке, Форма 512. Данные о члене коллектива, Форма 511. Возможности практического использования результатов, Форма 509. Публикация по результатам проекта, Форма 502. Краткий научный отчет на английском языке, Форма 501(итог). Краткий научный отчет, Форма 501. Краткий научный отчет, Сведения о выплатах, произведенных организацией (DOCX), Форма 506. Финансовый отчет, Форма 503_мос. Развернутый научный отчет, Форма 503_мос(итог) Развернутый научный отчет"
  }
 },
 {
  "Название": "Конкурсы",
  "Статус": "Заявки не принимаются",
  "Время окончания приема заявок": "18.02.2021 23:59",
  "Полное описание условий конкурса": "[]",
  "Документы": {
   "Формы заявок": "Форма 6_Палестина. Предварительный бюджет проекта, Форма 4_Палестина. Содержание проекта, Форма 1_en. Данные о проекте на английском языке, Форма 1_Палестина. Данные о проекте, Форма 3. Сведения об организации, Форма 2. Данные о физическом лице",
   "Договор и инструкции": "Справочная информация для заполнения приложения «Сведения о выплатах, произведенных организацией...», Инструкция по оформлению и отправке отчёта в КИАС РФФИ, Договор о предоставлении гранта победителю конкурса и реализации научного проекта, Инструкция по подтверждению согласия предоставлять условия для реализации проекта, Инструкция по оформлению договора о предоставлении гранта победителю конкурса и реализации научного проекта, Инструкция по оформлению заявки в КИАС РФФИ",
   "Формы отчетов": "Сведения о выплатах, произведенных организацией (DOCX), Форма 503(итог)_Палестина. Развернутый научный отчет, Форма 503_Палестина. Развернутый научный отчет, Форма 506_Палестина. Финансовый отчет, Краткая версия отчета о реализации научного проекта (DOCX), Форма 512. Данные о члене коллектива, Форма 511. Возможности практического использования результатов, Форма 509. Публикация по результатам проекта, Форма 502(итог). Краткий научный отчет на английском языке, Форма 502. Краткий научный отчет на английском языке, Форма 501(итог). Краткий научный отчет, Форма 501. Краткий научный отчет"
  }
 },

Написано более двух лет назад

Помогут разобраться в теме Все курсы