Как спарсить такой веб-сайт?

Question

happyjuic @happyjuic

Как спарсить такой веб-сайт?

Понимаю, что вопрос, возможно глупый. Но я напряг все свои полторы извилины, и даже у новомодных ИИ попросил помочь с созданием алгоритма. Все бестолку.

Моя задача собрать названия школ и адреса их веб-сайтов. По сути я имею дело с веб-страницами двух типов, они могут выглядеть так:
1. Страница со списком городов/районов
2. Страница с адресами школ в указанном городе/районе

То есть адрес до искомой страницы может выглядеть как: Уфа->Дема->*Адреса школ
Или как: Янаул->*Адреса школ. Короче иерархия всегда случайная. Но адреса школ - всегда конечная точка

На страницах со списком городов/районов/республик я просто ищу все теги *a в теге *div, а на странице с адресами школ ищу теги *a в таблице.

Я не могу понять, как сделать это все рекурсивно без кучи вложенных циклов. Есть у кого идеи?

Вопрос задан 06 дек. 2024
330 просмотров

6 комментариев

Подписаться 1 Простой 6 комментариев

Михаил Р. @Mike_Ro Куратор тега Python

Показывайте свои попытки.

Написано 06 дек. 2024

happyjuic @happyjuic Автор вопроса

Михаил Р., вот

import requests
from bs4 import BeautifulSoup

def is_end_point(page):
    if page.find("table") != None:
        return True
    else:
        return False

def print_schools(page):
    for i in page.find_all("a"):
        print("Школа--> "+i.text)

def parse(URL):
    responce = requests.get(URL).text
    bs = BeautifulSoup(responce, "lxml")

    page_content = bs.find("div", class_="contents")
    if is_end_point(page_content):
        print_schools(page_content)
    else:
        #Если страница не содержит адреса школ
        links = page_content.find_all("a")
        for i in links:
            sub_page = requests.get(i.get("href")).text
            sub_page = BeautifulSoup(sub_page, "lxml")
            sub_page = sub_page.find("div", class_="contents")

            if is_end_point(sub_page):
                print_schools(sub_page)
        
            else:
                pass

if __name__=="__main__":
    parse("https://russiaschools.ru/respublika_bashkortostan/")

Написано 06 дек. 2024

Everything_is_bad @Everything_is_bad

happyjuic, так сразу видно, что ты даже не приложил усилий, чтобы разобраться в проблеме, тупо побежал сюда.

Написано 06 дек. 2024
happyjuic @happyjuic Автор вопроса

Everything_is_bad, во-первых это далеко не первая моя попытка. Все то, что не работало я просто сносил. Я же потому и прошу предложить идею алгоритма, потому что все то, что писал я - не работает даже на этапе задумки

Написано 06 дек. 2024
Aragorn @Lord_of_Rings Куратор тега Python

happyjuic, а что у вас не работает? У меня вроде всё так, ошибок нет.

Написано 06 дек. 2024
dim5x @dim5x

Наличие <table> не может быть отсечкой, тег есть и на промежуточных страницах.

Написано 06 дек. 2024

Решения вопроса 1

Комментировать

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Существуют ли сервисы: онлайн python editor для совместного использования?
- 1 подписчик
- вчера
- 90 просмотров
2

ответа
Python

Простой
На каком языке пишут описание функций в Python?
- 1 подписчик
- 26 сент.
- 269 просмотров
3

ответа
Парсинг

Простой
Как получить ID всех ПВЗ?
- 1 подписчик
- 24 сент.
- 168 просмотров
0

ответов
Python

+2 ещё

Простой
Как получить данные в виде текста на русском языке из базы данных Paradox 4.5?
- 1 подписчик
- 23 сент.
- 236 просмотров
1

ответ
Парсинг

+1 ещё

Простой
Как увеличить охват поисковых фраз Wildberries и ускорить?
- 2 подписчика
- 23 сент.
- 168 просмотров
0

ответов
Python

Простой
Как парсить pdf-ки с вк с помощью Python?
- 1 подписчик
- 16 сент.
- 325 просмотров
1

ответ
Python

+1 ещё

Простой
Почему возникает синтаксическая ошибка: invalid decimal literal?
- 1 подписчик
- 15 сент.
- 171 просмотр
2

ответа
Python

+1 ещё

Простой
Почему модель обнаружения объектов YOLO работает медленно?
- 1 подписчик
- 14 сент.
- 192 просмотра
1

ответ
Python

Простой
Что можно улучшить или оптимизировать в коде, чтобы он не был таким длинным?
- 2 подписчика
- 10 сент.
- 438 просмотров
4

ответа
Парсинг

Простой
Как парсить несколько сайтов, отличающихся друг от друга?
- 2 подписчика
- 09 сент.
- 176 просмотров
3

ответа
Показать ещё Загружается…

Python разработчик

Selecty

от 280 000 до 380 000 ₽

Python developer

Digital Clouds

от 160 000 ₽

Python разработчик

ITK academy • Казань

от 75 000 ₽

Михаил Р., вот

import requests from bs4 import BeautifulSoup def is_end_point(page): if page.find("table") != None: return True else: return False def print_schools(page): for i in page.find_all("a"): print("Школа--> "+i.text) def parse(URL): responce = requests.get(URL).text bs = BeautifulSoup(responce, "lxml") page_content = bs.find("div", class_="contents") if is_end_point(page_content): print_schools(page_content) else: #Если страница не содержит адреса школ links = page_content.find_all("a") for i in links: sub_page = requests.get(i.get("href")).text sub_page = BeautifulSoup(sub_page, "lxml") sub_page = sub_page.find("div", class_="contents") if is_end_point(sub_page): print_schools(sub_page) else: pass if __name__=="__main__": parse("https://russiaschools.ru/respublika_bashkortostan/")
happyjuic, так сразу видно, что ты даже не приложил усилий, чтобы разобраться в проблеме, тупо побежал сюда.
Everything_is_bad, во-первых это далеко не первая моя попытка. Все то, что не работало я просто сносил. Я же потому и прошу предложить идею алгоритма, потому что все то, что писал я - не работает даже на этапе задумки
happyjuic, а что у вас не работает? У меня вроде всё так, ошибок нет.
Наличие <table> не может быть отсечкой, тег есть и на промежуточных страницах.

Answer 1 · 2024-12-06 23:42:24

import requests
from bs4 import BeautifulSoup

def parse_table(div, results):
    # Ищем таблицы внутри данного div
    tables = div.find_all('table')
    for table in tables:
        rows = table.find_all('tr')
        for row in rows:
            cells = row.find_all('td')
            if cells:
                # Извлекаем название и ссылку
                name = cells[0].get_text(strip=True)
                link = cells[0].find('a')['href'] if cells[0].find('a') else None
                if link:
                    results[name] = link

def recursive_parse(url, visited, results):

    if url in visited:
        return
    visited.add(url)
    print('Парсим URL:', url)

    response = requests.get(url)
    soup = BeautifulSoup(response.content, 'html.parser')

    # Ищем все div с itemscope
    divs = soup.find_all('div', itemscope=True)
    for div in divs:
        parse_table(div, results)  # Парсим таблицы внутри найденного div

    # Ищем все ссылки на подстраницы
    links = soup.find_all('a', href=True)
    for link in links:

        sub_url = link['href']
        # Проверяем, что ссылка ведет на подстраницу и не является текущим URL
        if 'respublika_bashkortostan' in sub_url and sub_url.startswith('http') and sub_url != url:
            recursive_parse(sub_url, visited, results)

# Начальная URL
start_url = 'https://russiaschools.ru/respublika_bashkortostan/'
visited_urls = set()
results_dict = {}
recursive_parse(start_url, visited_urls, results_dict)


for name, link in results_dict.items():
    print(f'Название: {name}, Ссылка: {link}')

З.Ы. я не знаю могут ли быть одинаковые наименования (например МБДОУ ДС №5) в разных районах, поэтому или просто выводите на экран или записывайте вместе с названием района.

Как спарсить такой веб-сайт?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт