Нужно спарсить ссылки с сайта, как сделать?

Question

None @robocop45

Нужно спарсить ссылки с сайта, как сделать?

Нужно спарсить ссылки с этого страницы https://tyumen.zoon.ru/medical/gospital_mat_i_ditya/ А именно блок под названием "Компания в сети". Мне нужна ссылка на их сайт и желательно ссылка на соцсети. Вот как это сделал я (здесь я пытаюсь спарсить ИМЕННО ссылку на сайт)

from urllib import response
from isort import file
import requests
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.action_chains import ActionChains
from selenium.webdriver.common.by import By
import time
import re

headers = {
    "Accept": "*/*",
    "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36"
}


def get_source_html(url):
    chrome_options = Options() # новое обновление selenium
    driver = Service(executable_path="C:\\webdrivers\\chromedriver.exe") # новое обновление selenium
    driver = webdriver.Chrome(options=chrome_options) # новое обновление selenium

    driver.maximize_window()   # открывает на полный экран окно браузера

    try:
        driver.get(url=url)
        time.sleep(3)

        while True:
            find_more_element = driver.find_element(
                By.CLASS_NAME, "catalog-button-showMore")  # новое обновление selenium

            if driver.find_elements(By.CLASS_NAME, "hasmore-text"): # новое обновление selenium
                with open("source-page.html", "w") as file:
                    file.write(driver.page_source)
                break
            else:
                actions = ActionChains(driver)
                actions.move_to_element(find_more_element).perform()
                time.sleep(3)
    except Exception as ex:
        print(ex)
    finally:
        driver.close()
        driver.quit()


def get_items_urls(file_path):
    with open (file_path) as file:
        src = file.read()                    # хз че это, потом погуглю
    soup = BeautifulSoup(src, "lxml")
    minecards_items = soup.find_all("div", class_= "minicard-item__info") # поиcк первого класса

    urls = []
    for item in minecards_items:
        item_url = item.find("h2", class_="minicard-item__title").find("a").get("href") # ищем нужные классы для одной больницы  # поиск вторго класса
        urls.append(item_url)

    with open("items_urls.txt", "w") as file: # сохраняем все ссылки
        for url in urls:
            file.write(f"{url}\n")

    return "[INFO] Succesfully"  # успешая згрузка в txt файл

def get_data(file_path):
    with open (file_path) as file:
        

        
        urls_list= [url.strip()for url in file.readlines()] # тоже убирает перенос строки,только более короткий способ
    for url in urls_list[:1]:
        response = requests.get( url=url, headers=headers)
        soup = BeautifulSoup(response.text,"lxml")

        try:
            item_name = soup.find("span", {"itemprop":"name"}).text.strip()# ищем span с названием больниц
        except Exception as _ex:
            item_name =None
            

        item_phones_list =[] 
        try:
            item_phones= soup.find("div",class_="service-phones-list").find_all("a", class_="js-phone-number") # ищем нужные классы с номерами телефонов

            for phone in item_phones:
                item_phone = phone.get("href").split(":")[-1].strip() # находим ссылку, разделяем двоеточием, убираем пробелы
                item_phones_list.append(item_phone) #наполянем список на каждой иттерации 
        except Exception as _ex:
            item_phones_list =None


        try:
            item_address = soup.find("address", class_="iblock").text.strip()# ищем class с адрессом больниц  
        except Exception as _ex:
            item_address =None
        
     
        try:
            item_site = soup.find("div", class_="service-website-value").find("span", class_="service-website-icon").find("svg", class_="svg-icons-website").find_all("a", "href")   # ищем class с  сайтом больниц ВОТ ОНО
        except Exception as _ex:
            item_site = None
       

    print(item_name, item_phones_list, item_address, item_site)
       

        
        
def main():
    #get_source_html(url = "https://tyumen.zoon.ru/medical/type/detskaya_poliklinika/")
    #print(get_items_urls(file_path="C:\\Users\Константин\Downloads\dodit\source-page.html"))
    get_data(file_path="C:\\Users\Константин\Downloads\dodit\items_urls.txt")

if __name__ == "__main__":
    main()

ВНИМАНИЕ НА ПОСЛЕДНЕ try execpt там все нужное
что выводится

Госпиталь Мать и дитя ['+73452492431'] Тюмень,  улица Юрия Семовских,  20 []

Вопрос задан более трёх лет назад
194 просмотра

Комментировать

Подписаться 2 Простой Комментировать

Решения вопроса 1

7 комментариев

memxr1es @memxr1es

social_link = block_main.find("a", class_ = "service-description-social-btn js-service-social").get("href")

second_response = requests.get(social_link).text
soup_second = BeautifulSoup(second_response, 'lxml')

main_second_block = soup_second.find("div", id = "wrapper")
link_block = main_second_block.find("div", class_ = "text")
vk_link = link_block.find("a").get("href")

print(vk_link)

Получаем ссылку на соц. сеть

Написано более трёх лет назад

None @robocop45 Автор вопроса

спасибо,позже проверю и напишу че как

Написано более трёх лет назад
None @robocop45 Автор вопроса

memxr1es, все работает спасибо чувак. но мне кажется, что если чуть подольше посидеть, то можно код в раза 3 сократить. Если будет не лень,то сделаю. Еще раз спасибо

Написано более трёх лет назад
memxr1es @memxr1es

robocop45, можно конечно :)
Я просто на скорую руку

На здоровье :з

Написано более трёх лет назад
None @robocop45 Автор вопроса
memxr1es, Я понимаю, что ты сам смог бы написать более короткий вариант ( все таки знаний у тебя больше). Но вот, что у меня получилось за мин 10. Как думаешь, что еще можно исправить?
block_main = soup.find("div", class_= "grid-container bg-gray service-page service-page-premium js-phone-holder").find("div", class_ = "service-website-value").find("a").get("href") print(block_main)

вывод :

Госпиталь Мать и дитя ['+73452492431'] Тюмень, улица Юрия Семовских, 20 https://mat-i-ditya-tyumen.obiz.ru/gospital_mat_i_ditya/?token=20220721164900RigC
Написано более трёх лет назад
None @robocop45 Автор вопроса
memxr1es, а вот как можно было вк сделать
vk_link = soup.find("div", class_ = "z-text--13 service-description-social-list").find("a").get("href") print(vk_link)

у меня получилось, но без тебя вряд ли это могло быть)
Написано более трёх лет назад
memxr1es @memxr1es

robocop45, я думаю, поправлять ничего не стоит :D

Написано более трёх лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Python kafka не видит headers?
- 1 подписчик
- вчера
- 55 просмотров
1

ответ
Python

+2 ещё

Средний
При подключении к бд MySQL через SSH из Python появляется ошибка, а через DBeaver всё чётко. В чём дело?
- 1 подписчик
- вчера
- 155 просмотров
1

ответ
Python

Простой
Существуют ли сервисы: онлайн python editor для совместного использования?
- 1 подписчик
- 27 сент.
- 122 просмотра
2

ответа
Python

Простой
На каком языке пишут описание функций в Python?
- 1 подписчик
- 26 сент.
- 292 просмотра
3

ответа
Парсинг

Простой
Как получить ID всех ПВЗ?
- 1 подписчик
- 24 сент.
- 171 просмотр
0

ответов
Python

+2 ещё

Простой
Как получить данные в виде текста на русском языке из базы данных Paradox 4.5?
- 1 подписчик
- 23 сент.
- 247 просмотров
1

ответ
Парсинг

+1 ещё

Простой
Как увеличить охват поисковых фраз Wildberries и ускорить?
- 2 подписчика
- 23 сент.
- 172 просмотра
0

ответов
Python

Простой
Как парсить pdf-ки с вк с помощью Python?
- 1 подписчик
- 16 сент.
- 336 просмотров
1

ответ
Python

+1 ещё

Простой
Почему возникает синтаксическая ошибка: invalid decimal literal?
- 1 подписчик
- 15 сент.
- 175 просмотров
2

ответа
Python

+1 ещё

Простой
Почему модель обнаружения объектов YOLO работает медленно?
- 1 подписчик
- 14 сент.
- 202 просмотра
1

ответ
Показать ещё Загружается…

Python developer

Digital Clouds

от 160 000 ₽

Python разработчик

Selecty

от 280 000 до 380 000 ₽

Python разработчик

ITK academy • Казань

от 75 000 ₽

Answer 1 · 2022-07-21 15:38:18

Если не то, то пардон

from bs4 import BeautifulSoup
import requests

site_link = "https://tyumen.zoon.ru/medical/gospital_mat_i_ditya/"

response = requests.get(site_link).text

soup = BeautifulSoup(response, 'lxml')
block_main = soup.find("div", class_ = "grid-container bg-gray service-page service-page-premium js-phone-holder")

second_block = block_main.find("div", class_ = "service-website-value")

last_block = second_block.find("a").get("href")

print(last_block)

Нужно спарсить ссылки с сайта, как сделать?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт