Парсинг на Python. Как спарсить ссылки с карточек на сайте?

Question

AnKus @AnKus

Парсинг на Python. Как спарсить ссылки с карточек на сайте?

В личных целях нужно спарсить сайт. Уперся в вытаскивание ссылок и почты (нужно, чтоб данные были пригодны для дальнейшей работы с ними).
Вот что есть:

import lxml
import requests
from bs4 import BeautifulSoup
import csv

CSV = "companys.csv"
HOST = 'https://www.ua-region.com.ua'
URL = 'https://www.ua-region.com.ua/ru/kved/47.11'
HEADERS = {
    "Accept": "*/*",
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:101.0) Gecko/20100101 Firefox/101.0"
}

def get_html(url, params=''):
    r = requests.get(url, headers=HEADERS, params=params)
    return r

def get_content(html):
    soup = BeautifulSoup(html, 'lxml')
    items = soup.find_all(class_="cart-company-lg d-flex flex-wrap rounded mb-3 border")
    company = []

    for item in items:
        company.append(
            {
                "title":item.find(class_="cart-company-lg__title ui-title-inner").get_text(),
                "link":item.find(class_="cart-company-lg__list-link text-body font-weight-400"),
                "adres":item.find(class_="cart-company-lg__list-link").get_text(),
                "phone":item.find("a", class_="text-nowrap").attrs['href'],
                "mail":item.find(attrs={"target": "_blank"}),
                "subtitle":item.find(class_="col-12 mt-mb-0").get_text()
            }
        )

    return company


def save_data(items, path):
    with open(path, "w", newline="") as file:
        writer = csv.writer(file, delimiter=";")
        writer.writerow(["Name", "Link", "Adres", "Phone", "Mail", "Subtitle"])
        for item in items:
            writer.writerow([item["title"], item["link"], item["adres"], item["phone"], item["mail"], item["subtitle"]])



def parser():
    PAGINATION = input("Кол-во страниц: ")
    PAGINATION = int(PAGINATION.strip())
    html = get_html(URL)
    if html.status_code == 200:
        companys = []
        for start_page in range(1, PAGINATION+1):
            print(f"Pasce page: {start_page}")
            html = get_html(URL, params={"start_page": start_page})
            companys.extend(get_content(html.text))
            save_data(companys, CSV)
        pass

    else:
        print("Error")

parser()

Все вытаскивается нормально, кроме линков и мейлов. Они в таком виде:
span class="cart-company-lg__list-link text-body font-weight-400">https://mokoshaua.com/ , https://www.facebook.com/MokoshaCheese , https://www.instagram.com/mokosha_cheese/

a href="mailto:mokosha@i.ua" target="_blank">mokosha@i.ua

Не понимаю, почему в "link":item.find(class_="cart-company-lg__list-link text-body font-weight-400"), # get('href') возвращает None. Вроде не должен бы ...

Почитал про скрипт JS добавление mailto. Но как его в данный контекст прикрутить не понимаю.

Спасибо

Вопрос задан более года назад
200 просмотров

1 комментарий

Подписаться 1 Простой 1 комментарий

Пригласить эксперта

Ответы на вопрос 1

4 комментария

AnKus @AnKus Автор вопроса

Не все так просто.
Возвращается None, соотв ошибка атрибута, при попытке искать дальше "а".

Вообще весь блок выглядит так:

<span class="cart-company-lg__list-link text-body font-weight-400"><a href="https://mokoshaua.com/" target="_blank">https://mokoshaua.com/</a> , <a href="https://www.facebook.com/MokoshaCheese" target="_blank">https://www.facebook.com/MokoshaCheese</a> , <a href="https://www.instagram.com/mokosha_cheese/" target="_blank">https://www.instagram.com/mokosha_cheese/</a></span>

Написано более года назад

Сергей @YOin
AnKus,
Я искренне не понимаю о чем вы

при условии что item это 0-й элемент из списка

items = soup.find_all(class_="cart-company-lg d-flex flex-wrap rounded mb-3 border")
Написано более года назад
Сергей @YOin

Я понял, почему ломается, потому что у некоторых, нет такого елемента в принципе.

пользуйтесь except что б изббежать подобных траблов:

Написано более года назад
AnKus @AnKus Автор вопроса

Спасибо большое ! Так и есть

Написано более года назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

+1 ещё

Простой
Как увеличить паузу между отправкой запроса и получением результата?
- 1 подписчик
- 2 часа назад
- 38 просмотров
2

ответа
Python

Простой
Как исправить проблему с установкой torch?
- 1 подписчик
- 5 часов назад
- 47 просмотров
0

ответов
Python

+1 ещё

Средний
Как навести мышь внутри приложения?
- 1 подписчик
- 7 часов назад
- 40 просмотров
0

ответов
Python

+1 ещё

Простой
Как пройти авторизацию на youtube с помощью selenium?
- 1 подписчик
- 14 часов назад
- 45 просмотров
2

ответа
Python

+2 ещё

Простой
Как установить 2 версии libssl в kubuntu 22.04?
- 2 подписчика
- 23 часа назад
- 159 просмотров
0

ответов
Python

Простой
Как в библиотеке Flet при нажатии на кнопку сделать, чтобы появилось всплывающее окно?
- 1 подписчик
- 23 часа назад
- 25 просмотров
0

ответов
Python

+1 ещё

Сложный
Интерпретация результатов модели lambdamart?
- 1 подписчик
- вчера
- 35 просмотров
0

ответов
Python

Простой
Как в конце каждой строки файла добавить тэг?
- 1 подписчик
- вчера
- 137 просмотров
1

ответ
Python

+1 ещё

Простой
Почему asyncio.current_task() не передается в функцию?
- 1 подписчик
- вчера
- 94 просмотра
1

ответ
Python

+2 ещё

Простой
Срабатывает антивирус на скомпилированный файл python, как исправить?
- 1 подписчик
- 22 апр.
- 208 просмотров
1

ответ
Показать ещё Загружается…

Team Lead (С++, Python)

TopAssistant • Москва

от 400 000 ₽

Python developer

Bell Integrator

До 350 000 ₽

Python developer

Greenway Global • Новосибирск

от 150 000 ₽

Написать 3 раздела ВКР

25 апр. 2024, в 14:44

10000 руб./за проект

Создание теста в Postman

25 апр. 2024, в 14:44

250 руб./в час

Учебный проект - бронирование отелей, FastAPI, SQLA + HTML, CSS, JS

25 апр. 2024, в 14:41

5000 руб./за проект

Answer 1 · 2022-06-22 15:02:08

"link":item.find(class_="cart-company-lg__list-link text-body font-weight-400")

Этот кусок получает класс span в котором есть тег "a" в котором хранится нужная вам ссылка
А у спана ссылки нет, у спана есть тег.
Если быть более конкретным, вам нужно закончить начатое

href = item.find('span', class_ = 'cart-company-lg__list-link text-body font-weight-400')
href.find('a').get('href')

или в одну строчку

href = item.find('span', class_ = 'cart-company-lg__list-link text-body font-weight-400').find('a').get('href')

Парсинг на Python. Как спарсить ссылки с карточек на сайте?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт