Парсинг на Python. Как спарсить ссылки с карточек на сайте?

Question

AnKus @AnKus

Парсинг на Python. Как спарсить ссылки с карточек на сайте?

В личных целях нужно спарсить сайт. Уперся в вытаскивание ссылок и почты (нужно, чтоб данные были пригодны для дальнейшей работы с ними).
Вот что есть:

import lxml
import requests
from bs4 import BeautifulSoup
import csv

CSV = "companys.csv"
HOST = 'https://www.ua-region.com.ua'
URL = 'https://www.ua-region.com.ua/ru/kved/47.11'
HEADERS = {
    "Accept": "*/*",
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:101.0) Gecko/20100101 Firefox/101.0"
}

def get_html(url, params=''):
    r = requests.get(url, headers=HEADERS, params=params)
    return r

def get_content(html):
    soup = BeautifulSoup(html, 'lxml')
    items = soup.find_all(class_="cart-company-lg d-flex flex-wrap rounded mb-3 border")
    company = []

    for item in items:
        company.append(
            {
                "title":item.find(class_="cart-company-lg__title ui-title-inner").get_text(),
                "link":item.find(class_="cart-company-lg__list-link text-body font-weight-400"),
                "adres":item.find(class_="cart-company-lg__list-link").get_text(),
                "phone":item.find("a", class_="text-nowrap").attrs['href'],
                "mail":item.find(attrs={"target": "_blank"}),
                "subtitle":item.find(class_="col-12 mt-mb-0").get_text()
            }
        )

    return company


def save_data(items, path):
    with open(path, "w", newline="") as file:
        writer = csv.writer(file, delimiter=";")
        writer.writerow(["Name", "Link", "Adres", "Phone", "Mail", "Subtitle"])
        for item in items:
            writer.writerow([item["title"], item["link"], item["adres"], item["phone"], item["mail"], item["subtitle"]])



def parser():
    PAGINATION = input("Кол-во страниц: ")
    PAGINATION = int(PAGINATION.strip())
    html = get_html(URL)
    if html.status_code == 200:
        companys = []
        for start_page in range(1, PAGINATION+1):
            print(f"Pasce page: {start_page}")
            html = get_html(URL, params={"start_page": start_page})
            companys.extend(get_content(html.text))
            save_data(companys, CSV)
        pass

    else:
        print("Error")

parser()

Все вытаскивается нормально, кроме линков и мейлов. Они в таком виде:
span class="cart-company-lg__list-link text-body font-weight-400">https://mokoshaua.com/ , https://www.facebook.com/MokoshaCheese , https://www.instagram.com/mokosha_cheese/

a href="mailto:mokosha@i.ua" target="_blank">mokosha@i.ua

Не понимаю, почему в "link":item.find(class_="cart-company-lg__list-link text-body font-weight-400"), # get('href') возвращает None. Вроде не должен бы ...

Почитал про скрипт JS добавление mailto. Но как его в данный контекст прикрутить не понимаю.

Спасибо

Вопрос задан более трёх лет назад
238 просмотров

1 комментарий

Подписаться 1 Простой 1 комментарий

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillfactory

Профессия Python-разработчик

9 месяцев

Далее
Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

4 комментария

AnKus @AnKus Автор вопроса

Не все так просто.
Возвращается None, соотв ошибка атрибута, при попытке искать дальше "а".

Вообще весь блок выглядит так:

<span class="cart-company-lg__list-link text-body font-weight-400"><a href="https://mokoshaua.com/" target="_blank">https://mokoshaua.com/</a> , <a href="https://www.facebook.com/MokoshaCheese" target="_blank">https://www.facebook.com/MokoshaCheese</a> , <a href="https://www.instagram.com/mokosha_cheese/" target="_blank">https://www.instagram.com/mokosha_cheese/</a></span>

Написано более трёх лет назад

Сергей @YOin
AnKus,
Я искренне не понимаю о чем вы

при условии что item это 0-й элемент из списка

items = soup.find_all(class_="cart-company-lg d-flex flex-wrap rounded mb-3 border")
Написано более трёх лет назад
Сергей @YOin

Я понял, почему ломается, потому что у некоторых, нет такого елемента в принципе.

пользуйтесь except что б изббежать подобных траблов:

Написано более трёх лет назад
AnKus @AnKus Автор вопроса

Спасибо большое ! Так и есть

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Как исправить проблему с Docling?
- 1 подписчик
- час назад
- 22 просмотра
0

ответов
Python

Простой
Что делать если turtle в python не отвечает?
- 1 подписчик
- 22 окт.
- 185 просмотров
2

ответа
Python

Простой
Не могу разобраться почему не работает код python?
- 1 подписчик
- 22 окт.
- 316 просмотров
1

ответ
Python

Простой
Какие есть удобные API для генерации картинок через AI?
- 2 подписчика
- 20 окт.
- 194 просмотра
1

ответ
Python

Простой
Дублирование логов в python logging?
- 3 подписчика
- 19 окт.
- 274 просмотра
1

ответ
Python

+1 ещё

Средний
Как сделать чтоб аккаунт писал при подписке на канал?
- 1 подписчик
- 16 окт.
- 169 просмотров
0

ответов
Python

+1 ещё

Простой
Какие есть простые легковесные LLM для локального использования?
- 2 подписчика
- 14 окт.
- 644 просмотра
2

ответа
Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт.
- 142 просмотра
0

ответов
Python

+1 ещё

Простой
FastAPI Prometheus_fastapi_instrumentator где мне следует разместить?
- 1 подписчик
- 09 окт.
- 153 просмотра
1

ответ
Python

+1 ещё

Простой
Пытаюсь пропустить число 10 двумя способами.(правильный второй код) Почему эти два кода дают разный результат?
- 1 подписчик
- 09 окт.
- 584 просмотра
2

ответа
Показать ещё Загружается…

Backend developer (Python, FastAPI)

BCraft

До 4 000 $

Python Developer

Strikt

от 100 000 до 150 000 ₽

Backend Python Developer Middle/Senior

AppRoute

До 3 000 $

Answer 1 · 2022-06-22 15:02:08

"link":item.find(class_="cart-company-lg__list-link text-body font-weight-400")

Этот кусок получает класс span в котором есть тег "a" в котором хранится нужная вам ссылка
А у спана ссылки нет, у спана есть тег.
Если быть более конкретным, вам нужно закончить начатое

href = item.find('span', class_ = 'cart-company-lg__list-link text-body font-weight-400')
href.find('a').get('href')

или в одну строчку

href = item.find('span', class_ = 'cart-company-lg__list-link text-body font-weight-400').find('a').get('href')

Парсинг на Python. Как спарсить ссылки с карточек на сайте?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт