Как спарсить атрибут target=_"_blank"> спомошью BeautifulSoup в Python?

Question

Никита Иванов @n1k_ivanov

Как спарсить атрибут target=_"_blank"> спомошью BeautifulSoup в Python?

Тренируюсь по изучению библиотеки BeautifulSoup в python и зациклился уже на вторые сутки над парсингом атрибута target=_"_blank">

Что хочу сделать:
Спарсить победителей со страници => https://randstuff.ru/vkwin/zrnzt6/
Мне нужна сылка на страницу (Готова) и ИМЯ ФАМИЛИЯ победителя помещенные в словарь.

Так выглядит класс, в моем случае их получается 5. Сылку вытащил и теперь нужно имя и фамилию, находится в target="_blank">

<a class="name" href="https://vk.com/stush---" target="_blank">Стю-- Серге---</a>

Перелазил уже весь интернет и код на гите, но решение так и не нашел. Подскажите как решить :)

Что уже имеем:

import requests
from bs4 import BeautifulSoup

URL = 'https://randstuff.ru/vkwin/zrnzt6/'
HEADERS = {'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.96 YaBrowser/20.4.0.3443 Yowser/2.5 Safari/537.36', 'accept': '*/*'}

def get_html(url, params=None):
    r = requests.get(url, headers=HEADERS, params=params)
    return r

def get_content(html):
    soup = BeautifulSoup(html, 'html.parser')
    items = soup.find_all('a', class_='name')[1:]
    vk = []
    for item in items:
        vk.append({
            'title': item.get('href'),
            #'name': item.select('a', 'target="_blank">').get_text ТУТ ДОЛЖЕН БЫЛ БЫТЬ ПАРСИНГ ИМЕНИ И ФАМИЛИИ 
        })
    print(vk)

def parse():
    html = get_html(URL)
    if html.status_code == 200:
        get_content(html.text)
    else:
        print('Error')

parse()

Вопрос задан более трёх лет назад
381 просмотр

Комментировать

Подписаться 1 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 2

2 комментария

1 комментарий

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Как при вызове хранимой процедуры получать значения RAISE NOTICE?
- 2 подписчика
- 13 апр.
- 234 просмотра
2

ответа
Python

+2 ещё

Простой
Почему не работает Selenium?
- 1 подписчик
- 09 апр.
- 252 просмотра
2

ответа
Python

Простой
В чем ошибка в использовании ft.ResponsiveView в данном коде?
- 1 подписчик
- 08 апр.
- 89 просмотров
1

ответ
Python

Простой
Можно ли указывать во flet heigh и width через проценты?
- 1 подписчик
- 02 апр.
- 109 просмотров
1

ответ
Python

Простой
Как правильно позиционировать элементы во flet?
- 1 подписчик
- 02 апр.
- 101 просмотр
1

ответ
Python

Простой
Почему может не отображаться страница во view(flet)?
- 1 подписчик
- 25 мар.
- 123 просмотра
1

ответ
Python

Средний
Asyncio + PySide6 + Telethon: список чатов и треды грузятся 30 минут — где искать причину?
- 2 подписчика
- 16 мар.
- 472 просмотра
2

ответа
Python

+2 ещё

Средний
Можно ли получить доступ к сайту?
- 4 подписчика
- 05 мар.
- 1014 просмотров
4

ответа
Python

Простой
Как запретить удаление полей класса?
- 1 подписчик
- 27 февр.
- 327 просмотров
1

ответ
Парсинг

Простой
Как спарсить Интернет Магазин?
- 1 подписчик
- 27 февр.
- 380 просмотров
4

ответа
Показать ещё Загружается…

Python developer

ITK academy • Краснодар

от 220 000 до 300 000 ₽

Python Developer

ITK academy • Краснодар

от 75 000 ₽

Python разработчик

DimaTech Ltd • Краснодар

от 140 000 до 140 000 ₽

Answer 1 · 2020-05-30 15:30:28

Это:

#'name': item.select('a', 'target="_blank">').get_text ТУТ ДОЛЖЕН БЫЛ БЫТЬ ПАРСИНГ ИМЕНИ И ФАМИЛИИ

заменить на это:
'name': item.text

Output

[{'title': 'https://vk.com/stusha45', 'name': 'Стюша Сергеева'}, {'title': 'https://vk.com/id209266081', 'name': 'Юлия Сухова'}, {'title': 'https://vk.com/id394370251', 'name': 'Нина Ляшенко'}, {'title': 'https://vk.com/id473065083', 'name': 'Андрей Кротов'}, {'title': 'https://vk.com/id491175633', 'name': 'Тамара Петрова'}]

Answer 2 · 2020-05-30 15:35:28

soup.find_all('a', class_='name')[1:]
Тут уже возвращаются элементы целиком, со всеми атрибутами и текстом:

<a class="name" href="https://vk.com/stusha45" target="_blank">Стюша Сергеева</a>
<a class="name" href="https://vk.com/id209266081" target="_blank">Юлия Сухова</a>

Соответственно тебе не нужно повторно искать их, просто взять нужные значения из каждого элемента:

for item in items:
    item_data = {
        'title': item.get('href'),
        'name': item.text
    }
    print(item_data)

{'title': 'https://vk.com/stusha45', 'name': 'Стюша Сергеева'}
{'title': 'https://vk.com/id209266081', 'name': 'Юлия Сухова'}

Как спарсить атрибут target=_"_blank"> спомошью BeautifulSoup в Python?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт