Задать вопрос

Профиль пользователя заблокирован сроком с 12 апреля 2022 г. и навсегда по причине: спам

Ivan Yakushenko

yay ✌️ t.me/kshnkvn

612

вклад
110

вопросов
497

ответов
72%

решений

Ответы пользователя по тегу Beautiful Soup

Как ответ двух циклов вывести в красивые списки?

Ivan Yakushenko @kshnkvn

yay ✌️ t.me/kshnkvn

html = '''
<tbody>
<tr>
    <td>Содержимое 1</td>
    <td>Содержимое 2</td>
</tr>
<tr>
    <td>Содержимое 3</td>
    <td>Содержимое 4</td>
</tr>
</tbody>
'''

soup = BeautifulSoup(html, 'lxml')

result = []
tr_elems = soup.find_all('tr')
for tr in tr_elems:
    result.append([td.text for td in tr.find_all('td')])

# [['Содержимое 1', 'Содержимое 2'], ['Содержимое 3', 'Содержимое 4']]

Ответ написан более трёх лет назад

9 комментариев

Python, beautifulsoup 4, альтернатива xpath?
Ivan Yakushenko @kshnkvn
yay ✌️ t.me/kshnkvn
Регулярным выражением:

import re soup.find_all('a', href=re.compile(r'nearLocation'))

Или select:
soup.select('a[href*=nearLocation]')

Ответ написан более трёх лет назад

6 комментариев
6 комментариев
Как спрасить динамическую таблицу на Python?
Ivan Yakushenko @kshnkvn
yay ✌️ t.me/kshnkvn
Плохо парсил
In [6]: len(html.xpath('.//table[@id="proxylisttable"]/tbody/tr')) Out[6]: 100

requests, lxml
Если сильно нужно использовать selenium, то отключи javascript

Ответ написан более трёх лет назад

2 комментария
2 комментария
Парсер выдает кашу?
Ivan Yakushenko @kshnkvn
yay ✌️ t.me/kshnkvn
Что за? Зачем вы открываете страницу с Selenium, а парсите с BS4? Это какой-то особый вид извращений?
Страницу нужно прокрутить вниз, что-бы прогрузились все элементы.
driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")

Возможно скроллить нужно будет в цикле несколько раз, если за один мах грузятся не все элементы.
Selenium умеет в чудесные xpath, а вы пытаетесь собрать элементы по динамичным атрибутам. Не надо так. Надо, примерно, вот так:
images = driver.find_elements_by_xpath('.//img[contains(@class, "image")][@srcset]')

Вот так тоже не делайте:
driver.get(url) time.sleep(15)

Код дальше driver.get() не сдвинется, пока страница не будет загружена, так что вам не нужно ничего ждать. А если есть элементы, которые грузятся уже после того, как основная страница загружена, то нужно использовать ожидания.

Ответ написан более трёх лет назад

Комментировать
Комментировать
Как сгенерировать ссылки в Python для парсинга всех страниц?
Ivan Yakushenko @kshnkvn
yay ✌️ t.me/kshnkvn
pattern = "https://www.betexplorer.com/results/soccer/?year={}&month={}&day={}" for year in range(2016, 2020): for month in range(1, 13): for day in range(1, 32): url = pattern.format(year, month, day) print(url)

С проверкой сильно не заморачивайтесь, сайт возвращает 404 статус, если страницы нет, на это и делайте проверку. Примерно так:

r = requests.get(url) if r.status_code == 404: print("This page does not exists")

Ответ написан более трёх лет назад

1 комментарий
1 комментарий
Как добыть информацию этого тега?
Ivan Yakushenko @kshnkvn
yay ✌️ t.me/kshnkvn
Кому-то двойной цикл не помогает, а кому-то и одной строки может хватить:
print(soup.find('span', {'class': 'searchBar__mediaTabTextValue searchBar__mediaTabTotal'}).get_text())

>>> 75

А вообще, с таким вот:
Нужно рабочее решение !!!!

На соседний ресурс иди.

А с такими вот предъявами:
не принимаю и даю жалобу.

Иди к маме, а не сюда. Тут ты в первую очередь просишь.

Ответ написан более трёх лет назад

Комментировать
Комментировать
Как находить теги со сложными именами классов?
Ivan Yakushenko @kshnkvn
yay ✌️ t.me/kshnkvn
var_name = soup.find('div', {'class': 'mediaMiniCard__opened _closed _tooltip _position_topLeft'})

Вместо div тот тег, к которому относится этот класс.

Ответ написан более трёх лет назад

3 комментария
3 комментария

Самые активные сегодня

Руслан Пикулин
- 3 ответа
- 0 вопросов
VoidVolker
- 2 ответа
- 0 вопросов
mitaichik
- 1 ответ
- 1 вопрос
Everything_is_bad
- 2 ответа
- 0 вопросов
Dravar
- 0 ответов
- 1 вопрос
UK141
- 0 ответов
- 1 вопрос

Как ответ двух циклов вывести в красивые списки?

Python, beautifulsoup 4, альтернатива xpath?

Как спрасить динамическую таблицу на Python?

Парсер выдает кашу?

Как сгенерировать ссылки в Python для парсинга всех страниц?

Как добыть информацию этого тега?

Как находить теги со сложными именами классов?

Войдите на сайт