Ответы пользователя soremix по тегу «Парсинг»

Как вытащить только цену?

soremix @SoreMix Куратор тега Python

yellow

Можно просто регуляркой выдрать

import re
price = re.search('От ([0-9,]+)', text).group(1)

Ответ написан более трёх лет назад

7 комментариев

Почему selenium не находит элемент?

soremix @SoreMix Куратор тега Python

yellow

Потому чт вы ищете другой текст. На сайте вставлен неразрывной пробел ( )
Можно добавить его через alt+0160 либо

driver.find_elements_by_xpath('//span[text()="57\u00A0276,80"]')

Ответ написан более трёх лет назад

3 комментария

Почему возвращается None при парсинге?

soremix @SoreMix Куратор тега Python

yellow

хотя класс такой на странице есть и прогружается он сразу

Нет его там. Даже визуально видно, что он не сразу появляется. Данные приходят по wss

wss://data.tradingview.com/socket.io/websocket?from=symbols%2FBTCUSD%2F&date=2021_05_06-10_12

Однажды парсил tradingview по заказу, можно было получать валюты через https://scanner.tradingview.com/crypto/scan пары BINANCE:BTCUSDT и BINANCE:BTCRUB. Понятия не имею как там сейчас дела, но лучше искать другой сайт для курса

Ответ написан более трёх лет назад

Комментировать

Как реализовать парсинг вариативных товаров?

soremix @SoreMix

yellow

Либо selenium, либо точно так же как и в обычном парсинге, ничем это не отличается. Так же открываем код страницы и ищем нужные данные.

import requests
import json
import re

r = requests.get('https://aliexpress.ru/item/4000985692469.html')

script = json.loads(re.search(r'{"actionModule.+}}', r.text).group())
goods = script['skuModule']['skuPriceList']

for good in goods:

    name = good['skuAttr'].split('#')[-1]
    price = good['skuVal']['skuActivityAmount']['formatedAmount']

    print(name, price)

Ответ написан более трёх лет назад

Комментировать

Как парсить данные с сайта с регистрацией через bs4?

soremix @SoreMix Куратор тега Python

yellow

Потому что не авторизовались.
Эндпоинт для авторизации другой
Формат данных другой
Имена параметров другие
+ запрос на авторизацию не вернет данных с другой страницы

Ответ написан более трёх лет назад

2 комментария

Почему href не парситься в теге?

soremix @SoreMix Куратор тега Python

yellow

Нет там такого класса

Делаем

for item in items[:5]:
    print(item.find('a').attrs)

и любуемся

Ответ написан более трёх лет назад

Комментировать

В чём проблема?

soremix @SoreMix Куратор тега Python

yellow

Внимание вопрос: как это условие может (не) выполниться?

lastNewsItem = news[0].text
if (lastNewsItem != news[0].text):

Можно даже по комментариям прочитать

# Присваиваем переменной lastNewItem последнюю новость
# ...
# Если поледняя новость не равна lastNewItem

Сначала нужно проверять, что lastnews (прошлая новость) не равна news[0].text (актуальная новость), и затем уже, если они не равны, присваивать lastnews значение из news[0].text

В общем удалить надо первое присваивание lastNewsItem, которое лежит вне блока if

Ответ написан более трёх лет назад

Комментировать

Парсинг на python не работает что делать?

soremix @SoreMix Куратор тега Python

yellow

Во-первых, заголовка user_agent не существует
Во-вторых, Почему не получается спарсить информацию с сайта?

Ответ написан более трёх лет назад

Комментировать

Как парсить сайт который подгружает информации позже?

soremix @SoreMix Куратор тега Python

yellow

нужна задержка чтобы сайт прогрузился

Это не так работает. Данные загружаются динамически с помощью дополнительных фоновых запросов.
Открываете инструменты разработчика, вкладку нетворк и ищите нужный вам запрос в XHR. Затем повторяете его через python
Спойлер: вот он

POST на https://znanija.com/graphql/ru

Ответ написан более трёх лет назад

6 комментариев

Почему selenium возвращает пустой массив в место страницы?

soremix @SoreMix Куратор тега Python

yellow

А что хотите то? Сурс?

driver.source_code

ps: None - не массив

Ответ написан более трёх лет назад

Комментировать

Python selenium, как сделать проверку при загрузки загрузки файла в указанную директорию?

soremix @SoreMix Куратор тега Python

yellow

Уверен, что в селениуме есть много специальных хендлеров и прочего, чтобы получать информацию о загружаемом файле и тд, но пока никто не видит предлагаю костыль: будем вручную формировать запрос для получения файла, и не выгружая запрос полностью доставать имя файла из заголовков ответа

import requests
import re
import os

#...

headers = {'Content-Type': 'application/x-www-form-urlencoded'}
documents = driver.find_elements_by_class_name("docext-container")

for document in documents:
    # тут ищем родительский элемент, в нем есть нужный нам ID
    document_id = document.find_element_by_xpath('..').get_attribute('data-documentation-id')
    # в пейлод вписываем нужные данные от формы, и вставляем наш ID
    payload='cr_documentation_action=download&documentation_id={}&email='.format(document_id)
    # url для запроса - текущая страница
    # ставим обязательно stream=True, чтобы файл не выкачивался сразу
    r = requests.post(driver.current_url, headers=headers, data=payload, stream=True)
    # название файлов всегда есть в заголовках запроса, response.headers
    # поэтому берем их, видим в нужном ключе "attachment; filename*=UTF-8''hlw-shiptsy-ortodonticheskie-reg.pdf"
    # ну и недолго думая дергаем регуляркой
    document_name = re.search(r'\'\'(.+?\.pdf)', r.headers['Content-Disposition']).group(1)

    # дальше уже нужно проверить наличие файла в папке
    # я так понял путь до папки с загрузками в переменной path_registration_documents, так что:
    if document_name in os.listdir(path_registration_documents):
        print('Не новый')
    else:
        print('Новый док')
        document.click()

Заголовков дополнительных в requests не вставлял, хватило только одного. Авторизация для этого тоже не нужна, но мало ли со временем изменится что нибудь - надо будет добавить.
Ну и os.listdir() нужно свой путь нормально указать, если вдруг неправильно. В общем идея ясна, дальше уже мои полномочия все

Ответ написан более трёх лет назад

7 комментариев

Как получить содержимое href если нету class и id?

soremix @SoreMix Куратор тега Python

yellow

Вариантов много, через CSS селекторы, xpath, от родительского элемента, по индексу из всех тегов <a>, по строке внутри тега, по аттрибутам

from bs4 import BeautifulSoup
from lxml import html

html_code = '''
<!DOCTYPE html>
<html lang="en">
<head>
  <meta charset="UTF-8">
  <meta name="viewport" content="width=device-width, initial-scale=1.0">
  <title>Document</title>
</head>
<body>
  <a href="qna.habr.com">qna</a>
  <div id="main">
    <a href="habr.com" target="_blank">example</a>
    <a href="career.habr.com">career</a>
  </div>
  <a href="freelance.habr.com">freelance</a>
</body>
</html>
'''

soup = BeautifulSoup(html_code, 'html.parser')
tree = html.fromstring(html_code)

# xpath
element = tree.xpath('/html/body/div/a[1]')[0]
print(element.get('href'))

# from parent
element = soup.find('div', id='main').find('a')
print(element.get('href'))

# index
element = soup.find_all('a')[1]
print(element.get('href'))

# string
element = soup.find('a', string='example')
print(element.get('href'))

# attrs
element = soup.find('a', target='_blank')
print(element.get('href'))

Ответ написан более трёх лет назад

1 комментарий

Почему парсер в цикле не обновляет полученный результат?

soremix @SoreMix Куратор тега Python

yellow

парсер в цикле не обновляет полученный результат, а остается та же информация

В каком цикле? В for i in range(2):?
В нем нет ни одного присваивания / любой другой модификации. Он просто текст выводит

for i in range(2):
    html = get_html(URL)
    output = get_content(html.text)
    print('\n' + output + ' ' + str(i))
    if i == 1:
        break
    time.sleep(10)

Ответ написан более трёх лет назад

3 комментария

Как сайт может отследить/определить что используется Selenium?

soremix @SoreMix Куратор тега Python

yellow

Много разных вариантов, на сайте стоит рекапча, она прекрасно умеет анализировать действия на странице.
Автоматизацию довольно таки быстро можно распознать по банальным признакам - мышкой по сайту никто не водит, селекторы, ссылки и тд кликаются не человеком, ввод текста тоже довольно так быстро распознается, ведь есть разница между печатью нормального человека и автовставкой/сверхбыстрой печати от программы.

Ответ написан более трёх лет назад

3 комментария

Как достать комментарии из под поста Instagram?

soremix @SoreMix Куратор тега Python

yellow

Комментарии лежат в скрипте в коде страницы

import requests
import json
import re


headers = {'user-agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.157 Safari/537.36'}

r = requests.get('https://www.instagram.com/p/CKJ4986gdbW/', headers=headers)

script = re.search(r'window._sharedData = (.+?);</script>', r.text).group(1)
data = json.loads(script)

edges = data['entry_data']['PostPage'][0]['graphql']['shortcode_media']['edge_media_to_parent_comment']['edges']
for edge in edges:

    text = edge['node']['text']
    author = edge['node']['owner']['username']

    print(author, text)

Ответ написан более трёх лет назад

1 комментарий

В чем проблема в парсинге с Python (BtflSoup + Requests)?

soremix @SoreMix Куратор тега Python

yellow

Потому что нет тега <a> с классом js-hook-isYandexMetricEnabled, откуда вы его взяли?

Ответ написан более трёх лет назад

3 комментария

Парсер, парсит только первые 4 термопасты OZON. Почему?

soremix @SoreMix Куратор тега Python

yellow

Потому что данные подгружаются с помощью JS.
Нажимаем CTRL+U -> ищем где же термопаста спряталась в коде

Ответ написан более трёх лет назад

3 комментария

Как сделать задержку при загрузке страницы при парсинге?

soremix @SoreMix Куратор тега Python

yellow

Нет, запросы работают по другому.
GET (как и другие, впрочем) всегда возвращает исходный код страницы. Посмотреть такой можно через CTRL+U. Все дополнительные подгрузки и прочие наовроты - либо фоновые запросы, либо работа JS скриптов.

Открывайте F12 - Network. Перезагружаете страницу, и смотрите, какие запросы отправляются. Скорее всего нужная информация будет во вкладке XHR. Собственно, находите нужный запрос и повторяете его. Если данных нет ни в одном запросе (что врядли, я думаю), то они подгрузились каким нибудь скриптом и парсить такое нужно уже через selenium

Ответ написан более трёх лет назад

Комментировать

Как исправить ошибку Python AttributeError: 'dict' object has no attribute 'vk_api'?

soremix @SoreMix Куратор тега Python

yellow

groups - словарь, у словаря нет аттрибута vk_api, что еще добавить

Ответ написан более трёх лет назад

Комментировать

Как спарсить значение нужного td?

soremix @SoreMix Куратор тега Python

yellow

parent = soup.find('td', string='Телефон руководителя:')
number = parent.find_next('td').text

Ответ написан более трёх лет назад

3 комментария

Войдите на сайт