Как спарсить информацию с сайта, если есть пагинация?

Question

Evgin555 @Evgin555

Как спарсить информацию с сайта, если есть пагинация?

Как можно доработать данный скрипт? Проблема в том, что парсится только одна страница. Как можно перейти на следующую страницу и там тоже сохранить тел.?

from selenium import webdriver
from time import sleep
from PIL import Image
from pytesseract import image_to_string
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
class Bot:
    def __init__(self):
        self.driver = webdriver.Firefox()
        self.navigate()
        wait = WebDriverWait(self.driver, 10)

    def take_screenshot(self):
        self.driver.save_screenshot('avito_screenshot.png')

    def tel_recon(self):
        image = Image.open('tel.png')
        print(image_to_string(image))

        f = open('number.txt', 'a')
        f.write(image_to_string(image)+ '\n')
        f.close()

        def crop(self, location, size):
        image = Image.open('avito_screenshot.png')
        x = location['x']
        y = location['y']
        width = size['width']
        height = size['height']

        image.crop((x, y, x+width, y+height)).save('tel.png')
        self.tel_recon()

        def navigate(self):
        self.driver.get('https://www.avito.ru/volgogradskaya_oblast_volzhskiy/avtomobili/gaz_gazel_2747_2007_1903589701')

        button = self.driver.find_element_by_xpath('//a[@class="button item-phone-button js-item-phone-button button-origin contactBar_greenColor button-origin_full-width button-origin_large-extra item-phone-button_hide-phone item-phone-button_card js-item-phone-button_card contactBar_height"]')
        button.click()

        sleep(15)

        self.take_screenshot()

        image = self.driver.find_element_by_xpath('//div[@class="item-phone-big-number js-item-phone-big-number"]//*')
        location = image.location   # dict {'x': 2343, 'y': 23423}
        size = image.size           # dict {'width': 234, 'height': 234}

        self.crop(location, size)           

def main():
    b = Bot()

if __name__ == '__main__':
    main()

Пробовал явное ожидание, wait, циклы.

Вопрос задан более трёх лет назад
456 просмотров

5 комментариев

Подписаться 1 Средний 5 комментариев

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Skillbox

Python-разработчик

10 месяцев

Далее
ProductStar

Профессия: Python-разработчик

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Почему не работает await event.message.delete()?
- 1 подписчик
- вчера
- 160 просмотров
0

ответов
Python

Простой
Почему при установке iJulia у меня возникает ошибка, указывающая на отсутствие Conda?
- 1 подписчик
- вчера
- 51 просмотр
0

ответов
Python

Простой
Почему выходит ошибка?
- 1 подписчик
- 15 дек.
- 165 просмотров
2

ответа
Python

+1 ещё

Средний
Разработка самообучающегося бота. Как лучше настроить экранное зрение?
- 2 подписчика
- 14 дек.
- 161 просмотр
1

ответ
Python

+2 ещё

Простой
Как получить доступ к элементам внутри shadow-root (closed)?
- 1 подписчик
- 09 дек.
- 117 просмотров
1

ответ
Python

+1 ещё

Простой
Как повысить читабельность кода?
- 1 подписчик
- 08 дек.
- 201 просмотр
0

ответов
Парсинг

Простой
Видит ли администрация сайта сканирование,и можно ли скрыть?
- 1 подписчик
- 07 дек.
- 392 просмотра
2

ответа
Python

Простой
Как получить конкретный атрибут приложенный в обьект?
- 1 подписчик
- 28 нояб.
- 229 просмотров
1

ответ
Python

Простой
Как сохранить курсор в строке ввода при перезапуске explorer.exe?
- 1 подписчик
- 28 нояб.
- 151 просмотр
1

ответ
Python

Простой
Ошибка IndexError: string index out of range в написании реализации системы Линденмайера – от чего происходит и как исправить?
- 1 подписчик
- 27 нояб.
- 153 просмотра
1

ответ
Показать ещё Загружается…

Специалист по API и автоматизации данных (Google Apps Script / Python)

Агентство ШОЛЬЧЕВ

До 100 000 ₽

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python Software Engineer - ML/LLM

Ennabl • Лимассол

от 650 000 ₽

Сергей Паньков, Извините,не понял.
Чего потом с телефонами делать будете? Распечатаете и в рамочку?
ScriptKiddo, Нет,просто остался без дохода,надо как то зарабатывать.

Answer 1 · 2020-06-10 21:31:06

Как вариант собрать список ссылок для обхода в файл и через перебор строк запускать парсинг.

with open('urls.txt', 'r') as f:
for i in f:
....
self.driver.get(str(i))
...

Как спарсить информацию с сайта, если есть пагинация?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт