Как выполнить Olx парсинг номера?

Question

Артем Капсамун @Art5

Python Разработчик

Как выполнить Olx парсинг номера?

Здравствуйте.

Не могу спарсить номер телефона olx.

Код:

import asyncio
import aiohttp
import csv
from bs4 import BeautifulSoup
from tqdm import tqdm

HEADERS = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/121.0.0.0 Safari/537.36"
}

# Читаем список ссылок
with open('product_links.txt', 'r') as f:
    links = [line.strip() for line in f]

sem = asyncio.Semaphore(30)  # Лимит одновременных запросов

async def fetch(session, url):
    async with sem:
        try:
            async with session.get(url, headers=HEADERS, timeout=10) as response:
                return await response.text()
        except Exception as e:
            print(f"[Ошибка запроса] {url}: {e}")
            return None

async def get_phone_number(session, ad_id):
    api_url = f'https://www.olx.ua/api/v1/offers/{ad_id}/phones/'
    async with sem:
        try:
            async with session.get(api_url, headers=HEADERS, timeout=10) as response:
                if response.status == 200:
                    data = await response.json()
                    phones = data.get("data", {}).get("phones", [])
                    return phones[0] if phones else "Нет номера"
        except Exception as e:
            print(f"[Ошибка запроса] {api_url}: {e}")
            return "Ошибка запроса"
    return "Нет номера"

def get_subcategory(soup):
    category_tag = soup.select_one(
        "div#hydrate-root div.css-1ek5um8 div.css-118kolg div.css-16gd35i "
        "div.css-6rrh1l nav[role='navigation'] ol.css-xv75xi li.css-7dfllt:nth-of-type(4) a.css-tyi2d1"
    )
    return category_tag.get_text(strip=True) if category_tag else "Неизвестно"

def get_ad_id(soup):
    id_tag = soup.select_one(
        "div#hydrate-root div.css-1ek5um8 div.css-118kolg div.css-1d90tha "
        "div.css-n9feq4 div.css-1wws9er div.css-cgp8kk div.css-ayk4fp span.css-1i121pa"
    )
    return id_tag.get_text(strip=True).split(":")[1] if id_tag else None

async def process_link(session, link):
    html = await fetch(session, link)
    if not html:
        return None

    soup = BeautifulSoup(html, 'html.parser')
    ad_id = get_ad_id(soup)
    if not ad_id:
        return None

    phone = await get_phone_number(session, ad_id)
    subcategory = get_subcategory(soup)

    return [phone, subcategory, link]

async def main():
    connector = aiohttp.TCPConnector(limit=100)
    async with aiohttp.ClientSession(connector=connector) as session:
        tasks = [process_link(session, link) for link in links]
        results = []

        for future in tqdm(asyncio.as_completed(tasks), total=len(links), desc="Обработка"):
            result = await future
            if result:
                results.append(result)

        with open('ads_data.csv', 'w', newline='', encoding='utf-8') as csvfile:
            writer = csv.writer(csvfile)
            writer.writerow(['Номер телефона', 'Подкатегория', 'Ссылка'])
            writer.writerows(results)

if __name__ == '__main__':
    asyncio.run(main())

Вопрос задан 08 мар.
899 просмотров

12 комментариев

Подписаться 3 Средний 12 комментариев

Михаил Р. @Mike_Ro Куратор тега Python

не могу спарсить номер телефона olx

Печально, а проблема то в чем?

Написано 08 мар.
Артем Капсамун @Art5 Автор вопроса

Михаил Р., парситься только 3 номера телефона
а надо 4000

Написано 08 мар.
Михаил Р. @Mike_Ro Куратор тега Python

Капсамун Артем, отладка что говорит?

Написано 08 мар.
Артем Капсамун @Art5 Автор вопроса

Михаил Р., на api через несколько входов пишет что обнаружили подогрительную акивность

Написано 08 мар.
shurshur @shurshur

Капсамун Артем, логично, что сайт защищается от парсинга как может. Тут только сидеть ковыряться и искать подходы.

Написано 08 мар.
Артем Капсамун @Art5 Автор вопроса

shurshur, кто знает как работать с библиотекой pyolx?

Написано 08 мар.
shurshur @shurshur

Капсамун Артем, библиотеке 8 лет, скорее всего она уже давно не работает.

Да и если есть готовая библиотека в открытом доступе, то её не только обычные пользователи могут найти, но и сама площадка. И может что-то сделать, чтобы отлавливать библиотеку по её особенностям.

Написано 08 мар.
shurshur @shurshur

Капсамун Артем, библиотеке 8 лет, скорее всего она уже давно не работает.

Да и если есть готовая библиотека в открытом доступе, то её не только обычные пользователи могут найти, но и сама площадка. И может что-то сделать, чтобы отлавливать библиотеку по её особенностям.

Написано 08 мар.
Кот Абсолютный @CityCat4

shurshur, Скорее всего она именно это и сделала и банит :) Более того, я бы на месте площадки периодически нанимал был кого-нибудь с заказом спарсить мою же площадку (разумеется не говоря, что она моя), чтобы посмотреть что получится.

Написано 08 мар.
Артем Капсамун @Art5 Автор вопроса

shurshur, как вообще без селениум можно спарсить номера телефонов?

Написано 08 мар.
shurshur @shurshur

Капсамун Артем, изучить, как устроен сайт, и воспроизвести его поведение без настоящего браузера.

Но нужно понимать, что это может быть сложно, и чем сложнее защита сайта, тем больше усилий придётся потратить. Плюс сайт может регулярно вносить изменения и их придётся отслеживать.

Достоинство инструментов типа Selenium именно в том, что он настоящий браузер и там не нужно всё это вручную делать.

Написано 08 мар.
Михаил Р. @Mike_Ro Куратор тега Python

Капсамун Артем,

как вообще без селениум можно спарсить номера телефонов?

Как парсить динамические сайты на python?

Написано 10 мар.

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Skillbox

Python-разработчик

10 месяцев

Далее
ProductStar

Профессия: Python-разработчик

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

9 комментариев

Артем Капсамун @Art5 Автор вопроса

а в селениум ассинхронность есть?

Написано 09 мар.
shurshur @shurshur

Капсамун Артем, Selenium - это запуск полноценного браузера. Можно ли во вкладке браузера грузить сразу несколько сайтов одновременно?

Написано 09 мар.
Артем Капсамун @Art5 Автор вопроса

shurshur, оно будет синхронно работать
а мне надо чтобы сразу несколько парсило

Написано 10 мар.
shurshur @shurshur

Капсамун Артем, тогда несколько selenium запустить и на разных прокси.

Да, это больно. Но иначе парсер будет слишком очевиден и сайтозащиту ему не пройти никак.

Я бы рекомендовал бросить эту затею. Все прекрасно понимают, зачем такой интерес у многих пользователей к парсингу этого сайта и почему он так усиленно защищается ог этих действий. Интерес этот сложно назвать благовидным.

Написано 10 мар.
Михаил Р. @Mike_Ro Куратор тега Python

Довольный Айтишникъ

Использовать селениум и непубличные прокси

Мобильные или резидентские прокси вы имели ввиду?

Использовать селениум

непубличные прокси, через несколько запросов их менять, иначе сайт быстро определяет подозрительную активность

Селениум будет определен раньше, чем одинаковые прокси.

Иного варианта нет

Есть.

Написано 10 мар.
Довольный Айтишникъ @borisdenis

Михаил Р.,

Селениум будет определен раньше, чем одинаковые прокси

нет, всё настраивается, но да, придется поколдовать с профилем, чтоб он был не типичный

Мобильные или резидентские прокси вы имели ввиду?

Имел ввиду те, про которые не трубят - на каждом углу за 5 копеек сотня)))

Написано 10 мар.
Михаил Р. @Mike_Ro Куратор тега Python

Довольный Айтишникъ,

нет, всё настраивается

Нет, не все, а то, что "не настраивается", настроить используя селениум - нельзя.

придется поколдовать с профилем, чтоб он был не типичный

1 строка кода, с указанием расположения профиля, и что с ним колдовать?

Имел ввиду те, про которые не трубят - на каждом углу за 5 копеек сотня)))

Вот как раз те, которые не резидентские или мобильные - их банят на раз два, и не могут они стоить дешево.

Написано 10 мар.
Довольный Айтишникъ @borisdenis

Михаил Р.,

1 строка кода, с указанием расположения профиля, и что с ним колдовать?

указать на профиль не сложно, а вот сделать его таким, чтоб не угадывался с первого раза селениум - нужно некоторое время.

Написано 10 мар.
Михаил Р. @Mike_Ro Куратор тега Python

Довольный Айтишникъ, вы про профиль браузера? Мне очень интересно, что можно сделать в профиле браузера, чтобы это повлияло на то, что будет видно анти-бот системе.

Написано 10 мар.

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+2 ещё

Простой
Как получить доступ к элементам внутри shadow-root (closed)?
- 1 подписчик
- 09 дек.
- 100 просмотров
1

ответ
Python

+1 ещё

Простой
Как повысить читабельность кода?
- 1 подписчик
- 08 дек.
- 160 просмотров
0

ответов
Парсинг

Простой
Видит ли администрация сайта сканирование,и можно ли скрыть?
- 1 подписчик
- 07 дек.
- 372 просмотра
2

ответа
Python

Простой
Как получить конкретный атрибут приложенный в обьект?
- 1 подписчик
- 28 нояб.
- 214 просмотров
1

ответ
Python

Простой
Как сохранить курсор в строке ввода при перезапуске explorer.exe?
- 1 подписчик
- 28 нояб.
- 142 просмотра
1

ответ
Python

Простой
Ошибка IndexError: string index out of range в написании реализации системы Линденмайера – от чего происходит и как исправить?
- 1 подписчик
- 27 нояб.
- 139 просмотров
1

ответ
Парсинг

Средний
Вся сложность парсинга Авито. Как это сделать правильно?
- 1 подписчик
- 26 нояб.
- 252 просмотра
1

ответ
Python

+1 ещё

Простой
Как сделать рассылку в viber в фоне?
- 1 подписчик
- 22 нояб.
- 106 просмотров
0

ответов
Telegram

+1 ещё

Простой
Как спарсить подписчиков своего телеграм канала?
- 1 подписчик
- 20 нояб.
- 527 просмотров
2

ответа
Python

Простой
Каким образом я могу запускать привязанных ботов в основном, что-бы основной loop не ломался и не дублировался?
- 1 подписчик
- 15 нояб.
- 253 просмотра
1

ответ
Показать ещё Загружается…

Специалист по API и автоматизации данных (Google Apps Script / Python)

Агентство ШОЛЬЧЕВ

До 100 000 ₽

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python Software Engineer - ML/LLM

Ennabl • Лимассол

от 650 000 ₽

не могу спарсить номер телефона olx

Печально, а проблема то в чем?
Михаил Р., парситься только 3 номера телефона
а надо 4000
Капсамун Артем, отладка что говорит?
Михаил Р., на api через несколько входов пишет что обнаружили подогрительную акивность
Капсамун Артем, логично, что сайт защищается от парсинга как может. Тут только сидеть ковыряться и искать подходы.
shurshur, кто знает как работать с библиотекой pyolx?
Капсамун Артем, библиотеке 8 лет, скорее всего она уже давно не работает.

Да и если есть готовая библиотека в открытом доступе, то её не только обычные пользователи могут найти, но и сама площадка. И может что-то сделать, чтобы отлавливать библиотеку по её особенностям.
shurshur, Скорее всего она именно это и сделала и банит :) Более того, я бы на месте площадки периодически нанимал был кого-нибудь с заказом спарсить мою же площадку (разумеется не говоря, что она моя), чтобы посмотреть что получится.
shurshur, как вообще без селениум можно спарсить номера телефонов?
Капсамун Артем, изучить, как устроен сайт, и воспроизвести его поведение без настоящего браузера.

Но нужно понимать, что это может быть сложно, и чем сложнее защита сайта, тем больше усилий придётся потратить. Плюс сайт может регулярно вносить изменения и их придётся отслеживать.

Достоинство инструментов типа Selenium именно в том, что он настоящий браузер и там не нужно всё это вручную делать.
Капсамун Артем,

как вообще без селениум можно спарсить номера телефонов?

Как парсить динамические сайты на python?

Answer 1 · 2025-03-09 00:18:52

Использовать селениум и непубличные прокси, через несколько запросов их менять, иначе сайт быстро определяет подозрительную активность и блокирует все запросы. Иного варианта нет.

Answer 2 · 2025-03-10 14:49:31

- Selenium не нужен, он легко определяется и слишком много жрет. Используйте Playwright или Zendriver.
- Используйте реалистичный отпечаток браузера.
- Используйте мобильные прокси.
- Используйте реалистичное движение курсором мыши или сенсорные действия (для смартфонов).
- Нужна асинхронность? - запускайте Playwright или Zendriver асинхронно, используя Asyncio.

Обнаружат ли вас? Простая-средняя защита - нет, сложная да.

Как выполнить Olx парсинг номера?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт