Ответы пользователя Михаил Р. по тегу «Python»

Можно ли получить доступ к сайту?

Михаил Р. @Mike_Ro Куратор тега Python

Python, JS, WordPress, SEO, Bots, Adversting

на той же машине

На винде или линуксе? Если на винде и там было все ок, то возможно, стоит смотреть в сторону ttl и tls fingerprinting Jja3/4 (возможно, dns банит все линуксы по дефолту).

403 Forbidden, Guru meditation прилетает мгновенно при первом же driver.get(). Браузер даже не успевает начать рендерить страницу.

Сделайте скрин страницы с "403 Forbidden, Guru meditation", может там анти-бот система вас ловит.

Через CDP подменял WebGL Vendor/Renderer

Через CDP нельзя изменить WebGL параметры в обычном браузере. Вы выполняете js скрипт, который переопределяет стандартное поведение встроенного объекта браузера, что вполне уверенно определяется средней анти-бот системой.

Если бы я пытался определить бота из под докера, я бы в первую очередь смотрел на пакет шрифтов, client hints и глубину цветов дисплея.

Но я думаю, что проблема в какой то мелочи. Попробуйте из под докера зайти на browserscan.net, и спустя 20 сек сделать скрин всей страницы, затем, сравните с тем, какие данный отображаются на том же сайте не из под докера, ищите расхождения.

Ответ написан 05 мар.

2 комментария

Как получить доступ к элементам внутри shadow-root (closed)?

Михаил Р. @Mike_Ro Куратор тега Python

Python, JS, WordPress, SEO, Bots, Adversting

Полазив по интернету, многие пишут что попасть в закрытый shadow-root не возможно

Из playwright невозможно.

использую анти-детект браузер camoufox

Camoufox имеет встроенный метод решения данной проблема - disable_coop=True. Опция отключает cross-origin-opener-policy, что позволяет кликать на элементы в cross origin фреймах, как в случае с клаудфлэр.
https://camoufox.com/python/usage/#toggles

camoufox (мощная надстройка над playwright) - но даже с ним и подключенными британскими прокси - меня ловит cloudflare

camoufox это паблик анти-детект браузер, он помогает со слабой, ну максимум средней защитой.

Ответ написан 09 дек. 2025

2 комментария

FastAPI Prometheus_fastapi_instrumentator где мне следует разместить?

Михаил Р. @Mike_Ro Куратор тега Python

Python, JS, WordPress, SEO, Bots, Adversting

где мне следует разместить Prometheus_instrumentator — внутри или снаружи lifespan?

Снаружи lifespan, чтобы он был доступен на протяжении всего жизненного цикла приложения. Но instrumentator.instrument нужно вызывать после создания экземпляра fastapi, но до запуска самого приложения.

Ответ написан 09 окт. 2025

1 комментарий

Из-за чего возникает ошибка неверный дескриптор?

Михаил Р. @Mike_Ro Куратор тега Python

Python, JS, WordPress, SEO, Bots, Adversting

Вероятно код парсера падает до явного закрытия сессии, сборщик мусора python удаляет все ссылки на уже не нужный объект (python вызывает __del__ для объекта driver), затем вы явно пытаетесь закрыть несуществующий объект. Чтобы этой проблемы не было, используйте исключения и закрывайте сессия предсказуемо, либо используйте контекстный менеджер with (хотя автор и сообщает, что это больше не требуется), тогда явно ничего не нужно будет закрывать:

import undetected_chromedriver as uc

with uc.Chrome() as driver:
    pass

print("Успех или ошибка? Сессия все равно успешно закрыта!")

Если не помогло, то вот еще решение https://github.com/ultrafunkamsterdam/undetected-c...

Ответ написан 19 авг. 2025

6 комментариев

Как анти-бот системы определяют ботов и как от них защищаться?

Михаил Р. @Mike_Ro Куратор тега Python

Python, JS, WordPress, SEO, Bots, Adversting

Если я отправлю гет запрос из консоли то увидит-ли меня сайт где именно я нахожусь?

Напрямую нет, но косвенно можно понять это по ip адресу исходящего запроса.

Если я будут использовать селениум то увидит-ли меня сайт где именно я нахожусь?

Напрямую нет, но косвенно можно понять это по ip адресу + гуглите, что такое утечки dns и как можно определить настоящий ip (минуя прокси) через webrtc.

Селениум хороший анти-детект браузер? Видел еще playwright он лучше?

Selenium - это вообще не антидетект браузер, а лишь программа, которая использует browser-driver для управления браузером. Selenium + undetected-chromedriver простая защита сайта не обнаружит, но вот средненькие антибот системы он уже часто не проходит. Playwright хуже определяется антибот системами.

Как обычно парсят сайты со сложной защитой? Где продаются такие боты?

Пишут свои приватные реализации ботов, которые обычно не продаются, т.к. прибыль от бота сильно выше его разовых продаж, а как только его продадут, так о нем сразу узнают те, кто пишет антибот системы. Либо используют готовые паблик сервисы, которые предоставляют api доступ по подписке с приличной стоимостью, но они не всегда в состояние преодолеть сложную защиту, т.к. этими же сервисами пользуются и те, кто пишут эту самую антибот защиту.

Как анти-бот системы определяют ботов наверное есть какие отличительные признаки?

Профессионально обнаружением ботов занимаются отдельные команды или даже целые компании (Radware, DataDome, Cloudflare, Imperva, Arkose Labs, HUMAN Security, Akamai, hCaptcha итп). Обнаружение сводится к прямому и косвенному методам.

Прямые методы обнаружения:
- Частота запросов и "доверие" (trust) к конкретному ip.
- Проверка заголовков User-Agent. Заголовки от iphone, версия браузера от андройда, а размер дисплея от ноута - надежно!
- Отпечатки рукопожатий TLS/QUIC (векторы JA3/JA4, ALPN, расширенный порядок).
- Проверка выполнения JS.
- Обнаружение признаков использования драйверов браузеров (window.navigator.webdriver, window.document.__webdriver_script_fn итп), открытости DevTools итп.
- Шрифты: через js получают список шрифтов (откуда у вас Ubuntu шрифт на Андройде?), затем выборочно печатают на canvas изображение нужным шрифтом или печатают невидимый шрифт без канваса (применяют css свойство с найденным шрифтом), затем замеряют размеры результата и сверяют его с эталоном.
- Видеокарта: через js рисуют на canvas невидимое изображение с цифрами, спецсимволами и смайликами, затем получают представление изображения в виде кода. Через WebGl можно нарисовать 3D изображение.
- Камера. Как это у вас 3 камеры на samsung a32, если их 4?
- Гироскоп, компас, акселерометр (все это без разрешения работает на андройде). Почему ваш гироскоп не двигается несколько минут подряд, хотя геолокация и ip gsm вышек меняются?
- Анализ аудио рендеринга без разрешения на доступ к аудио (используется только программный аудио стек), где собираются уникальные артефакты обработки звука в зависимости от аппаратного обеспечения. Генерируется аудиосигнал, который обрабатывается через цепочку фильтров и эффектов (динамическая компрессия, частотные изменения, реверберация, изменение частотной или амплитудной модуляции итп).
- Остальная проверка характеристик браузера->устройства: процессор, оператива, дисплей, плагины, часовой пояс, язык. У вас в браузере установлен русский язык, тайм-зона германии, последняя геолокация час назад в италии, а сейчас вы используете ip адрес гондураса, и как ему удается свайпать по НЕ сенсорному дисплею? - чистокровный человек, пропускаем! ;)
= Собираем данные, хэшируем и получают относительно уникальный отпечаток (fingerprint). Уникальность заявляется разная, вплоть до 99%.

Косвенные методы обнаружения:
- Частота запросов и "доверие" (trust) к конкретному ip. Внезапно начался наплыв пользователей, да и еще примерно с одинаковыми характеристиками устройств, при этом хозяин сайта не давал рекламы или как то привлекал пользователей...
- Нестандартный скролл/свайпы/клики у пользователей, ошибки и скорость ввода текста. Внезапно резко наплывшие пользователи стали скролить примерно до одного блока, делали 3 свайпа по 5-6 точек в каждом, хотя до этого все скролили по разному...
- Нестандартная реакция на всплывающие окна. Скролл поверх фиксированного окна - бесценно... ;)
- Нестандартная последовательности посещенных страниц.
- Нестандартное количество проведенного времени на странице.
- Клики по невидимым для живого человека ссылкам, заполнение невидимых полей и отправка формы, когда она не может быть отправлена, в результат не верной js валидации полей - это вообще не стареющая классика.
- Геолокация - только с разрешения, но после разрешения можно получить много косвенных данных для анализа. Какая точная у вас геолокация, всегда до метра, и прыгает всегда по 10 метров, а у других на таком же устройстве все дергается как го*но в проруби...
= Собираем данные, заливаем в нейронку и сравниваем с эталонными пользователями.

Это лишь самые распространенные методы обнаружения, которые используют большинство топовых антибот систем.

Ответ написан 13 авг. 2025

6 комментариев

Как вставить переменную в re.sub?

Михаил Р. @Mike_Ro Куратор тега Python

Python, JS, WordPress, SEO, Bots, Adversting

Несколько вариантов решения задачи:

import re

text = "ab b b b"
var = "b"

text1 = f"[^a-z]{var}"
print(re.sub(text1, "", text)) # ab

text2 = "[^a-z]{}".format(var)
print(re.sub(text2, "", text)) # ab

text3 = "[^a-z]" + var
print(re.sub(text3, "", text)) # ab

text4 = "[^a-z]%s" % var
print(re.sub(text4, "", text)) # ab

P.S. Примеры выше не используйте при формировании sql запросов, для этого используйте параметризованные запросы (prepared statements), либо t строки (python>=3.14):

text5 = t"[^a-z]{var}"
print(re.sub(text5, "", text)) # ab

Ответ написан 03 июл. 2025

Комментировать

Имеет ли жизнеспособность идея нового игрового движка на Python?

Михаил Р. @Mike_Ro Куратор тега Python

Python, JS, WordPress, SEO, Bots, Adversting

Может ли такой игровой движок иметь место быть и иметь популярность у инди разработчиков?

По умолчанию, инди и другие небольшие проекты используют unity, для проектов покрупнее используют unreal engine. Да и как pet проект - сомнительная затея, все таки python - это не про написание игр.

Ответ написан 17 июн. 2025

9 комментариев

Почему происходит Блокировка доступа при использовании Selenium для парсинга?

Михаил Р. @Mike_Ro Куратор тега Python

Python, JS, WordPress, SEO, Bots, Adversting

Использую официальный ChromeDriver (версия соответствует браузеру).

Разумеется, в ином случае вы пришли бы с другой ошибкой.

Скрипт имитирует человеческое поведение:
Добавлены задержки между действиями.

Между какими действиями?

VPN и прокси не используются.

Печально.

Какие технические требования Ozon к автоматизированным запросам?

Не selenium + имитация человеческих действий + нормальный прокси.

Возможно ли получить API-доступ для таких задач?

Для каких? https://docs.ozon.ru/api/

Как легально реализовать сбор данных для личного использования?

Только через открытый api, все остальное - нарушение закона.

Ответ написан 16 июн. 2025

1 комментарий

Что лучше выбрать для интерфейса программы?

Михаил Р. @Mike_Ro Куратор тега Python

Python, JS, WordPress, SEO, Bots, Adversting

Первый, что лучше на сегодняшний день, веб или desktop.

Если в рамках соц.сети - смотрите на успешных конкурентов, а у них:
1. Веб: SPA/SSR (React/Vue).
2. Мобильное приложение (Kotlin/Swift или Flutter).

И второй вопрос, про то, что выбрать для пользовательского интерфейса: flet, HTML/CSS/JS, QT.

- Или React/Vue + SCSS + (Django + DRF или FastAPI).
- Или (если нет знаний современного фронта) то vanilla JS + SCSS + все это рендерить на бэке (Django или FastAPI) и отдавать посетителю готовые страницы.

Собираюсь разработать пет-проект

Пет-проект с целью чего? Если найти работу, то QT/Flet/Desktop + Python = экзотика в мире заказчика (в вакансиях или на фрилансе) вообще, и экзотика*100 в мире заказчика в соц.сетях и подобных проектах.

будет намного производительней

Python не про производительность.

Ответ написан более года назад

Комментировать

Как выбрать нужный ответ из JSON файла?

Михаил Р. @Mike_Ro Куратор тега Python

Python, JS, WordPress, SEO, Bots, Adversting

Как вариант (добавить проверок и исключений):

ERRORS_FILE = 'error.json'
IMAGES = 'error_images'

error_data = {}

with open(ERRORS_FILE, 'r', encoding='utf-8') as f:
    error_data = json.load(f)

# Код бота:

error_code = call.data
error_description = error_data.get(error_code)

# bot.send_message(call.message.chat.id, "Ошибка 501")
bot.send_message(call.message.chat.id, f"Ошибка {error_code}: {error_description}")

# photo = open('501.jpg', 'rb')
image_path = os.path.join(IMAGES, f"{error_code}.jpg")
with open(image_path, 'rb') as photo:
    bot.send_photo(call.message.chat.id, photo, caption=error_code)

Так же, я бы подключал json файл 1 раз при запуске бота, а не каждый раз при нажатие его кнопок.

Ответ написан более года назад

Комментировать

Как сделать, чтобы при парсинге bs4 как то надо нажать на кнопку "показать еще", чтобы подгрузило еще 20 постов?

Михаил Р. @Mike_Ro Куратор тега Python

Python, JS, WordPress, SEO, Bots, Adversting

Как сделать, чтобы при парсинге bs4 как то надо нажать на кнопку

Никак, bs4 как и requests лишь получают то, что отдал сервер при первом ответе. Вы можете попробовать исследовать то, какой запрос на сервер отправляется, при нажатии этой кнопки, а затем отправлять запросы из bs4 напрямую к этому серверу. А вообще, для таких задач (нажатие кнопок на сайте итп), используйте Selenium или CDP.

так как я учусь пасингу в bs4

А чего там учить?

Ответ написан более года назад

Комментировать

Как с помощью Selenium на Python найти элемент html страницы, который расположен в #shadow-root (open)?

Михаил Р. @Mike_Ro Куратор тега Python

Python, JS, WordPress, SEO, Bots, Adversting

How to automate shadow DOM elements using selenium?

Если коротко, то порядок следующий:
1. Сначала нужно найти в основном dom тот элемент, к которому прикреплен shadow root.
2. У п1. нужно получить свойство .shadow_root.
3. И вот уже у п2. нужно вызывать его собственный метод find_element, чтобы найти нужный элемент внутри него.

Или так:
Локатор не находит элемент на сайте, хотя набран верно, пробовал разные варианты, не помогает, в чём проблема?

Ответ написан более года назад

3 комментария

Как работать с api сервиса на localhost?

Михаил Р. @Mike_Ro Куратор тега Python

Python, JS, WordPress, SEO, Bots, Adversting

А я не хочу постоянно закидывать код на сервер что бы протестировать работает он или нет.

Сурово!

Как совместить локальную разработку и прием данных с внешнего сервиса?

Как вариант, можно использовать обратный прокси по типу ngrok:
1. Регаемся в ngrok и качаем их приложение.
2. Указываем в ngrok, какой порт на локалке слушать, пусть будет :8080 ngrok http http://localhost:8080.
3. Из консоли п2. копируем url обратного прокси, он будет похож на что то вроде https://9abc0-11-22-333-44.ngrok-free.app.
4. Поднимаем свое приложение-сервер локально на порту из п2.
5. В api сервиса указываем адрес из п3, например: https://9abc0-11-22-333-44.ngrok-free.app, с роутами из вашего приложения - это будет выглядеть примерно так:

https://9abc0-11-22-333-44.ngrok-free.app/api/route-name

.

В результате, внешний api сервис сможет отправить данные в ваше приложение, которое запущенно у вас локально.

P.S. запятые уже включены в тариф, используйте их иногда :)

Ответ написан более года назад

Комментировать

Почему Linux забил на --user-data-dir при запуске Selenium?

Михаил Р. @Mike_Ro Куратор тега Python

Python, JS, WordPress, SEO, Bots, Adversting

А если прочитать ошибку? Один экземпляр хрома уже использует этот профиль. Кильните процесс и начните заново, а также оберните в try except сам код, а quit в finally, чтобы больше не оставалось висячих процессов.

Ответ написан более года назад

19 комментариев

Как проверять кодом наличие конкретно той или иной библиотеки?

Михаил Р. @Mike_Ro Куратор тега Python

Python, JS, WordPress, SEO, Bots, Adversting

как проверять кодом есть ли нужная библиотека на пайтоне?

В локальном окружении? Тогда примерно так:

import importlib.util
print(importlib.util.find_spec('kek') is not None) # False

Check if Python Package is installed

Ответ написан более года назад

Комментировать

Как выполнить Olx парсинг номера?

Михаил Р. @Mike_Ro Куратор тега Python

Python, JS, WordPress, SEO, Bots, Adversting

- Selenium не нужен, он легко определяется и слишком много жрет. Используйте Playwright или Zendriver.
- Используйте реалистичный отпечаток браузера.
- Используйте мобильные прокси.
- Используйте реалистичное движение курсором мыши или сенсорные действия (для смартфонов).
- Нужна асинхронность? - запускайте Playwright или Zendriver асинхронно, используя Asyncio.

Обнаружат ли вас? Простая-средняя защита - нет, сложная да.

Ответ написан более года назад

Комментировать

Как анализировать востребованность технологии?

Михаил Р. @Mike_Ro Куратор тега Python

Python, JS, WordPress, SEO, Bots, Adversting

Обратил внимание, что последние пару лет все чаще слышу про fastapi, насколько он уже созрел на рынке? "Слышать" это одно (субъективщина, хайп и все такие), может есть какие-то метрики, как определять востребованность конкретной технологии относительно другой, например django и fastapi

Я придерживаюсь 2х критериев для ЯП, которые используются в малых-средний проектах, это сайт с поиском работы (hh), и фриланс площадки. Вот инфа по hh на 10.03.2025:

Без взаимоисключений:
- Django: 184 вакансии.
- FastAPI: 172 вакансии.

Взаимоисключающие django и fastapi:
- Django: 100 вакансий.
- FastAPI: 89 вакансий.

Всего пару лет назад FastAPI составлял 30% от django, сейчас же они сравнялись (тенденция на лицо), на фрилансе FastAPI так же часто мелькает, а учитывая, что это относительно django новая технология, то на него обязательно стоит обратить внимание, т.к. вполне вероятно, что его рост на рынке продолжится.

FastAPI изначально идет практически голым по функциональности, в отличие от django, т.е. разработчик должен иметь более высокую квалификацию, чтобы выполнять те же самые задачи. Скорее всего, это отразится на стоимости конечного проекта, хотя и производительность проекта будет сильно больше.

UPD, инфа по hh на 09.10.2025:

Без взаимоисключений:
- Django: 119 вакансии.
- FastAPI: 151 вакансии.

Взаимоисключающие django и fastapi:
- Django: 40 вакансий.
- FastAPI: 72 вакансий.

Ответ написан более года назад

1 комментарий

Есть ли в питоне файл проекта?

Михаил Р. @Mike_Ro Куратор тега Python

Python, JS, WordPress, SEO, Bots, Adversting

Нет такого, единственное что есть зрелое, так это pyproject.toml и poetry.lock (poetry), в котором описывается версия python и необходимых библиотек для текущего проекта. А от циклических импортов можно спастись лишь руками, заранее грамотно проектируя проект и вынося нужный функционал в модули и пакеты.

Ответ написан более года назад

1 комментарий

Как ускорить сканирование python?

Михаил Р. @Mike_Ro Куратор тега Python

Python, JS, WordPress, SEO, Bots, Adversting

Как варианты:
1. Обязательно ли искать оранжевый индикатор во всей области изображения, а не в одном ожидаемом месте?
2. mss.mss() - обязательно ли каждую итерацию захватывать экран заново?
3. Преобразование в hsv точно нужно?
4. time.sleep(0.05) # Проверяем цвет каждые 100 мс - что то не клеится в Ваших показаниях, на основание чего указано 50мс?

Короче, профилировщик в зубы и бегом искать узкие места самостоятельно.

Ответ написан более года назад

1 комментарий

Как осуществить запрос к API с помощью Python?

Михаил Р. @Mike_Ro Куратор тега Python

Python, JS, WordPress, SEO, Bots, Adversting

Tenacity

Tenacity is an Apache 2.0 licensed general-purpose retrying library, written in Python, to simplify the task of adding retry behavior to just about anything. It originates from a fork of retrying which is sadly no longer maintained.

Под Вашу задачу, это будет выглядеть примерно так:

import requests
from tenacity import retry, stop_after_attempt, wait_fixed

@retry(stop=stop_after_attempt(3), wait=wait_fixed(3))
def fetch():
    res = requests.get("https://site.ru")
    # res = requests.get("https://site.ru", params={"key": "value"})
    if res.status_code != 200:
        raise requests.exceptions.HTTPError(res.status_code)

    data = res.json()
    return data
    # return data["link"]

print(fetch())

- wait=wait_fixed(3) - ждать 2 секунды между попытками.
- stop=stop_after_attempt(3) - остановка после 3х попыток.

Ответ написан более года назад

Комментировать

Войдите на сайт