Selenium бот для парсинга статей накручивает просмотры, как избежать?
написал бота на Python с использованием библиотеки Selenium для парсинга статей из Яндекс Дзена и он успешно работает, но вот только он начинает крутить просмотры статьям, это плохо.
Мне дали теорию что это из-за того что Selenium меняет IP адрес бота или как-то так, что-то подобное и поэтому каждая перезагрузка страницы ( а она там обязательная ) это как новый пользователь следовательно новый просмотр каждую минуту.
Как исправить можно?
Не надо лепить как можно больше тэгов.
См.п.3.1 Регламента. Также обратите внимание на п.3.4, 3.6, 3.8.
Причесал ваш вопрос, посмотрите, как примерно он должен выглядеть с учетом указанных пунктов Регламента.
Когда вы регистрировались, вы обещали выполнять Регламент. Если вы будете продолжать нарушать Регламент, ваши вопросы могут быть удалены, а аккаунт заблокирован модераторами временно или навсегда.
Будьте благоразумны.
Если я Вас правильно понял , то скорее всего один из хороших вариантов - записать нужные вам данные из статьи после первого же парсинга.
Думаю , что один лишний просмотр вам не помешает
Хм, может неправильно поняли) Или правильно..
Что нужно: каждую минуту проверять, появилась ли новая статья на канале Дзена
Если появилась то парсим ее заголовок, мини описание и ссылку и кидаем все это в тг канал
Если не появилась то ждем еще минуту. Так как в процессе работы бота он открывает браузер как человек и смотрит новые статьи, то чтобы появилась новая статья на странице необходимо ее перезагрузить. Он перезагружает - появляется новый просмотр. За это бан)
Что бот делает: он как и положено открывает браузер ( без этого никуда ), парсит последнюю статью ( заголовок, ссылка там ), ждет дальше минуту, через минуту перезагружает браузер и если статья не появилась новая (т.е. уже такую парсили) то ждем еще и перезагружаем => добавляем просмотры лишние. В общем, бот делает то что нужно.
Но Селениум, библиотека на которой делали ( единственная рабочая с Дзеном ) видимо меняет АйПи адрес бота и каждый заход на страницу или перезагрузка считается за нового пользователя