Странные боты с включенным javascript

Доброго вечера, хабравчане.

Со второго сентября наблюдаю у себя в проекте интересную картину: по сайту непрерывно ходят боты, по 1-2 запроса в секунду (100к+ просмотров в сутки), судя по аналитике. Особенности этих ботов:
— Игнорируют robots.txt.
— Представляются исключительно как IE6-8.
— Ведут себя как полноценный браузер: выполняют javascript, принимают cookie и пр.
— Открывают ровно по 2 страницы за сессию (затем сбрасывают cookie?), переходят по ссылкам с главной.
— Не отправляют (даже не пытаются) формы.
— Географически заходы идут со всего мира, но большая часть из NY.

Сколько-нибудь ощутимой нагрузки они не создают, но зато портят аналитику. Да и интересно, что это и кому это надо? Раньше как-то не сталкивался.
Подскажете?

UPD: Посмотрел по логам на сервере, боты делают по примерно 5-6 запросов в секунду. В заголовках ничего необычного не нашел, чтобы безопасно отсеять не задев пользователей.
  • Вопрос задан
  • 6177 просмотров
Пригласить эксперта
Ответы на вопрос 6
@egorinsk
Интересная тема.

Может быть, какие-то показатели накручивают, например, переходы из поисковиков? Может, в этих ИЕ установлены тулбары и накручивают цифры в них? Может, проверяют ваш сайт на нагрузку?

Поймать бота можно попробовать сделав невидимую (через CSS) ссылку за краем экрана. Человек по ней не кликнет, а бот, перебирающий HTML-код или анализирующий дерево DOM, попадется. Можно попробовать слушать событие mousemove — живой человек двигает мышкой, в отличие от бота.

Также, может стоит померять расположение окна на экране у этих ботов? (наример, как описано тут: stackoverflow.com/a/504097 ). Ведь если это реальный ИЕ, управляемый вирусом, то скорее всего окно задвинуто за край экрана, чтобы не мешать пользователю.
Ответ написан
dm9
@dm9
Да, у себя тоже похожее замечал.
Часть роботов смог вырубить, используя вот этот сервис: www.stopforumspam.com
Пример обращения к API: www.stopforumspam.com/api?f=json&unix&confidence&ip=8.8.8.8
Правда, там ограничение до 20000 запросов в сутки. Если использовать массовые запросы, можно проверить до 100000 IP в сутки. Мне хватает :)
Из недостатков — они работают именно с отдельными IP. Когда просматриваю логи «руками», достаточно очевидно, что некоторые запросы идут из той же подсети, и формируются теми же роботами. Но сервис этого не учитывает. Допилить это, анализируя подсети, руки не дошли пока…
Ответ написан
vinograd19
@vinograd19
некоторые боты не хотят грузить картинки. Попробуйте посмотреть, грузят ли ваши.
Ответ написан
Комментировать
Они много чего могут делать. Скажем парсить вас, если без js не вариант или слишком мутарно, или могут скажем рекламу скликивать контестную.
Ответ написан
Mendel
@Mendel
PHP-developer
Чьи AS? Это рученые сервера или зомби рабочие станции?
В порядке бреда — может тренируют зомбаков? т.е. как вариант хождение ботов по нормальным сайтам для того чтобы набить статистику посещения этими ботами разных сайтов, чтобы поисковики воспринимали ботов более правдоподобно.
Еще как вариант — склики рекламы для получения бана у рекламных сетей…
Попробуйте сами проверить насколько рабочий у них жс. Может просто обманывают проверку у статистики?
Как вариант испытание ботов.
Ответ написан
ak40u
@ak40u
Столкнулся с такой же проблемой - 80% моего трафика это боты. Они могут быть с разных стран, но в основном США. Могут быть direct, а могут приходить с гугла. Но объединяет их вот что:

1. Не двигается мышь в вебвизоре.

2. Можно подумать, что люди с планшетом, но страница не скролится на протяжении всей сессии.

3. Бот приходит на одну из страниц, открывает еще одну и сессия заканчивается.

4. Средняя продолжительность их сессий 20-30 секунд.

Как их отвадить с сайта?
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы