Чем осуществить парсер/граббер защищенного сайта?

Question

Q Q @botaniQQQ

Q

Чем осуществить парсер/граббер защищенного сайта?

Привет.

Есть сайт, который достаточно хорошо отслеживает ботов и соответственно вводит ограничение. Собственно нужен только механизм получение станицы сайта для сохранения, сам парсинг уже реализован.

Сайт моментально блокировал ботов, которые не принимают cookies, однако сейчас блокирует практически все запросы.

Решение было найдено в использовании PhantomJS, однако загрузка страницы можно достигать 1-2 сек, это довольно долго, с учетом того, что нужно сохранять миллионы страниц.

Есть еще варианты?

Вопрос задан более трёх лет назад
4514 просмотров

4 комментария

Подписаться 19 Оценить 4 комментария

Помогут разобраться в теме Все курсы

Нетология

Node.js для backend-разработки

6 месяцев

Далее
Яндекс Практикум

Бэкенд на Node.js для фронтенд-разработчиков

3 месяца

Далее
Skillbox

Node.js

2 месяца

Далее

Решения вопроса 3

2 комментария

12 комментариев

Комментировать

Пригласить эксперта

Ответы на вопрос 7

Комментировать

1 комментарий

Комментировать

1 комментарий

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Node.js

+1 ещё

Простой
Можно ли получить ссылку на профиль пользователя по id?
- 1 подписчик
- 04 янв.
- 274 просмотра
2

ответа
Node.js

Простой
Почему не работает код?
- 1 подписчик
- 21 дек. 2025
- 138 просмотров
1

ответ
Парсинг

Простой
Видит ли администрация сайта сканирование,и можно ли скрыть?
- 1 подписчик
- 07 дек. 2025
- 434 просмотра
2

ответа
JavaScript

+1 ещё

Простой
Как идентифицировать проксированные ошибки?
- 1 подписчик
- 05 дек. 2025
- 161 просмотр
1

ответ
Парсинг

Средний
Вся сложность парсинга Авито. Как это сделать правильно?
- 1 подписчик
- 26 нояб. 2025
- 327 просмотров
1

ответ
Telegram

+1 ещё

Простой
Как спарсить подписчиков своего телеграм канала?
- 1 подписчик
- 20 нояб. 2025
- 670 просмотров
2

ответа
Веб-разработка

+1 ещё

Простой
Каким образом правильно сделать скрипт?
- 2 подписчика
- 15 нояб. 2025
- 454 просмотра
2

ответа
Node.js

+1 ещё

Простой
Какие есть пакеты для генерации уникальных, числовых идентификаторов длиной 10 цифр?
- 1 подписчик
- 10 нояб. 2025
- 306 просмотров
2

ответа
Node.js

+1 ещё

Простой
Перевод бэкенда с PHP на NodeJs?
- 1 подписчик
- 26 окт. 2025
- 495 просмотров
3

ответа
Node.js

+4 ещё

Простой
Как решить ситуацию с импортом файлов во время сборки проекта?
- 1 подписчик
- 15 окт. 2025
- 147 просмотров
0

ответов
Показать ещё Загружается…

Node.js разработчик (middle+/senior)

STARVELL

от 220 000 до 280 000 ₽

Frontend / фронтенд разработчик ( react.js + node.js ) удаленная работа

Nomadic Soft

от 1 600 до 2 000 $

Tech Lead Backend Developer (Node.js)

Icons8

от 350 000 ₽

Dark Hole: Спасибо, действительно для моей задачи есть API.

Answer 1 · 2016-11-30 18:45:41

Ну если человек сидит с одного IP и его не банят, значит надо сделать так, как будто по сайту ходит "человек".

Для этого предлагаю вспомнить общеизвестную задачу "банерокрутилку". Имеется N банеров. Их надо прокрутить каждый по 1 разу и за K секунд.

В вашем случае в качестве банеров выступают URL-ы. K секунд делим на Т url-ов и получаем время на каждую ссылку. Но. Чтобы внести не детерменированность, то делаем это с разными промежутками времени перед между очередной итерацией парсинга.

Посмотрите внимательно на вывод:

site.ru/?page1
site.ru/?page2
...
site.ru/?pageN .

Видите?

В этом решение сразу проглядывается цикл и это может быть достаточным основанием для распознования парсинга.

Как правило люди пишут "влоб" потому что головою думать не хотят!

Надо сделать "прогулку" по сайту так: site.ru/?page15, site.ru/?page179, site.ru/?page1, ... Одну страничку за 5 сек посмотрели, а другую 1минуту и т.д. Понаблюдайте за собою, как вы ходите по сайтам? Вы разве за 1-2 сек успеваете прочесть статью? Уверяю вас вы хаотично бродите по сайту. То в личные сообщения, то в избранные, то в поиск заглянете, то из выдачи поиска по какой-то статье. Вот и в парсинг вносите хаотичность

Конечный вывод в том, что вам нужно выбирать между:

Если хотите быстрый парсинг, значит больше прокси
Если хотите с одного IP, то придется пожертвовать временем работы

Answer 2 · 2016-12-01 00:31:37

Решение было найдено в использовании PhantomJS, однако загрузка страницы можно достигать 1-2 сек, это довольно долго, с учетом того, что нужно сохранять миллионы страниц.

Решение верное.
2секунды это долго, но если бот работает 24часа в сутки, то за сутки это 40тыс. страниц.
Соответственно 100ботов за сутки сделают 4млн страниц.

Answer 3 · 2016-12-01 14:34:19

Yandex.API+индивидуальные прокси+мультиаканты+платный апи(смотрите что дешевле обойдеться). Ну я б рекомендовал платное апи.

Answer 4 · 2016-11-30 18:22:00

Каждый день люди заходят на тостер и скидывают в ответах парсеры на миллионы страниц, да такие чтоб не банило.

Спарсить миллион страниц с сайта который ОЧЕНЬ не хочет этого это довольно таки сложная работа.
Либо не сложная, но долгая и/или дорогая.
Зачастую даже на этом можно построить бизнес, если вдруг сумеешь спарсить хоть что-то полезное и не забаниться.

Пока вы не понимаете адекватно сложность и объем этой работы и/или не можете её сделать - не стоит за это браться.

Короче используйте то что есть или платите деньги тем кто это умеет лучше.
Это не пара строк кода на тостере ответить.

Answer 5 · 2016-11-30 18:32:14

Есть система парсинга "Round-Robin".
Допустим, есть 3 сайта и на них туча URL.
Создаётся список урлов, чтобы временной интервал между парсингом URL с одного сайта был не менее 30 секунд.
Т.е.: Сайт1->Сайт2->Сайт3->Сайт1->Сайт2->Сайт3 и т.д.
Если быстрее происходит - ЖДЁТЕ!
После парсинга каждых 5-6 урлов (сессию и user-агента - сохраняем на протяжении парсинга этого интервала) на одном сайте - меняем IP также по "Round-Robin".

В итоге - Вы не создаёте нагрузки и не мешаете удалённому сайту нормально функционировать.

Answer 6 · 2016-12-01 14:01:01

Общий концепт может быть таким :
1. Использовать phantomjs, через локальный прокси.
2. Локальный прокси обеспечивает сохранение всех запросов к требуемой странице в формате HAR.
3. Поиск общих последовательностей запросов и кук, на основании нескольких HAR.
4. Отделение кук и параметров устанавливаемых javascript.
5. Поиск скриптов на странице, которые занимаются установкой значений указанных в п.4, с целью дальнейшего их исполнения в виртуальной машине javascript.
На выходе имеем запросы которые необходимо выполнить, список очевидных заголовков, набор функций позволяющих при исполнении javascript, вычислить дополнительные заголовки. Теперь прогоняем весь этот набор через curl (или что то подобное) как и при обычном парсинга.
Главная суть это виртуальная машина javascript и возможность найти то место(функцию) которую ей надо передать.

Answer 7 · 2016-12-01 15:03:07

Решение было найдено в использовании PhantomJS, однако загрузка страницы можно достигать 1-2 сек, это довольно долго, с учетом того, что нужно сохранять миллионы страниц.

Никаких хитрых антиботовых механизмов там нет.

У них там банальный расчет, что пользователь-человек не способен читать страницы даже со скоростью 1 страница в секунду.

Подделаться под бота Яндекса не получится - ваш IP должен из подсети Яндекса и резольвится по их DNS.

У Гугля аналогично.

А на остальных ботов они могут выставить банальное ограничение - не более 30 страниц в минуту, например.

А вообще - это не этично.
Вам же в явном виде отказали и закрыли перед носом дверь. А вы - через окно полезли.

Answer 8 · 2016-11-30 21:07:57

Яндекс знает паблик прокси, надо частные или как повезет

но если вы без кук его парсить начинали, думаю, еще есть куда расти перед масспрокси

Answer 9 · 2016-12-01 16:55:09

function getSslPage($url) {
$ch = curl_init();
curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, FALSE);
curl_setopt($ch, CURLOPT_HEADER, false);
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_REFERER, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, TRUE);
$result = curl_exec($ch);
curl_close($ch);
return $result;
}

Answer 10 · 2016-12-08 10:22:02

phantomjs нужен только в одном случае - если сайт не работает без JS. во всех остальных случаях достаточно проксей, коих сейчас даже в открытом доступе или за малые деньги - десятки тысяч.

Чем осуществить парсер/граббер защищенного сайта?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт