Как создать постоянное подключение?

Question

hrvasiliy @hrvasiliy

Как создать постоянное подключение?

Объясняю, на сайте-доноре есть информация, которая обновляется каждые 5 секунд, эту информацию требуется спарсить. Но если я буду подключаться к сайту каждые 5 секунд, сами понимаете, забанят через 5 минут. Так вот, как же удерживать постоянное подключение парсера к данной странице и стягивать информацию сразу после ее обновления и уже манипулировать ей?

Вопрос задан более трёх лет назад
2280 просмотров

Комментировать

Подписаться 7 Оценить Комментировать

Решения вопроса 1

13 комментариев

hrvasiliy @hrvasiliy Автор вопроса

2-й вариант мне нравится)) Только вот для получения данных требуется авторизация) И бан будет по логину) Тут уж никак, видимо, не выкрутишься...

Написано более трёх лет назад
Сергей Протько @Fesor

@hrvasiliy ну у вас от того что будет постоянное соединение с с сервером, всеравно будут в цикле посылаться http запросы, следовательно забанят.

Если страница обновляется раз в 5 секунд реалтаймом (через js) можно просто загрузить ее в phantomjs каком и просто держать. Тогда не будет новых запросов и все будет в рамках "закона".

Написано более трёх лет назад
hrvasiliy @hrvasiliy Автор вопроса

@Fesor окей, надо изучить, что это такое:)

Написано более трёх лет назад
Сергей Протько @Fesor

@hrvasiliy это headless браузер. Если вы можете зайти в обычном браузере на страничку, и там данные будут сами по себе обновляться раз в 5 секунд, то тогда точно будет ок.

Хотя можно просто посмотреть откуда данные берутся и забирать напрямую.

Написано более трёх лет назад
hrvasiliy @hrvasiliy Автор вопроса

@Fesor Спасибо вам) Столько умных слов, мало чего понимаю, но очень хочу разбираться во всем этом деле... Не много отступлю от основного вопроса, не могли бы вы мне посоветовать, что стоит изучать для того, чтобы хорошо разбираться в веб-программировании? Не знаю, неккоректный вопрос, наверное, но охото писать свои проекты... Можете посоветовать книги? Или же просто указать путь?) Если поконкретнее, то написание своих движков(не для стандартных задач), различные парсеры, вот то, что вы написали выше и т.д. На данные момент знаю HTML, CSS, PHP немного, JS учу.... Вот :)

Написано более трёх лет назад
Сергей Протько @Fesor

@hrvasiliy как учиться именно писать что-то подсказать не могу... я учился методом тыка в свое время. Ну и писал много просто.

Но есть штуки в WEB которые не сильно зависят от языка программирования. Тот же HTTP вам в любом случае придется изучить, как данные передаются (хотя бы примерно), что такое соединение и т.д.

Это все можно и на вики почитать. А там уже по ссылкам бегать.

Написано более трёх лет назад
hrvasiliy @hrvasiliy Автор вопроса

@Fesor окей) буду пробовать)

Написано более трёх лет назад
hrvasiliy @hrvasiliy Автор вопроса

@DmitryK1 страничка обновляется сама, никаких действий не требуется. Получается мне нужно разобраться с PhantomJS и все?

Написано более трёх лет назад
Сергей Протько @Fesor

@hrvasiliy ну если она сама обновляется, можете:
1) если страничка просто релоадится или во фрейме релоадится, можно просто забить на все ваши загоны так как никто не будет банить за поведение, допускаемое на самом сайте. 1 запрос в 5 секунд это не DDOS.

2) если страничка подгружает данные по ajax, можно посмотреть откуда. что передается, что отдается... если там отдается json какой вообще ништяк, будет проще парсить.

3) если страничка релоадит данные по websockets то да, тогда phantomjs

Написано более трёх лет назад
Сергей Протько @Fesor

@hrvasiliy проверять в дебагере хрома на вкладке network, откуда что и куда шлется.

Написано более трёх лет назад
hrvasiliy @hrvasiliy Автор вопроса

@Fesor только что именно мне надо искать? :)

Написано более трёх лет назад
Сергей Протько @Fesor

@hrvasiliy откуда страничка данные берет, в каком виде и т.д. Там есть фильтры, XHR (ajax мол) и websockets. Если ни то и ни другое, можно смело бомбить запросами.

Написано более трёх лет назад
hrvasiliy @hrvasiliy Автор вопроса

@Fesor GET и POST передает и получает и не знаю что получает

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 2

4 комментария

3 комментария

Павел @tdstdk

Наверно не так сформулировал. Про этическую сторону имелось в виду - дергать почем зря чужой сервер каждые несколько секунд. Мы же дергаем не только инфу из базы, но и всю страницу(речь о парсинге). Следовательно, создаем паразитную нагрузку в целом. Поэтому, если владелец сайта явно не запретил использовать информацию с сайта(отсюда фраза о законности, учитывая, что инфа отдается только зарегистрированным), то проще выйти с ним на контакт лично. Почему то, у нас это не очень принято, а часто даже не приходит в голову.

Написано более трёх лет назад
Александр Таратин @Taraflex

@tdstdk раз в 5 сек паразитная нагрузка? вы серьезно?

Написано более трёх лет назад
Павел @tdstdk

Ну, если один "дергатель" нет. А если 10000 и дергать чаще? Просто, обычно думают только о своих хотелках и ищут какие то странные пути. Паразитная нагрузка это же не только вредная для сервера(хотя, что за сервер такой), сколько - паразитирущая. Если владелец сайта, почему то отдает информацию (или полную версию) только зарегистрированным, скорее всего это не просто так. Поэтому, логичнее не "дергать" втихоря, а пойти на путь переговоров. Вполне возможно, что из этого получится совместно развитие или новые возможности, идеи. Да и опыт общения с владельцами сайтов "доноров" лишним не будет.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

+1 ещё

Простой
Почему перестала работать ЮКасса?
- 1 подписчик
- 8 часов назад
- 98 просмотров
0

ответов
PHP

Простой
Как вычислить результат математических операций в строке?
- 1 подписчик
- 17 окт.
- 201 просмотр
3

ответа
PHP

Простой
Можно ли в PHP вкладывать однострочные комментарии // в многострочные /* */?
- 1 подписчик
- 16 окт.
- 187 просмотров
4

ответа
JavaScript

+1 ещё

Простой
Неправильно работает crypto.subtle.deriveKey в Firefox, баг или мой косяк?
- 1 подписчик
- 16 окт.
- 77 просмотров
0

ответов
PHP

+1 ещё

Простой
Перестал работать php запрос к телеграмм?
- 1 подписчик
- 15 окт.
- 198 просмотров
1

ответ
PHP

+2 ещё

Простой
Как проще отправить изображение на стену канала?
- 1 подписчик
- 15 окт.
- 134 просмотра
1

ответ
JavaScript

Простой
Как подгружать xml с перерисовкой таблицы?
- 3 подписчика
- 14 окт.
- 134 просмотра
0

ответов
Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт.
- 103 просмотра
0

ответов
PHP

Простой
Как точно работает скрипт на RoadRunner?
- 1 подписчик
- 13 окт.
- 199 просмотров
1

ответ
JavaScript

+2 ещё

Простой
Как решить задачку из контеста?
- 1 подписчик
- 13 окт.
- 224 просмотра
1

ответ
Показать ещё Загружается…

Верстальщик / фронтендер для браузерного расширения

DevTeam.Space

от 1 000 до 2 000 $

React разработчик

ITK academy • Нижний Новгород

от 80 000 до 120 000 ₽

React Developer

ITK academy • Воронеж

от 50 000 до 90 000 ₽

Answer 1 · 2014-10-03 12:58:15

1) Можно самому разруливать соединение, благо php позволяет вам http клиенты писать. Гуглить по запросу keep-alive. Но вариант сомнительный.

2) не париться и бомбить сервер запросами, закупившись проксями. Просто и надежно.

Answer 2 · 2014-10-03 12:34:53

Dmitry @CTAKAH4uK

WebSocket, но если нету доступа к сайту-донору - никак.

Ответ написан более трёх лет назад

4 комментария

Answer 3 · 2014-10-09 12:35:46

При этическую сторону вопроса, даже никто не упомянул. Сейчас так нормально, в порядке вещей? Хм..
Если все законно, не проще договориться с владельцем сайта и использовать его api?

Как создать постоянное подключение?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт