@mynameiswisethanyesturday
Python developer

Как парсить сайты на технологии web socket?

Занимаюсь cбором открытых данных.
Сайты ниже работают на технологии web socket.

Сталкивался ли кто-нибудь с парсингом на подобной технологии? Если да, буду благодарен если скинете статьи или проекты.
Пока что не знаю как это сделать.
  • Вопрос задан
  • 2315 просмотров
Решения вопроса 1
@StiflerProger
const WebSocket = require('ws');

const ws = new WebSocket('wss://dallas.tx.publicsearch.us/ws', {
  headers: {
    "Origin": "https://dallas.tx.publicsearch.us",
    "Cookie": "authToken=51f69ac5-67c5-41ac-8943-cace7ebc6b3c; authToken.sig=x9S_G8Lwy6KHaB2Ek4PT1PR7jhE;"
  }
});

ws.on('open', () => {
  console.log('Соединение открыто');
});

ws.on('close', (code, reason) => {
  console.log('Соединение закрыто', code, reason);
});


у всех сайтов свои тараканы будут) к примеру в том что я скинул выше. Тебе обязательно передавать в заголовке запроса Origin и Cookie. Если с первым все ясно, то первая проблема будет с куками. Их как я понял можно получить сделав обычный GET запрос на главную. Тебе эти куки передадут в Response Headers
606c101d381a7125759663.png

https://www.npmjs.com/package/ws

После удачного коннекта, не забывай потом слать пинги ) Формат пингов уже посмотришь во вкладке Network в браузере
Ответ написан
Комментировать
Пригласить эксперта
Ответы на вопрос 1
Jump
@Jump
Системный администратор со стажем.
Точно так же как и любые другие JS сайты.
Либо ставите движок для исполнения скриптов и выполняете нужные запросы, либо управляете браузером.
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы