Защита социальных сетей или как обходить блокировку парсинга?

Question

irny @irny

Защита социальных сетей или как обходить блокировку парсинга?

Здравствуйте, пишу научную работу для института на тему "Несовершенные социальные сети " тема о том, как социальные сети плохо защищают нашу личную информацию, для подтверждения своих слов написал легенькие парсеры по сбору информации со страниц(чтобы не быть просто словоблудом) для многих социальных сетей включая vk, twitter, instagram и для некоторых форумов знакомств, все выше сдалось с первыми же усилиями и отдавали все свои данные, но вот facebook никак не дается, после 30 запросов банит не просто айпишник, а полностью отрубает аккаунт, хотя использую selenium вместе с скролингом страниц, подменой ip, user-agent и имитацией движений мыши. Подскажите как побороть этого великана.
P.S Статьи в гугле уже прочитаны

Вопрос задан более трёх лет назад
890 просмотров

9 комментариев

Подписаться 8 Простой 9 комментариев

twobomb @twobomb

Делать запросы с нескольких аккаунтов с определенной переодичностью?

Написано более трёх лет назад
irny @irny Автор вопроса

twobomb, для каждого аккаунта нужно менять ip ?

Написано более трёх лет назад
rsefsE @rsefsE

twobomb, а если использовать один ip? Не будет ли странно, что я с разных аккаунтов запросы делаю

Написано более трёх лет назад
ayazer @ayazer

соц сети можно парсить, но вот только не выходит. только я нахожу это ироничным? и если честно я не вижу как возможность спарсить публичные данные со страницы человека относится к "плохо защищают нашу личную информацию". фотография моей голой задницы перестает быть личной информацией как только я публично запостил ее в интернет.

Написано более трёх лет назад
rsefsE @rsefsE

ayazer, Да, но при этом фейсбук так не считает и защищает данные пользователей

Написано более трёх лет назад
twobomb @twobomb

rsefsE, нет, естественно нужно использовать прокси

Написано более трёх лет назад
irny @irny Автор вопроса

twobomb, Можно ли что-то сделать в рамках одного ip и одного аккаунта? может есть какая-то уязвимость?

Написано более трёх лет назад
ayazer @ayazer

rsefsE, фейсбук защищает свою возможность продавать эти данные рекламщикам. И оптимизирует затраты на железо, т.к. вместо одного бота можно за те-же ресурсы обслужить пару десятков человек.

Написано более трёх лет назад
twobomb @twobomb

irny, Ну если он контролирует кол-во запросов с одного аккаунта, то никак
P.S. Это стоит описать в своей работе

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Skillfactory

Профессия Python-разработчик PRO

12 месяцев

Далее
Stepik

Парсинг на Python для начинающих

2 недели

Далее
OTUS

iOS Developer

12 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 6

8 комментариев

irny @irny Автор вопроса

Содержательно, спасибо буду пробовать

Написано более трёх лет назад
irny @irny Автор вопроса

kocherman, Почему плох selenium ?

Написано более трёх лет назад
kocherman @kocherman

irny, очевидно же, что selenium не может эмулировать поведение chrome.

Написано более трёх лет назад
Ternick @Ternick

kocherman, Он прекрасно всё эмулирует, абсолютно все действия. Плох он только тем, что для просмотра и взаимодействия с элементами он устанавливает navigator.webdriver и в принципе его можно легко детектировать по разным особым предметам, вроде расширения экрана и многих других уловок, которые очень хорошо анализирует FB. А так он полностью эмулирует все действия браузера, даже больше вам скажу, selenium это всего лишь посредник между самим браузером и языком программирования, так называемый драйвер. Юзер скрипты тоже врядли или смогут помочь, хотя это определённо лучше чем selenium.

Написано более трёх лет назад
kocherman @kocherman

Ternick, Это просто смешно. Я смотрю на два дистрибутива: ChromeDriver и Chrome. Распаковал оба архива.

В первом архиве один бинарник на 10.5Мб.

Во втором - папки/файлы общим объемом 225Мб.

И вы мне хотите сказать, что первое - это тоже самое что и второе, просто без иконки хрома, светлой/тёмной темы (т.к. в режиме headless они просто не нужны) - всем этим объясняется разность объёма дистрибутива?

Написано более трёх лет назад
Ternick @Ternick

kocherman, вообще-то. Хроме драйвер запускает хром в режиме автоматизации. Просто хроме драйвер не будет работать!

Написано более трёх лет назад
Ternick @Ternick

kocherman, Ещё вопросы или вы осознали тупость ваших высказываний ?

Написано более трёх лет назад
kocherman @kocherman

Ternick, Каюсь, возможно про selenium был не прав. Старая школа бонусхастинга учила пользоваться виртуалками.

Написано более трёх лет назад

Комментировать

3 комментария

Залим Лампежев @sabolch

а вам не кажется глупым то, что автор называет соцсети несовешершенными и при этом безуспешно пытается парсить одну из соцсетей?

Написано более трёх лет назад
irny @irny Автор вопроса

Нехватка моих знаний и умений в парсинге, не означает что соц. сеть не поддается парсингу

Написано более трёх лет назад
АртемЪ @Jump

irny,
не означает что соц. сеть не поддается парсингу
Разумеется.
Не может такого быть чтобы сеть не поддавалась парсингу, она же работать банально не будет тогда.

Написано более трёх лет назад

Комментировать

1 комментарий

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Парсинг

Средний
Вся сложность парсинга Авито. Как это сделать правильно?
- 1 подписчик
- 26 нояб.
- 179 просмотров
1

ответ
Telegram

+1 ещё

Простой
Как спарсить подписчиков своего телеграм канала?
- 2 подписчика
- 20 нояб.
- 411 просмотров
2

ответа
Веб-разработка

+1 ещё

Простой
Каким образом правильно сделать скрипт?
- 2 подписчика
- 15 нояб.
- 365 просмотров
2

ответа
Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт.
- 193 просмотра
0

ответов
Парсинг

Простой
Как получить ID всех ПВЗ?
- 1 подписчик
- 24 сент.
- 266 просмотров
0

ответов
Парсинг

+1 ещё

Простой
Как увеличить охват поисковых фраз Wildberries и ускорить?
- 2 подписчика
- 23 сент.
- 206 просмотров
0

ответов
Парсинг

Простой
Как парсить несколько сайтов, отличающихся друг от друга?
- 2 подписчика
- 09 сент.
- 207 просмотров
3

ответа
Node.js

+4 ещё

Простой
В чем разница между selenium, playwright и puppeteer?
- 3 подписчика
- 09 сент.
- 295 просмотров
2

ответа
Node.js

+1 ещё

Простой
NODE.JS – парсинг контента. При скачивании изображений получаю битые файлы. Как поправить?
- 1 подписчик
- 08 сент.
- 137 просмотров
1

ответ
Python

+2 ещё

Средний
Как правильно принимать платежи пользователей в сети Tron?
- 1 подписчик
- 03 сент.
- 230 просмотров
3

ответа
Показать ещё Загружается…

C++ / Qt Разработчик

Алабуга • Екатеринбург

от 127 500 ₽

Разработчик JavaScript/NodeJS, специалист технической поддержки

A-Parser

от 600 до 800 $

Инженер по инцидентам информационной безопасности

SMALL

от 3 400 до 4 700 $

Делать запросы с нескольких аккаунтов с определенной переодичностью?
twobomb, для каждого аккаунта нужно менять ip ?
twobomb, а если использовать один ip? Не будет ли странно, что я с разных аккаунтов запросы делаю
соц сети можно парсить, но вот только не выходит. только я нахожу это ироничным? и если честно я не вижу как возможность спарсить публичные данные со страницы человека относится к "плохо защищают нашу личную информацию". фотография моей голой задницы перестает быть личной информацией как только я публично запостил ее в интернет.
ayazer, Да, но при этом фейсбук так не считает и защищает данные пользователей
rsefsE, нет, естественно нужно использовать прокси
twobomb, Можно ли что-то сделать в рамках одного ip и одного аккаунта? может есть какая-то уязвимость?
rsefsE, фейсбук защищает свою возможность продавать эти данные рекламщикам. И оптимизирует затраты на железо, т.к. вместо одного бота можно за те-же ресурсы обслужить пару десятков человек.
irny, Ну если он контролирует кол-во запросов с одного аккаунта, то никак
P.S. Это стоит описать в своей работе

Answer 1 · 2020-08-27 14:21:53

Парсить FB надо на мощных виртуалках, на каждой виртуалке по 5-10 запущенных Chrome, никаких selenium. Переписываешь скрипты на Userscript. Много IP достигается покупкой premium-proxy-list. Однотипный поиск делать бесполезно. Надо смотреть фото, читать комменты, соблюдать рандомные задержки. Изредка ставить лайки. Не забывай эмулировать разные разрешения экрана и разные размеры окон.

Answer 2 · 2020-08-28 12:05:34

FanatPHP @FanatPHP

Чебуратор тега РНР

Работу ты завалил
Поскольку завявленный тезис не подтверждается практикой.

Ответ написан более трёх лет назад

Комментировать

Answer 3 · 2020-08-27 14:24:49

тема о том, как социальные сети плохо защищают нашу личную информацию

Что значит плохо защищают? С чего бы им ее защищать? Они ее вообще не защищают.

а полностью отрубает аккаунт

Логично. Заводите другой если хотите парсить с аккаунта.

Answer 4 · 2020-08-28 16:19:15

Помимо того, что уже сказано:
1. Парсить нужно не перебором линков в списке, а "вглубину" связанных линков.
После, сортировать их и замерять прогресс спарсенных данных в нужном списке - уже у себя.
2. Парсинг-профиль: на каждый акк соц.сети свой User-Agent (мобильный!), который должен быть постоянен и не более 5-ти разных ip одного города в час, не более 20-30ти разных ip одного города (или региона/страны, что хуже) в сутки: т.е. они должны повторяться как при перемещении по одному городу с мобилой в строгом порядке по "цепочке" и продолжительности (интервала времени) их использования.
3. Парсить только отображённые линки, а не то, что в коде страницы.
4. Соблюдать те же тайминги, что и при ручной навигации.
5. Полностью и корректно! имитировать весь пользовательский ввод текста в поля и навигацию по линкам с помощью тача: соблюдать процент ошибочного тача как при обычном использовании.

Answer 5 · 2020-08-28 08:55:02

Кирилл Горелов @Kirill-Gorelov

С ума с IT

Попробуй puppeteer и мобильные прокси

Ответ написан более трёх лет назад

1 комментарий

Answer 6 · 2021-09-28 09:30:36

Используйте антидетект браузеры такие как adspower, multilogin, indigo или анонимный браузер тор.

Защита социальных сетей или как обходить блокировку парсинга?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт