Защита социальных сетей или как обходить блокировку парсинга?

Здравствуйте, пишу научную работу для института на тему "Несовершенные социальные сети " тема о том, как социальные сети плохо защищают нашу личную информацию, для подтверждения своих слов написал легенькие парсеры по сбору информации со страниц(чтобы не быть просто словоблудом) для многих социальных сетей включая vk, twitter, instagram и для некоторых форумов знакомств, все выше сдалось с первыми же усилиями и отдавали все свои данные, но вот facebook никак не дается, после 30 запросов банит не просто айпишник, а полностью отрубает аккаунт, хотя использую selenium вместе с скролингом страниц, подменой ip, user-agent и имитацией движений мыши. Подскажите как побороть этого великана.
P.S Статьи в гугле уже прочитаны
  • Вопрос задан
  • 547 просмотров
Пригласить эксперта
Ответы на вопрос 5
kocherman
@kocherman
Парсить FB надо на мощных виртуалках, на каждой виртуалке по 5-10 запущенных Chrome, никаких selenium. Переписываешь скрипты на Userscript. Много IP достигается покупкой premium-proxy-list. Однотипный поиск делать бесполезно. Надо смотреть фото, читать комменты, соблюдать рандомные задержки. Изредка ставить лайки. Не забывай эмулировать разные разрешения экрана и разные размеры окон.
Ответ написан
@FanatPHP
Чебуратор тега PHP
Работу ты завалил
Поскольку завявленный тезис не подтверждается практикой.
Ответ написан
Jump
@Jump
Системный администратор со стажем.
тема о том, как социальные сети плохо защищают нашу личную информацию
Что значит плохо защищают? С чего бы им ее защищать? Они ее вообще не защищают.

а полностью отрубает аккаунт
Логично. Заводите другой если хотите парсить с аккаунта.
Ответ написан
xmoonlight
@xmoonlight
https://sitecoder.blogspot.com
Помимо того, что уже сказано:
1. Парсить нужно не перебором линков в списке, а "вглубину" связанных линков.
После, сортировать их и замерять прогресс спарсенных данных в нужном списке - уже у себя.
2. Парсинг-профиль: на каждый акк соц.сети свой User-Agent (мобильный!), который должен быть постоянен и не более 5-ти разных ip одного города в час, не более 20-30ти разных ip одного города (или региона/страны, что хуже) в сутки: т.е. они должны повторяться как при перемещении по одному городу с мобилой в строгом порядке по "цепочке" и продолжительности (интервала времени) их использования.
3. Парсить только отображённые линки, а не то, что в коде страницы.
4. Соблюдать те же тайминги, что и при ручной навигации.
5. Полностью и корректно! имитировать весь пользовательский ввод текста в поля и навигацию по линкам с помощью тача: соблюдать процент ошибочного тача как при обычном использовании.
Ответ написан
@Kirill-Gorelov
С ума с IT
Попробуй puppeteer и мобильные прокси
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы
24 сент. 2020, в 09:09
2000 руб./за проект
24 сент. 2020, в 08:35
50000 руб./за проект
24 сент. 2020, в 08:23
10000 руб./за проект