Как с Facebook извлечь данные (парсинг/api)?

Question

Валентин @Tpona

Ужасный перфекционист

Как с Facebook извлечь данные (парсинг/api)?

Доброго всем!

Дано:
~10000 аккаунтов в Facebook

Задача:
Извлечь данные по каждому пользователю:
id, пол, ДР, последние N постов, лайки страниц, места работы, места учебы, Семейное положение, контакты, список друзей.

Проблемы:
Как я понял, через Graph API такое сделать не получится?
Выходит для этого придется парсить сам FB?
PhantonJS? но это долго будет, каждую страницу прогружать..., скроллить когда нужно подгрузить что-то.

Поделитесь опытом/мыслями у кого он есть.

Вопрос задан более трёх лет назад
13078 просмотров

6 комментариев

Подписаться 2 Оценить 6 комментариев

Rou1997_3 @Rou1997_3

Phantom.js это перебор здесь.
HTTP-запросы + парсинг HTML, а то что при скролле, это AJAX, те же HTTP-запросы, учиться надо HTTP-снифферами пользоваться и отладку изучать.

Написано более трёх лет назад
Валентин @Tpona Автор вопроса

Rou1997_3 мне кажется, что у FB есть методы определения парсинга, что-то мне подсказывает, что все кроется в деталях, о которых можно не заботиться, если эмулировать браузер

Написано более трёх лет назад
Rou1997_3 @Rou1997_3

Валентин: Когда кажется, креститься надо. Кому нужен ваш блядский парсер? Вы серьезно думаете, там целый полк администраторов круглосуточно сидит над логом и как видят запрос от парсера - в ту же минуту кидаются вносить изменения в back-end, и еще через минуту парсер уже выведен из строя дабы напакостить вам? Это ж не местечковый говносайтик и не Mail.Ru чтобы такой ерундой заниматься.
Да и высокоуровневый подход с DOM и JS тоже не застрахован, возьмут переделают верстку блока (не для защиты от блядского парсера, а просто так захотят), верстать будет вообще другой человек назовет блоки по-другому и перестанет парситься. Все это проверено.

Написано более трёх лет назад
Валентин @Tpona Автор вопроса

Rou1997_3: "блядский парсер" это мощно, а главное свежо.
Я не думаю, что кто-то в фб сидит и ждет когда кто-то их начнет парсить, все происходит автоматически аккаунт отправляется в бан. у фб есть АВТОМАТИЧЕСКАЯ защита от парсинга.

Написано более трёх лет назад
Rou1997_3 @Rou1997_3

Валентин: Значит, что у нас в итоге. Через публичное API не получится, Phantom.js долго, а HTTP страшно.
Короче - в итоге Ни Ху Я. Браво! Продолжайте в том же духе. А я пойду в одиночку создавать проект в 8 МБ исходного кода, и параллельно дизассемблировать целую ОС (OS X Snow Leopard 10.6) так же в одиночку, и не буду мешать вашему творческому процессу по созданию себе проблем, это же искусство, мне не понять, я их безжалостно решаю, а создавать вовсе не умею.
Были бы вы нормальным, я бы вам посоветовал VPS для Phantom.js, чтобы не было так долго, но ясно же, что идиоту советом не поможешь.

Написано более трёх лет назад
Валентин @Tpona Автор вопроса

Я так понимаю, с противоположным полом ты тоже решаешь вопрос в одиночку.
Удачи. Не вижу причин для дальнейшего диалога.

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Skillfactory

Профессия Fullstack веб-разработчик на JavaScript и PHP

20 месяцев

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее
Skillbox

PHP-разработчик. Базовый уровень

3 месяца

Далее

Пригласить эксперта

Ответы на вопрос 2

11 комментариев

Валентин @Tpona Автор вопроса

Читал, читал, обещают в полицию обратиться ))
Значит, придется использовать прокси и фейковые аккаунты.
Знаю есть конторы, которые собирают данные из соцсетей, в т.ч. соотв-щие гос. органы этим занимаются,

Написано более трёх лет назад
Philipp @zoonman

Валентин: Гос.органы могут официально получить доступ. Facebook даже отчитывается по таким запросам.
Например https://govtrequests.facebook.com/

А вот всякие левые конторы делают парсинг.

Написано более трёх лет назад
Philipp @zoonman

Если уж очень горит, то прикидывайтесь допотопным телефоном (например Symbian), FB вам начнет отдавать простые хтмлки из мобильной версии.

Написано более трёх лет назад
Валентин @Tpona Автор вопроса

Philipp: Знаю со слов знакомого, занимается сбором данных с соцсетей с целью выслеживания аномальных личностей, шатающих правую ногу власти думаю )

Написано более трёх лет назад
Валентин @Tpona Автор вопроса

Philipp: Вот по поводу Symbian спасибо ) как то не подумал что может быть старомоильная версия )

Написано более трёх лет назад
Philipp @zoonman

Валентин: да какой смысл в сетях их выслеживать? Они же все там виртуальные и полностью фейковые. Надо быть полным кретином, чтобы заниматься политикой и совать туда реальные данные.

Написано более трёх лет назад
Валентин @Tpona Автор вопроса

Philipp: возможно речь идет не столько о личностях, сколько о прогнозе предстоящих событий, дабы в зародыше тушить волну, либо быть готовыми к этой "волне"

Написано более трёх лет назад
Philipp @zoonman

Валентин: да не будет никакой волны. Это все паранойя. Некому в стране ее создавать. Это еще в штатах может быть волна, а в России врядли. Люди слишком пассивные.

Написано более трёх лет назад
Валентин @Tpona Автор вопроса

Philipp: По укр. сценарию возможно наберется народу.
Ну да ладно, я таки получил html-версию )

Написано более трёх лет назад
Миша Титков @Zusy

Валентин: Валентин , если получится у вас с Symbian. Было бы интересно увидеть ваш пример кода) За ранее благодарю. По тому, что были у меня задачи с FaceBook ... хочется иметь в арсенале, способы работы....

Написано более трёх лет назад
Валентин @Tpona Автор вопроса

В итоге, взял PhantomJS. Установил User Agent symbian, логин через мобильную версию проходит на ура.

Написано более трёх лет назад

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Node.js

+1 ещё

Простой
Можно ли настроить grafana на отображение логов как у меня в терминале?
- 1 подписчик
- вчера
- 68 просмотров
0

ответов
PHP

+1 ещё

Простой
Почему перестала работать ЮКасса?
- 1 подписчик
- 19 окт.
- 227 просмотров
1

ответ
PHP

Простой
Как вычислить результат математических операций в строке?
- 1 подписчик
- 17 окт.
- 232 просмотра
3

ответа
PHP

Простой
Можно ли в PHP вкладывать однострочные комментарии // в многострочные /* */?
- 1 подписчик
- 16 окт.
- 215 просмотров
4

ответа
PHP

+1 ещё

Простой
Перестал работать php запрос к телеграмм?
- 1 подписчик
- 15 окт.
- 217 просмотров
1

ответ
PHP

+2 ещё

Простой
Как проще отправить изображение на стену канала?
- 1 подписчик
- 15 окт.
- 146 просмотров
1

ответ
Node.js

+4 ещё

Простой
Как решить ситуацию с импортом файлов во время сборки проекта?
- 1 подписчик
- 15 окт.
- 109 просмотров
0

ответов
Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт.
- 116 просмотров
0

ответов
PHP

Простой
Как точно работает скрипт на RoadRunner?
- 1 подписчик
- 13 окт.
- 207 просмотров
1

ответ
PHP

+1 ещё

Простой
Стоит ли использовать файловый сервер в проекте?
- 2 подписчика
- 13 окт.
- 251 просмотр
3

ответа
Показать ещё Загружается…

PHP-разработчик

Остров Сокровищ

от 180 000 до 250 000 ₽

PHP-разработчик (Symfony)

Мегаплан

от 160 000 ₽

Разработчик PHP/Go

ЭТП ГПБ / VESNA

До 220 000 ₽

Phantom.js это перебор здесь.
HTTP-запросы + парсинг HTML, а то что при скролле, это AJAX, те же HTTP-запросы, учиться надо HTTP-снифферами пользоваться и отладку изучать.
Rou1997_3 мне кажется, что у FB есть методы определения парсинга, что-то мне подсказывает, что все кроется в деталях, о которых можно не заботиться, если эмулировать браузер
Валентин: Когда кажется, креститься надо. Кому нужен ваш блядский парсер? Вы серьезно думаете, там целый полк администраторов круглосуточно сидит над логом и как видят запрос от парсера - в ту же минуту кидаются вносить изменения в back-end, и еще через минуту парсер уже выведен из строя дабы напакостить вам? Это ж не местечковый говносайтик и не Mail.Ru чтобы такой ерундой заниматься.
Да и высокоуровневый подход с DOM и JS тоже не застрахован, возьмут переделают верстку блока (не для защиты от блядского парсера, а просто так захотят), верстать будет вообще другой человек назовет блоки по-другому и перестанет парситься. Все это проверено.
Rou1997_3: "блядский парсер" это мощно, а главное свежо.
Я не думаю, что кто-то в фб сидит и ждет когда кто-то их начнет парсить, все происходит автоматически аккаунт отправляется в бан. у фб есть АВТОМАТИЧЕСКАЯ защита от парсинга.
Валентин: Значит, что у нас в итоге. Через публичное API не получится, Phantom.js долго, а HTTP страшно.
Короче - в итоге Ни Ху Я. Браво! Продолжайте в том же духе. А я пойду в одиночку создавать проект в 8 МБ исходного кода, и параллельно дизассемблировать целую ОС (OS X Snow Leopard 10.6) так же в одиночку, и не буду мешать вашему творческому процессу по созданию себе проблем, это же искусство, мне не понять, я их безжалостно решаю, а создавать вовсе не умею.
Были бы вы нормальным, я бы вам посоветовал VPS для Phantom.js, чтобы не было так долго, но ясно же, что идиоту советом не поможешь.
Я так понимаю, с противоположным полом ты тоже решаешь вопрос в одиночку.
Удачи. Не вижу причин для дальнейшего диалога.

Answer 1 · 2017-04-12 22:09:15

Через Graph API это сделать нельзя. Только парсинг, что означает автоматическое нарушение соглашения использования Facebook со всеми вытекающими последствиями.

Answer 2 · 2018-04-16 00:23:00

Касательно парсинга данных - не всегда это есть нарушение, поскольку если вы никак негативно не влияете на программное обеспечение Facebook + не совершаете действий, направленных на получение приватной информации пользователей, которая не открыта общественности либо вам, то абсурд трактовать такие действия противоправными (равносильно судить сервисы-агрегаторы, тот же самый Google за сбор базы в сети). Если ваша "жертва" осознанно сделала данные доступными всем - значит это не есть приватные данные.
Мой опыт сбора баз из ФБ говорит, что крайне не стоит использовать парсер Facebook, который десктопный - в моем случае пришлось докупать прокси + были большие проблемы с нагрузкой на компудактер. Среди web-решений, могу выделить b2b-group.xyz (то, что пользую лично), по другим решением слышал об API Ulitka, но не находил сайт сего чуда Как-то так :-)

Как с Facebook извлечь данные (парсинг/api)?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт