Задача:
Извлечь данные по каждому пользователю:
id, пол, ДР, последние N постов, лайки страниц, места работы, места учебы, Семейное положение, контакты, список друзей.
Проблемы:
Как я понял, через Graph API такое сделать не получится?
Выходит для этого придется парсить сам FB?
PhantonJS? но это долго будет, каждую страницу прогружать..., скроллить когда нужно подгрузить что-то.
Phantom.js это перебор здесь.
HTTP-запросы + парсинг HTML, а то что при скролле, это AJAX, те же HTTP-запросы, учиться надо HTTP-снифферами пользоваться и отладку изучать.
Rou1997_3 мне кажется, что у FB есть методы определения парсинга, что-то мне подсказывает, что все кроется в деталях, о которых можно не заботиться, если эмулировать браузер
Валентин: Когда кажется, креститься надо. Кому нужен ваш блядский парсер? Вы серьезно думаете, там целый полк администраторов круглосуточно сидит над логом и как видят запрос от парсера - в ту же минуту кидаются вносить изменения в back-end, и еще через минуту парсер уже выведен из строя дабы напакостить вам? Это ж не местечковый говносайтик и не Mail.Ru чтобы такой ерундой заниматься.
Да и высокоуровневый подход с DOM и JS тоже не застрахован, возьмут переделают верстку блока (не для защиты от блядского парсера, а просто так захотят), верстать будет вообще другой человек назовет блоки по-другому и перестанет парситься. Все это проверено.
Rou1997_3: "блядский парсер" это мощно, а главное свежо.
Я не думаю, что кто-то в фб сидит и ждет когда кто-то их начнет парсить, все происходит автоматически аккаунт отправляется в бан. у фб есть АВТОМАТИЧЕСКАЯ защита от парсинга.
Валентин: Значит, что у нас в итоге. Через публичное API не получится, Phantom.js долго, а HTTP страшно.
Короче - в итоге Ни Ху Я. Браво! Продолжайте в том же духе. А я пойду в одиночку создавать проект в 8 МБ исходного кода, и параллельно дизассемблировать целую ОС (OS X Snow Leopard 10.6) так же в одиночку, и не буду мешать вашему творческому процессу по созданию себе проблем, это же искусство, мне не понять, я их безжалостно решаю, а создавать вовсе не умею.
Были бы вы нормальным, я бы вам посоветовал VPS для Phantom.js, чтобы не было так долго, но ясно же, что идиоту советом не поможешь.
Через Graph API это сделать нельзя. Только парсинг, что означает автоматическое нарушение соглашения использования Facebook со всеми вытекающими последствиями.
Читал, читал, обещают в полицию обратиться ))
Значит, придется использовать прокси и фейковые аккаунты.
Знаю есть конторы, которые собирают данные из соцсетей, в т.ч. соотв-щие гос. органы этим занимаются,
Валентин: да какой смысл в сетях их выслеживать? Они же все там виртуальные и полностью фейковые. Надо быть полным кретином, чтобы заниматься политикой и совать туда реальные данные.
Philipp: возможно речь идет не столько о личностях, сколько о прогнозе предстоящих событий, дабы в зародыше тушить волну, либо быть готовыми к этой "волне"
Валентин: да не будет никакой волны. Это все паранойя. Некому в стране ее создавать. Это еще в штатах может быть волна, а в России врядли. Люди слишком пассивные.
Валентин: Валентин , если получится у вас с Symbian. Было бы интересно увидеть ваш пример кода) За ранее благодарю. По тому, что были у меня задачи с FaceBook ... хочется иметь в арсенале, способы работы....
Касательно парсинга данных - не всегда это есть нарушение, поскольку если вы никак негативно не влияете на программное обеспечение Facebook + не совершаете действий, направленных на получение приватной информации пользователей, которая не открыта общественности либо вам, то абсурд трактовать такие действия противоправными (равносильно судить сервисы-агрегаторы, тот же самый Google за сбор базы в сети). Если ваша "жертва" осознанно сделала данные доступными всем - значит это не есть приватные данные.
Мой опыт сбора баз из ФБ говорит, что крайне не стоит использовать парсер Facebook, который десктопный - в моем случае пришлось докупать прокси + были большие проблемы с нагрузкой на компудактер. Среди web-решений, могу выделить b2b-group.xyz (то, что пользую лично), по другим решением слышал об API Ulitka, но не находил сайт сего чуда Как-то так :-)