DevMan, Слишком много умников в одном месте. Как по мне затраты не окупятся. Угонишь акаунты, а там у каждого 1го куча правильных паролей и 2х факторная авторизация. На каждого тратить кучу времени.
В общем как мне кажется люди выбирают максимальную аудиторию с минимальным количеством мозгов. Тогда профит будет максимальный.
DevMan, IT сайты вообще не показатель. Людей мало, дырки щупать ни кто не щупает.
По идее самые посещаемые это соц. сети и торговые площадки ну и порнхаб
Вот вам кстати пример. Учтите что этот сайт связан с кучей систем внутри, завязан на несколько систем авторизации, практически напрямую выходит в AD и как видите живет, держит огромные нагрузки.
Alex_87, Лучше отталкиваться от бизнес задачи. Просто сесть за компьютер и пройтись по сайту.
Выделить области которые нужно парсить, панели переходов.
Дальше создайте модель для парсинга.
пусть там будет ссылка на картинку, дата, цена, наименование, категории
После смотрите откуда это все приходит. Самый хороший инструмент это панель отладчика браузера.
Увидели, теперь подбираете инструмент, самый оптимальный это библиотеки для парсинга DOM, там вы сможете использовать запросы XPATH.
Бывает "ломаный" html, тут уже можно его нормализовать и по регулярному выражению выдернуть что то нужное.
Дальше переносите все это в алгоритм. Язык в общем то не важен. Я например использую Perl или Net и (Html Agility Pack)
Возможно что вас отловят (скорее всего), поэтому нужно обработать и этот сценарий, например использовав прокси сервер. Дополнительная головная боль это капча и системы защиты от DDoS Привет магазину DNS и Авито.
Alex_87, Огромная кодовая база CPAN, там есть модули на любой случай жизни.
Проверенно временем. Если вы идете в Linux, то там будет куча скриптов на перле.
Экономная работа с памятью. Замечательная работа с регекспами. Ну и нравится он мне
Кстати паршивая идея засорять глобальное пространство своими функциями, так что переменная уже член какого то объекта или нет?