Dima Rich, Всему свой молоток.
Например на сайте sysadmins.ru Петр и вандайк накрутили скрипт который шифрует названия тем, это решается отдельным потоком, где запускается их же скрипт. Привет Петр
На сайте объявлений есть onclick которые запрашивают телефон, это логично обработать в виртуальном браузере, но опять же есть другие варианты
Есть сайт прокси серверов, там тоже ява скрипт и довольно интересный, но там я использовал банальный регексп и несколько поисков.
Dima Rich, Как вы правильно заметили на каждого воробья нужно выбирать свою пушку.
Для сайта центробанка подойдет банальный поиск по картинке, что бы стащить информер с картинкой
Для 2gis загрузка через api и парсинг страниц через dom и несколько подзапросов
Для одного сайта знакомств нормализация, dom, и регекспы
Для фиас, казалось бы голый xml, но проблема в размерах, базовый набор сразу весит ок 14 гигабайт, любой запрос добавляет 14 гигов, так что только SAX, и небольшой тюнинг базы для быстрой вставки
Письмо с фразой
"Я перевожу вам: 3 апельсина"
Создается на основе шаблона, но пользователи любят изменять этот шаблон.
В итоге семантика есть, а начинаешь парсить мусор.
А регуляркой выбрал широкий диапазон, почистил от тегов и вот он результат.
Детали, то что вы привели это технологии разбора данных.
Уточню немного,
1 метод это тупой поиск вне зависимости от структуры
2 метод построение модели документа, и оптимизация поиска исходя из данных модели.
DevMan, Слишком много умников в одном месте. Как по мне затраты не окупятся. Угонишь акаунты, а там у каждого 1го куча правильных паролей и 2х факторная авторизация. На каждого тратить кучу времени.
В общем как мне кажется люди выбирают максимальную аудиторию с минимальным количеством мозгов. Тогда профит будет максимальный.
DevMan, IT сайты вообще не показатель. Людей мало, дырки щупать ни кто не щупает.
По идее самые посещаемые это соц. сети и торговые площадки ну и порнхаб
Вот вам кстати пример. Учтите что этот сайт связан с кучей систем внутри, завязан на несколько систем авторизации, практически напрямую выходит в AD и как видите живет, держит огромные нагрузки.
Alex_87, Лучше отталкиваться от бизнес задачи. Просто сесть за компьютер и пройтись по сайту.
Выделить области которые нужно парсить, панели переходов.
Дальше создайте модель для парсинга.
пусть там будет ссылка на картинку, дата, цена, наименование, категории
После смотрите откуда это все приходит. Самый хороший инструмент это панель отладчика браузера.
Увидели, теперь подбираете инструмент, самый оптимальный это библиотеки для парсинга DOM, там вы сможете использовать запросы XPATH.
Бывает "ломаный" html, тут уже можно его нормализовать и по регулярному выражению выдернуть что то нужное.
Дальше переносите все это в алгоритм. Язык в общем то не важен. Я например использую Perl или Net и (Html Agility Pack)
Возможно что вас отловят (скорее всего), поэтому нужно обработать и этот сценарий, например использовав прокси сервер. Дополнительная головная боль это капча и системы защиты от DDoS Привет магазину DNS и Авито.
Например на сайте sysadmins.ru Петр и вандайк накрутили скрипт который шифрует названия тем, это решается отдельным потоком, где запускается их же скрипт. Привет Петр
На сайте объявлений есть onclick которые запрашивают телефон, это логично обработать в виртуальном браузере, но опять же есть другие варианты
Есть сайт прокси серверов, там тоже ява скрипт и довольно интересный, но там я использовал банальный регексп и несколько поисков.
В общем индивидуальный подход рулит