Dima Rich, Всему свой молоток.
Например на сайте sysadmins.ru Петр и вандайк накрутили скрипт который шифрует названия тем, это решается отдельным потоком, где запускается их же скрипт. Привет Петр
На сайте объявлений есть onclick которые запрашивают телефон, это логично обработать в виртуальном браузере, но опять же есть другие варианты
Есть сайт прокси серверов, там тоже ява скрипт и довольно интересный, но там я использовал банальный регексп и несколько поисков.
Dima Rich, Как вы правильно заметили на каждого воробья нужно выбирать свою пушку.
Для сайта центробанка подойдет банальный поиск по картинке, что бы стащить информер с картинкой
Для 2gis загрузка через api и парсинг страниц через dom и несколько подзапросов
Для одного сайта знакомств нормализация, dom, и регекспы
Для фиас, казалось бы голый xml, но проблема в размерах, базовый набор сразу весит ок 14 гигабайт, любой запрос добавляет 14 гигов, так что только SAX, и небольшой тюнинг базы для быстрой вставки
Письмо с фразой
"Я перевожу вам: 3 апельсина"
Создается на основе шаблона, но пользователи любят изменять этот шаблон.
В итоге семантика есть, а начинаешь парсить мусор.
А регуляркой выбрал широкий диапазон, почистил от тегов и вот он результат.
Детали, то что вы привели это технологии разбора данных.
Уточню немного,
1 метод это тупой поиск вне зависимости от структуры
2 метод построение модели документа, и оптимизация поиска исходя из данных модели.
DevMan, Слишком много умников в одном месте. Как по мне затраты не окупятся. Угонишь акаунты, а там у каждого 1го куча правильных паролей и 2х факторная авторизация. На каждого тратить кучу времени.
В общем как мне кажется люди выбирают максимальную аудиторию с минимальным количеством мозгов. Тогда профит будет максимальный.
DevMan, IT сайты вообще не показатель. Людей мало, дырки щупать ни кто не щупает.
По идее самые посещаемые это соц. сети и торговые площадки ну и порнхаб
Вот вам кстати пример. Учтите что этот сайт связан с кучей систем внутри, завязан на несколько систем авторизации, практически напрямую выходит в AD и как видите живет, держит огромные нагрузки.