Стоит задача, получить большое количество актуальных объявления по недвижимости.
Изначально никаких других критериев нет.
Нужен только механизм, работающий постоянно на сервере, который будет глубинно изучать все возможное в интернете, связанное с недвижимостью и сохранять в некотором виде (пусть это будет строка url).
Проблемы, которые у меня возникают:
1) Нужна отправная точка поиска. Я могу определить эту точку как запрос "объявление недвижимости", получить кучу сайтов в любом поисковике и далее по этим сайтам искать нужную информацию. Оптимально ли это?
2) Что значит "искать информацию" ? Парсер имеет html, но сайты соврем разныхз макетов. Какими алгоритмами я смогу определить наличие объявления и вытащить со страницы параметры (название объявления, картинка, описание, местоположение и тд) ?
Мне необходимо что-то интеллектуальное. Что подскажите по данному вопросу?
3) На данный момент не так актуально, но все же: как проверить актуальность обьъявления? Проверить, что объявление не снято с публикации? Тут опять же я опираюсь в разные макеты сайтов. Нужен парсер, который сможет подойти к этом у вопросу с "интеллектом".
Прошу помощи у знающиъ людей. Куда копать?
Буду рад любым вариантам :)