Как проверить наличие ключевого слова на сайте из списка?
Есть список из названий ~5 тысяч учреждений.
Нужно попробовать найти сайты этих учреждений и проверить есть ли на них информация(наличие) о ключевых словах.
Никогда прежде с таким не работал, даже нет идей
Может кто-нибудь в общих чертах подсказать в каком направлении искать? Спасибо
Да как, в цикле прогоняешь все названия. Делаешь запрос в гугл, вытягиваешь допустим первый сайт из выборки, заходишь на него ищешь ключевые слова, делаешь соответствующие пометки. Всё!
reivunxx, ну сделайте таймауты между отправками в 5 секунд, найдите пару сотен живых проксей, хотя на бесплатных на всех всего скорее будет спрашивать не робот ли вы. Вы попробуйте, а потом будете думать. Не забывайте записывать какие учреждения уже проверены какие нет, чтобы если по ходу работы крашнится программа или гугл начнет задалбывать я нероботами, можно было остановится на какое-то время и продолжить работу не с начала, а с момента окончания.
p.s. Еще яндекс есть
twobomb, желательно как-то проверять чтобы даже первый сайт из поиска был именно сайтом организации, чтобы не было, например, пометки Реклама, так как это может быть другой сайт, выдающийся в поиске по ключевому слову-названию этой организации
PavelMos, ну на рекламу можно сделать фильтр, ну насчет того что первый сайт будет сайтом организации это не точно. Ну тут дело такое и второй может быть не их сайтом и десятый и вообще у этой организации может не быть своего сайта...