требуется парсер, который бы «просматривал» заранее заданный список сайтов на предмет ссылок на файлообменники (rapidshare, depositfiles, hotfile, etc.). Ссылки должны собираться только с страниц, на которых присутствуют нужные кейворды (заранее вводятся). То есть например мы задаем список из 20-ти сайтов и список кейвордов. Парсер по порядку просматривает все сайты и на страницах где есть нужные кейворды ищет ссылки на файлообменники. Если такие ссылки есть, то они должны быть записаны в отдельный файл.
Подскажите, пожалуйста, сталкивался ли кто-то с подобным скриптом или возможно кто-то может помочь его написать? Заранее благодарен.
Все четко кроме одного: валидация. Сайтов много, сайты разные. Незакрытый тег влияет непредсказуемо. Пропускание таких страниц через Tidy иногда дает непредсказуемые результаты, у меня например просто исчезала часть HTML-кода.
ну и платформу на всякий пожарный, да и уровень владения основным языком.
про те сайты, которые из «заранее заданный список сайтов», как они относятся к тому чтобы их парсили? — это не то чтобы проблема, но ньюанс точно.
критичность скорости парсинга?
Я сам не программист, так что мне не особо важнем язык, платформа и т.д.
Сайты к парсингу относятся нормально, во всяком случае не сопротивляются.
На счет скорости то конечно хочется, чтобы по-быстрее. Еще желательно, чтобы это было веб приложение, для обеспечения непрерывности работы и доступа отовсюду.