Задача: нужно написать парсер большого количества абсолютно разных сайтов, проделать с ними множество манипуляций (строковые функции — поиск, замена, объединение нескольких записей в массиве в одну) и сохранить результат в MySQL. Сейчас это сделано на PHP с помощью библиотеки phpQuery, но этот вариант не очень удобен, поэтому хочется переписать всё на Python или Perl, поэтому есть два вопроса:
1) Что лучше выбрать (проще, быстрее, мощнее)?
2) Как это дело запустить под Windows, желательно на Vertrigo.
По поводу назначения парсера: сразу скажу что это не воровство контента, он выполняет большие объемы по автоматизации обработки информации, о которой я напишу пост когда у меня будет достаточно кармы.
В пользу perl говорят те факты, что изучив его, вы сможете делать многие вещи многими способами, сможете присоединиться к ордену монахов perl, научитесь регулярно витиевато выражаться, и девушки будут восторженно ахать, узнав что вы перловщик.
Насчёт последнего я наврал.
В pipelines.py в def open_spider(self, spider) открываем соединение с базой, в def close_spider(self, spider) закрываем.
Для каждого сайта — свой паук (класс в .py-файле). Система продуманная, можно результаты парсинга развернуть даже в виде веб-сервиса встроенными средствами.
Если не знаешь ни питона, ни перла, то без разницы. И по тому и по другому языку есть немаленькое сообщество и куча информации в интернете по любым вопросам.
Под WIndows у обоих языков есть компиляторы/интерпретаторы. У Перла их даже несколько.