Правильно ли сделана архитектура системы для парсинга?
Скрипт на питоне ходит по сайту и собирает ссылки, затем он отправляет их в Rabbitmq. Другие скрипты на питоне обращаются к очереди и парсят все нужные данные и помещают ее в монгу.
Собственно вопрос , можно ли в этой системе что то сделать лучше или можно использовать какие то другие инструменты?
Нужно отдавать себе отчет, что сейчас много сайтов оживают только если включен JavaScript.
То есть спарзить на голом Python можно не все.
Для полноценного чтения информации с многих сайтов нужно что то вроде SimplerJS, PhantomJS, Selenium