Как организованна архитектура в таких проектах как
www.datanyze.com (приложение занимается тем, что обходит миллионы сайтов ежедневно и собирает информацию по технологиям, которая на этих сайтах используется) и т.п.
Интересует как архитектура в целом, так и конкретные моменты: работа с сетью (используются ли iocp (for windows)или epoll (для *nix) или какие-либо другие технологии), работа с БД (какая БД лучше подойдет для таких задач), фрэймворки для организации заданий и их мониторинг, перезапуск заданий после аварийного завершения и т.п.
Если у кого-то есть примеры, вообще было бы здорово.