1. Конечно может привести. Перед граббингом всегда можно прочесть robot.txt на предмет наличия директив Crawl-delay/Request-rate. Однако реальные цифры можно получить только в ходе работы (по возникновению HTTP статусов отличных от 200). По хорошему в ходе работы нужно копить статистику и динамически подстраивать скорость обхода.
2. Нет, как и в обычной технике не пропорционально. Степень падения КПД зависит от конечно архитектуры приложения.
3. Различного рода блокировки (I/O диска/сети, записи в базу, прочее), ограничения ОСи (количество открытых портов, лимиты на I/O диска), низкая скорость отдачи со сграбливаемого ресурса.