Кто подскажет как лучше делать сканирование больших сайтов?
Только не смейтесь, но подобное лучше делать на Си и/или в несколько потоков, если говорить о необходимости максимальной производительности подобных процессов.
и как работа такого скрипта повлияет на сервер?
Вы можете сами контролировать максимальную нагрузку процесса на сервер (машину), например с помощь
(re)nice.
Вопрос 2: Как ещё можно получить скорость загрузки стр.?
Такой же точно результат как у GPS (Google Page Speed) - никак. Ваш результат, как бы Вы его не получали, будет отличаться от результата GPS по ряду причин (думаю, они довольно очевидны, что бы их озвучивать). Но в целом процесс довольно прост в своей логике:
0. Определяемся, что мы хотим получить, скорость загрузки всей страницы или скорость загрузки HTML-кода страницы.
1. Запускаем таймер (например, как
описано тут, для PHP
2. Скачиваем HTML-код
3. Сканируем все ссылки на странице, если нас интересует и циклически загружаем их (если нам нужно время полной загрузки страницы)
4. Останавливаем таймер, получаем результат
P.S. То, чем пользуется GPS - предположительно (скорее всего) основано на браузере Chromium и работает не совсем так просто, как возможно ожидалось (это ещё одна из причин, почему Ваше время и время GPS будут отличаться, вопрос больше в том, какое именно время Вы хотите получить). В рамках "тостерного ответа", (впрочем как и любого другого ответа) довольно сложно описать все принципы работы подобных схем, для этого потребуется как минимум серия статей и хорошие знания C/++ у спрашивающего, с очень большой вероятностью (для того, что бы изменить исходники Chromium'а по себя, соответствующим образом).