Я предположу, что гугл при индексации запрашивает наиболее распространённые поддомены и пути, даже если на них нет ссылок. И в случае, если веб-сервер отдаёт что-то осмысленное-контентное ( к примеру, "страница не найдена", но с кодом 200), помещает ответ в индекс.