Думаю решения перебора по словарю будут не очень эффективным, так как занимают n времени.
Я бы сделал так:
Берем google search api, делаем запрос site:habrahabr.ru (Нам нужно кол-во результатов, если оно большое, сайт скорее всего настоящий).
Если не хотите гугл, можно самому считать страницы сайта, при условии что он настоящий.