1.Досконально изучить PageRank.
2.Описания студенческой работы создателей гугла(прототип гугла)
wseob.ru/seo/searchengine-anatomy
3. Начинать надо с алгоритмов которые будут учитываться в выдаче(тоесть определить факторы и как именно они будут влиять на построения выдачи)
4.Потом уже техническая реализация тут уже другие алгоритмы вступают в силу.Как быстрей найти?как перебрать?Как хранить страницу?По какому пути должен идти парсер и т.д. т.п.