Всегда было интересно, как работают поисковики с точки зрения алгоритмов. Ради примера хочу создать простенький проект, который будет парсить данные с нескольких сайтов с возможностью текстового поиска. Подскажите, с какой литературы следует начать и в каком направлении дальше двигаться. Заранее извиняюсь за корявую формулировку, я новичек
1.Досконально изучить PageRank.
2.Описания студенческой работы создателей гугла(прототип гугла) wseob.ru/seo/searchengine-anatomy
3. Начинать надо с алгоритмов которые будут учитываться в выдаче(тоесть определить факторы и как именно они будут влиять на построения выдачи)
4.Потом уже техническая реализация тут уже другие алгоритмы вступают в силу.Как быстрей найти?как перебрать?Как хранить страницу?По какому пути должен идти парсер и т.д. т.п.
Прочитайте четвёртую главу книги Программируем коллективный разум Глава 4 «Поиск и ранжирование»
Описываются различные компоненты поисковой машины, в том числе паук, индексатор, механизм обработки запросов. Рассмотрен алгоритм ранжирования страниц на основе ведущих на них ссылок, PageRank, и показано, как создать нейронную сеть, которая обучается тому, какие ключевые слова ассоциированы с различными результатами.
Язык программирование - Python.