В последнее время меня заинтересовала тематика поисковых машин и того, каким образом они работают. В связи с этим вопрос: какую литературу вы посоветовали бы почитать по данной теме (грубо говоря теория, на основе которой работают поисковые системы наподобие Яндекса или Google)? Меня интересует все, что касается анализа содержимого страниц (выделение ключевых слов, определение тематики, веса слов и т.п.), а также все, что связано с определением индекса цитирования. Я понимаю, что конкретные детали реализации поисковых машин - это коммерческая тайна компаний, но думаю, основы должны быть доступны. Если я правильно понял, то данная тематика называется machine learning (машинное обучение).
"Самая читаемая книга в библиотеке Яндекса, с чтения которой все разработчики начинают работу в компании. Первый тираж книги разошелся как горячие пирожки. И это не случайно. Эта единственная на данный момент книга на русском языке по тематике информационного поиска. Рекомендую всем, кто желает понимать принципы устройства поисковых систем и тем кто занимается анализом данных."