Как работают современные поисковые системы Internet?
Вспоминаю: на заре Интернета все было вроде бы просто. При написании странички указывались некие ключевые слова. Роботы -поисковики наполняли базы поиска этими словами, индексировали базы. Теперь когда смотришь результаты поиска , например , в Гугль - такое впечатление , что у Гугля в базе могла быть все страничка. такое возможно? Ведь это трудно или невозможно хранить все в базе поисковика и непонятно, как его в таком случае индексировать.
Или просто современные поисковые технологии позволяют делать анализ каждой странички в Интернет как-то хитро и с разных сторон. Ну и результаты "разборки" странички уже лежат в базе поисковика.
1. Индексируется отдельно текст, картинки, файлы.
2. Каждый тип данных хранится через связки уникальных цепочек данных.
3. Каждая уникальная цепочка - принадлежит множеству страниц на разных сайтах.
4. Их цепь принадлежит уже меньшему количеству страниц и т.д.
При запросе Вы набираете эту цепочку (поисковую фразу) и далее идёт "спуск" по дереву вглубь из предыдущей цепочки результатов выборки. Таким образом достигается скорость подсказок, и затем, выдачи списка сайтов.