Как устроен поисковый индекс Google?

Question

Сергей Пуговкин @Driver86

Немодератор toster.ru

Как устроен поисковый индекс Google?

Интересует технические моменты. Очевидно, там информации на несколько петабайт и более. Но запросы отдаются за доли секунды. Почему? Гугление толкового не выдаёт. Понятно, что "секрет фирмы", но аналоги открытые есть?
Давно слышал, у них в качестве ОС модифицированный Linux. Хотелось бы подробностей.

Вопрос задан более двух лет назад
363 просмотра

Комментировать

Подписаться 4 Простой Комментировать

Решения вопроса 2

Комментировать

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Google

+1 ещё

Простой
Google сейчас не может отправить сообщение на этот номер, в чем может быть проблема?
- 4 подписчика
- 08 мар.
- 4462 просмотра
5

ответов
API

+2 ещё

Простой
Как пройти верификацию Google OAuth?
- 1 подписчик
- 20 февр.
- 171 просмотр
0

ответов
Поисковые системы

Простой
Полезные инструменты для проверки мошенников?
- 2 подписчика
- 15 февр.
- 661 просмотр
3

ответа
Поисковая оптимизация

+1 ещё

Простой
Как отобразить свой сайт в выдаче Google?
- 1 подписчик
- 09 февр.
- 234 просмотра
1

ответ
Google

Простой
Купил симку. Гугл не дает создать аккаунт на этот номер телефона. Как отвязать чужие ранее созданные учетки?
- 2 подписчика
- 03 февр.
- 650 просмотров
2

ответа
Google

Простой
Как убрать тысячи ссылок на сайт в гугл, которые ведут на страницы которых нет?
- 3 подписчика
- 27 янв.
- 1231 просмотр
3

ответа
Google

+1 ещё

Средний
Есть ли аналог Гугл Презентация?
- 2 подписчика
- 23 янв.
- 311 просмотров
2

ответа
Парсинг

+1 ещё

Простой
Как гугл вычисляет пользователя?
- 5 подписчиков
- 12 янв.
- 10669 просмотров
3

ответа
Google

+2 ещё

Средний
Почему YouTube зависает под VPN?
- 2 подписчика
- 02 янв.
- 1803 просмотра
1

ответ
Поисковая оптимизация

+1 ещё

Простой
Почему Google не индексирует мой репозиторий GitHub?
- 1 подписчик
- 30 дек. 2024
- 344 просмотра
1

ответ
Показать ещё Загружается…

Flutter-разработчик

HRScan

от 2 000 до 2 500 $

Интернет-маркетолог

UDS Group • Ижевск

от 100 000 ₽

PPC-специалист / Менеджер по рекламе

SafeMage

от 200 до 400 $

Answer 1 · 2022-09-03 12:44:53

Google использует шаблон map-reduce. Это когда исходная выборка (индекс) может быть разрезана на беконечно большое число partitions. Можно резать по хешу от hostname. Это дает возможность запускать ваш поисковый запрос не на 1 хосте а сразу на 1000 hosts и потом просто выдать сортированный union первых top n релевантных результатов. Кроме того google может кешировать ответы. Это снижает нагрузку на дубли поисков.

Этот шаблон известен. Просто google первый поставил задачу отказа от сверх-дорогих и ресурсоёмких серверов и перешел к использованию множества дешевых серверов но соединенных в поисковый grid. Кроме того файловые системы навроде hdfs дают возможность на обычных жлобских HDD делать бесконечно большую файловую систему. У этой ФС конечно есть недостатки. В частности она может быть не консистентна. Но для периодически обновляющегося текстового индекса - это норм. Типа eventual consistancy.

Answer 2 · 2022-09-03 12:45:57

Где то так https://habr.com/ru/amp/post/20724/
Хотя это скорее Яндекс.
Могу предположить что первым отрабатывает анализатор запроса потом идёт запрос в keyvalue хранилище по всем ключевикам
Потом идёт корреляция по нахождению фраз
Потом корреляция по национальности.

По реализации ищите FTS engine.

Как устроен поисковый индекс Google?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт