Как устроен поисковый индекс Google?

Question

Сергей Пуговкин @Driver86

Немодератор toster.ru

Как устроен поисковый индекс Google?

Интересует технические моменты. Очевидно, там информации на несколько петабайт и более. Но запросы отдаются за доли секунды. Почему? Гугление толкового не выдаёт. Понятно, что "секрет фирмы", но аналоги открытые есть?
Давно слышал, у них в качестве ОС модифицированный Linux. Хотелось бы подробностей.

Вопрос задан более трёх лет назад
371 просмотр

Комментировать

Подписаться 4 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

Excel: от основ до анализа данных

2 месяца

Далее
Skillbox

Adobe Illustrator для fashion-дизайнера

3 месяца

Далее
ProductStar

Excel для аналитики

2 месяца

Далее

Решения вопроса 2

Комментировать

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Chrome

+1 ещё

Простой
Как отключить в поисковике Google коррекцию?
- 3 подписчика
- 19 нояб.
- 379 просмотров
1

ответ
Поисковая оптимизация

+1 ещё

Простой
Почему сбросились подтверждения права в Google Search Console?
- 1 подписчик
- 17 нояб.
- 97 просмотров
3

ответа
Google

Средний
Не приходит смс от гугла при двухуровневой аунтификации?
- 2 подписчика
- 10 нояб.
- 451 просмотр
0

ответов
Google

Средний
Почему на мобильный связи нет доступа к Google?
- 1 подписчик
- 29 окт.
- 536 просмотров
1

ответ
Google

+1 ещё

Простой
Бесплатная альтернатива Gemini 2.0 Flash preview image generation?
- 3 подписчика
- 28 окт.
- 248 просмотров
2

ответа
Google

Простой
Как сделать Play Google Console в Казахстане?
- 3 подписчика
- 20 окт.
- 223 просмотра
1

ответ
Google

+1 ещё

Простой
Как разместить приложение в Google Play?
- 1 подписчик
- 19 окт.
- 208 просмотров
2

ответа
Google

+1 ещё

Простой
Как заставить работать Google meet?
- 1 подписчик
- 10 окт.
- 401 просмотр
1

ответ
Парсинг

+1 ещё

Простой
Как увеличить охват поисковых фраз Wildberries и ускорить?
- 2 подписчика
- 23 сент.
- 208 просмотров
0

ответов
Google

+1 ещё

Простой
Почему никто не может позвонить мне в Meet?
- 1 подписчик
- 04 сент.
- 902 просмотра
1

ответ
Показать ещё Загружается…

Специалист по API и автоматизации данных (Google Apps Script / Python)

Агентство ШОЛЬЧЕВ

До 100 000 ₽

Мобильный разработчик (React Native / другие)

App Company

от 200 000 до 300 000 ₽

Senior Marketing Analyst (Digital & Performance Marketing / iGaming)

Анвио Парк

от 150 000 до 250 000 ₽

Answer 1 · 2022-09-03 12:44:53

Google использует шаблон map-reduce. Это когда исходная выборка (индекс) может быть разрезана на беконечно большое число partitions. Можно резать по хешу от hostname. Это дает возможность запускать ваш поисковый запрос не на 1 хосте а сразу на 1000 hosts и потом просто выдать сортированный union первых top n релевантных результатов. Кроме того google может кешировать ответы. Это снижает нагрузку на дубли поисков.

Этот шаблон известен. Просто google первый поставил задачу отказа от сверх-дорогих и ресурсоёмких серверов и перешел к использованию множества дешевых серверов но соединенных в поисковый grid. Кроме того файловые системы навроде hdfs дают возможность на обычных жлобских HDD делать бесконечно большую файловую систему. У этой ФС конечно есть недостатки. В частности она может быть не консистентна. Но для периодически обновляющегося текстового индекса - это норм. Типа eventual consistancy.

Answer 2 · 2022-09-03 12:45:57

Где то так https://habr.com/ru/amp/post/20724/
Хотя это скорее Яндекс.
Могу предположить что первым отрабатывает анализатор запроса потом идёт запрос в keyvalue хранилище по всем ключевикам
Потом идёт корреляция по нахождению фраз
Потом корреляция по национальности.

По реализации ищите FTS engine.

Как устроен поисковый индекс Google?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт