Исследовательские центры Google использовали N-граммные модели для широкого круга исследований и разработок. К ним относятся такие проекты, как статистический перевод с одного языка на другой, распознавание речи, исправление орфографических ошибок, извлечение информации и многое другое. Для целей этих проектов были использованы текстовые корпусы, содержащие несколько триллионов слов.
Валерий Рябошапко: Хотя отчасти я понял, что скорость достигается за счёт словаря, в котором нет повторений и очевидно есть сортировка позволяющая использовать тот же двоичный поиск.
Но ведь известны хотя бы какие то общие принципы этих алгоритмов поиска по индексу? Неужели мне одному интересно, как так быстро происходит поиск в огромных базах данных?
Меня интересует именно поисковый алгоритм, а не алгоритм ранжирования. Т.е. когда роботы поисковых систем собрали индекс, как в нём происходит поиск то? Я вот гуглю и постоянно попадаю на эти алгоритмы ранжирования, которые так активно изучают сеошники.
Написано
Войдите на сайт
Чтобы задать вопрос и получить на него квалифицированный ответ.
Ну так я и думал.