Каков приблизительно алгоритм ранжирования у Google и Яндекс?

Алгоритмы ранжирования популярных поисковых систем являются закрытыми и таким образом поисковая система в данном случае является черным ящиком.

На хабре есть статья по созданию собственного алгоритма ранжирования с использованием технологии Sphinx Search:
https://habrahabr.ru/company/sphinx/blog/133790/

Если взять некую абстракную поисковую систему, между Google и Яндекс, то:
1) как бы вы рекомендовали подготовить контент под формулу из пункта 2, например,
content = h1 title description keywords
foreach (string in content)
   strip_tags -> stem < string

2) какую упрощенную формулу ранжирования по релевантности вы бы могли описать в рамках факторов bm25, max_lcs, field_mask, query_word_count, doc_word_count, lcs, user_weight, hit_count, word_count, tf_idf, min_hit_pos, min_best_span_pos, exact_hit, а также дополнительных факторов, которые не сложно вычислить, например, фактор avg_page_loading_speed - используя Selenium не сложно измерить, но при этом не включая внешние факторы, например, такие как тИЦ, PageRank, потому что их нельзя вычислить автономно для сайтов не находящих в индексе поисковых систем, например, для новых сайтов; чтобы при этом поисковая выдача была отсортирована по релевантности максимально близко похожей к релевантности Google или Яндекс.

Самая лучшая формула представленная в статье:
rank = sum((4*lcs+2*(min_hit_pos==1)+exact_hit)*user_weight)*1000+bm25

Но сразу видны её недостатки в том что она не учитывает важные факторы min_best_span_pos и avg_page_loading_speed.

Также возможны ссылки на правильные книжки по данной тематике.
  • Вопрос задан
  • 217 просмотров
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы