BonBonSlick
@BonBonSlick
Junior Web Developer Trainee

Почему Trigram (or Trigraph) концепт использует именно 3, а не 2 или 4+?

Пример
https://www.postgresql.org/docs/current/pgtrgm.html
Можно было бы разбивать на 4 символа и более, как и по 2.
Интуиция подсказывает что дело в точности, при длинных или слишком коротких кусочках точность падает, но так ли это?
  • Вопрос задан
  • 60 просмотров
Решения вопроса 1
hint000
@hint000
у админа три руки
Эмпирически нашли "золотую середину". Естественные языки разные. Для английского с его типичными короткими словами могло бы подойти и 2, а для немецкого, наверняка, 4+ было бы лучше. Экспериментально получили, что в среднем 3 для разных языков даёт неплохой результат.
Ответ написан
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы