Почему в Elasticsearch неправильно ищутся некоторые слова?

Question

un1t @un1t

Elasticsearch

Почему в Elasticsearch неправильно ищутся некоторые слова?

Использую плагин russian_morphology.

Фамилию "петрова" анализатор превращает в токен "петров", а фамилию "петров" в "петров" и "петр". Тут все норм, так и должно быть.
А есть другая фамилия - "аккуратова", она превращяется в "аккуратов", а таже фамилия в именительном падеже мужского рода "аккуратов" превращяется в "аккурат". И тут возникает проблема. По запросу "аккуратов" мы не сможем найти например фразу "портрет Аккуратова".

Ниже настройки и примеры запросов к анализатору.

"settings" : {
      "index" : {
        "analysis" : {
          "filter" : {
            "my_stopwords" : {
              "type" : "stop",
              "stopwords" : "а,без,более,бы,был,была,были,было,быть,в,вам,вас,весь,во,вот,все,всего,всех,вы,где,да,даже,для,до,его,ее,если,есть,еще,же,за,здесь,и,из,или,им,их,к,как,ко,когда,кто,ли,либо,мне,может,мы,на,надо,наш,не,него,нее,нет,ни,них,но,ну,о,об,однако,он,она,они,оно,от,очень,по,под,при,с,со,так,также,такой,там,те,тем,то,того,тоже,той,только,том,ты,у,уже,хотя,чего,чей,чем,что,чтобы,чье,чья,эта,эти,это,я"
            }
          },
          "char_filter" : {
            "my_charfilter" : {
              "type" : "mapping",
              "mappings" : [ "Ё=>Е", "ё=>е" ]
            }
          },
          "analyzer" : {
            "my_analyzer" : {
              "filter" : [ "lowercase", "russian_morphology", "my_stopwords" ],
              "char_filter" : [ "my_charfilter" ],
              "type" : "custom",
              "tokenizer" : "standard"
            }
          }
        },

$ curl -XGET 'localhost:9200/myindex/_analyze?pretty&tokenizer=standard&token_filters=russian_morphology' -d 'петрова'

{
  "tokens" : [ {
    "token" : "петров",
    "start_offset" : 0,
    "end_offset" : 7,
    "type" : "<ALPHANUM>",
    "position" : 1
  } ]
}

$ curl -XGET 'localhost:9200/myindex/_analyze?pretty&tokenizer=standard&token_filters=russian_morphology' -d 'петров'

{
  "tokens" : [ {
    "token" : "петров",
    "start_offset" : 0,
    "end_offset" : 6,
    "type" : "<ALPHANUM>",
    "position" : 1
  }, {
    "token" : "петр",
    "start_offset" : 0,
    "end_offset" : 6,
    "type" : "<ALPHANUM>",
    "position" : 1
  } ]
}

$ curl -XGET 'localhost:9200/myindex/_analyze?pretty&tokenizer=standard&token_filters=russian_morphology' -d 'аккуратов'

{
  "tokens" : [ {
    "token" : "аккурат",
    "start_offset" : 0,
    "end_offset" : 9,
    "type" : "<ALPHANUM>",
    "position" : 1
  } ]
}

$ curl -XGET 'localhost:9200/myindex/_analyze?pretty&tokenizer=standard&token_filters=russian_morphology' -d 'аккуратова'

{
  "tokens" : [ {
    "token" : "аккуратов",
    "start_offset" : 0,
    "end_offset" : 10,
    "type" : "<ALPHANUM>",
    "position" : 1
  } ]
}

Вопрос задан более трёх лет назад
530 просмотров

Комментировать

Подписаться 4 Оценить Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Аналитик SOC

4 месяца

Далее
Merion Academy

Базы данных с нуля

2 месяца

Далее
OTUS

PHP Developer. Professional

5 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Elasticsearch

Простой
ElasticSearch, поиск в стиле google?
- 2 подписчика
- 07 нояб.
- 168 просмотров
1

ответ
Laravel

+1 ещё

Средний
Production.ERROR: No alive nodes. All the 1 nodes seem to be down -- laravel?
- 1 подписчик
- 14 окт.
- 125 просмотров
0

ответов
Elasticsearch

Простой
Почему opensearch создает кучу процессов?
- 2 подписчика
- 04 авг.
- 289 просмотров
1

ответ
Elasticsearch

Простой
Как побороть несовместимость версий elasticsearch и его fluent плагина?
- 2 подписчика
- 11 июн.
- 333 просмотра
1

ответ
Elasticsearch

Простой
К какому методу API ElasticSearch необходимо делать запрос для получения количества документов?
- 1 подписчик
- 27 мая
- 45 просмотров
2

ответа
1С-Битрикс

+1 ещё

Простой
Как сделать простой фильтр с фасетом?
- 1 подписчик
- 16 февр.
- 136 просмотров
1

ответ
MySQL

+1 ещё

Простой
Как построить индекс в ElasticSearch с фильтрами по полям содержащим тысячи значений?
- 4 подписчика
- 23 янв.
- 461 просмотр
1

ответ
PHP

+1 ещё

Средний
Как сортировать новости в результатах поиска по дате публикации?
- 5 подписчиков
- более года назад
- 1252 просмотра
1

ответ
PHP

+1 ещё

Средний
Как писать логи напрямую в Elastic?
- 1 подписчик
- более года назад
- 158 просмотров
3

ответа
Elasticsearch

Средний
Правильный способ реализовать поиск с автодополнением по одному слову?
- 2 подписчика
- более года назад
- 429 просмотров
1

ответ
Показать ещё Загружается…

DevOps Junior

Principal Recruitment • Москва

от 200 000 до 250 000 ₽

DevOps Инженер

Principal Recruitment • Москва

от 200 000 до 350 000 ₽

QA engineer

BSS

До 150 000 ₽

Answer 1 · 2016-04-14 14:13:07

Не совсем ответ, но есть форум, где осуждают проблемы с ES и морфологией в частности на русском (если существенно): https://discuss.elastic.co/c/in-your-native-tongue...

И стоит посмотреть issue проекта этого плагина (больше закрытые, т.к. по открытым нет ответов):
https://github.com/imotov/elasticsearch-analysis-m...

Автор плагина Игорь Мотов, я ему задавал вопросы.
У меня была близкая проблема при использовании wildcard, но оказалось, что это не проблема морфологии.

Почему в Elasticsearch неправильно ищутся некоторые слова?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт