Как лучше настроить Elastic Search для русского языка под Rails проект?

Question

happyjedi @happyjedi

Как лучше настроить Elastic Search для русского языка под Rails проект?

Пытаюсь настроить ElasticSearch для поиска по русскоязычному словарю терминов. Но почему-то он это производит странным образом. Допустим есть ряд терминов: пожар, пожарная безопасность, пожарная опасность веществ, пожарная охрана, пожарный извещатель, пожарный кран, пожароопасная зона. Так вот при поиске по слову пожар, он выдает в качестве результата только часть списка: пожарный извещатель, пожарный кран, пожароопасная зона.
Разбираюсь в этом деле в одиночестве и зашел в тупик.

Версия ElasticSearch 2.1.0
Так же установлен плагин для русской морфологии: https://github.com/imotov/elasticsearch-analysis-m...
И https://github.com/royrusso/elasticsearch-HQ

И используются гемы

gem 'elasticsearch-model'
gem 'elasticsearch-rails'

Вот мои файлы:
models/dictionary.rb

class Dictionary < ActiveRecord::Base
  include Elasticsearch::Model
  include Elasticsearch::Model::Callbacks

  index_name "dictionary"  
  mapping do #dynamic: 'false'
    [:title].each do |attribute|
      indexes attribute, type: 'string'
    end
  end

  def self.search(query)
    Dictionary.__elasticsearch__.search(
      {
        query: {
          multi_match: {
            query: "#{query}&pretty",
            fields: ['title']
          }
        },
        sort: [{ title: {order:"asc"} }]        
      }
    )
  end
end

if Dictionary.__elasticsearch__.client.indices.index_exists?
  Dictionary.import # for auto sync model with elastic search
else
  Dictionary.__elasticsearch__.client.indices.delete index: Dictionary.index_name rescue nil
  # Create the new index with the new mapping
  Dictionary.__elasticsearch__.client.indices.create(index: Dictionary.index_name)
end

config/initializers/elastic_search.rb

Elasticsearch::Model.client = Elasticsearch::Client.new url: "http://localhost:9200/"
Dictionary.__elasticsearch__.client.indices.delete index: Dictionary.index_name rescue nil

config/elastic_config.yml Так же закинул его в директорию самого elasticsearch - elasticsearch/config

index:
  number_of_shards: 5
  number_of_replicas: 1 

  analysis:
    char_filter:
      ru:
        type: mapping
        mappings: ['Ё=>Е', 'ё=>е']
    analyzer:
      default_index:
        alias: [index_ru]
        type: custom
        tokenizer: nGram
        filter: [stopwords_ru, stop, custom_word_delimiter, lowercase, snowball, russian_morphology, english_morphology]
        char_filter: [ru]
      default_search:
        alias: [search_ru]
        type: custom
        tokenizer: standard
        filter: [stopwords_ru, stop, custom_word_delimiter, lowercase, snowball, russian_morphology, english_morphology]
        char_filter: [ru]
    tokenizer:
      nGram:
        type: nGram
        min_gram: 3
        max_gram: 20
    filter:
      stopwords_ru:
        type: stop
        stopwords: [а,без,более,бы,был,была,были,было,быть,в,вам,вас,весь,во,вот,все,всего,всех,вы,где,да,даже,для,до,его,ее,если,есть,еще,же,за,здесь,и,из,или,им,их,к,как,ко,когда,кто,ли,либо,мне,может,мы,на,надо,наш,не,него,нее,нет,ни,них,но,ну,о,об,однако,он,она,они,оно,от,очень,по,под,при,с,со,так,также,такой,там,те,тем,то,того,тоже,той,только,том,ты,у,уже,хотя,чего,чей,чем,что,чтобы,чье,чья,эта,эти,это,я]
        ignore_case: true
      custom_word_delimiter:
        type: word_delimiter
        # "PowerShot" ⇒ "Power" "Shot", части одного слова становятся отдельными токенами
        generate_word_parts: true
        generate_number_parts: true  # "500-42" ⇒ "500" "42"
        catenate_words: true  # "wi-fi" ⇒ "wifi"
        catenate_numbers: false  # "500-42" ⇒ "50042"
        catenate_all: true  # "wi-fi-4000" ⇒ "wifi4000"
        split_on_case_change: true  # "PowerShot" ⇒ "Power" "Shot"
        preserve_original: true  # "500-42" ⇒ "500-42" "500" "42"
        split_on_numerics: false  # "j2se" ⇒ "j" "2" "se"
      snowball:
        type:     snowball
        language: Russian

Вопрос задан более трёх лет назад
3411 просмотров

5 комментариев

Подписаться 6 Оценить 5 комментариев

Jeiwan @Jeiwan

А как выглядит код, в котором делается запрос на поиск? Вы проверяли, что возвращает Эластик? Возможно, его ответ где-то в коде фильтруется и возвращается последние 3 результата.

Написано более трёх лет назад
happyjedi @happyjedi Автор вопроса

Jeiwan: Фильтров нет, запрос самый простой - прямой вызов метода модели из контроллера: @termins = Dictionary.search(params[:q])

Написано более трёх лет назад
happyjedi @happyjedi Автор вопроса

Для примера есть термины со словом Этаж. Он точно так же не находит просто слово Этаж, зато все другие его формы есть.

Написано более трёх лет назад
happyjedi @happyjedi Автор вопроса

Просто, как мне кажется, вся суть именно в конфиг файле, я его сделал на основе простых примеров, которые нашел в инете, и что-то упустил из виду. Надеюсь тут найти помощь людей, которые уже имеют опыт работы с ElasticSearch именно с русской морфологией, т.к. находил в основном примеры связаные с английской.

Написано более трёх лет назад
Arfey @Arfey
Проверь как работает твой анализатор

curl -XPOST "http://localhost:9200/index/_analyze?pretty" -H 'Content-Type: application/json' -d' { "analyzer": "default_index", "text": "пожар" } '

потом "пожарная безопасность" и сравни
Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Skillbox

Ruby on Rails с нуля

10 месяцев

Далее
Code Basics

Ruby для начинающих

1 месяц

Далее

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Elasticsearch

Простой
Как настроить workflow (n8n v2.3.5) для работы Chat->AI Anget ->Model-Elastcsearch?
- 2 подписчика
- 02 мар.
- 130 просмотров
0

ответов
Elasticsearch

Средний
Как правильно удалять старые данные из индексов elasticsearch?
- 1 подписчик
- 06 февр.
- 195 просмотров
1

ответ
Elasticsearch

Простой
ElasticSearch, поиск в стиле google?
- 2 подписчика
- 07 нояб. 2025
- 217 просмотров
1

ответ
Laravel

+1 ещё

Средний
Production.ERROR: No alive nodes. All the 1 nodes seem to be down -- laravel?
- 1 подписчик
- 14 окт. 2025
- 168 просмотров
0

ответов
Elasticsearch

Простой
Почему opensearch создает кучу процессов?
- 2 подписчика
- 04 авг. 2025
- 310 просмотров
1

ответ
Elasticsearch

Простой
Как побороть несовместимость версий elasticsearch и его fluent плагина?
- 2 подписчика
- более года назад
- 381 просмотр
1

ответ
Elasticsearch

Простой
К какому методу API ElasticSearch необходимо делать запрос для получения количества документов?
- 1 подписчик
- более года назад
- 57 просмотров
2

ответа
1С-Битрикс

+1 ещё

Простой
Как сделать простой фильтр с фасетом?
- 1 подписчик
- более года назад
- 156 просмотров
1

ответ
MySQL

+1 ещё

Простой
Как построить индекс в ElasticSearch с фильтрами по полям содержащим тысячи значений?
- 4 подписчика
- более года назад
- 474 просмотра
1

ответ
PHP

+1 ещё

Средний
Как сортировать новости в результатах поиска по дате публикации?
- 5 подписчиков
- более года назад
- 1269 просмотров
1

ответ
Показать ещё Загружается…

А как выглядит код, в котором делается запрос на поиск? Вы проверяли, что возвращает Эластик? Возможно, его ответ где-то в коде фильтруется и возвращается последние 3 результата.
Jeiwan: Фильтров нет, запрос самый простой - прямой вызов метода модели из контроллера: @termins = Dictionary.search(params[:q])
Для примера есть термины со словом Этаж. Он точно так же не находит просто слово Этаж, зато все другие его формы есть.
Просто, как мне кажется, вся суть именно в конфиг файле, я его сделал на основе простых примеров, которые нашел в инете, и что-то упустил из виду. Надеюсь тут найти помощь людей, которые уже имеют опыт работы с ElasticSearch именно с русской морфологией, т.к. находил в основном примеры связаные с английской.
Проверь как работает твой анализатор

curl -XPOST "http://localhost:9200/index/_analyze?pretty" -H 'Content-Type: application/json' -d' { "analyzer": "default_index", "text": "пожар" } '

потом "пожарная безопасность" и сравни

Как лучше настроить Elastic Search для русского языка под Rails проект?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт