Как уменьшить влияние russian_morphology на скорость индекса в elasticsearch 2.4?

Question

Антон Иванов @Fly3110

web developer

Elasticsearch

Как уменьшить влияние russian_morphology на скорость индекса в elasticsearch 2.4?

Всем привет.

Использую вот этот плагин: https://github.com/imotov/elasticsearch-analysis-m...
И вот такую настройку индекса:

index:
  number_of_shards: 5

  analysis:
    char_filter:
      ru:
        type: mapping
        mappings: ['Ё=>Е', 'ё=>е']
    analyzer:
      default_index:
        alias: [index_ru]
        type: custom
        tokenizer: nGram
        filter: [stopwords_ru, stop, custom_word_delimiter, lowercase, russian_morphology, english_morphology]
        char_filter: [ru]
      default_search:
        alias: [search_ru]
        type: custom
        tokenizer: standard
        filter: [stopwords_ru, stop, custom_word_delimiter, lowercase, russian_morphology, english_morphology]
        char_filter: [ru]
    tokenizer:
      nGram:
        type: nGram
        min_gram: 4
        max_gram: 20
    filter:
      stopwords_ru:
        type: stop
        stopwords: [а,без,более,бы,был,была,были,было,быть,в,вам,вас,весь,во,вот,все,всего,всех,вы,где,да,даже,для,до,его,ее,если,есть,еще,же,за,здесь,и,из,или,им,их,к,как,ко,когда,кто,ли,либо,мне,может,мы,на,надо,наш,не,него,нее,нет,ни
        ignore_case: true
      custom_word_delimiter:
        type: word_delimiter
        # "PowerShot" ⇒ "Power" "Shot", части одного слова становятся отдельными токенами
        generate_word_parts: true
        generate_number_parts: true  # "500-42" ⇒ "500" "42"
        catenate_words: true  # "wi-fi" ⇒ "wifi"
        catenate_numbers: false  # "500-42" ⇒ "50042"
        catenate_all: true  # "wi-fi-4000" ⇒ "wifi4000"
        split_on_case_change: true  # "PowerShot" ⇒ "Power" "Shot"
        preserve_original: true  # "500-42" ⇒ "500-42" "500" "42"
        split_on_numerics: false  # "j2se" ⇒ "j" "2" "se"

Индекс новых документов идет достаточно медленно, порядка 10 документов в секунду.
При отключении анализа морфологии скорость возрастает в несколько раз.
Можно как-то ускорить индексацию новых документов, или это нормальная скорость?
Проверяю на макбуке Late 2013, Core i7 2.6, памяти для эластика выделено 5 GB

Заранее спасибо.

Вопрос задан более трёх лет назад
907 просмотров

7 комментариев

Подписаться 6 Оценить 7 комментариев

un1t @un1t

Групповые вставки не подходят?

Написано более трёх лет назад
Антон Иванов @Fly3110 Автор вопроса

un1t: Скорость почти аналогичная.

Написано более трёх лет назад
un1t @un1t

Антон Иванов: версия точно 2.4? вроде пока последняя 2.3.5. У меня используется 2.3.1 с тем же плагином и похожими настройками. Одиночные вставки не скажу сколько, но групповые получаются примерно 10 тыс документов в секунду. Подозреваю что все-таки не в плагине проблема.

Написано более трёх лет назад
Антон Иванов @Fly3110 Автор вопроса

un1t: конечно же с версией я ошибся. 2.3.4 у меня. На 2.3.3 на сервере на ubuntu была такая же проблема.
Можете показать свои настройки для индекса? Может у меня какая-то мелочь одна все так тормозит. Ну и то, что анализируются этим анализатором все строки, а не только те, где это явно указано.
Если не в плагине, то в чем может быть проблема? Heap size - пять гигов. Ограничение JVM на 10240 файлов снято, диск на маке быстрый. Во время инсертов (групповых, в один поток, по 100 документов), процессор загружен на 500-600 процентов (по Activity Monitor). Размер у документов - примерно по килобайту каждый. Около 20 полей, 90% из них строковые, весь "вес" только на одном поле, остальные - 2-3 слова.

Написано более трёх лет назад

un1t @un1t

{
    "analysis": {
        "char_filter": {
            "my_charfilter": {
                "type": "mapping",
                "mappings": ["Ё=>Е", "ё=>е"]
            }
        },
        "analyzer": {
            "default_index": {
                "type": "custom",
                "char_filter": ["my_charfilter"],
                "tokenizer": "standard",
                "filter": ["lowercase", "russian_morphology", "my_stopwords"],
            },
            "default_search": {
                "type": "custom",
                "char_filter": ["my_charfilter"],
                "tokenizer": "standard",
                "filter": ["lowercase", "russian_morphology", "my_stopwords"],
            }
        },
        "filter": {
            "my_stopwords": {
                "type": "stop",
                "stopwords": "а,без,более,бы,был,была,были,было,быть,в,вам,вас,весь,во,вот,все,всего,всех,вы,где,да,даже,для,до,его,ее,если,есть,еще,же,за,здесь,и,из,или,им,их,к,как,ко,когда,кто,ли,либо,мне,может,мы,на,надо,наш,не,него,нее,нет,ни,них,но,ну,о,об,однако,он,она,они,оно,от,очень,по,под,при,с,со,так,также,такой,там,те,тем,то,того,тоже,той,только,том,ты,у,уже,хотя,чего,чей,чем,что,чтобы,чье,чья,эта,эти,это,я"
            },
        }
    },
}

Правда а у меня документы поменьше, название и описание на один абзац.

Написано более трёх лет назад

Антон Иванов @Fly3110 Автор вопроса

un1t: Проблема была в настройках токенайзера. nGram очень тормозит. standard работает очень быстро.

Написано более трёх лет назад
un1t @un1t

Антон Иванов: понятно, буду иметь ввиду

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

REBRAIN

EFK (Elastic & Fluent & Kibana)

2 недели

Далее
Яндекс Практикум

Аналитик SOC

4 месяца

Далее
Merion Academy

Базы данных с нуля

2 месяца

Далее

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Elasticsearch

Простой
Как настроить workflow (n8n v2.3.5) для работы Chat->AI Anget ->Model-Elastcsearch?
- 2 подписчика
- 02 мар.
- 112 просмотров
0

ответов
Elasticsearch

Средний
Как правильно удалять старые данные из индексов elasticsearch?
- 1 подписчик
- 06 февр.
- 148 просмотров
1

ответ
Elasticsearch

Простой
ElasticSearch, поиск в стиле google?
- 2 подписчика
- 07 нояб. 2025
- 201 просмотр
1

ответ
Laravel

+1 ещё

Средний
Production.ERROR: No alive nodes. All the 1 nodes seem to be down -- laravel?
- 1 подписчик
- 14 окт. 2025
- 158 просмотров
0

ответов
Elasticsearch

Простой
Почему opensearch создает кучу процессов?
- 2 подписчика
- 04 авг. 2025
- 303 просмотра
1

ответ
Elasticsearch

Простой
Как побороть несовместимость версий elasticsearch и его fluent плагина?
- 2 подписчика
- 11 июн. 2025
- 361 просмотр
1

ответ
Elasticsearch

Простой
К какому методу API ElasticSearch необходимо делать запрос для получения количества документов?
- 1 подписчик
- 27 мая 2025
- 49 просмотров
2

ответа
1С-Битрикс

+1 ещё

Простой
Как сделать простой фильтр с фасетом?
- 1 подписчик
- более года назад
- 149 просмотров
1

ответ
MySQL

+1 ещё

Простой
Как построить индекс в ElasticSearch с фильтрами по полям содержащим тысячи значений?
- 4 подписчика
- более года назад
- 467 просмотров
1

ответ
PHP

+1 ещё

Средний
Как сортировать новости в результатах поиска по дате публикации?
- 5 подписчиков
- более года назад
- 1259 просмотров
1

ответ
Показать ещё Загружается…

Программист 1С

Assistance Group

До 320 000 ₽

DevOps-администратор 1С (Junior+/Middle)

Greenway Global • Новосибирск

от 90 000 до 230 000 ₽

Team Lead Go (Golang, продукты для управления инфраструктурой и PKI (TLS/ГОСТ)

Netwrk • Москва

от 450 000 до 600 000 ₽

Антон Иванов: версия точно 2.4? вроде пока последняя 2.3.5. У меня используется 2.3.1 с тем же плагином и похожими настройками. Одиночные вставки не скажу сколько, но групповые получаются примерно 10 тыс документов в секунду. Подозреваю что все-таки не в плагине проблема.
un1t: конечно же с версией я ошибся. 2.3.4 у меня. На 2.3.3 на сервере на ubuntu была такая же проблема.
Можете показать свои настройки для индекса? Может у меня какая-то мелочь одна все так тормозит. Ну и то, что анализируются этим анализатором все строки, а не только те, где это явно указано.
Если не в плагине, то в чем может быть проблема? Heap size - пять гигов. Ограничение JVM на 10240 файлов снято, диск на маке быстрый. Во время инсертов (групповых, в один поток, по 100 документов), процессор загружен на 500-600 процентов (по Activity Monitor). Размер у документов - примерно по килобайту каждый. Около 20 полей, 90% из них строковые, весь "вес" только на одном поле, остальные - 2-3 слова.
{ "analysis": { "char_filter": { "my_charfilter": { "type": "mapping", "mappings": ["Ё=>Е", "ё=>е"] } }, "analyzer": { "default_index": { "type": "custom", "char_filter": ["my_charfilter"], "tokenizer": "standard", "filter": ["lowercase", "russian_morphology", "my_stopwords"], }, "default_search": { "type": "custom", "char_filter": ["my_charfilter"], "tokenizer": "standard", "filter": ["lowercase", "russian_morphology", "my_stopwords"], } }, "filter": { "my_stopwords": { "type": "stop", "stopwords": "а,без,более,бы,был,была,были,было,быть,в,вам,вас,весь,во,вот,все,всего,всех,вы,где,да,даже,для,до,его,ее,если,есть,еще,же,за,здесь,и,из,или,им,их,к,как,ко,когда,кто,ли,либо,мне,может,мы,на,надо,наш,не,него,нее,нет,ни,них,но,ну,о,об,однако,он,она,они,оно,от,очень,по,под,при,с,со,так,также,такой,там,те,тем,то,того,тоже,той,только,том,ты,у,уже,хотя,чего,чей,чем,что,чтобы,чье,чья,эта,эти,это,я" }, } }, }

Правда а у меня документы поменьше, название и описание на один абзац.
un1t: Проблема была в настройках токенайзера. nGram очень тормозит. standard работает очень быстро.
Антон Иванов: понятно, буду иметь ввиду

Как уменьшить влияние russian_morphology на скорость индекса в elasticsearch 2.4?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт