Как правильно приготовить питоном параллельную индексацию в ElasticSearch?

Question

teobon @teobon

Как правильно приготовить питоном параллельную индексацию в ElasticSearch?

Есть задача - максимально быстро создать индекс в Elasticsearch.
На входе - данные, приготовленные питоном.
На выходе - созданный с нуля индекс.

Инфраструктура пока самая простая - один нод ES, один индекс, один шард без реплик.
Данных немного, 100К документов, но есть геоданные, ES индексирует единицы документов в секунду.
Кормление ES идет с помощью elasticutils в цикле (т.е. синхронно) в bulk режиме.

Проблема - построение индекса занимает 10 часов, хотелось бы время уменьшить в разы (целевое значение - 1 час).

При этом инфраструктура не упирается ни в CPU, ни в память, ни в IO.
Из 8 ядер, которые сейчас выделены на этот сервер, в среднем нагружены 2.
IO не проседает, загрузка в районе 0.
Памяти выделено 18GB, свободно в среднем 8GB, т.е. тоже всё ок.
Т.е. получается, что проблема не в инфраструктуре, а в настройках всей связки индексации.

Потенциальные места для улучшений:
1) из питона кормить ES асинхронно (например, с помощью celery)
2) оптимизировать структуру хранения индекса в ES (много шардов, etc)
3) оптимизировать настройки ES (хз что тут можно улучшить, пулы и так есть в избытке)

Как думаете, в какие направления лучше всего копать?

Вопрос задан более трёх лет назад
2584 просмотра

Комментировать

Подписаться 3 Оценить Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillbox

Python-разработчик

10 месяцев

Далее
Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 3

Комментировать

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Как получить конкретный атрибут приложенный в обьект?
- 1 подписчик
- вчера
- 127 просмотров
1

ответ
Python

Простой
Как сохранить курсор в строке ввода при перезапуске explorer.exe?
- 1 подписчик
- вчера
- 90 просмотров
1

ответ
Python

Простой
Ошибка IndexError: string index out of range в написании реализации системы Линденмайера – от чего происходит и как исправить?
- 1 подписчик
- 27 нояб.
- 84 просмотра
1

ответ
Python

+1 ещё

Простой
Как сделать рассылку в viber в фоне?
- 1 подписчик
- 22 нояб.
- 91 просмотр
0

ответов
Python

Простой
Каким образом я могу запускать привязанных ботов в основном, что-бы основной loop не ломался и не дублировался?
- 1 подписчик
- 15 нояб.
- 231 просмотр
1

ответ
Python

Простой
Почему конвертация .py файла в .exe с помощью auto-py-to-exe происходит аномально долго и как это исправить?
- 1 подписчик
- 08 нояб.
- 268 просмотров
0

ответов
Python

+2 ещё

Простой
Как решить ошибку с отправкой почты через Outlook SMTP?
- 1 подписчик
- 08 нояб.
- 170 просмотров
0

ответов
Python

+2 ещё

Средний
Как конвертировать drawio (xml) в xml zabbix map?
- 2 подписчика
- 08 нояб.
- 150 просмотров
1

ответ
Elasticsearch

Простой
ElasticSearch, поиск в стиле google?
- 2 подписчика
- 07 нояб.
- 146 просмотров
0

ответов
Python

Простой
Какой браузер с headless для python не распознаеться и не блокируеться google ai studio?
- 2 подписчика
- 31 окт.
- 270 просмотров
0

ответов
Показать ещё Загружается…

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python Software Engineer - ML/LLM

Ennabl • Лимассол

от 650 000 ₽

Python back-end engineer (+Kotlin)

YoloPrice

от 360 000 до 420 000 ₽

Answer 1 · 2014-10-28 15:23:20

index_concurrency смотрели? По идее должно быть 8 и 8 ядер нагружены.
index.merge.scheduler.max_thread_count вроде как если у вас нет затыка по IO то можно наращивать.

Кстати странно. У меня в ES (по ошибке) приходило 1-2к логов (документов) в секунду. Сервер был слабенький но удар спокойно держал. Правда индекс считался раз в сутки и я не заметил как что и как с ним было. Удалил все лишнее без разборов.

Answer 2 · 2014-12-18 14:11:02

Единственное, что хоть как-то помогло загрузить все ядра - это увеличение кол-ва шардов (был один, стало 4).
Большее кол-во шардов не дает прироста, меньшее - не загружает все ядра.

При этом так до конца и не понял, почему. Т.е. в принципе можно попробовать обьяснить - могут быть блокировки шардов на запись при индексации, но вроде как по доке такого поведения быть не должно.

Answer 3 · 2015-02-08 19:49:58

100 тыс документов это совсем не много.
Я до 250 тыс индексировал, индексация занимает всего несколько минут на слабеньком VDS. (про геоданные не в курсе)
Какой у вас сердний размер документа? Вы все поля индексируете?
Я при создании индекса указываю

es.create_index(index, {
                'index': {
                    'refresh_interval': -1,
                }
            })

Отправляю документы через bulk_index по 10 тыс за раз, в конце запускаю обновление индекса
es.refresh(index)

Как правильно приготовить питоном параллельную индексацию в ElasticSearch?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт