Как импортировать строки из TXT в ElasticSearch?

Question

DiIce @DiIce

Как импортировать строки из TXT в ElasticSearch?

Есть текстовый файл на 1 млрд строк в кодировке utf8 на русском языке.
Нужно сделать импорт из этого файла в индекс elasticsearch, чтобы потом иметь полнотекстовый поиск по строчкам этим
Каждая строка файла должна стать новым документом в базе с одним полем, допустим "keyword", по которому потом и будем делать поиск.

Как такое можно сделать?

Вопрос задан более трёх лет назад
336 просмотров

Комментировать

Подписаться 2 Оценить Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Мидл Python-разработчик

6 месяцев

Далее
OTUS

PHP Developer. Professional

5 месяцев

Далее
Merion Academy

Курс по NoSQL. Нереляционные базы данных

1 месяц

Далее

Решения вопроса 1

14 комментариев

DiIce @DiIce Автор вопроса

в таком формате? {['key':'строка 1'],['key':'строка 2']}

Написано более трёх лет назад
kotofey @Kotofey

Вот в таком (для ластика версии 1.7)
{"_index":"<ваш_индекс>", "_type":"<ваш_type>", "_id":"1", "_source":{"key":"строка 1"}}
{"_index":"<ваш_индекс>", "_type":"<ваш_type>", "_id":"2", "_source":{"key":"строка 2"}}

Один документ - одна строка.

Написано более трёх лет назад
DiIce @DiIce Автор вопроса

спасибо, подскажете еще один момент?

я сделал индекс
curl -XPUT 'localhost:9200/keywords/key/_mapping' -d '{"key":{"properties":{"key":{"type":"string","index":"analyzed"}}}}'

потом добавил документ вручную
curl -XPOST localhost:9200/keywords/keys/1 -d '{"key":"натяжные потолки"}'

потом делаю поиск
curl -XGET 'http://localhost:9200/keywords/_search?q=key:натяж...'

мне выдается результат
{
"took" : 10,
"timed_out" : false,
"_shards" : {
"total" : 5,
"successful" : 5,
"failed" : 0
},
"hits" : {
"total" : 0,
"max_score" : null,
"hits" : [ ]
}
}

что я сделал не так?

Написано более трёх лет назад
kotofey @Kotofey

При создании индекса у вас указан _type = key
При добавлении документа _type = keys

Написано более трёх лет назад
DiIce @DiIce Автор вопроса

исправил, тоже самое. кроме этого?

Написано более трёх лет назад
kotofey @Kotofey

_search делается post'ом

Написано более трёх лет назад
DiIce @DiIce Автор вопроса

уважаемый, добрый день и с праздником:)
подскажите, пожалуйста, еще такой момент:
делаю поиск curl -XPOST 'localhost:9200/keywords/keys/_search?q=key:000&pre...'
возвращается результат, все ок
делаю поиск curl -XPOST 'http://localhost:9200/keywords/keys/_search?q=key:...'
всегда пусто, какое бы слово не написал

т.е. по цифрам ищет, по словам нет

Написано более трёх лет назад
kotofey @Kotofey

Должно работать. Покажите ваш маппинг.

Написано более трёх лет назад
DiIce @DiIce Автор вопроса

сам разобрался спасибо огромное за поддержку!
подскажите пожалуйста, а эластикдамп может за раз класть больше чем 100 шт?
у меня база на 810 млн, сервер норм, мощный. могу я сделать так чтобы он за раз клал по 1000 например? по 2000? (из файла в индекс)

Написано более трёх лет назад
DiIce @DiIce Автор вопроса

ибо он по 100 шт ну очень медленно кладет

Написано более трёх лет назад
DiIce @DiIce Автор вопроса

или может в несколько потоков?

Написано более трёх лет назад
kotofey @Kotofey

Да, этот параметр настраивается (см. раздел Option):
--limit (How many objects to move in batch per operation limit is approximate for file streams (default: 100) )

Написано более трёх лет назад
DiIce @DiIce Автор вопроса

kotofey: по опыту можете сказать какой лимит поставить? у меня 16 гб оперативки, ксеон на 16 потоков

Написано более трёх лет назад
kotofey @Kotofey

Посмотрите раздел "MultiElasticDump". Там как раз описывается вариант распараллеливания.
Какой именно лимит лучше выставить конкретно под вашу задачу затрудняюсь ответить, так как импортировать такие объемы пока не доводилось. Пробуйте постепенно увеличивать лимит пока не пойдут потери при импорте данных.

Написано более трёх лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Elasticsearch

Простой
ElasticSearch, поиск в стиле google?
- 2 подписчика
- 07 нояб.
- 145 просмотров
0

ответов
Laravel

+1 ещё

Средний
Production.ERROR: No alive nodes. All the 1 nodes seem to be down -- laravel?
- 1 подписчик
- 14 окт.
- 120 просмотров
0

ответов
Elasticsearch

Простой
Почему opensearch создает кучу процессов?
- 2 подписчика
- 04 авг.
- 287 просмотров
1

ответ
Ubuntu

+2 ещё

Средний
Как перенести всю почту с gmail на корпоративную с помощью IMAPSync на Ubuntu?
- 1 подписчик
- 23 июл.
- 149 просмотров
1

ответ
Elasticsearch

Простой
Как побороть несовместимость версий elasticsearch и его fluent плагина?
- 2 подписчика
- 11 июн.
- 323 просмотра
1

ответ
Elasticsearch

Простой
К какому методу API ElasticSearch необходимо делать запрос для получения количества документов?
- 1 подписчик
- 27 мая
- 45 просмотров
2

ответа
Перенос данных

Простой
Проблема иморта xml файла через Wp All Import не PRO версии?
- 1 подписчик
- 04 мая
- 42 просмотра
0

ответов
1С-Битрикс

+2 ещё

Средний
Почему удаляются фото после выгрузки, уже загруженные ранее, на сайте 1С Битрикс?
- 1 подписчик
- 07 мар.
- 163 просмотра
3

ответа
1С-Битрикс

+1 ещё

Простой
Как сделать простой фильтр с фасетом?
- 1 подписчик
- 16 февр.
- 134 просмотра
1

ответ
Chrome

+4 ещё

Простой
Как перенести данные с Google Chrome на другой браузер на базе Chromium?
- 1 подписчик
- 10 февр.
- 287 просмотров
2

ответа
Показать ещё Загружается…

DevOps-инженер

DevTeam.Space

от 1 000 до 2 500 $

Ведущий системный администратор

АВ Софт • Москва

от 300 000 ₽

Инженер по инцидентам информационной безопасности

SMALL

от 3 400 до 4 700 $

Answer 1 · 2016-05-08 11:39:38

Для дампов, восстановления из оных, перекидывания данных с прода на дев и тд пользуюсь вот этим инструментом: elasticdump
В вашем случае нужно лишь привести текстовый файл к json формату.

Как импортировать строки из TXT в ElasticSearch?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт