@w1zzard

Как хранить множество слов в БД?

Есть N-ное количество писем. Каждое письмо будет обработано с помощью nlp-средств и получен нормализованный набор слов из этого письма. Далее, запросом в БД, я бы хотел узнать в каких именно письмах содержится то или иное слово. Какую модель хранения множества слов и какую БД лучше использовать?
  • Вопрос задан
  • 207 просмотров
Пригласить эксперта
Ответы на вопрос 2
2ord
@2ord
Хранить в Эластике в поле со списком токенов.
Каждое письмо будет обработано с помощью nlp-средств и получен нормализованный набор слов из этого письма.
возможно, это даже лишний этап.
Эластик и так позволяет искать по словам.
Ответ написан
mayton2019
@mayton2019
Bigdata Engineer
Тут сложно ответить однозначно. Тут есть какое-то дублирование технологий. С одной стороны - есть некий
умный софт (автор пишет nlp-средство) который сделал разбиение писем на слова. Зачем именно nlp? В чем там была глубокая идея? Разве нельзя это-же разбиение сделать с помощью
- Postgres
- MySQL
- SQlite
как предлагали выше ?

Так было-бы проще. А теперь мы все думаем - зачем так сложно?
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы