Как хранить множество слов в БД?

Question

w1zzard @w1zzard

Проектирование баз данных

Как хранить множество слов в БД?

Есть N-ное количество писем. Каждое письмо будет обработано с помощью nlp-средств и получен нормализованный набор слов из этого письма. Далее, запросом в БД, я бы хотел узнать в каких именно письмах содержится то или иное слово. Какую модель хранения множества слов и какую БД лучше использовать?

Вопрос задан более двух лет назад
220 просмотров

6 комментариев

Подписаться 2 Простой 6 комментариев

freeExec @freeExec

Полнотекстовый поиск есть наверное в любой БД, даже в sqlite

Написано более двух лет назад
freeExec @freeExec

GNUBack, что это значит?

Написано более двух лет назад
freeExec @freeExec

GNUBack, ну да, они примерно все так и работают. Где-то есть поддержка языков, например в posgresql можно явно указать язык текста, и там даже есть поддержка русского, который умеет выкинуть разные окончания, оставив корень. Или просто текст бьют на триграммы и работают с ними.

Написано более двух лет назад
freeExec @freeExec

GNUBack, ну вот и выходит, он сделал то, чего не нужно было делать, потому что это делают всё целиком из коробки. А так, если он хочет взять свою часть, то ему придётся реализовывать и остальные, по хранению индексации и выборки по всему этому.

Написано более двух лет назад
w1zzard @w1zzard Автор вопроса

freeExec, как правильно заметил GNUBack, нормализация проводится отдельным этапом специальным софтом и поступает для хранения уже готовым. Также спасибо за наводку, что postgresql умеет в лемматизацию, не знал. Но, думаю, качество будет похуже, нежели у специально заточенного под russian lang софта.

Написано более двух лет назад
d'Ivan @2ord

w1zzard,

Также спасибо за наводку, что postgresql умеет в лемматизацию, не знал. Но, думаю, качество будет похуже, нежели у специально заточенного под russian lang софта.

Для лемматизации не нужны специальные NLP средства. Это довольно хорошо работает и в классических СУБД.
Иль у вас нечто большее, чем поиск по ключевым словам?

Написано более двух лет назад

Помогут разобраться в теме Все курсы

Открытые школы T1

Разработчик Java

1 месяц

Далее
OTUS

MS SQL Server Developer

5 месяцев

Далее
Нетология

Продвинутый SQL

5 недель

Далее

Пригласить эксперта

Ответы на вопрос 2

2 комментария

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

API

+1 ещё

Простой
Точь в точь ли маппятся поля json-сущности на поля в таблицах базы данных?
- 1 подписчик
- 05 июл.
- 236 просмотров
2

ответа
Проектирование баз данных

Простой
Правильно ли построена ER диаграмма?
- 1 подписчик
- 11 мая
- 261 просмотр
1

ответ
Информационная безопасность

+2 ещё

Простой
Данная схема реализации базы данных подходит под рамки 152-ФЗ?
- 1 подписчик
- 17 апр.
- 555 просмотров
2

ответа
PostgreSQL

+1 ещё

Простой
Проектирование БД: чем сейчас люди пользуются?
- 1 подписчик
- 09 апр.
- 483 просмотра
4

ответа
Проектирование баз данных

Простой
Как лучше сделать базу данных?
- 1 подписчик
- 07 мар.
- 318 просмотров
5

ответов
Проектирование баз данных

Средний
Как спроектировать dwh звезда?
- 1 подписчик
- 05 мар.
- 73 просмотра
1

ответ
Проектирование баз данных

Средний
Выбор между SQL и NoSQL документооринтированной базой данных?
- 2 подписчика
- 01 мар.
- 1004 просмотра
2

ответа
Проектирование баз данных

Простой
Как лучше обновлять счётчик записей?
- 1 подписчик
- 27 февр.
- 146 просмотров
4

ответа
Проектирование баз данных

Простой
Как организовать таблицу для хранения ответов теста?
- 2 подписчика
- 21 февр.
- 297 просмотров
2

ответа
Проектирование баз данных

Простой
Как хранить данные о недвижимости?
- 1 подписчик
- 17 февр.
- 195 просмотров
1

ответ
Показать ещё Загружается…

Solution Architect

SMALL

от 4 000 до 6 000 $

Fullstack разработчик

SMALL

от 200 000 до 300 000 ₽

Ведущий инженер

Ростелеком • Волгоград

от 49 000 ₽

Полнотекстовый поиск есть наверное в любой БД, даже в sqlite
GNUBack, ну да, они примерно все так и работают. Где-то есть поддержка языков, например в posgresql можно явно указать язык текста, и там даже есть поддержка русского, который умеет выкинуть разные окончания, оставив корень. Или просто текст бьют на триграммы и работают с ними.
GNUBack, ну вот и выходит, он сделал то, чего не нужно было делать, потому что это делают всё целиком из коробки. А так, если он хочет взять свою часть, то ему придётся реализовывать и остальные, по хранению индексации и выборки по всему этому.
freeExec, как правильно заметил GNUBack, нормализация проводится отдельным этапом специальным софтом и поступает для хранения уже готовым. Также спасибо за наводку, что postgresql умеет в лемматизацию, не знал. Но, думаю, качество будет похуже, нежели у специально заточенного под russian lang софта.
w1zzard,

Также спасибо за наводку, что postgresql умеет в лемматизацию, не знал. Но, думаю, качество будет похуже, нежели у специально заточенного под russian lang софта.

Для лемматизации не нужны специальные NLP средства. Это довольно хорошо работает и в классических СУБД.
Иль у вас нечто большее, чем поиск по ключевым словам?

Answer 1 · 2023-03-23 15:55:27

Хранить в Эластике в поле со списком токенов.

Каждое письмо будет обработано с помощью nlp-средств и получен нормализованный набор слов из этого письма.

возможно, это даже лишний этап.
Эластик и так позволяет искать по словам.

Answer 2 · 2023-03-23 17:56:38

Тут сложно ответить однозначно. Тут есть какое-то дублирование технологий. С одной стороны - есть некий
умный софт (автор пишет nlp-средство) который сделал разбиение писем на слова. Зачем именно nlp? В чем там была глубокая идея? Разве нельзя это-же разбиение сделать с помощью
- Postgres
- MySQL
- SQlite
как предлагали выше ?

Так было-бы проще. А теперь мы все думаем - зачем так сложно?

Как хранить множество слов в БД?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт