Есть N-ное количество писем. Каждое письмо будет обработано с помощью nlp-средств и получен нормализованный набор слов из этого письма. Далее, запросом в БД, я бы хотел узнать в каких именно письмах содержится то или иное слово. Какую модель хранения множества слов и какую БД лучше использовать?
GNUBack, ну да, они примерно все так и работают. Где-то есть поддержка языков, например в posgresql можно явно указать язык текста, и там даже есть поддержка русского, который умеет выкинуть разные окончания, оставив корень. Или просто текст бьют на триграммы и работают с ними.
GNUBack, ну вот и выходит, он сделал то, чего не нужно было делать, потому что это делают всё целиком из коробки. А так, если он хочет взять свою часть, то ему придётся реализовывать и остальные, по хранению индексации и выборки по всему этому.
freeExec, как правильно заметил GNUBack, нормализация проводится отдельным этапом специальным софтом и поступает для хранения уже готовым. Также спасибо за наводку, что postgresql умеет в лемматизацию, не знал. Но, думаю, качество будет похуже, нежели у специально заточенного под russian lang софта.
Также спасибо за наводку, что postgresql умеет в лемматизацию, не знал. Но, думаю, качество будет похуже, нежели у специально заточенного под russian lang софта.
Для лемматизации не нужны специальные NLP средства. Это довольно хорошо работает и в классических СУБД.
Иль у вас нечто большее, чем поиск по ключевым словам?
Тут сложно ответить однозначно. Тут есть какое-то дублирование технологий. С одной стороны - есть некий
умный софт (автор пишет nlp-средство) который сделал разбиение писем на слова. Зачем именно nlp? В чем там была глубокая идея? Разве нельзя это-же разбиение сделать с помощью
- Postgres
- MySQL
- SQlite
как предлагали выше ?
Так было-бы проще. А теперь мы все думаем - зачем так сложно?