Как (с помощью чего) лучше организовать анализ текста?
Условно: Есть система, которая генерит таски для хелпдеска автоматически. Техники, после исправления, описывают причины и действия на таск в произвольной форме. Суть - необходимо группировать описания техников по причинам возникновения сбоя, т.е. брать их комментарии, искать в них причину сбоя и группировать таким образом, чтобы при след. возникновении сбоя была бы доступна инфо по наиболее популярным причинам. Вопрос - в какую сторону копать для реализации этого функционала (нейросети? деревья решений? хэш-таблицы? другие умные слова? просто парсить по "белому списку ключевиков"?). Есть ли решения для реализации этого (типа Java Hadoop для нейросетей или Python Numpy для мат. анализа). Инструменты не принципиальны, но пока представляется Web реализация либо на C/C++ либо Java на бэкенде и (не принципиально чем) Angularjs во фронте.
Если влиять на техников то знаний не появиться)))) время не критично, так что есть возможность поразбираться и сделать красоту, опять же в резюме не плохим плюсом будет
нужно копать в сторону sphinx.
Нейросети скорее всего не помогут либо помогут при гораздо более высоких усилиях и ресурсах.
Сфинкс - некое подобие Яндекс/гугл. Сначала индексирует материал, потом по поисковой фразе выдаст результаты отсортированные по релевантности.
основа для возрата ответов - Сфинкс, ну или Эластик
а вот с запросом к нему - нужно заморочиться с СИСТЕМОЙ
система должна , помимо основного вопроса, возвращать его синонимы ( чтобы по ним параллельно запрашивать Сфинкс, основная проблема поиска - не вернуть релевантный ответ, а понять что хочет спросить пользователь)
тут - от Томиты и NLTK до кластеризации и ручных таблиц синонимов