Задать вопрос
@Morphine43
Техник АСУП

Как (с помощью чего) лучше организовать анализ текста?

Условно: Есть система, которая генерит таски для хелпдеска автоматически. Техники, после исправления, описывают причины и действия на таск в произвольной форме. Суть - необходимо группировать описания техников по причинам возникновения сбоя, т.е. брать их комментарии, искать в них причину сбоя и группировать таким образом, чтобы при след. возникновении сбоя была бы доступна инфо по наиболее популярным причинам. Вопрос - в какую сторону копать для реализации этого функционала (нейросети? деревья решений? хэш-таблицы? другие умные слова? просто парсить по "белому списку ключевиков"?). Есть ли решения для реализации этого (типа Java Hadoop для нейросетей или Python Numpy для мат. анализа). Инструменты не принципиальны, но пока представляется Web реализация либо на C/C++ либо Java на бэкенде и (не принципиально чем) Angularjs во фронте.
  • Вопрос задан
  • 564 просмотра
Подписаться 5 Оценить 6 комментариев
Пригласить эксперта
Ответы на вопрос 3
dummyman
@dummyman
диссидент-схизматик
нужно копать в сторону sphinx.
Нейросети скорее всего не помогут либо помогут при гораздо более высоких усилиях и ресурсах.
Сфинкс - некое подобие Яндекс/гугл. Сначала индексирует материал, потом по поисковой фразе выдаст результаты отсортированные по релевантности.
Ответ написан
Комментировать
dimonchik2013
@dimonchik2013
non progredi est regredi
основа для возрата ответов - Сфинкс, ну или Эластик
а вот с запросом к нему - нужно заморочиться с СИСТЕМОЙ
система должна , помимо основного вопроса, возвращать его синонимы ( чтобы по ним параллельно запрашивать Сфинкс, основная проблема поиска - не вернуть релевантный ответ, а понять что хочет спросить пользователь)
тут - от Томиты и NLTK до кластеризации и ручных таблиц синонимов
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы