Спасибо, умеет кое-что. Классификация происходит в полуавтоматическом режиме — не совсем то, что я хотел. Интересует полностью автоматический, с использованием машинного обучения с учителем.
Не совсем. Меня интересует не столько многофункциональный инструмент, сколько решение конкретной задачи автоматической классификации документов в файлопомойке.
Типы определить не проблема. Интересует именно семантическая категория документа. Машинное обучение знаю, могу применить, но интересует наличие готового решения.
Разработка системы, которая выявляла бы иронию, сарказм или двухсмысленные фразы, очень сложна. Ведь даже человеческий мозг не всегда справляется с такой задачей. Исследователи естественных языков, статьи которых я читал, постоянно об этом упоминают. С этим, в частности, и связана эффективность методов машинного обучения, которая не превышает 80-90% в лучших случаях. Но мне, к сожалению, пока не удалось получить и такую.
Спасибо за инфу, лекции посмотрю. Статью читал. Про определение отрицания знаю и указанный метод применяю для русского языка. Естественно иногда появляются ошибочные отрицания, но я не думаю, что таких случаев больше, чем в английском языке. Главная загвоздка в том, что в пользовательских комментариях часто не следят за грамматикой, в то время как указанный метод применялся на новостных статьях и обзорах, написанных все-таки с большей грамматической щепетильностью.
Написано
Войдите на сайт
Чтобы задать вопрос и получить на него квалифицированный ответ.