Как улучшить анализ тональности текста на русском языке?

Question

egens @egens

Как улучшить анализ тональности текста на русском языке?

Требуется произвести анализ тональности текста на множестве пользовательских комментариев определенной тематики. На данный момент принято решение проводить классификацию по трем классам — негативной, нейтральной и позитивной тональности. Для исследования алгоритмов вручную размечено 1500 комментариев. Размеры классов в тестовой выборке отличаются не более, чем в два раза. По примеру зарубежных коллег был применен метод опорных векторов в пространстве бинарных признаков, обозначающих наличие слов в комментариях. Правильность классификации составляет менее 60%. Анализ тональности английских текстов показывал эффективность в 80%.

Одна из предположительно значимых проблем — многочисленные ошибки в комментариях, как орфографические, так и грамматические. Существнна также бОльшая сложность русского языка. И малое количество открытых инструментов для анализа русского языка. Код пишу на Python, удалось найти только реализацию стеммера Портера, а также библиотеку анализа морфологии pymorphy.

Буду признателен советам любого рода. Есть ли другие удобные и проверенные инструменты для анализа русского языка желательно с реализацией на Python? Правилен ли выбор SVM, как алгоритма классификации, может есть более эффективные классификаторы? Известны ли более эффективные пространства признаков?

Вопрос задан более трёх лет назад
8813 просмотров

Комментировать

Подписаться 14 Оценить Комментировать

Пригласить эксперта

Ответы на вопрос 4

Комментировать

3 комментария

briskly @briskly

а вы не могли бы подсказать, может быть уже есть словари тональности в открытом доступе для русского языка?

Написано более трёх лет назад
Irokez @Irokez

Я не встречал. Проще составить самому.

Написано более трёх лет назад
mechkladenets @mechkladenets

Ребят, а подскажите, что если хочу использовать словарный подход (нет возможности делать выборки для обучения) но при этом хочу определять не тональность всего текста, а тональность по отношению к конкретному объекту, упоминаемому в этом тексте, посоветуйте что почитать? Статьи на хабре все по теме прочитаны, там такая задача не решалась.

Написано более трёх лет назад

3 комментария

egens @egens Автор вопроса

Спасибо за инфу, лекции посмотрю. Статью читал. Про определение отрицания знаю и указанный метод применяю для русского языка. Естественно иногда появляются ошибочные отрицания, но я не думаю, что таких случаев больше, чем в английском языке. Главная загвоздка в том, что в пользовательских комментариях часто не следят за грамматикой, в то время как указанный метод применялся на новостных статьях и обзорах, написанных все-таки с большей грамматической щепетильностью.

Написано более трёх лет назад
mechkladenets @mechkladenets

Ребят, а подскажите, что если хочу использовать словарный подход (нет возможности делать выборки для обучения) но при этом хочу определять не тональность всего текста, а тональность по отношению к конкретному объекту, упоминаемому в этом тексте, посоветуйте что почитать? Статьи на хабре все по теме прочитаны, там такая задача не решалась.

Написано более трёх лет назад
egens @egens Автор вопроса

mechkladenets: конкретного чтива не посоветую. Смотрите в сторону n-грамм и близости слов-маркеров тональности к слову-объекту. С учетом отрицания.

Написано более трёх лет назад

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Программирование

Простой
Оператор, операция, функция, процедура — что всё это значит?
- 1 подписчик
- 05 авг.
- 263 просмотра
2

ответа
Программирование

Простой
Какие есть источники, помогающие понять бизнес-логику проекта?
- 3 подписчика
- 30 июл.
- 834 просмотра
1

ответ
Программирование

Простой
Как готовиться к ВСоШ по информатике 9-11 классов/олимпиадам по программированию вообще?
- 1 подписчик
- 20 июл.
- 208 просмотров
3

ответа
Программирование

+1 ещё

Простой
Ответьте на вопрос по информатике?
- 1 подписчик
- 10 июл.
- 725 просмотров
3

ответа
Алгоритмы

+1 ещё

Средний
Как можно предиктить дату регистрации при массиве данных?
- 1 подписчик
- 03 июл.
- 149 просмотров
1

ответ
Программирование

+1 ещё

Средний
Редактирование прошивки китайской камеры видеонаблюдения?
- 1 подписчик
- 01 июл.
- 385 просмотров
1

ответ
Аналитика

+1 ещё

Средний
Как быстро локализовать в логах источник изменений метрики?
- 1 подписчик
- 30 июн.
- 86 просмотров
0

ответов
Программирование

+1 ещё

Простой
Как работает регистрация и аутентификация с помощью ЭЦП?
- 1 подписчик
- 26 июн.
- 279 просмотров
3

ответа
Математика

+3 ещё

Средний
Как выбрать размеры интервалов для неравно интервального вариационного ряда?
- 1 подписчик
- 24 июн.
- 128 просмотров
2

ответа
Программирование

+3 ещё

Средний
Какой лучше выбрать мини пк под сервер?
- 2 подписчика
- 19 июн.
- 3807 просмотров
16

ответов
Показать ещё Загружается…

AS400 / RPG Инженер

DevCube Innovations

от 4 000 до 5 000 $

Инженер АСУ ТП

Магнитогорск Связь Софт • Магнитогорск

от 100 000 до 250 000 ₽

Инженер-разработчик встроенного ПО прецизионных приборов

НИИП • Москва

от 150 000 до 250 000 ₽

Answer 1 · 2012-06-29 12:43:14

Занимался этим по работе. Попробуйте:
— svm с линейным ядром
— (1,2,3)-граммы как фичи
— нормализуйте текст, но попробуйте оставить некоторые знаки препинания — !?
— работал с английским, там стеммер не улучшал качество. На русском нужно пробовать, но не удивлюсь, если не сработает.

Кроме этого можете поиграться с различными преобразованиями на векторах. Мне не помогло, хотя теоретически должно было бы. Может, что-то неверно сделал. Попробуйте LSA (pLSA если словарь большой).

Замечания:
— хороший корпус очень важен
— выбор фич важен
— орфография не имеет сильного эффекта
— исключение стоп-слов также не улучшало качества
— действительно, иронию, двусмысленность выловить таким методом очень тяжело; при попытки поймать длинные связи снижается качество

Если захотите экстрима — можно попробовать какой-нибудь классификатор со строковым ядром. Я пробовал, не пошло. Но теоретически может получится.

Answer 2 · 2012-06-29 18:02:14

Про классификатор:
SVM часто используется для анализа тональности текста, так что выбор правильный. Точного ответа, какой алгоритм классификации будет работать лучше — нет, поэкспериментируйте с разными алгоритмами и выберите тот, который даст лучшие результаты. Навскидку, предложу Naive Bayes и MaxEnt.

Про признаки:
Как вам правильно предложили выше — попробуйте биграммы, а также попробуйте 2-3-4 буквенные граммы, это может помочь с проблемой орфографии. По поводу построения вектора, есть более эффективные функции простановки веса для признаков чем бинарная. Я использую обычно delta tf-idf. В качестве дополнительных признаков можете попробовать морфологические теги (part-of-speech tag), бывает, что помогают. Также иногда помогают комбинация слов с тегами (напр: я-местоимения, люблю-глагол, чай-сущ.)

Про данные:
1500 комментариев — это тестовая выборка или данные для обучения модели? Или же все вместе? Для обучения вам понадобится гораздо больше данных. В зависимости от тематики их можно собрать с определенных сайтов (если фильмы, то, например, кинопоиск).

Также можете составить тональный словарь, список слов с их значением тональности (affective lexicons). Либо вручную, либо перевести с других языков (напр. с английского) — вручную либо автоматически, либо одним из методов автоматического составления словаря тональности. В целом, задача классификации на три класса достаточно сложная. Попробуйте сперва сделать для двух классов, а затем уже либо добавить доп. классификатор либо расширить модель для трех классов. Тут много вариантов. Удачи!

Answer 3 · 2012-06-28 19:50:44

Предупреждаю: опыта практического у меня тут нет.

Можно лекции посмотреть вот тут: class.coursera.org/nlp/lecture/preview (Sentiment Analyzis). Критичной штукой во всем этом деле, насколько понимаю, является определение отрицания (нравится vs не нравится), что с подходом «bag of words» сделать нельзя. Для английского языка работают достаточно простые подходы («ко всем словам, стоящим после отрицательного слова ('не', например), приписывать „-“, пока не встретится знак препинания — и уже к обработанным таким образом словам применить классификацию через bag of words»).

Наибольшее влияние на результат должен оказывать выбор фич для классификации (классификатор SVM vs что-то другое — +- несколько процентов максимум будет).

Вот еще бумага по теме, может быть полезной: www.dialog-21.ru/digests/dialog2011/materials/ru/pdf/50.pdf

Answer 4 · 2012-06-29 09:38:30

Интересная головоломка. Я вот в Скайпе с женой переписывался. И она обиделась. Фразу которую я написал я бы произнес очень позитивно (и когда ее писал так и думал), а вот она прочитала ее очень негативно, я потом и сам перечитал, и действительно можно и так и так понять.

Как улучшить анализ тональности текста на русском языке?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт