NLTK.sentiment анализ комментариев как решить ошибку с кодировкой?

Question

Vadim Nikiforov @nikifovadim

Software Engineer

NLTK.sentiment анализ комментариев как решить ошибку с кодировкой?

Пытался проанализировать русские комментарии с помощью NLTK’s Pre-Trained Sentiment Analyzer и наткнулся на ошибку с кодировкой. У меня есть и английские комментарии и такая же ошибка. Кто подскажет как исправить?

Код:

nltk.download('vader_lexicon')

def is_positive(comment: str) -> bool:
    """True if comment has positive compound sentiment, False otherwise."""
    return sia.polarity_scores(comment)["compound"] > 0

for comment in russiancomments[:10]:
    print(">", is_positive(comment), comment)

Скриншот ошибки:

Вопрос задан более трёх лет назад
111 просмотров

3 комментария

Подписаться 1 Простой 3 комментария

shurshur @shurshur

А comment это точно строка? Может, почему-то получился list?

Написано более трёх лет назад
Vadim Nikiforov @nikifovadim Автор вопроса
shurshur, Привет! Да там лист) Ну или как dictionary key и value. Просто value взял и все. Вчера торопился вот и не понял где ошибка да и вечер уже был))) Теперь уже другая проблема NLTK. sentiment не поддерживает русский язык придется использовать другую библиотеку где уже ML натренирован на русский язык

Код:

sia = SentimentIntensityAnalyzer() def is_positive(comment: str) -> bool: """True if comment has positive compound sentiment, False otherwise.""" return sia.polarity_scores(comment)["compound"] > 0 for kv_comment in englishcomments[:10]: value = kv_comment[2] print(">", is_positive(value), value)
Написано более трёх лет назад
shurshur @shurshur

Vadim Nikiforov, да, я тоже пробовал nltk для азербайджанского и там явно поддержка не как у английского. Но мне надо было делить на слова и стемминг, для первого подошло, для второго нашёл другую готовую библиотеку и даже почти не патчил :)

Написано более трёх лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Как распарсить смешанный тип json-данных?
- 1 подписчик
- 26 июл.
- 183 просмотра
3

ответа
Python

+1 ещё

Средний
Как «На лету» добавить клик id в готовый апк, который будет скачиваться с сайта?
- 1 подписчик
- 26 июл.
- 118 просмотров
2

ответа
Python

+1 ещё

Средний
Как подключить отладчик к программе на Python в Docker-контейнере?
- 1 подписчик
- 24 июл.
- 155 просмотров
1

ответ
Python

Простой
Почему не получается создать профиль в программе Dolphin{anty}?
- 1 подписчик
- 24 июл.
- 77 просмотров
1

ответ
Python

Простой
Как совместить два .pdf файла?
- 1 подписчик
- 22 июл.
- 238 просмотров
0

ответов
Python

+1 ещё

Простой
Не доходит колбэк в колбекобработчик, как можно решить эту проблему?
- 1 подписчик
- 22 июл.
- 129 просмотров
1

ответ
Python

Простой
Почему AnaConda или MiniConda автоматически самоликвидируется на win10?
- 1 подписчик
- 22 июл.
- 113 просмотров
0

ответов
Python

+1 ещё

Простой
Почему форма не по центру экрана, как исправить?
- 1 подписчик
- 22 июл.
- 99 просмотров
0

ответов
Python

Простой
Как исправить Python error module 'win32crypt' has no attribute 'CryptProtectData' [closed]?
- 1 подписчик
- 21 июл.
- 83 просмотра
0

ответов
Python

+1 ещё

Простой
Как торговать фьючерсами через API MEXC?
- 2 подписчика
- 19 июл.
- 420 просмотров
1

ответ
Показать ещё Загружается…

Ведущий Python разработчик

Сбер • Москва

от 200 000 до 250 000 ₽

Python разработчик

ITK academy • Казань

от 75 000 ₽

Python-разработчик (Senior)

BCraft

от 3 500 до 4 500 $

А comment это точно строка? Может, почему-то получился list?
shurshur, Привет! Да там лист) Ну или как dictionary key и value. Просто value взял и все. Вчера торопился вот и не понял где ошибка да и вечер уже был))) Теперь уже другая проблема NLTK. sentiment не поддерживает русский язык придется использовать другую библиотеку где уже ML натренирован на русский язык

Код:

sia = SentimentIntensityAnalyzer() def is_positive(comment: str) -> bool: """True if comment has positive compound sentiment, False otherwise.""" return sia.polarity_scores(comment)["compound"] > 0 for kv_comment in englishcomments[:10]: value = kv_comment[2] print(">", is_positive(value), value)
Vadim Nikiforov, да, я тоже пробовал nltk для азербайджанского и там явно поддержка не как у английского. Но мне надо было делить на слова и стемминг, для первого подошло, для второго нашёл другую готовую библиотеку и даже почти не патчил :)

NLTK.sentiment анализ комментариев как решить ошибку с кодировкой?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт