Задать вопрос
SerhiyRomanov
@SerhiyRomanov
Программист и WEB-разработчик

Stemmer (взятие корня слова) для русского языка?

Нужна библиотека для выделение корня со слов.
Сейчас использую SnowballStemmer с библиотеки NTLK (www.nltk.org/). К сожалению, есть очень много вариантов, где корень определяется не верно.
Возможно, можно поставить какие-то словари для NTLK? Или есть другие библиотеки (алгоритмы)?
Хочу получить совет от людей, которые имели с этим дело. Интересуют реализации на Python ну или наличие способов подружить с Python.
Спасибо)
  • Вопрос задан
  • 4459 просмотров
Подписаться 1 Оценить Комментировать
Пригласить эксперта
Ответы на вопрос 2
x67
@x67
Посмотри мои вопросы, в одном из них чувак, разбирающийся в теме давал советы. Собственно мне он посоветовал Стеммер Портера, который я попробовал и... У меня ничего не получилось, а для задачи сравнения похожих слов я использовал расстояние Левенштейна, причем очень даже успешно.
Кстати, стеммер скорее получает основу слова, а не корень.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы