Всем доброго времени суток. Есть задача нормализации текстов на входе текст "Мама мыла раму".
При нормализации отдельных слов получаем [мама] [мыть, мыло] [рама] вопрос состоит в следующем как правильно выбирать что в данном предложении у слова "мыла" будет нормальная форма именно "мыть" а не "мыло". заранее всем спасибо.
берете стеммер
отличить глагол от существительного - без корпуса никак, однако кое-чего бибилиотеки по NLP могут, смотрите
но поисковым системам оно и не нужно, а вот грамотный стеммер - нужен