Задать вопрос

Кто подскажет JS-либу для выделения русских корней слов?

Для подсчёта числа одинаковых слов без учёта падежей и склонений нужна библиотека, которая знает правила склонений и, возможно, ряд исключений частоупотребительных слов (типа «лёд-льда», «идёт-шёл-шли»). Из неё можно было бы сделать счётчик частоты слов в статье и прикрутить на Хабр, что будет лучше показывать направленность статьи, чем теги и хабы, выбранные автором. В общем, ориентация её такая: пусть не очень точно работает (всё равно ошибки в статье сводят точность на нет), но создаёт представление о частых словах. (Затем удалим общую лексику, но это детали — нужен движок).
  • Вопрос задан
  • 3993 просмотра
Подписаться 10 Оценить Комментировать
Пригласить эксперта
Ответы на вопрос 2
Про выделение корней ничего не подскажу, но, возможно, для задачи подойдёт библиотека стемминга (примерно тоже самое, только выделяется основа слова, а не морфологический корень): urim.googlecode.com/svn/jsSnowball/stemmer/src/ext/RussianStemmer.js
Ответ написан
Тогда можно наверное как-то так:
исключения -> основа слова, или слово для стемминга (с исп. словаря, «лёд -> льда» или «лёд -> льд»)
потом
стемминг слов -> основа слова («льду», «льда» -> «льд»),
а затем
полученные основы слов -> эталон слова (с исп. словаря, «льд -> лёд, коню -> конь»)
Никогда такого не проворачивал. Если возьмётесь и найдёте словари, напишите мне о результатах, пожалуйста.
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы