Господа, решаю следующую задачу: есть разрабатываемый сайт, есть желательные ключевые для него слова и есть набор уже написанных индивидуальных текстов.
Сейчас делаю механизм для того, чтобы выявить пересечения того, насколько текущее текстовое наполнение соответствует набору целей.
С поиском ключевых слов в тексте из заданного списка ситуация понятная:
При добавлении ключевых слов мы
используем реализацию механизма Стемминга по ruby
Вопрос в том, чтобы оценить другое: насколько текст соответствует этому запросу, и не порождает ли он другие. То есть мне нужен некий механизм, который проанализирует текст, найдёт наиболее часто повторяющиеся слова, и даст их %-ное наполнение в тексте.
Вопрос в том, известно ли уже кому-то (может быть даже описано в Сети?) готовое решение на rails? Например по алгоритму
TF-IDF?
Понятно что написать можно всё. Но есть такой важный ресурс как время. Поэтому и спрашиваю: есть ли уже какие-то готовые решения данного вопроса?
Спасибо.