@maewyn

Plsa обучающая выборка?

Здравствуйте. Изучая литературу, сталкиваюсь с разными определениями для понятия «обучающая выборка». В вероятностно-тематических моделях фигурируют темы, к которым с какой-то вероятностью требуется отнести термины и документы из основной коллекции документов. Сами темы, насколько я понимаю, это какое-то количество тех же самых документов, скомпонованных по смыслу. Далее, среди всех документов одной темы выявляются наиболее часто употребляемые слова, а то что не надо можно отсечь. Вопрос такой, является ли совокупность тем обучающей выборкой для тех же plsa и lda? Или под обучающей выборкой надо понимать что-то другое? Ну и попутно попрошу кинуть ссылок на русские корпуса документов)) Спасибо
  • Вопрос задан
  • 165 просмотров
Пригласить эксперта
Ответы на вопрос 1
@maewyn Автор вопроса
То есть, если на мой случай перевести, то x1...xn - это термины в документе, xi - то с какой вероятностью они относятся к темам (которых от 1 до m). А Yi - это уже известные вероятности для соотношений тем и терминов? Грубо говоря, мы должны параметры модели установить так, чтобы xi максимально приблизилось к yi, тогда уже на большой коллекции документов, где yi неизвестно результат будет более или менее нормальным?
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы