@maewyn

Plsa обучающая выборка?

Здравствуйте. Изучая литературу, сталкиваюсь с разными определениями для понятия «обучающая выборка». В вероятностно-тематических моделях фигурируют темы, к которым с какой-то вероятностью требуется отнести термины и документы из основной коллекции документов. Сами темы, насколько я понимаю, это какое-то количество тех же самых документов, скомпонованных по смыслу. Далее, среди всех документов одной темы выявляются наиболее часто употребляемые слова, а то что не надо можно отсечь. Вопрос такой, является ли совокупность тем обучающей выборкой для тех же plsa и lda? Или под обучающей выборкой надо понимать что-то другое? Ну и попутно попрошу кинуть ссылок на русские корпуса документов)) Спасибо
  • Вопрос задан
  • 165 просмотров
Пригласить эксперта
Ответы на вопрос 1
@maewyn Автор вопроса
То есть, если на мой случай перевести, то x1...xn - это термины в документе, xi - то с какой вероятностью они относятся к темам (которых от 1 до m). А Yi - это уже известные вероятности для соотношений тем и терминов? Грубо говоря, мы должны параметры модели установить так, чтобы xi максимально приблизилось к yi, тогда уже на большой коллекции документов, где yi неизвестно результат будет более или менее нормальным?
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы