Здравствуйте. Изучая литературу, сталкиваюсь с разными определениями для понятия «обучающая выборка». В вероятностно-тематических моделях фигурируют темы, к которым с какой-то вероятностью требуется отнести термины и документы из основной коллекции документов. Сами темы, насколько я понимаю, это какое-то количество тех же самых документов, скомпонованных по смыслу. Далее, среди всех документов одной темы выявляются наиболее часто употребляемые слова, а то что не надо можно отсечь. Вопрос такой, является ли совокупность тем обучающей выборкой для тех же plsa и lda? Или под обучающей выборкой надо понимать что-то другое? Ну и попутно попрошу кинуть ссылок на русские корпуса документов)) Спасибо
То есть, если на мой случай перевести, то x1...xn - это термины в документе, xi - то с какой вероятностью они относятся к темам (которых от 1 до m). А Yi - это уже известные вероятности для соотношений тем и терминов? Грубо говоря, мы должны параметры модели установить так, чтобы xi максимально приблизилось к yi, тогда уже на большой коллекции документов, где yi неизвестно результат будет более или менее нормальным?
Vlad_Fedorenko: как-раз таки сам em-алгоритм для plsa я разобрал и уже попробовал реализовать. Интересно было только узнать как правильно называется то, о чем я думаю))) т. к. даже в литературе сказано, что однозначной терминологии по многим вопросам в этой теме нет, я немного засомневался