Plsa обучающая выборка?

Question

maewyn @maewyn

Машинное обучение

Plsa обучающая выборка?

Здравствуйте. Изучая литературу, сталкиваюсь с разными определениями для понятия «обучающая выборка». В вероятностно-тематических моделях фигурируют темы, к которым с какой-то вероятностью требуется отнести термины и документы из основной коллекции документов. Сами темы, насколько я понимаю, это какое-то количество тех же самых документов, скомпонованных по смыслу. Далее, среди всех документов одной темы выявляются наиболее часто употребляемые слова, а то что не надо можно отсечь. Вопрос такой, является ли совокупность тем обучающей выборкой для тех же plsa и lda? Или под обучающей выборкой надо понимать что-то другое? Ну и попутно попрошу кинуть ссылок на русские корпуса документов)) Спасибо

Вопрос задан более трёх лет назад
167 просмотров

Комментировать

Подписаться 1 Оценить Комментировать

Пригласить эксперта

Ответы на вопрос 1

2 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Нейронные сети

+1 ещё

Простой
Как вычисляется MSE в VAE?
- 1 подписчик
- 24 июл.
- 44 просмотра
0

ответов
Машинное обучение

+1 ещё

Простой
Reverse engineering black box ML-модели?
- 1 подписчик
- 10 июл.
- 134 просмотра
3

ответа
Python

+3 ещё

Простой
Как повысить точность классификации по табличным документам?
- 2 подписчика
- 19 мая
- 268 просмотров
1

ответ
Машинное обучение

+2 ещё

Средний
Какие виды эмбединга используется в nlp?
- 1 подписчик
- 10 мая
- 90 просмотров
1

ответ
Машинное обучение

Средний
В чем преимущество позиционного кодирования синусами?
- 1 подписчик
- 25 апр.
- 104 просмотра
1

ответ
Машинное обучение

Простой
Как обучается трансформер?
- 1 подписчик
- 25 апр.
- 91 просмотр
1

ответ
Python

+2 ещё

Средний
GeForce GTX 1650 > RTX A2000 — как такое возможно?
- 2 подписчика
- 15 апр.
- 739 просмотров
2

ответа
Машинное обучение

+2 ещё

Средний
Какие архитектуры с механизмом внимания появились после transformer?
- 2 подписчика
- 11 апр.
- 170 просмотров
1

ответ
Python

+4 ещё

Средний
Как реализовать фарм-бота для игры Rush Royale?
- 1 подписчик
- 01 апр.
- 732 просмотра
2

ответа
Регулярные выражения

+2 ещё

Простой
Поиск оптимальной регулярки для бинарной классификации строк. Как?
- 1 подписчик
- 22 мар.
- 197 просмотров
1

ответ
Показать ещё Загружается…

Аналитик-разработчик

Сбер • Москва

R&D разработчик (Центр компетенций CV и нейросетевой оптимизации)

Navio • Нижний Новгород

Ведущий специалист группы аналитики

Специальный Технологический Центр • Санкт-Петербург

Answer 1 · 2015-09-03 18:10:03

То есть, если на мой случай перевести, то x1...xn - это термины в документе, xi - то с какой вероятностью они относятся к темам (которых от 1 до m). А Yi - это уже известные вероятности для соотношений тем и терминов? Грубо говоря, мы должны параметры модели установить так, чтобы xi максимально приблизилось к yi, тогда уже на большой коллекции документов, где yi неизвестно результат будет более или менее нормальным?

Plsa обучающая выборка?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт