Как выявить соответствие темы текста к самому тексту?
Доброго времени суток !Начну пожалуй с обобщенной задачи . Есть ,грубо говоря , тема реферата , и есть сам реферат ,нужно определить на сколько текст раскрывает данную тему и выразить это в какой-то мере .
Есть ли смысл в таком подходе : сравнение "семантики" темы и семантики абзацов текста, а затем рассчет некого среднего по абзацам , что и будет мерой соответсвия ?
Какой подход для решения этой задачи вы бы предложили?
П.С если можно поподробнее )
Нужно рассчитать некоторый эталон темы - данная тема должна включать подтемы 1, 2, 3 и уже на их основе проводить семантический анализ абзацев. Обычно эти темы выделенны в содержании. Тоесть проверил содержание - проверил и весь реферат.
Но не всегда есть подтемы.По вашему алгоритму нужно строить соответсвие абзацев для подтем , насколько я понимаю?И в целом моя предложенная идея имеет право на жизнь ?
по этому алгоритму надо знать: "тема реферата":["подтема 1","подтема 2","подтема 3"]
эти подтемы могут быть не явными, как правило это набор слов которые обязательно должны быть в отдельном абзаце и не содержаться при этом в других. Любой реферат(тему) можно разбить минимум на 3 абзаца. Так вот нужно знать про что эти абзацы.
Пример:
"бобры":["проживание выживание жизнь","питание еда запасы","размножение потомство"]