Как восстановить цепочку морфологических тегов с помощью скрытой марковской модели?
Здравствуйте! Задали такую задачу:
"Выберите правильный падеж выделенной именной группы на основе скрытой марковской модели. Для нахождения переходных (триграммных) вероятностей, а также лексических вероятностей используйте НКРЯ.
«На нашей улице посажено много цветов».
Нужно для выделенных слов найти наилучшие метки с помощью марковской модели, для остальных слов можно считать, что метки правильные. Для каждого слова следует вычислить вероятность его метки p(t|w) и вероятности перехода p(t|t-1, t-2), опираясь на корпусную информацию о частотах соответствующих слов и меток. Подумайте, как учесть предшествующий предлог"
Мне кажется, нужно идти от последнего слова к первому, рассчитывать условные вероятности вида p(wi | ti) * p(ti | ti-2, ti-1), где wi - форма, ti - морфологический тег:
1) Сначала считаю вероятности для слова "цветов". Получаю, сколько последовательностей тегов в корпусе таких, как у трех последних слов, потом — у четвертого и пятого, делю первое на второе. Это будет p(t6 | t4, t5). Потом считаю, сколько в корпусе "цветов" с правильной морфологией и сколько вообще всех слов с такой же морфологией — это p(w6 | t6).
2) Почти то же самое для 5-го слова, но, так как мы не знаем теги 3-го, то на выходе получаем 2 вероятности.
3) Для 4-го слова еще сложнее, так как в его формуле p(t4 | t2, t3) как раз присутствуют 2-е и 3-е слова, теги которых надо получить. Значит, начинается комбинаторика.
4) и комбинаторика же продолжается при расчете для 2-го и 3-го слов. Потом легко и спокойно считаем 1-е слово.
5) А затем по всей этой "матрице" вероятностей мы ищем наибольшее произведение (такие вероятности для каждого слова перемножаются между собой), и так получаем нужные метки.
Скажите, пожалуйста, верно ли я понимаю эту задачу и СММ в ней?
Заранее спасибо!