Ответы, понравившиеся пользователю zooh

Задать вопрос

Лайки

Распознавание осмысленного текста?

YasonBy @YasonBy

Ваша идея вполне имеет право на жизнь. Собственно, Вы изобрели метод N-грамм :)

Если хотите использовать что-то более сложное (стóит ли?), вот статья с обзором трёх методов (pdf, англ.) Подборку статей по теме можно найти здесь. На более популярном уровне, и на русском языке — здесь.

Сложность требуемого подхода зависит от Вашей задачи. Например, если важна точность, можно использовать цепи Маркова. То есть, берём «Войну и мир», и собираем статистику: как часто за последовательностью букв x₁…x_N-1 встречается буква x_N? N — порядка 3..4. Потом берём подопытный текст, пробегаемся по нему, перемножая вероятности. В результате получаем вероятность того, что подопытный является осмысленным текстом на русском языке.

Если же скорость важнее точности, можно заменить вероятности на булевы величины: встречается ли хоть раз в «Войне и мире» последовательность букв x₁…x_N?

Ответ написан более трёх лет назад

1 комментарий

1 комментарий

Самые активные сегодня

ky0
- 2 ответа
- 0 вопросов
VoidVolker
- 2 ответа
- 0 вопросов
Everything_is_bad
- 1 ответ
- 0 вопросов
Multigame
- 0 ответов
- 1 вопрос
#
- 1 ответ
- 0 вопросов
Enjoy Soft
- 0 ответов
- 1 вопрос

Распознавание осмысленного текста?

Войдите на сайт