• Распознавание осмысленного текста?

    YasonBy
    @YasonBy
    Ваша идея вполне имеет право на жизнь. Собственно, Вы изобрели метод N-грамм :)

    Если хотите использовать что-то более сложное (стóит ли?), вот статья с обзором трёх методов (pdf, англ.) Подборку статей по теме можно найти здесь. На более популярном уровне, и на русском языке — здесь.

    Сложность требуемого подхода зависит от Вашей задачи. Например, если важна точность, можно использовать цепи Маркова. То есть, берём «Войну и мир», и собираем статистику: как часто за последовательностью букв x1…xN-1 встречается буква xN? N — порядка 3..4. Потом берём подопытный текст, пробегаемся по нему, перемножая вероятности. В результате получаем вероятность того, что подопытный является осмысленным текстом на русском языке.

    Если же скорость важнее точности, можно заменить вероятности на булевы величины: встречается ли хоть раз в «Войне и мире» последовательность букв x1…xN?
    Ответ написан
    1 комментарий