Ваша идея вполне имеет право на жизнь. Собственно, Вы изобрели метод
N-грамм :)
Если хотите использовать что-то более сложное (стóит ли?), вот статья с обзором трёх методов (
pdf, англ.) Подборку статей по теме можно найти
здесь. На более популярном уровне, и на русском языке —
здесь.
Сложность требуемого подхода зависит от Вашей задачи. Например, если важна точность, можно использовать цепи Маркова. То есть, берём «Войну и мир», и собираем статистику: как часто за последовательностью букв x
1…x
N-1 встречается буква x
N? N — порядка 3..4. Потом берём подопытный текст, пробегаемся по нему, перемножая вероятности. В результате получаем вероятность того, что подопытный является осмысленным текстом на русском языке.
Если же скорость важнее точности, можно заменить вероятности на булевы величины: встречается ли хоть раз в «Войне и мире» последовательность букв x
1…x
N?