Распознавание осмысленного текста?

Question

zooh @zooh

Обработка естественного языка

Распознавание осмысленного текста?

Добрый день!

Возник такой вопрос: существуют ли известные механизмы, чтобы отличить случайный набор символов от более-менее литературного текста на заданном языке? В каком направлении копать? Пока придумал только набирать статистику по массивам «живых» текстов: частоты отдельных символов, двоек и троек, а потом считать коэффициент корреляции Пирсона. Кто хорошо рубит в матстатистике, может, подскажете более продвинутые методики анализа?

Вопрос задан более трёх лет назад
4776 просмотров

Комментировать

Подписаться 4 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

1C-программист: расширенный курс

18 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия DevOps-инженер + ИИ

5 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Машинный перевод с одного языка на другой

+1 ещё

Сложный
Кто писал собственный NLP-пайплайн перевода слов?
- 1 подписчик
- 19 мая
- 90 просмотров
2

ответа
Нейронные сети

+1 ещё

Средний
Где найти мне датасет для обучения малюсенькой LLM?
- 2 подписчика
- 07 апр.
- 247 просмотров
1

ответ
Машинное обучение

+1 ещё

Средний
Может, у кого-то есть дампы с реальными наименованиями товаров/услуг и кодами ОКПД2 для обучения NLP-модели?
- 1 подписчик
- 16 янв.
- 140 просмотров
0

ответов
Обработка естественного языка

Средний
Как создать мультипризнаковую мноклассовую модель классификации текстов?
- 4 подписчика
- более года назад
- 1160 просмотров
0

ответов
Машинное обучение

+2 ещё

Средний
Какие виды эмбединга используется в nlp?
- 1 подписчик
- более года назад
- 114 просмотров
1

ответ
Регулярные выражения

+2 ещё

Простой
Поиск оптимальной регулярки для бинарной классификации строк. Как?
- 1 подписчик
- более года назад
- 211 просмотров
1

ответ
Алгоритмы

+1 ещё

Средний
Какие есть Алгоритмы поиска синонимов?
- 3 подписчика
- более года назад
- 1711 просмотров
3

ответа
Машинное обучение

+1 ещё

Простой
Какой датасет лучше для обучения?
- 2 подписчика
- более года назад
- 195 просмотров
1

ответ
Искусственный интеллект

+2 ещё

Простой
Как исправить ошибку, возникающую при загрузке модели в rust_bert без файла vocab.txt?
- 1 подписчик
- более года назад
- 73 просмотра
1

ответ
Обработка естественного языка

Средний
Почему модель llama предсказывает только один класс?
- 2 подписчика
- более года назад
- 159 просмотров
1

ответ
Показать ещё Загружается…

Answer 1 · 2011-09-11 22:52:20

Ваша идея вполне имеет право на жизнь. Собственно, Вы изобрели метод N-грамм :)

Если хотите использовать что-то более сложное (стóит ли?), вот статья с обзором трёх методов (pdf, англ.) Подборку статей по теме можно найти здесь. На более популярном уровне, и на русском языке — здесь.

Сложность требуемого подхода зависит от Вашей задачи. Например, если важна точность, можно использовать цепи Маркова. То есть, берём «Войну и мир», и собираем статистику: как часто за последовательностью букв x₁…x_N-1 встречается буква x_N? N — порядка 3..4. Потом берём подопытный текст, пробегаемся по нему, перемножая вероятности. В результате получаем вероятность того, что подопытный является осмысленным текстом на русском языке.

Если же скорость важнее точности, можно заменить вероятности на булевы величины: встречается ли хоть раз в «Войне и мире» последовательность букв x₁…x_N?

Answer 2 · 2011-09-11 14:52:41

Случайный набор символов — это детектируется по словарям (немного прикрутить поддержку окончаний, приставок и т.п.), как я помню опенсорсные библиотеки проверки орфографии содержат необходимые алгоритмы и базы.

Выявление просто предложений на человеческом языке можно сделать статистическим анализом, но это на порядок сложнее и так же ничего не решает, так как осмысленный текст таким образом не выделишь…

Монстры вида Abbyy берут миллиардные гранты на разработку таких алгоритмов, боюсь у вас не на много больше шансов разработать успешные алгоритмы.

p.s. попробуйте понять, осмысленный ли это текст, это просто класика (взято тут, еще тут):

Родился на улице Герцена. В гастрономе № 22. Известный экономист. По призванию своему библиотекарь. В народе — колхозник. В магазине — продавец. В экономике, так сказать, необходим. Это, так сказать, система… эээ… в составе 120 единиц. Фотографируйте Мурманский полуостров — и получаете te-le-fun-ken. И бухгалтер работает по другой линии. По линии «Библиотека». Потому что не воздух будет, а академик будет! Ну вот можно сфотографировать Мурманский полуостров. Можно стать воздушным асом. Можно стать воздушной планетой. И будешь уверен, что эту планету примут по учебнику. Значит, на пользу физики пойдет одна планета. Величина — оторванная в область дипломатии — дает свои колебания на всю дипломатию. А Илья Муромец дает колебания только на семью на свою. Спичка в библиотеке работает. В кинохронику ходит и зажигает в кинохронике большой лист. В библиотеке маленький лист разжигает. Огонь будет… эээ… вырабатываться гораздо легче, чем учебник крепкий. А крепкий учебник будет весомей, чем гастроном на улице Герцена. А на улице Герцена будет расщепленный учебник. Тогда учебник будет проходить через улицу Герцена, через гастроном № 22, и замещаться там по формуле экономического единства. Вот в магазине 22 она может расщепиться, экономика! На экономистов, на диспетчеров, на продавцов, на культуру торговли… Так что, в эту сторону двигается вся экономика. Библиотека двинется в сторону 120 единиц, которые будут… эээ… предмет укладывать на предмет. 120 единиц — предмет физика. Электрическая лампочка горит от 120 кирпичей, потому что структура у нее, так сказать, похожа у нее на кирпич. Илья Муромец работает на стадионе «Динамо». Илья Муромец работает у себя дома. Вот конкретная дипломатия! «Открытая дипломатия» — то же самое. Ну, берем телевизор, вставляем в Мурманский полуостров, накручиваем, там… эээ… все время черный хлеб… Дак что же, будет Муромец, что ли, вырастать? Илья Муромец, что ли, будет вырастать из этого?

А ведь черные СЕОшники генерируют гораздо более интересные тексты.

Распознавание осмысленного текста?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт