Я хочу чтобы я куда-то передавал строку типа "asdasfgasgfasgfasgas" или "лололололол)))" и программа вычисляла, бред это или нет. То есть чтобы на "Французские булочки", например" она реагировала не как на бред, а на "лелелелле" как на бред. С помощью чего это можно реализовать?
Величина, оторванная в область дипломатии, даёт свои колебания на всю дипломатию. А Илья Муромец даёт колебания только на семью на свою. Спичка в библиотеке работает. В кинохронику ходят и зажигают в кинохронике большой лист. В библиотеке маленький лист разжигают. Огонь… э-э-э… будет вырабатываться гораздо легче, чем учебник крепкий.
Antonio Solo, rPman, даже гугл с такими "оссмысленными" генерациями, основанными на цепях маркова почти год не мог ничего сделать (вываливалось периодически в результатах поиска)
kolya2_romanov, не имеющую смысла для кого? Кто-то может в чём угодно найти смысл, кто-то – нет, в силу более узкого восприятия или иных факторов. Вы сами не можете дать критерии того, что является бредом, и, в данном случае, это нормально. Тогда как же это сможет сделать программа? Программа – это алгоритм действий, написанный человеком.
kolya2_romanov, в смысле?! "улюлю" - это не бред! Это когд аты бежишь маленький красный с деревянной винтовкой, а в кустах белые залегли и громко отстреливаются.
Роман, с намеком на то, что одна из крупнейших компаний, имеющая в своем распоряжении мощнейшие синтаксические, семантические, лексические и контекстные анализаторы не могла справится с данной задачей. А тут чувак имея пенек и питон, не имея контекста, а имея отдельные, выдранные из контекста наборы букв хочет определить бред/небред)))
Antonio Solo, если это секретное слово для уатентификации клиента, то отнюдь.
Короче, суть в том, что любое сочетание байтов, букв, вспышек света, электрических импулсов, клубов дыма, звуков очень сильно связано с контекстом и может считаться бредом или полезным сообщением в зависимости от контекста, от информации, которой владеет получатель, от интерпретации.
Автор вопроса наивно оставил за скобками определение смысла. Что такое осмысленное сообщение, каковы его критерии? Это очень сложный вопрос.
Скорее всего автору не требуетя решать сложные философские вопросы о том что такое бред, а что такое нет.
Скорее вего можно обойтись простой проверкой по словарю или проверкой частотсности вхождения символов на соответствие частотных показателей конкретного языка, или, если есть большая обучающая выборка, можно обучить нейронную сеть, или вообще оценивать дианмику набора символов, если они приходят с клавиатуры, а може быть имеет смысл оценивать другие критерии, например тайминги действий и паттерны поведения пользователя.
Но атвор вопроса нашел "самый простой" способ решения и озадачил им нас: "построить сильный ИИ, которому бы не скучно было классифицировать для него (автора вопраса) строки по стеени бредовости".
По мне, так автора бы такой ИИ точно зарубил бы.
ничего принципиально невозможно в вашей задаче нет.
1) получение из ошибок возможные оригиналы -для каждого слова массив оригиналов.
2) имея оригиналы - восстановление наиболее вероятной последовательности, используя корпус текстов
С другой стороны если рассматривать нормальное общение людей, то вполне допустимо считать это за бред. По крайней мере я просто игнорю сообщения, если речь собеседника недостаточно грамотна и содержит кучу всякого мусора.
вариант 1 - создать словарь и проверять наличие введенных слов в словаре (с поправкой на морфологию и на ошибки)
вариант 2 - сделать нейросеть и обучить ее. тут можно наобучать как на морфологию (то есть ловить afasfasfsd), так и на "смыслы" (то есть ловить "Спичка в библиотеке работает") - второй случай сложнее, но реализуемо.
вариант нейросети не исключает предварительную обработку словарем, морфологией, ошибками
Минимальный детектор бреда - это анализатор устройства слов по ряду формальных признаков
1) Слова на естественном языке не содержат цифр
2) Слова не содержат повторений букв больше двух подряд
3) В большинстве слов не содержится подряд больше двух согласных или больше двух гласных. Исключения можно поместить в словарь
4) Большинство слов не содержат циклических повторов групп символов.
Задача явно для машинного обучения и нейросетей. Задача классификации, supervised learning. Похожа на задачу детекции спам/не спам (ham). Пробуйте, мож че получиться.