Если ли движки-методы для обнаружения шаблонов в данных?

Question

Ярослав @xenon

Too drunk to fsck

SQL-инъекции

Если ли движки-методы для обнаружения шаблонов в данных?

Представим, что у нас есть множество данных в формате JSON, например:

{
  "kind": "person"
  "name": "John Doe",
  "age": 28,
  "occupation": "programmer",
  "sex": "male" 
},
{
  "kind": "dog",
  "breed": "collie"
  "name": "Fido",
  "age": 3
}

Или на входе - запросы к сайту (URI, длина запроса, тип контента, поля формы и их значения).

И у нас очень-очень много таких записей. Задача - находить ошибочные, странные, подозрительные записи. (Как в той шутке, когда мальчика зовут Джон'; DROP TABLE persons -- )
Человеку легко понять их структуру и понять, какие из них выбиваются из шаблона. Так же легко человеческое понимание реализовать в виде простого кода для проверок, что если kind==person, то age будет числом и от 0 до 120, а name - имеет разумную длинну (не 1 мегабайт), символьный, а sex либо male либо female.

А каким способом мы можем автоматически определить шаблоны для этого? Например, который поднимет тревогу если имя - "/etc/passwd" или слишком длинное или содержит инъекцию или например поле "occupation" встретилось для собаки. (но не потому что мы знаем атаки и настораживаемся от слов /etc/passwd, .env или SELECT , а потому что мы в обучающем сете не видели раньше имен из одного слова и со слешами)

Либо простой нейросеткой (собственной) можно ли это как-то сделать? Как?
Может какими-то более простыми методами?
Нельзя ли вообще каким-то байесовым фильтром, как раньше почту от спама фильтровали?
Или просто обычным алгоритмом это можно сделать, без магии ИИ?

Мне кажется, задача относительно простая, просто у меня нет опыта в Machine Learning. В какую сторону копать?

Вопрос задан 03 февр.
66 просмотров

6 комментариев

Подписаться 1 Простой 6 комментариев

Dmitry Roo @xez

Про валидацию входящих данных и регулярные выражения, я так понимаю, вы не слышали?

Написано 03 февр.
Ярослав @xenon Автор вопроса

Dmitry Roo, что-то слышал, примерно с 1997 года :-). Ничего против такого подхода не имею. Тогда задача - автоматически сгенерировать нужные регекспы (только они тут только для проверки поля подойдут) или JSON схему.

Я же говорю - вручную сделать фильтр для собак и людей, дело на 1 вечер неспешно. Теперь представьте, что у нас пара тысяч разных типов данных. И это уже 2000 вечеров, 7 лет, если делать это вручную. Надо - автоматически.

Написано 03 февр.
Dmitry Roo @xez

Ярослав, если у вас эти «пара тысяч разных типов данных» поступает на какое-то api я могу предположить, что кто-то это api все же реализовал, и во время его реализации нужно решать вопросы валидации.

Написано 04 февр.
alexalexes @alexalexes

Ярослав, нужно спарсить JSON и отсанитайзить данные по тем правилам, которые вы описали.
Нейронки тут не пришей козе баян - не нужны вовсе. У вас четкая формальная модель, нужно по ней отфильтровать входные данные.

Написано 04 февр.
Ярослав @xenon Автор вопроса

Dmitry Roo, блестящая идея. Жаль, она требует перемещения в прошлое по времени и поиска программистов, которых уже нет. :-)

Написано 04 февр.
Ярослав @xenon Автор вопроса

alexalexes, то что я выше написал - это супер-упрощенные примеры для наглядности. Да, по ним легко предположить, какие сделать правила и легко и быстро их написать. Но меня интересует именно машинное решение этой проблемы для огромного количества разных шаблонов.

Пока что через всякие GPT я нашел советы использовать Random Forest или LightGBM для нормальных и аномальных примеров, а Isolation Forest для поиска редких аномалий. Но оценить качество этого совета сходу не могу, для меня все три варианта - набор слов пока что :-)

Написано 04 февр.

Пригласить эксперта

Ответы на вопрос 1

4 комментария

Ярослав @xenon Автор вопроса

Боюсь, что ни в какой контекст не влезет сотни тысяч таких структур разного типа. А по 100 структурам невозможно составить никакие правила (поле sex в них всегда male => делаем логичный, но ложный вывод, что это строковая константа)

Написано 03 февр.
exwill @exwill

А не надо забивать контекст. Просто подаете на вход структуру и спрашиваете, что в ней странного

Написано 03 февр.
Ярослав @xenon Автор вопроса
exwill, тут даже мой естественный интеллект пасует. Что странного в структуре?

{ "field1": "abc", "field2": 123, }

при таком подходе можно ловить странности только если у нас имена всеъ полей очень понятные, а это может быть только в редких случаях. вот tax_number - это ИНН или казахский ИИН или европейский аналог для физлица или европейский для юрлица или еще какой-то? у них у всех разные параметры. Чтобы догадаться, что tax_number должен быть каким-то - надо много примеров, а не один.
Написано 04 февр.
exwill @exwill

Тогда пробуйте fine-tune

Написано 04 февр.

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

+2 ещё

Простой
Возможна ли sql инъекция?
- 1 подписчик
- более года назад
- 886 просмотров
3

ответа
MySQL

+1 ещё

Средний
Как передать данные без кавычек в execute() безопасно, чтобы предотвратить SQL-инъекции (PyMySql)?
- 1 подписчик
- более двух лет назад
- 153 просмотра
2

ответа
SQL-инъекции

Простой
Если нарушитель может записать команду в поле таблицы SQL, означает ли это что он всегда сможет ее выполнить?
- 1 подписчик
- более двух лет назад
- 106 просмотров
3

ответа
PHP

+2 ещё

Простой
Почему в бд не записываются строки содержащие текстовые символы?
- 1 подписчик
- более трёх лет назад
- 79 просмотров
1

ответ
Laravel

+1 ещё

Простой
Безопасен ли Eloquent ORM Laravel в плане SQL-инъекций?
- 1 подписчик
- более трёх лет назад
- 168 просмотров
1

ответ
SQL

+1 ещё

Простой
Как сделать SQL инъекцию на МОЙ сервер?
- 1 подписчик
- более трёх лет назад
- 146 просмотров
1

ответ
Node.js

+1 ещё

Простой
Как правильно провести sql инъекцию в данном случае?
- 1 подписчик
- более трёх лет назад
- 246 просмотров
1

ответ
Базы данных

+1 ещё

Простой
SQL-инъекция. Могли бы подсказать, что можно сказать об этом?
- 2 подписчика
- более трёх лет назад
- 392 просмотра
2

ответа
SQL-инъекции

Простой
Можете посоветовать какие-либо книги по sql injection и в общем по языку sql(желательно на русском)?
- 2 подписчика
- более трёх лет назад
- 1113 просмотров
1

ответ
Показать ещё Загружается…

Backend Python/SQL

ПерилаГлавСнаб • Москва

от 150 000 до 250 000 ₽

Разработчик Idea Platform, Java и SQL

Idea Platform • Москва

от 100 000 до 250 000 ₽

Data Analyst со знанием 1C / SQL / Python

Agro.Сlub • Воронеж

от 150 000 до 200 000 ₽

Про валидацию входящих данных и регулярные выражения, я так понимаю, вы не слышали?
Dmitry Roo, что-то слышал, примерно с 1997 года :-). Ничего против такого подхода не имею. Тогда задача - автоматически сгенерировать нужные регекспы (только они тут только для проверки поля подойдут) или JSON схему.

Я же говорю - вручную сделать фильтр для собак и людей, дело на 1 вечер неспешно. Теперь представьте, что у нас пара тысяч разных типов данных. И это уже 2000 вечеров, 7 лет, если делать это вручную. Надо - автоматически.
Ярослав, если у вас эти «пара тысяч разных типов данных» поступает на какое-то api я могу предположить, что кто-то это api все же реализовал, и во время его реализации нужно решать вопросы валидации.
Ярослав, нужно спарсить JSON и отсанитайзить данные по тем правилам, которые вы описали.
Нейронки тут не пришей козе баян - не нужны вовсе. У вас четкая формальная модель, нужно по ней отфильтровать входные данные.
Dmitry Roo, блестящая идея. Жаль, она требует перемещения в прошлое по времени и поиска программистов, которых уже нет. :-)
alexalexes, то что я выше написал - это супер-упрощенные примеры для наглядности. Да, по ним легко предположить, какие сделать правила и легко и быстро их написать. Но меня интересует именно машинное решение этой проблемы для огромного количества разных шаблонов.

Пока что через всякие GPT я нашел советы использовать Random Forest или LightGBM для нормальных и аномальных примеров, а Isolation Forest для поиска редких аномалий. Но оценить качество этого совета сходу не могу, для меня все три варианта - набор слов пока что :-)

Answer 1 · 2025-02-03 21:10:34

Так подаешь на вход свои структуры + команду "найди странное"
Попробуй на разных моделях. Думаю, что задача действительно решается легко (но недешево)

Если ли движки-методы для обнаружения шаблонов в данных?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт