Как определить случайное взятие ASCII-символов?

Question

kenny182 @kenny182

Как определить случайное взятие ASCII-символов?

Нужно загрузить данные оооочень большого размера из файла и обработать их. Есть вероятность попадания в обрабатываемые данные текста ASCII-кодировки, которого там быть не должно. Есть ли какой-нибудь алгоритм проверки того, что обрабатываемые данные не содержат текста?

Вопрос задан более трёх лет назад
281 просмотр

1 комментарий

Подписаться 1 Оценить 1 комментарий

Помогут разобраться в теме Все курсы

Нетология

Разработчик на C++

12 месяцев

Далее
Академия Эдюсон

Разработчик игр на Unreal Engine + ИИ

9 месяцев

Далее
Stepik

Профессия: Разработчик C++ (Junior)

2 месяца

Далее

Пригласить эксперта

Ответы на вопрос 1

4 комментария

kenny182 @kenny182 Автор вопроса

Вероятность то конечно есть. Вопрос в том, есть ли какой-то критерий, который скажет нам, что вот тут скорее всего текст откуда-то зацепился . Утилита здесь не совсем подходит, так как важно именно реализовать эту проверку программно.

Написано более трёх лет назад
Владимир Дубровин @z3apa3a

kenny182: так критерии зависят от характеристик данных и текста. В бинарном файле со сжатыми данными размером 4GB, например, вероятность нахождения ASCII строки "AAAA", что-нибудь порядка 90%, никакого критерия отличить случайно попавшую туда строку "AAAA" от неслучайной, получившейся в процессе сжатия, кроме как разбирать данные здесь быть не может.

Написано более трёх лет назад
Владимир Дубровин @z3apa3a

А утилита и реализована программно, там ссылка на исходный код.

Написано более трёх лет назад
kenny182 @kenny182 Автор вопроса

Владимир Дубровин: Если мы будем анализировать данные небольшими порциями, мы можем сделать таблицу, в которой будет записывать частоту встречаемости каждого байта. Если байты в основном лежат в той области, которая соответствует символам ASCII-кода, то данные имеет смысл проанализировать тщательнее. Это как пример. Может уже кто-то подобное реализовывал или есть более точный алгоритм.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

C++

Простой
Возможно ли сделать скрин действующего окна через Alt + PrtSc на С++?
- 1 подписчик
- вчера
- 98 просмотров
1

ответ
C

+1 ещё

Средний
Как работает выравнивание памяти в С в структурах?
- 1 подписчик
- 07 июл.
- 102 просмотра
2

ответа
C++

Простой
Как можно через ООП сериализировать в разные форматы в едином стиле?
- 1 подписчик
- 07 июл.
- 57 просмотров
1

ответ
C++

+1 ещё

Простой
Почему компилятор подчёркивает импортируемый класс как ошибку «индификатор не определён»?
- 1 подписчик
- 04 июл.
- 102 просмотра
1

ответ
C++

Сложный
Концепт проверки совместимости с шаблонным конструктором?
- 1 подписчик
- 25 июн.
- 94 просмотра
1

ответ
C++

Простой
Я единственный у кого cppreference.com через раз падает с ERR_TIMED_OUT?
- 1 подписчик
- 21 июн.
- 175 просмотров
2

ответа
C++

+1 ещё

Простой
Как правильно посчитать UV координаты из локальных нормальных?
- 1 подписчик
- 20 июн.
- 106 просмотров
1

ответ
C

Средний
Почему при передаче указателя в функцию, функция получает копию?
- 1 подписчик
- 17 июн.
- 168 просмотров
4

ответа
C++

+3 ещё

Простой
Почему бинарник скомпилированный через CMake весит больше, чем напрямую скомпилированный через clang++?
- 1 подписчик
- 11 июн.
- 318 просмотров
1

ответ
C++

+2 ещё

Простой
Как настроить clangd на видимость всех файлов, чтобы не указывать относительные пути в include?
- 1 подписчик
- 10 июн.
- 102 просмотра
1

ответ
Показать ещё Загружается…

kenny182 , а "оооочень большой" размер - это сколько? Больше 2Мб но меньше 10?
Ок, маска ASCII таблицы - 0x80, если байт не маскируется, то его можно считать печатаемым в ASCII. Только как ты бинарные данные отличишь от текстовых с помощью этой маски?

Answer 1 · 2017-03-04 18:10:04

В общем случае ваша задача не решается, т.к. в больших случайных данных есть ненулевая вероятность нахождения любой строки. Все зависит от данных, их формата и того, что за строки и как туда попадают.
Для выявления потенциальных строк в бинарном тексте можете посмотреть, например, утилиту strings из GNU binutils

Как определить случайное взятие ASCII-символов?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт