Доказано ли, и можно ли сжать произвольные данные до 20 байтов к примеру?

Question

SergeySerge11 @SergeySerge11

Доказано ли, и можно ли сжать произвольные данные до 20 байтов к примеру?

Возможно ли такое, или NP=P задача????
Как пример возьмем Алгоритмы Генерации Миров и игровых Карт, а порой и целых Вселенных, и планет. На вход попадает всего лишь одно число Зерно. А алгоритм уже по нему создает целый мир, который может быть терабайтных данных. По 1 числу можно генерировать, рельеф, города, диалоги, квесты, поведение NPC.....
В итоге 8 байтов превращаются в гигабайты. +память на сам алгоритм и его ресурсы.
Но так можно делать прямым путем? Как минимум, а вот возможен ли обратный алгоритм.
Допустим простая программа которая по 4 байтовому числу, создает поле игры Морского Боя с кораблями. 10*10. Реализовать реально. Зная задачу. Но понятно что не все возможные варианты могут быть созданы. А вот можно ли найти алгоритм Обратно, зная карту этого поля морского поля составить такой алгоритм, который сожмет все в Байт зерна, и получит это число.
Теперь усложнив, а можно ли любой набор данных, то есть ~случайных байтов, сжать до числа, и для них оставить такой алгоритм, который Сгенерирует эти данные.
Типа как Аппроксимация функции по точкам.
Есть ли теоретическая база такого вопроса.

Вопрос задан более трёх лет назад
435 просмотров

3 комментария

Подписаться 1 Простой 3 комментария

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 5

Комментировать

11 комментариев

SergeySerge11 @SergeySerge11 Автор вопроса

спс, но я написал в вопросе
Но понятно что не все возможные варианты могут быть созданы

Написано более трёх лет назад
ThunderCat @ThunderCat

Произвольные данные не сжимаются. Вообще.
Дядя Сережа, ты дурак?(с)
Надеюсь это "тонкий" троллинг а не реальная тупость?

Написано более трёх лет назад
Сергей П @trapwalker

ThunderCat, а что вы подразумеваете под "произвольностью" данных?
Лично я подразумеваю набор случайных чисел со спектром белого шума.
Если бы нам понадобилось архивировать (в смысле сжимать) ключи для одноразовых шифроблокнотов (если вы понимаете о чем речь), то сжать их не вышло бы ни на один бит.
То же можно сказать и о полезных сообщениях заширфрованных шумоподобным ключом.

В общем, жду пояснений и надеюсь ваша претензия лишь троллинг, а не реальная тупость.

Написано более трёх лет назад
ThunderCat @ThunderCat

Сергей Паньков, понятно что на выборке из 10 байт (даже НЕ ПРОИЗВОЛЬНЫХ данных) скорее всего сжатие будет отрицательным, так как тупо словарь будет объемнее данных, и да, случайно сгенерированные последовательности будут сжиматься сильно хуже, но на большом объеме все равно получится получить паттерны и словари, хотя очевидно что их будет гораздо меньше чем в структурированных данных. И чем больше набор, тем крупнее будут паттерны и качественнее сжатие.

а что вы подразумеваете под "произвольностью" данных? Лично я подразумеваю набор случайных чисел со спектром белого шума.
Во первых - произвольность данных по определению - данные не произведенные волей (разумного), то есть любые данные, к которым прямо не применялась творческая деятельность с целью создать именно задуманную структуру. Что вы под этим подразумеваете абсолютно не важно, хотя и имело смысл уточнить. Ну и во вторых, в контексте вопроса, ввиду вышеописанного, все равно не верно.

и как там у вас... Доказываем на пальцах. Для детей.
1. Давайте получим произвольные данные. Для этого возьмём монетку и подбросим 100 раз. Таким образом мы получим 100 бит произвольных данных.
Так как данные произвольные, то количество комбинаций символов мы не считаем, так как "Доказываем на пальцах. Для детей", но очевидно что среди прочих комбинаций может быть как ровно 50 сочетаний 01 подряд, или 100 единиц, или 100 нулей, или 50 единиц и потом 50 нулей... Что очевидным образом замечательно пакуется в словарь и будет весить в несколько раз меньше исходных данных.

Не знаю откуда у вас взялась идея о непакуемости произвольных данных, но в представленной формулировке она неверна.

Написано более трёх лет назад
Сергей П @trapwalker

очевидно что среди прочих комбинаций может быть как ровно 50 сочетаний 01 подряд, или 100 единиц, или 100 нулей, или 50 единиц и потом 50 нулей.

ThunderCat, другими словами вы тут хотите сказать, что есть некоторая вероятность, что рандомная битовая последовательность может быть сжата. Можно доаже посчитать эту вероятность. К примеру что будет 100 нулей вероятность 1/2^100.
В итоге вероятность выпадения сильно сжимаемых рандомных последовательностей просто исключительно мала, зато слабо сжимаемых последовательностей среди общего многообразия возможностей подавляющее количество.
Выходит, что произвольные данные в общем таки не сжимаются.

Написано более трёх лет назад
ThunderCat @ThunderCat

Сергей Паньков,
В итоге вероятность выпадения сильно сжимаемых рандомных последовательностей просто исключительно мала
о как, то есть уже не
Произвольные данные не сжимаются. Вообще.
.
Окей, прогресс налицо, но все же... давайте еще немного из рубрики "Ээээксперименты!"(с), возможно как то сдвинется ваше понимание реального мира...

возьмем 500 рандомно полученных 1 и 0. Для простоты эксперимента мы не будем проходить всю последовательность в поисках всех повторяющихся паттернов, а возьмем тупо первые несколько символов из строки. Так, на рандомно сгенерированном паттерне у меня получилось следующее:
проверить

string(500) "00010111001110001100000110000111000100110100111111010101100110000001111101110101000111011101101110111011110101010110101111100010011100101011110101000110000001101100100101001101010100011000101001110110001001111010111010010100001101011011100001111001111011000111100110101101000010100011011001000010101001001110101110010011100010000010110000111101111001100101010010110100011001001110011000101010111011001100000110000001010100001111001111101110110001111100110111101100010011000001000010110000101010100110"
00 repeats:81
000 repeats:35
0001 repeats:32
00010 repeats:15

на 500 символов повторений паттерна длиной в 5 символов произошло 15 раз. Думаю для словаря более чем достаточно...

Написано более трёх лет назад
Сергей П @trapwalker
ThunderCat, вы, похоже, плохо понимаете проблему.
Из вашего примера получается уже, что в словаре четыре элемента, а значит для кодирования индекса нужно уже минимум 2 бита. Это значит последовательности в два бита через такой словарь УЖЕ заменять не целесообразно. А ваи еще надо как-то маркировать словарные блоки в потоке и маркерная последовательность не должна встречаться.
В общем что вам объяснять...
Попробуйте вот на реальном примере:

dd if=/dev/urandom bs=1 count=1000000 | gzip > f.gz

И посмотрите какой получится размер у результирующего файла.
Да, придумать синтетический пример, где какой-то вариант данных сожмётс можно, но это не случайные данные. Случайные данные не сожмутся, а наоборот увеличатся в размере за счет накладных расходов на формат архива.

Это не вы, случаем, тот школьник, что изобрел тот чудесный архиватор, который всё в один байт запаковать может, но разархиватор еще не готов?
Написано более трёх лет назад
ThunderCat @ThunderCat
Сергей Паньков, то есть упорствуем в упоротости...

Из вашего примера получается уже, что в словаре четыре элемента
Из моего примера получается статистика, что повторяющихся сущностей в рандомном наборе много, 4 тут для примера, просто чтобы показать что с длиной "слова" повторяемость падает, но не исчезает, то есть в достаточно большом наборе у вас будет достаточно много словарных пар ключ-значение, подходящих даже под самый тупой алгоритм сжатия "влоб".

Попробуйте вот на реальном примере:
нету линя, но думаю просто файл с рандомом подойдет?

$i = 0; $str = ''; while($i < 50000){$str .= md5(mt_rand(0,100000));$i++;} file_put_contents(DR.DS.'aaaaaaa1.txt',hex2bin($str)); exit;

и чуть больше файл и настроенный 7zip для сравнения
Написано более трёх лет назад
Сергей П @trapwalker
ThunderCat, ох уж эти ПХП-шники...
Тогда уж получайте рандомную последовательность хотя бы не через задницу:

<?php file_put_contents('rnd2.bin', random_bytes(1000000));

А то, что ты там накостылял с помощью хеш-функции md5 - это даже близко не рандом.
И энтропия у этих непроизвольных данных не так высока, как у рандомного набора байтов.

Но, всё же, я не очень рассчитываю, что тебя это убедит, поэтому объясню на пальцах.
У любого набора данных есть такое свойство, как энтропия. У текста она ниже, ведь в нём много повторяющихся слов, а вот в белом шуме энтропия будет гораздо выше.

Текст на любом языке сожмётся гораздо лучше, нежели просто рандомный набор байтов со спектром белого шума.

Чем, по-твоему, отличается файл, который сильно сжимается от файла, который лабо? Вот энтропией и отличается.
Если сжать, скажем, томик Тургенева в виде текста любым архиватором, файл сожмётся в разы. Но повторно сжать этот архив уже не получится, ведь энтропия этого набора данных уже будет гораздо выше.

Иначе любые данные можно было бы сжимать неорганиченно сильно, но это противоречит логике.
Даже если вам не занимать самомнения, рекомендую подтянуть теорию.

P.S.
Вот та строка кода на PHP - первая моя строка кода на этом языке, и я, почему-то догадался заглянуть вдокументацию, чтобы не делать генерацию рандомного набора айтов на костылях. Почему многие ПХП-шники позволяют себе такое наплевательство? Может поэтому у этого, в общем-то, навено, неплохого языка такая дурная слава? Порог вхождения делает своё дело? Так питон проще освоить, почему среди джунов-питонистов меньше такой дичи? Хотя я, наверно, предвзят. Статистики у меня на самом деле нету.
Написано более трёх лет назад
ThunderCat @ThunderCat

Сергей Паньков,
Вот та строка кода на PHP - первая моя строка кода на этом языке, и я, почему-то догадался заглянуть в документацию, чтобы не делать генерацию рандомного набора айтов на костылях
вот спасибо... я как бы в курсе как получить криптографически рандомные данные, но для этого нужна поддержка модуля, которого в онлайн эмуляторе нет. По этому заменил рандомом обычным, ибо нам не страшно предсказание по процессорозависимым алгоритмам для примера, а набивать чистым рандомом файл долго, по этому брал хэш, у которого достаточно большая энтропия. Суть от этого не поменяется, достаточно большие наборы будут сжиматься, даже тупыми алгоритмами сжатия "в лоб", типа лвз. Более продвинутые будут сжимать чуть получше, но ясное дело что не лучше осмысленного текста.

Написано более трёх лет назад
Сергей П @trapwalker
ThunderCat, не увиливай. Держи вот онлайн эмулятор, в котором этот модуль работает:
https://replit.com/@sergyp1/checkfalserandommd5#ma...

По этому заменил рандомом обычным, ибо нам не страшно предсказание по процессорозависимым алгоритмам для примера

по этому брал хэш, у которого достаточно большая энтропия.

Это у вас у ПХП-шников такой "обычный рандом"? md5 от нескольих символов? И это у вас "достаточно большая энтропия"? Достаточно большая для чего? Для того, чтобы у тебя "рандомный" набор байт начал сжиматься?

а набивать чистым рандомом файл долго

Да ничего не долго. Сколько тебе надо. чтобы убедиться? Вот миллион байт, но можно 6 на 7 заменить и будет 10 миллионов, хватит?

python3 -c "import sys, random; all(sys.stdout.buffer.write(bytes([random.randint(0, 255)])) for _ in range(10**6)) and None">rnd1m.bin

Будет работать даже на винде.

Суть от этого не поменяется, достаточно большие наборы будут сжиматься, даже тупыми алгоритмами сжатия "в лоб", типа лвз. Более продвинутые будут сжимать чуть получше

Да как же это не поменяетя суть-то?! Сжимаются данные или нет зависит от энтропии. Чем она больше, тем данные сжимаются хуже. Белый шум не сжимается, а твой самодельный рандомайзер из md5 и счетчика имеет низкую энтропию, что ты и продемонстрировал. Поди вот теперь любым архиавтором сожми нормальный рандом.

И вот что поражает - упирается до последнего. Уже обделался по полной, а все равно на своём стоит. Слезай уже, отдавишь.
Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

JavaScript

+2 ещё

Простой
Как решить задачку из контеста?
- 1 подписчик
- 13 окт.
- 222 просмотра
1

ответ
Алгоритмы

+1 ещё

Простой
Как отконвертировать 3D-меш в наклонные треугольники?
- 2 подписчика
- 02 окт.
- 143 просмотра
1

ответ
Алгоритмы

Сложный
Поиск оптимального маршрута с наимешьшим влиянием на цену в сети ethereum?
- 1 подписчик
- 29 авг.
- 147 просмотров
2

ответа
Алгоритмы

Простой
Как можно еще уменьшить количество комбинаций в игре крестики нолики?
- 1 подписчик
- 22 авг.
- 237 просмотров
2

ответа
Алгоритмы

Простой
Как можно уменьшить количество комбинаций в игре крестики нолики?
- 1 подписчик
- 19 авг.
- 185 просмотров
2

ответа
Алгоритмы

+1 ещё

Простой
Как в квантовый компьютер вводятся данные?
- 1 подписчик
- 12 авг.
- 294 просмотра
3

ответа
Алгоритмы

+1 ещё

Средний
Как можно предиктить дату регистрации при массиве данных?
- 1 подписчик
- 03 июл.
- 177 просмотров
1

ответ
Программирование

+1 ещё

Простой
Как работает регистрация и аутентификация с помощью ЭЦП?
- 1 подписчик
- 26 июн.
- 316 просмотров
3

ответа
Компьютерные сети

+1 ещё

Простой
Как построить топологию сетей (данные в FDB таблице) когда связи замкнуты в кольцо?
- 2 подписчика
- 25 июн.
- 484 просмотра
2

ответа
Алгоритмы

Средний
Какие переходы для ДП у «Гелифиш и незабудка» codeforce?
- 1 подписчик
- 12 июн.
- 96 просмотров
1

ответ
Показать ещё Загружается…

Разработчик баз данных

Greenway Global • Новосибирск

от 150 000 до 160 000 ₽

Разработчик WebRTC-сервисов на Go в видеоплатформу

Яндекс • Москва

от 300 000 до 490 000 ₽

Разработчик в буткемп Core Infrastructure

Яндекс • Москва

от 300 000 до 490 000 ₽

Немного непонятно при чем тут P=NP.
В случае с теми же пещерами информация о них хранится не в seed. А в алгоритме, в т.ч. в алгоритме рандома.

И да, тут нет "Обратного" алгоритма. Потому что при желании чуть чуть внести изменение в результат - получим дичайший пересчет всего, что крайне сложно.

Такая ошбка была у архиватора Бабушкина кста )

Answer 1 · 2022-05-24 07:27:30

Допустим, существует некий алгоритм, который преобразует последовательность X длины M в последовательность Y, причём существует обратное преобразование. Неважно, что это за алгоритм конкретно - сжатие, создание "зерна" и пр. Но очевидно, что:

1. Количество вариантов последовательности X составляет K в степени M, где K - размер словаря, т.е. количество возможных различимых значений одного элемента последовательности X. В случае байтовой последовательности это байт, т.е. K=256.

2. Каждая последовательность X после преобразования даёт последовательность Y, причём две разные последовательности X дают разные последовательности Y.

Соответственно количество возможных последовательностей Y равно количеству возможных последовательностей X. И соответственно если существует хотя бы одна последовательность Y короче последовательности X, то существует хотя бы одна последовательность Y длиннее последовательности X.

Что, собственно, и наблюдается на абсолютно любом алгоритме компрессии - существуют входные данные, для которых результат попытки сжатия имеет бОльший размер, чем исходные данные.

Что же до "зерна", которое разворачивается в гигабайты - во-первых, количество финальных миров определяется количеством значений "зерна", то есть вовсе даже не такое бесконечно большое, как кажется, во-вторых, созданный образ мира содержит значительное число повторяющихся элементов, а создание копий - это немножко не декомпрессия.

Answer 2 · 2022-05-24 06:39:38

Объем seed для генерации универсальных данных будет больше или равен в среднем их размеру

Отличный пример - внутри числа pi есть все последовательности данных которые в принципе могут существовать и даже есть формула которая выдает позицию, начиная с которых она есть - πfs.

p.s. есть алгоритмы с потерей, например сжатие изображения и звука, вот тут поле не пахано да
ну и вишенка на торте - нейронная сеть размером несколько килобайт на видеокадр позволяет сгенерировать весь видеоряд (не смог найти, на хабре была статья, понятно там качество ужасное, нейросеть не справлялась с лицами но сама идея шикарная)

Answer 3 · 2022-05-24 08:43:51

Все ныне широко используемые архиваторы эффективны исключительно по той причине, что данные, которые им нужно сжимать - не произвольны.
На произвольных же (случайных, например) данных они в среднем дают чуть больший размер результата за счет добавления своих заголовков к сжимаемой информации.

Answer 4 · 2022-05-24 08:53:59

Посмотрите на этот вопрос с другой стороны - пусть есть алгоритм, который из N произвольнх байт делает N-1 байт и это обратимо.

Но тогда полученные N-1 байт - это произвольный набор байт, которые можно снова обработать Алгоритмом и получить уже N-2 байт.

Тогда получается, что любую последовательность байт за N шагов алгоритма можно урезать до 0, что очевидно, является абсурдом.

Answer 5 · 2022-05-24 09:49:18

Вы на свой вопрос можете ответить и сами, если посчитаете.
Произвольные данные не сжимаются. Вообще.
Доказываем на пальцах. Для детей.
1. Давайте получим произвольные данные. Для этого возьмём монетку и подбросим 10 раз. Таким образом мы получим 10 бит произвольных данных.
2. Доказываем, что эти 10 бит нам не сжать даже до 9 бит.
Сколько всего бывает разных 10-битных последовательностей? Два в степени 10, то есть 1024.
Сколько всего бывает разных 9-битных последовательностей? Два в степени 9, то есть 512. Это значит, что 9-битным числом можно как-нибудь закодировать только половину произвольных 10-битных последовательностей. Ни одного бита сэкономить не удалось для действительно произвольных (читай случайных) данных.

-- А как же работают архиваторы? - спросите вы.
А архиваторы сжимают не произвольные данные, а какие-то осмысленные. Осмысленных данных меньше чем любых. Это очевидно. Вот архиваторы этим и пользуются.
Давайте пример. Допустим наша "монетка" умеет падать не на две стороны, а на три. Ну циллиндрик такой. толстенький, который частенько падает на ребро. И мы его подбросили пять раз, но хотим почему-то записать полученную последовательность в вдоичной форме. Очевидно, что двумя значениями 1 и 0 мы не можем закодировать три стороны "монетки" (назовём её тринеткой). А два бита может кодировать уже четыре разных состояния: 00, 01, 10, 11. Нам хватит трёх из них, а четвертое, скажем 11, пусть будет ненужным.
Тогда 5 бросков тринетки мы можем записать 10 двоичными битами. Но данных в этих 10 битах будет на самом деле храниться только 3 в степени 5 = 3*3*3*3*3=243. То есть 243 состояния тринетки кодируются 10 битами, в которые помещается на самом деле 1024 разных произвольных значений.
Это как раз и есть то место, где можно успешно сжать данные.

А насколько можно сжать? Давайте считать. 8 бит может представить 2*2*2*2*2*2*2*2=256 разных произвольных значений. А нам надо 243. Это значит, что любые 5 бросков тринетки мы можем закодировать не 10-ю битами, а всего лишь 8-ю. Сэкономили два бита, но больше сэкономить не получится ни одного бита!

А откуда ж берутся огромные коэффициенты сжатия? Например тексты на человеческих языках довольно неплохо сжимаются. А всё просто. Мы кодировали каждый бросок тринетки для простоты 2-мя битами, и там одно сочетание было нам не нужно. А представьте, если бы нам не хотелось бы возиться с битами и мы посчитаи более простым хранить броски тринетки каждый в одном байте!
То есть нам бы хватило и 2 бит слихвой, но м ырешили на каждый бросок использовать 8 только потому, что у нас компьютеры не сильно приспособлены быстро работать с более мелкими кусками данных.
Получается, что 5 бросков тринетки мы закодируем в 8*5байт=40бит, а мы уже уяснили что и 10 бит хватило бы, и даже 8, но никак уж не меньше восьми.
Получается, что расточительную 40-битную запись пяти бросков тринетки мы могли бы сжать аж в 5 раз до 8 бит! То есть мы используем 5 байт там, где хватило бы одного, вот и получилось, что можно сделать сжатие.

Также и маленький рандомный сид может кодировать террабайтные миры в играх. Но соль в том, что миров этих разных получится ровно столько. сколько значений сида может быть. Мы просто в террабайтах храним мир в очень неэффективной но удобной для использования форме.

Расписал как мог просто. Если у вас после этого остались иллюзии, что можно сжать гигабайтный фильм до одного байта, а потом распаковать его обратно, то вам уже ничто не поможет. Потому что фильмов человечество наснимала уже гораздо больше 256, а значений одного байта всего как раз столько.
Вы можете написать архиватор, который будет сжимать произвольный фильм из ваших любимых 256 фильмов. Но при этом сам архиватор будет размером 256 гигабайт, а байт будет просто номером в библиотеке ваших любимых фильмов. Но да, вполне реально назвать вашему другу по телефону тремя байтами три любых фильма из вашей общей коллекции, а у друга на винте такой же "архиватор", как бы, "распакует" эти числа в целые три фильма, которые на самом деле и так уже были у друга.

Других чудес не бывает.

Answer 6 · 2022-05-26 18:49:54

В 4 байта можно втиснуть 4 миллиарда состояний. Или в терминах игровой индустрии - возможно создать процедуральный генератор миров или локаций где из одного целого числа можно создать 4 млрд миров. Но качество самих миров будет скорее всего плохое. Как раз по причине этих жалких четырех байтов. У нас не будет детального контроля над ландшафтом и другими свойствами мира. Согласитесь иметь 32 переключателя или 4 регулятора по 250 уровней (как угодно смотреть на это) - это маловато.

По поводу обратной задачи. Всё будет зависеть от формы как представлены исходные данные. Но мне кажется что делать такой архиватор безсмысленно. Достаточно просто грамотно сохранить тот мир который нарисовал дизайнер миров. В игре kkreiger достаточно лаконично в 64 килобайта была втиснута Quake-подобная локация.

Хотя если долго в нее поиграть видны дефекты мира. Процедуральные текстуры как будто повторяются. И геометрия мира какая-то повторяющася.

Доказано ли, и можно ли сжать произвольные данные до 20 байтов к примеру?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт