Ну вообще-то такое есть и часто используется, например,
кодек H264 использует схожие области смежных кадров, запоминая только исходный и различие между ними.
К слову, есть даже такой метод сжатие, который находит похожие области в пределах одного фото, весьма перспективный -
фрактальное сжатие. Если кратко, то изображение делиться на подизображения, среди которых выделяются ранговые, а к ним ищутся доменные и определяется аффинное преобразование, применив которое к доменному получиться ранговый. Сложно звучит, если ещё проще - ищем в изображении похожие друг другу подизображения, запоминаем один из них и преобразование.
Самые перспективные из них в лабораторных условиях сжимали в миллион раз. И не просто так - изображение имеет чрезвычайно высокую энтропию, количество информации в лене.bmp на килобайт едва превышает пару бит. Но проблема в том, что все существующие алгоритмы имеют фатальный недостаток - они узкоспециализированные (JPEG для фото, ибо артефакты; векторы для анимаций и графики, ибо тяжко декодировать; PNG всё таки тяжеловат и т.д.). Проблема ещё усугубляется в том, что изображение имеет низкую информативность обычно во всём спектре, то есть и НЧ и СЧ и ВЧ - везде высокая избыточность, но в сигнале, а raw-data обычно не сильно отличается от рандом; и в то же время сигнал не получается сжимать так, чтобы эффективно сжимался весь спектр.
P.S. Ни разу не известно, как я только что объяснил, что фотография плохо сжимается. Вопрос лишь "как" это сделать эффективно.