Что не так с реализацией алгоритма Хаффмана?

Question

Никита Гусаков @hell0w0rd

Просто разработчик

Что не так с реализацией алгоритма Хаффмана?

вот код

Все работает, за исключением преобразования последнего символа. Вообще ни в какую не преобразовывается, и я не понимаю почему, хотя подозреваю что не совсем правильно работаю с файлами.

PS Также вопрос было бы полезно для новичков в виде туториала? Описать реализацию этого алгоритма? Видел несколько статей, но ни в одной не описывается обратный процесс преобразования.

Вопрос задан более трёх лет назад
5301 просмотр

Комментировать

Подписаться 5 Оценить Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillbox

1C-разработчик

8 месяцев

Далее
Нетология

Python-разработчик с нуля

6 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 5

Комментировать

2 комментария

Никита Гусаков @hell0w0rd Автор вопроса

Утечки вроде как убрал (как проверить?)
Как можно обойтись одной сортировкой? Когда мы соеденили две ноды — ее верхушка становится новой нодой, с новым весом. Другой вопрос что возможно можно не полностью сортировать, а просто подвинуть эту ноду как раз.
Еще такой вопрос — есть идеи почему не разжимаются большие файлы?
И если вдруг знаете — ткните пожалуйста носом, где посмотреть правильную реализацию?

Написано более трёх лет назад

mayorovp @mayorovp

Проверить на утечки просто — запустите связку «конструктор-compress-деструктор» в цикле с достаточным числом итераций.

Вот реализация с одной сортировкой (не проверял, писал прямо тут):

static Node* pop_less(list<Node*> &first, list<Node*> &second) {
    Node* node1 = first.size() ? first.front() : NULL;
    Node* node2 = second.size() ? second.front() : NULL;

    if (node1 && (!node2 || Node::compare(node1, node2))) {
        first.pop_front();
        return node1;
    } else {
        second.pop_front();
        return node2;
    }
}

void Compressor::buildCharTree()
{
    list<Node*> first, second;

    for(CharMap::iterator i = charMap.begin(); i != charMap.end(); i++)
        first.push_back(new Node(i->second, i->first));

    first.sort(Node::compare);

    while (first.size() + second.size() > 1)
    {
        Node *left = pop_less(first, second);
        Node *right = pop_less(first, second);

        second.push_back(new Node(left, right));
    }

    charTree = pop_less(first, second);
}

Можете попытаться оформить лучше, чтобы девушка поняла.

Написано более трёх лет назад

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Программирование

+2 ещё

Средний
Возможно ли написать программу, которая будет удалять все данные с дисков?
- 2 подписчика
- вчера
- 430 просмотров
9

ответов
C++

+1 ещё

Средний
Имя массива это адрес первого элемента или указатель на его первый элемент в Си?
- 2 подписчика
- 12 нояб.
- 388 просмотров
5

ответов
C++

+1 ещё

Простой
Почему Project Dependencies не работает?
- 1 подписчик
- 10 нояб.
- 77 просмотров
1

ответ
C++

Простой
Влияет ли, передаёшь ты в функцию аргументы по ссылке или по значению, на производительность и память?
- 2 подписчика
- 07 нояб.
- 314 просмотров
2

ответа
C++

Простой
А нужно ли заменять dynamic_cast?
- 1 подписчик
- 07 нояб.
- 94 просмотра
1

ответ
C++

Простой
Как понять что переполняет память в C++?
- 1 подписчик
- 01 нояб.
- 255 просмотров
1

ответ
C++

Средний
Как исправить некорректное отображение кириллицы?
- 1 подписчик
- 30 окт.
- 228 просмотров
3

ответа
Алгоритмы

Средний
Как создать алгоритм для ракеты в игре?
- 2 подписчика
- 30 окт.
- 243 просмотра
1

ответ
Компьютерные сети

+1 ещё

Средний
Как обнаружить сканирование портов по логу сетевого трафика?
- 8 подписчиков
- 29 окт.
- 3263 просмотра
2

ответа
C++

Простой
Какой подход выбрать для представления Chunk?
- 1 подписчик
- 28 окт.
- 176 просмотров
1

ответ
Показать ещё Загружается…

Backend developer

Creative Code

До 160 000 ₽

Python back-end engineer (+Kotlin)

YoloPrice

от 360 000 до 420 000 ₽

Python Backend Developer

SLLR.market

от 250 000 до 320 000 ₽

Answer 1 · 2013-05-24 10:45:43

Так, а какие файлы называются «большими»?
Навскидку я вижу две проблемы — файлы более 2Гб (переполнение int) и нулевые символы (которым ошибочно не назначается код).

Первая проблема лечится использованием большего типа данных, а вторая таким вот патчем:

void Compressor::buildCodeTable(Node *root)
{
    if (root->hasChild())
    {
        code.push_back(0);
        buildCodeTable(root->getChild(true));
        code.pop_back();

        code.push_back(1);
        buildCodeTable(root->getChild(false));
        code.pop_back();
    } else {
        codeTable[letter] = root->getLetter();
    }
}

Answer 2 · 2013-05-24 01:12:53

Для последнего байта нужно знать количество значащих бит. Ведь разные символы, сжатые по Хаффману, имеют различную битовую длину, а писать можно только байты.
Может быть, этот случай Вами уже учтён, но при поверхностном взгляде я этого не увидел.

Answer 3 · 2013-05-24 07:21:03

Вот этот кусок надо добавить в функцию compress перед закрытием потока:

if (count > 0)
    out << buf;

Это связано с тем, что после цикла в buf могли оказаться значимые биты, не образующие полного байта и потому еще не записанные в поток.

Answer 4 · 2013-05-24 07:36:06

Да, еще замечание по структуре: мне не кажется хорошей идеей объединение методов compress и decompress в одном классе, хранящем входной файл в виде поля. Как мне кажется, еще на этапе создания экземпляра пользователь библиотеки будет знать, что ему с этим файлом делать — упаковывать или распаковывать.

ИМХО лучше выделить поля charMap, charTree и inputFile в базовый класс, а остальное разбросать по классам Compressor и Decompressor. Еще лучше ограничиться двумя глобальными функциями.

Еще один вариант — убрать сущность «входной файл» из полей класса. Это позволит собирать статистику по одному потоку, а сжимать — другой, что может быть полезным для сжатия «на лету». Или можно хранить статистику отдельно от сжатых данных, чему тоже можно найти применение.

Answer 5 · 2013-05-24 07:40:02

Еще две ошибки — вы не удаляете созданные сущности Node, что вызывает утечку памяти. Кроме того, выполнение tree.sort в цикле — ужасная идея. Правильная реализация алгоритма использует тот факт, что сущности Node в алгоритме создаются в порядке возрастания частот, благодаря чему можно обойтись одной сортировкой исходных нод в начале.

Answer 6 · 2013-05-24 10:49:29

Да, только что заметил: метод decompress теперь может распаковать несколько мусорных символов в конце файла (попробуйте упаковать файл, содержащий всего один символ). Надо бы записывать перед сжатым потоком длину исходного, или хотя бы ее последние три бита.

Что не так с реализацией алгоритма Хаффмана?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт