Как создать хэш таблицу с помощью си?

Question

romajke @romajke

Как создать хэш таблицу с помощью си?

Пытаюсь разобраться со структурами данных, и сейчас впал в ступор перед хэш-таблицами.
Суть задачи такова: имеется большой словарь(~150к английских слов), нужно организовать в нем быстрый поиск заданного слова.

Первое, что приходит мне в голову - это (для начала, что бы понять принципы работы) сгруппировать слова по первой букве. Соответственно - это уже ускорит поиск в 26 раз (по сравнению с перебором всех слов)

Я всё это вижу как массив состоящий из 26 связных списков. То есть, мы определяем по первой букве каждого слова в какую ячейку его отнести, и добавляем в список находящийся в данной ячейке. Сответственно, когда мы вводим слово для поиска, мы так же определяем по его первой букве в какой ячейке массива его искать, и уже бежим по этому списку в поисках нужного слова.

Вопрос первый: я правильно понимаю, что эту структуру данных где будут хранится мои слова можно назвать хэш таблицей, а функцию, определяющую к какой ячейке массива отнести очередное слово - хэш-функцией?

Вопрос второй: я теоретически понимаю как должен работать алгоритм, но никак не могу его реализовать. Уже запутался во всей этой работе с памятью, указателями и т.д. По крупицам собираю информацию в гугле относительно динамических списков и массивов структур, но картина пока не складывается :(
Подскажите как это реализовать и\или где можно почитать о создании таких вот вещей?

П.с. Могу прекрепить код своих попыток реализовать сие )

update:

Моя попытка реализовать считывание словаря в хэш-таблицу:

//максимальная длина слова в словаре
#define SIZE 45 

int hash_function (char* key);

//определяем структуру
typedef struct node
    {
        char *word1;
        struct node *next;
    } node;


//создаем хэш-таблицу, в которой будут хранится списки
node hashtable[26];


int main()
{
    char *text = "small";
    FILE *fp = fopen(text, "r");
    if (fp == NULL)
    {
        printf("Could not open %s.\n", text);
        return 1;
    }

    char word[SIZE];
    
    //инициализируем всю хэш-таблицу нулями, для того,
    //что бы далее была возможность проверить, пустая ячейка или нет
    for (int i=0; i < 26; i++)
    {
        hashtable[i].word1 = NULL;
        hashtable[i].next = NULL;
    }


    while(!feof(fp))
    {
        //считываем слово из словаря
        fscanf(fp,"%s",word);
        
        //определяем его место в массиве
        int k=hash_function(word);
        
        //если ячейка пуста - вставляем туда наше слово
        if(hashtable[k].word1==NULL)
        {
            
            hashtable[k].word1=(char*)malloc(sizeof(char) * SIZE);
            strcpy(hashtable[k].word1, word);
            hashtable[k].next=NULL;

        }
        else
        {
            // создать новый элемент
            node * new = malloc (sizeof (node));


            // инициализировать новый элемент
            new-> word1 = NULL;
            new-> next = NULL;

            // вставить новый элемент в голову списка
            new-> next = hashtable[k];
            hashtable[k] = new;
            strcpy(hashtable[k]->word1, word);

        }

  	}


    fclose(fp);

    return 0;
}

int hash_function (char* key)
{
  int hash = tolower (key [0]) - 'a';
  return hash;
}

Вопрос задан более трёх лет назад
3652 просмотра

1 комментарий

Подписаться 1 Простой 1 комментарий

Помогут разобраться в теме Все курсы

Нетология

Разработчик на C++: Профессия + специализация + нейросети

12 месяцев

Далее
Skillbox

Разработчик на C++

7 месяцев

Далее
Яндекс Практикум

Разработчик C++

9 месяцев

Далее

Решения вопроса 1

15 комментариев

romajke @romajke Автор вопроса

Спасибо за ответ.
Конечно ты прав, но твой запрос в гугле немного более абстрактный, чем требуется для моей задачи :)

Да, там уже читал, и в принципе, логику того как это должно работать - я понимаю. Проблемы с реализацией :(
Сейчас прикреплю суда свой код, может подскажете чего.

Написано более трёх лет назад
jcmvbkbc @jcmvbkbc
new-> next = hashtable[k]; hashtable[k] = new;

Скажи, ты это компилировал? new->next -- это node*, а hashtable[k] -- это node.
Написано более трёх лет назад
romajke @romajke Автор вопроса
jcmvbkbc, всё верно. Именно на эти строки компилятор и ругается.
Правильно ли я понимаю, что в эти строки нужно внести следующие изменения?
new ->next = &hashtable[k]; hashtable[k] = *new;
Написано более трёх лет назад

jcmvbkbc @jcmvbkbc

Вообще, странный код. Зачем ты себе удвоил объём работы поместив node в hashtable? Лучше было сделать node *hashtable[26];, тогда всё могло бы быть примерно так:

//максимальная длина слова в словаре
#define SIZE 45

int hash_function (char* key);

//определяем структуру
typedef struct node
    {
        char *word1;
        struct node *next;
    } node;


//создаем хэш-таблицу, в которой будут хранится списки
node *hashtable[26];


int main()
{   
    char *text = "small";
    FILE *fp = fopen(text, "r");
    if (fp == NULL)
    {   
        printf("Could not open %s.\n", text);
        return 1;
    }
    
    char word[SIZE];
    
    while(!feof(fp))
    {   
        //считываем слово из словаря
        fscanf(fp,"%s",word);
        
        //определяем его место в массиве
        int k=hash_function(word);
        
        //добавляем слово
        node * new = malloc (sizeof (node));
        new->next=hashtable[k];
        strcpy(new->word1, word);
        hashtable[k] = new;
    }

    
    fclose(fp);
    
    return 0;
}

int hash_function (char* key)
{ 
  int hash = tolower (key [0]) - 'a';
  return hash;
}

Написано более трёх лет назад

jcmvbkbc @jcmvbkbc

Правильно ли я понимаю, что в эти строки нужно внести следующие изменения?

romajke, не, неправильно. Ну т.е. синтаксис, конечно, станет правильным, но семантика -- нет.

Написано более трёх лет назад
romajke @romajke Автор вопроса

jcmvbkbc, если честно, я пробовал оба варианта, и node hashtable[26] и node *hashtable[26]
Но ввиду полной путаницы (в моей голове) с указателями - ни тот ни другой вариант пока не работает.
Сейчас внимательно изучу ваш вариант, попробую реализовать по другому

Написано более трёх лет назад

romajke @romajke Автор вопроса

jcmvbkbc,
Я прокоментировал ваш код, правильно я всё понял?

//добавляем слово

//создаем переменную типа "node", и выделяем для нее память из кучи
node * new = malloc (sizeof (node));
//новый элемент структуры в поле next получает адрес текущей головы списка
new->next=hashtable[k];
//копируем в информационное поле нашей структуры считанное слово
strcpy(new->word1, word);
//делаем головой списка наш новый элемент
hashtable[k] = new;

Если я все правильно понял, то в данном варианте, все таки стоит инициализировать массив указателей как NULL, и делать проверку вставлялся ли ранее элемент в список или нет?
Или это уже будет лишним?

Кстати при таком варианте, компилятор выдает следующую ошибку:

runtime error: null pointer passed as argument 1, which is declared to never be null
/usr/include/string.h:130:14: note: nonnull attribute specified here

Написано более трёх лет назад

jcmvbkbc @jcmvbkbc

правильно я всё понял?

Похоже на то.

Если я все правильно понял, то в данном варианте, все таки стоит инициализировать массив указателей как NULL...

Они и так инициализируются в NULL, потому что это глобальный массив.

...и делать проверку вставлялся ли ранее элемент в список или нет?

Чтобы не вставить несколько раз одно и то же слово? -- Да. Для чего-то ещё? -- Нет.
Для чего по-твоему нужно сделать проверку?

Написано более трёх лет назад

jcmvbkbc @jcmvbkbc

Кстати при таком варианте, компилятор выдает следующую ошибку:

romajke, да, слушай, я затупил, время позднее. В моём варианте должно быть так:

typedef struct node
    {
        char word1[SIZE];
        struct node *next;
    } node;

Ну либо с указателем в структуре, но тогда так:

node * new = malloc (sizeof (node));
//новый элемент структуры в поле next получает адрес текущей головы списка
new->next=hashtable[k];
//копируем в информационное поле нашей структуры считанное слово
new->word1 = strdup(word);
//делаем головой списка наш новый элемент
hashtable[k] = new;

Написано более трёх лет назад

romajke @romajke Автор вопроса
jcmvbkbc,
Они и так инициализируются в NULL, потому что это глобальный массив.

Вот этого я не знал.
Я думал, что когда мы объявляем массив указателей, то он заполнится мусорными значениями, и в таком случае мой список не будет иметь конца.

Получается, что если мы объявляем массив как глобальную переменную - то он всегда автоматически инициализируется нулями?
Написано более трёх лет назад
jcmvbkbc @jcmvbkbc

Я думал, что когда мы объявляем массив указателей, то он заполнится мусорными значениями, и в таком случае мой список не будет иметь конца.

Если заменить "объявляем" на "определяем", то ответ зависит от того где определяем. Если в функции -- то да, массив на стеке, без инициализации там будет мусор. Если вне функции -- то нет, массив в bss, без инициализации будет заполнен нулями.

Получается, что если мы объявляем массив как глобальную переменную - то он всегда автоматически инициализируется нулями?

Определяем. Да.
У тебя ведь не со структурами сложности, а с языком?

Написано более трёх лет назад
romajke @romajke Автор вопроса

jcmvbkbc,
Всё понял, с определением разобрался.
Остался последний вопрос: как опосля память освобождать?
Обращаться к каждому элементу хэш таблицы с помощью "free" ?
Или есть более изящный способ?

Написано более трёх лет назад
jcmvbkbc @jcmvbkbc

Обращаться к каждому элементу хэш таблицы с помощью "free" ?
Или есть более изящный способ?

free, здесь без вариантов. И если в node указатель, а не массив, то его тоже free.

Написано более трёх лет назад
romajke @romajke Автор вопроса

jcmvbkbc,
Получается, вне зависимости от хэш-функции, мне нужно будет высвободить память каждой созданной "struct node" последовательно пробегая каждую ?
Хорошо, у меня всего 140к слов в словаре, а если у меня, например, на 2 гигабайта словарь? Тоже самое? Скорость высвобождения памяти всегда будет линейной?

Написано более трёх лет назад
jcmvbkbc @jcmvbkbc

Хорошо, у меня всего 140к слов в словаре, а если у меня, например, на 2 гигабайта словарь? Тоже самое?

Если мы говорим о скорости освобождения памяти в твоей простой реализации, то очевидно же, что да, линейная сложность, каждую структуру освобождать индивидуально. Если мы говорим о том, стоит ли использовать такую простую реализацию с большим словарём, то вероятно нет.
Ну и аллокация/освобождение памяти -- это вообще отдельный большой вопрос, и в зависимости от сценария использования есть разные варианты оптимизации. Например если известно, что вся таблица освобождается целиком, то имеет смысл выделять для неё память из отдельной арены, которую потом и освобождать одним действием.

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 1

2 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

C

+4 ещё

Средний
Почему прошивка для STM32F103 не запускается после перехода с Keil на Cmake?
- 1 подписчик
- 11 дек.
- 102 просмотра
0

ответов
Debian

+1 ещё

Простой
Где OpenWatcom в Debian!?
- 1 подписчик
- 17 нояб.
- 173 просмотра
1

ответ
C++

+1 ещё

Средний
Имя массива это адрес первого элемента или указатель на его первый элемент в Си?
- 2 подписчика
- 12 нояб.
- 486 просмотров
5

ответов
C

Средний
Почему мой лексер выдает неизвестные токены?
- 1 подписчик
- 25 окт.
- 133 просмотра
1

ответ
Linux

+1 ещё

Простой
Какой самый стабильный и лучший вариант собрать QUIC для curl [cross-compilation]?
- 1 подписчик
- 14 окт.
- 154 просмотра
0

ответов
Linux

+3 ещё

Средний
Как портировать U-boot на ASR1803?
- 5 подписчиков
- 06 окт.
- 282 просмотра
0

ответов
C++

+1 ещё

Простой
Как обезопасить секрет в памяти?
- 2 подписчика
- 04 окт.
- 346 просмотров
3

ответа
Windows

+2 ещё

Простой
Почему запуск процесса через CreateProcess() может очень медленно выполняться?
- 1 подписчик
- 18 сент.
- 240 просмотров
1

ответ
C

Простой
Почему на запускается Valgrind?
- 1 подписчик
- 13 сент.
- 107 просмотров
1

ответ
C

+1 ещё

Простой
Как исправить ошибку?
- 1 подписчик
- 05 авг.
- 209 просмотров
2

ответа
Показать ещё Загружается…

Программист C/C++ для Embedded-систем (Middle)

Алабуга • Екатеринбург

До 370 000 ₽

C#/.NET-разработчик

FLEX Soft • Ташкент

от 200 000 ₽

QA automation (C#)

Альфа-Банк • Москва

от 200 000 до 350 000 ₽

Массив структур ничем особым не отличается от массива, например, intов, только по указателю становятся доступны все члены текущей структуры.
Читать про массивы и указатели У K&R или у Страуструпа.

Answer 1 · 2017-11-13 13:28:37

Вопрос первый: я правильно понимаю, что эту структуру данных где будут хранится мои слова можно назвать хэш таблицей, а функцию, определяющую к какой ячейке массива отнести очередное слово - хэш-функцией?

Да.

По крупицам собираю информацию в гугле относительно динамических списков и массивов структур, но картина пока не складывается :(

38000000 результатов, нифига себе "по крупицам".

Подскажите как это реализовать и\или где можно почитать о создании таких вот вещей?

Тут уже читал?

Answer 2 · 2017-11-13 16:48:14

Проще было бы ваш словарь отсортировать один раз и сохранить в таком виде, искать двоичным поиском, без всяких хэш таблиц и накладных расходов. Работать будет быстрее, чем хэш-таблица.

Как создать хэш таблицу с помощью си?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт