Как правильно составить функцию qHash для объекта содержащего два QString? Или просто какой алгоритм для хеширования двух строк?

Question

Artem @JustSokol

newby programmer

Как правильно составить функцию qHash для объекта содержащего два QString? Или просто какой алгоритм для хеширования двух строк?

Необходимо запихивать в QSet пользовательский тип данных, который состоит из двух QString, что-то вроде:

class Mynametype {
public:
    QString firstName;
    QString lastName;
};

Для этого необходимо написать функцию qHash. Интересует именно алгоритм получения неповторяющегося хеша двух строк. Код на С++/Qt не требуется, сам напишу если буду знать как вычислить.

Особенности строк (если это важно):
Первая строка и вторая строка - какие угодно, но не большие (скажем до 100 символов, хотя в среднем по 10, 20 максимум).

Нужно также чтобы было не простая конкатенация и ее хеш, тк нужно чтобы разные пары firstName lastName хешились по разному, даже если конкатенация строк одинаковая. Тоесть если есть скажем полное имя "Abdul Karim Jabar", то
объекты типа Mynametype с { firstName="Abdul ", lastName="Karim Jabar" } и { firstName="Abdul Karim", lastName=" Jabar" }
это РАЗНЫЕ объекты, несмотря на то что конкатенация firstName + lastName равна.

Пока что пришло в голову лишь сделать конкатенацию и в середину всунуть какой-то символ разделитель и уже такую строку захешировать уже имеющимся в Qt методом. Типа:
return qHash(firstName+"|"+lastName);

Но чет не уверен что это нормальный способ, поэтому оцените нормально будет работать или мб в каких-то случаях нет.
Да и хотелось бы что-то более элегантное, особенно с алгоритмической точки зрения.

Вообще говоря исходный тип данных не связан с именами и это просто две разные строки.
Если что, то пробелы и прочие знаки не алфавита не должны никуда деваться и сравниваются на общих основаниях, т.е. например строка с ними на конце или в середине и без них - РАЗНЫЕ строки.

Вопрос задан более трёх лет назад
1134 просмотра

Комментировать

Подписаться 1 Оценить Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Разработчик C++

9 месяцев

Далее
Stepik

Внутреннее устройство контейнеров в STL (C++)

2 недели

Далее
Skillbox

Разработчик на C++

7 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 3

4 комментария

Artem @JustSokol Автор вопроса

перечитайте пост мой

Написано более трёх лет назад
Станислав Макаров @Nipheris Куратор тега C++

Artem да я так его три раза прочел прежде чем ответить, расскажите пожалуйста почему вас так беспокоит случай совпадения конкатенаций. Т.е. есть два вопроса: 1) понимаете ли вы, что уникальный хэш получить невозможно для строк той длины, что у вас есть; 2) непонятно зачем вам уникальный хэш и почему вас так беспокоит его неуникальность в достаточно редком на мой взгляд случае.
Если строки у вас совсем короткие, по 2-3 символа, то тогда совпадать будет почаще, значит пример с именами неудачный.

Написано более трёх лет назад
Artem @JustSokol Автор вопроса

Станислав Макаров: хммм. про хеши почти ничего не знаю
про недостижимость абсолютной уникальности я так понял невозможно тк количество комбинаций 20 символов гораздо больше max uint.
да чет хз почему мне это сразу в голову не пришло )))

меня интересует как тогда будет работать QSet если хеши не уникальные. там только для поиска хеш используется? а соответствие непосредственно по ключу идет?
тоесть если отобразится в одно значения хешевое 2 ключа(совпадение), то при вызове QSet.contains(x), он сначала по хешу найдет два значения а потом сравнит с каждым и даст ответ ?

я просто почему то в 4 утра подумал хеш=ключ в QSet, хех.
прошу прощения за глупость :)

Написано более трёх лет назад
Станислав Макаров @Nipheris Куратор тега C++

@JustSokol
QSet is one of Qt's generic container classes. It stores values in an unspecified order and provides very fast lookup of the values. Internally, QSet is implemented as a QHash (doc.qt.io/qt-5/qset.html#details).
Итак, значит QSet сделан на базе QHash. Конечно, на википедию давать ссылку немного несерьезно, но сейчас поздно уже, я себе позволю) : https://ru.wikipedia.org/wiki/%D0%A5%D0%B5%D1%88-%...
Читаем: Ситуация, когда для различных ключей получается одно и то же хеш-значение, называется коллизией. Такие события не так уж и редки - ... Поэтому механизм разрешения коллизий — важная составляющая любой хеш-таблицы.
И далее перечисляются методы, самые популярные два - вешать на значение хэша список (!) элементов с таким хешем, либо же просто вставлять элементы друг за другом, т.е. искать следующий свободный слот (неважно, что он может потенциально понадобиться другому элементу).
Суть хэш-таблицы - в ускорении поиска, приближении его к O(1) (как, в принципе, и вставок). Точная проверка совпадения обеспечивается дополнительно.
> он сначала по хешу найдет два значения а потом сравнит с каждым и даст ответ
да, разумеется. Там может быть хоть 100 значений на хэш, операция должна выполниться корректно (другое дело - будет выполняться медленнее, чем хочется).
Кстати, внимательно почитайте требования к типу элемента:
- QSet's value data type must be an assignable data type.
- the type must provide operator==()
- must also be a global qHash() function that returns a hash value for an argument of the key's type.
С присвоением понятно, с qHash тоже, обратите внимание на оператор сравнения - никто его не отменял, он по прежнему нужен и должен корректно отрабатывать.
Резюме: проблема поиска хорошего хэша безусловно есть в каждой подобной задаче, однако это вопрос снижения сложности операций поиска/вставки и повышения производительности. После поиска по хэшу всегда будет поиск на точное совпадение (даже если по хэшу найден только один элемент - вдруг это коллизия и у нас не точное совпадение).

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

C++

+2 ещё

Простой
Как скомпилировать рабочую dll библиотеку?
- 3 подписчика
- 26 нояб.
- 257 просмотров
1

ответ
C++

+1 ещё

Простой
Как узнать, хранятся числа в компьютере в прямом, дополнительном или обратном коде?
- 1 подписчик
- 23 нояб.
- 414 просмотров
6

ответов
C++

+1 ещё

Средний
Имя массива это адрес первого элемента или указатель на его первый элемент в Си?
- 2 подписчика
- 12 нояб.
- 446 просмотров
5

ответов
C++

+1 ещё

Простой
Почему Project Dependencies не работает?
- 1 подписчик
- 10 нояб.
- 85 просмотров
1

ответ
C++

Простой
Влияет ли, передаёшь ты в функцию аргументы по ссылке или по значению, на производительность и память?
- 2 подписчика
- 07 нояб.
- 347 просмотров
2

ответа
C++

Простой
А нужно ли заменять dynamic_cast?
- 1 подписчик
- 07 нояб.
- 106 просмотров
1

ответ
Qt

+2 ещё

Простой
Как настроить РАЗДЕЛЬНЫЕ темы для Kvantum Manager?
- 1 подписчик
- 04 нояб.
- 35 просмотров
0

ответов
C++

Простой
Как понять что переполняет память в C++?
- 1 подписчик
- 01 нояб.
- 269 просмотров
1

ответ
C++

Средний
Как исправить некорректное отображение кириллицы?
- 1 подписчик
- 30 окт.
- 263 просмотра
3

ответа
Компьютерные сети

+1 ещё

Средний
Как обнаружить сканирование портов по логу сетевого трафика?
- 8 подписчиков
- 29 окт.
- 3312 просмотров
2

ответа
Показать ещё Загружается…

Java Developer

ИТРУМ • Ростов-на-Дону

от 75 000 ₽

Fullstack Next.js Cursor Developer

Nocodered

от 60 000 до 120 000 ₽

Senior Golang Developer

SMALL

от 280 000 до 350 000 ₽

Answer 1 · 2015-08-12 02:11:28

А почему такая странная потребность в УНИКАЛЬНОМ хэше (который вы кстати в принципе не получите для двух строк по 20 символов, т.к. хэш-значение - типа uint)?
> это РАЗНЫЕ объекты, несмотря на то что конкатенация firstName + lastName равна.
ну и пусть, совпадет один раз, не такой уж частый кейс для имени и фамилии. У вас таких Каримов с одинаковым конкатенированным именем тысяча штук будет?

Answer 2 · 2015-08-12 02:43:42

У себя сделал так же как и у вас.
склеивание, а между ними разделитель. работает достаточно быстро.

Answer 3 · 2015-08-12 11:48:23

Возьмите хэш от каждой строки и сделайте xor. Ну если строки одинаковые, то xor не делайте.
А еще можно посмотреть в сторону boost hash, например.

Как правильно составить функцию qHash для объекта содержащего два QString? Или просто какой алгоритм для хеширования двух строк?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт