8-bit контрольная сумма или хеш-функция

Question

tronix286 @tronix286

8-bit контрольная сумма или хеш-функция

Приветствую.
Сравниваются много строк (миллионы и миллиарды). Строки не сортированы, размер прыгает всегда. Прежде чем сравнить строку со строкой сравнивается размер. Далее есть свободный байт (8 бит), который хочется использовать как некую контрольную сумму или наподобие хеш-функции, что-бы ускорить процесс сравнения. Посоветуйте пожалуйста что-нибудь?

Пробовал CRC8 — очень много неверных попаданий, когда строки разные а CRC одинаков. Пока что остановился на простой сумме всех байт в строке, но может что-то есть лучше?

Вопрос задан более трёх лет назад
6060 просмотров

1 комментарий

Подписаться 5 Оценить 1 комментарий

Пригласить эксперта

Ответы на вопрос 7

1 комментарий

4 комментария

Владимир Мартьянов @vilgeforce

Очень сильно будет проц кушать, а эффективность сомнительна.

Написано более трёх лет назад
vsespb @vsespb

Интересно, если у какой-либо функции «случайность» лучше, чем у криптографической, чем это объясняется?
Имхо, если у криптографической функции найдена «неслучайность» где-либо, это уже уязвимость.

Написано более трёх лет назад
Sirion @Sirion

md5 уже не используется в криптографии

Написано более трёх лет назад
vsespb @vsespb

Она используется в криптографии. Например в браузере можно посмотреть md5 fingerprint какого-нибудь SSL сертификата. Это криптографическая хэш-функция и она не на столько слаба и не на столько уязвима, чтобы вызвать проблемы для применения ТС.

Если для нужд ТС она слишком медлена, может использовать её для сравнения с другими функциями и их случайности.

Написано более трёх лет назад

Комментировать

1 комментарий

Комментировать

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Veeam

Простой
Как Veeam Backup обойти проблему при установки агента?
- 1 подписчик
- 2 минуты назад
- 4 просмотра
0

ответов
Яндекс.Облако

Простой
Входят ли сервера Яндекс Облака и VK cloud в белый список?
- 1 подписчик
- 4 часа назад
- 41 просмотр
0

ответов
Видеокарты

Простой
Как выбрать сервисный центр (подозрение на неисправность памяти на видюхе)?
- 1 подписчик
- 4 часа назад
- 60 просмотров
2

ответа
Windows

Простой
Как корректно запустить WinPE Sergei Strelec?
- 1 подписчик
- 5 часов назад
- 45 просмотров
0

ответов
Системное администрирование

+1 ещё

Простой
Какие нужны навыки начинающему junior сис админу и каков его карьерный рост?
- 1 подписчик
- 6 часов назад
- 148 просмотров
1

ответ
Telegram

+2 ещё

Простой
TdApi.GetChatHistory или как корректно вызвать вывод истории чата?
- 1 подписчик
- 8 часов назад
- 17 просмотров
0

ответов
PHP

+2 ещё

Простой
Как реализовать зеркало сайт Тильда?
- 1 подписчик
- 9 часов назад
- 101 просмотр
0

ответов
Python

Простой
Что делать если turtle в python не отвечает?
- 1 подписчик
- 14 часов назад
- 91 просмотр
1

ответ
Python

Простой
Не могу разобраться почему не работает код python?
- 1 подписчик
- 14 часов назад
- 184 просмотра
1

ответ
Windows

+2 ещё

Простой
Сочетание клавиш на локальном ПК, при подключении к RDP?
- 1 подписчик
- 16 часов назад
- 124 просмотра
0

ответов
Показать ещё Загружается…

Middle+/Senior Frontend Engineer

Data Directs • Тель-Авив

от 350 000 ₽

Фронтенд разработчик (Frontend developer)

Айдис

от 100 000 ₽

Golang Engineer в команду Отелло

2GIS

До 550 000 ₽

Если не секрет, откуда ограничение в один байт?
Про природу строк что-нибудь известно?
Может есть возможность рассказать более общую задачу?

Answer 1 · 2013-10-04 23:10:57

8 бит это всего лишь 256 различных значений. Конечно же, когда вы отображаете миллионы в 256, случается много коллизий, это очевидно. Неважно, насколько хорошую функцию вы возьмете, различных хешей все равно будет только 256.

Answer 2 · 2013-10-05 01:52:11

Попробуйте последний один (крайний) байт какой-нибудь криптографической хэш-функции, например md5

Answer 3 · 2013-10-04 23:26:07

вам в любом случае нужно использовать этот байт как дополнительную проверку. то есть если длина совпала, CRC8 совпали, только тогда проверять побитно. это даст выигрышь, если у вас совпадений мало по сравнению с общим объёмом и строки часто совпадают в начале. Как вариант, попробуйти сравнивать побитно «задом-на-перед», если первый символ совпал.

Answer 4 · 2013-10-05 00:39:30

Если говорить о английском тексте (как в прочем и о любой текстовой информации) — то CRC не эффективен (особенно для коротких строк). Как пример: простая хэш функция sum( str[i] + str[i+1] << 4) для 0 и четных i, имеет на порядок более равномерное распределение на коротких строках.
Но вообще посмотрите http://www.cse.yorku.ca/~oz/hash.html. Здесь есть несколько толковых функций — оцените по своим данным, какая из них лучше.

Answer 5 · 2013-10-05 01:13:12

x = 0
for i range(len(inData)):
x = x^inData[i]
x = _rotl(x,7)

чотатипа такого попробуйте… Помесь змеиного с вижуальным :-) _rotl — циклический сдвиг.

Answer 6 · 2013-10-06 10:13:19

Автор, вариантов не так и много:

1. CRC8
2. Полиномиальный хеш (таких неплохо попробовать несколько вариантов — с разными нечетными множителями).
3. Хеш, основанный на операции циклического сдвига (тут вариантов немного — сдвигать следует на 3 или 5, можно использовать сложение или xor).

Все эти варианты можно проверить последовательно и выбрать наилучший.

Answer 7 · 2013-10-06 16:07:24

CRC8 дает достаточно хорошее распределение при хорошей скорости работы.
Если количество коллизий неприемлемо — то увеличивайте разрядность хеша. Другими алгоритмами заметно уменьшить количество коллизий не выйдет.

8-bit контрольная сумма или хеш-функция

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт