Какова веростность коллизии в рандомной строке?

Question

WebDev @kirill-93

PHP

Какова веростность коллизии в рандомной строке?

Есть функция, которая генерирует случайную строку, состоящую из английских букв в двух регистрах и цифр 0-9. У меня есть таблица с данными и каждой записи нужно присвоить уникальную строку. Чем короче будет эта строка, тем лучше. Предлагается строка из 5 символов. Записей в таблице примерно 500 000, количество будет расти, примерно до 2 миллионов. Какой длины случайной строки будет достаточно, чтобы свести к минимуму риск появления дубликатов?

Вопрос задан более трёх лет назад
253 просмотра

Комментировать

Подписаться 1 Средний Комментировать

Помогут разобраться в теме Все курсы

Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее
Stepik

PHP (pro)

2 недели

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 7

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

Средний
Как исправить ошибки шаблона WP?
- 1 подписчик
- 14 июл.
- 114 просмотров
1

ответ
PHP

Средний
Как сделать что бы переменная avatar($ank['id']); не конфликтовала с другим файлом?
- 2 подписчика
- 17 июн.
- 214 просмотров
2

ответа
PHP

+2 ещё

Средний
Как решить проблему с smtp сервером?
- 1 подписчик
- 03 июн.
- 470 просмотров
1

ответ
PHP

Средний
Как составить регулярное выражение?
- 1 подписчик
- 31 мая
- 252 просмотра
2

ответа
PHP

+2 ещё

Простой
Как настроить php_curl для php8 под windows?
- 1 подписчик
- 28 мая
- 197 просмотров
3

ответа
PHP

Простой
При правильном вводе каптчи не прегистрируется как исправить?
- 1 подписчик
- 24 мая
- 158 просмотров
2

ответа
JavaScript

+2 ещё

Средний
Стоит ли переносить логику работающего онлайн-калькулятора с JS на PHP ради защиты формул от копирования?
- 3 подписчика
- 18 мая
- 2474 просмотра
8

ответов
PHP

+1 ещё

Простой
Как получить список файлов из локальной папки?
- 1 подписчик
- 11 мая
- 347 просмотров
6

ответов
PHP

+1 ещё

Простой
Как работать с Manticore Search на php?
- 1 подписчик
- 29 апр.
- 189 просмотров
1

ответ
PHP

Простой
PDO не видит внутри функции?
- 1 подписчик
- 25 апр.
- 252 просмотра
2

ответа
Показать ещё Загружается…

Answer 1 · 2018-01-26 14:18:36

Возможно лучше будет не случайную строку генерить, а последовательные id записей однозначно мапить (см. биекция, bijection) в пространство вашего алфавита. Так 100% не будет коллизий.

Чтобы коды последовательных id не выглядели последовательно, можно, например, реверсировать порядок бит в числе перед записью его новым алфавитом. Это сохранит однозначность отображения.

2 млн. записей укладываются в 20 бит (0 .. 2097151). Алфавит из англ. букв в двух регистрах и цифр состоит из 26+26+10 = 62 символов. Может, ещё пару символов добавить, будет ровно 64 (6 бит). Итого для одного id понадобится всего 4 символа вашего алфавита, и это с избытком: вместо 20 бит, целых 24 будете записывать.

Answer 2 · 2018-01-26 14:40:35

Я бы обратил ваше внимание на стандартизированный UUID. Да, он длиннее и 5, и тем более 8 символов. Но он защищён от коллизий. И как плюс поддерживается "из коробки" большинством SQL баз данных (MySQL точно).

https://ru.wikipedia.org/wiki/UUID

Для PHP существует много скриптов, генерирующих уникальный UUID. Например,
https://github.com/ramsey/uuid

Answer 3 · 2018-01-26 14:15:40

Имел опыт, когда 8символьный хеш (0-9a-f) показывал коллизии после 2 миллионов записей в таблице. Расширили до полного алфавита в двух регистрах - проблема ушла.

Answer 4 · 2018-01-26 14:21:22

Николай Конюхов @heahoh

Full stackoverflow developer

Более 8 символов

Ответ написан более трёх лет назад

Комментировать

Answer 5 · 2018-01-26 14:38:59

Как выше написал конь - вероятность все равно есть. Это вы играете в лотерею - совпадет не совпадет.

Правильным будет повесить на поле со сгенерированной строкой unique-индекс, и все. А вставлять через insert ignore into, либо ловить ошибку вставки и перегенерировать строку. это 100% гарантия несовпадений. Иначе вы всегда рискуете.

Answer 6 · 2018-01-26 14:42:55

Если пойдёт псевдослучайная строка, то тут рассмотрено множество методов: https://habrahabr.ru/company/virgilsecurity/blog/3...

Answer 7 · 2018-01-26 16:55:17

На пользуйся, вероятность коллизии - 0
php.net/manual/ru/function.uniqid.php

Еще можешь сделать нумерацию от 1 до N и перевести числа в какое-то строковое представление при помощи любого понравившегося алгоритма, важно чтоб уникальность данных гарантировалось уникальностью исходных.

Какова веростность коллизии в рандомной строке?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт