как сгенерировать уникальный integer id в кластере?

Question

Lestat @Lestat

как сгенерировать уникальный integer id в кластере?

Здравствуйте, хотелось бы разобраться в вопросе генерации уникального числового ID в кластере.

Собственно смотря на www.mongodb.org/display/DOCS/Object+IDs
пока видится такой же вариант, только размер выделенных байт будет чуть меньше.

Делаем 4 части:

1) время в формате epoch (unix, posix), в общем количество секунд с 1970 года.
time = 8 bytes integer (2 ** (4 * 8) = 4294967296 variants)
import time
int(time.time())
part1 = 1314823196 /…

2) machine_id = 2 bytes integer (2 ** (4 * 2) = 256 variants)
тут видится 2 варианта,
или генерация machine_id согласно hostname, или просто некий внутренний номер, который скажем прописывается в зависимости от hostname,
т.е. можно просто machine_id = 1 / 2 / 3 … / 10
part2 = 1 / 2 / 3 /…

3) pid = 2 bytes integer (2 ** (4 * 4) = 65536 variants)
тут точные варианты проверить пока не могу, но в макоси например pid такого вида: 01318, т.е. совсем немного.
part3 = 01318 /…

4) increment = 4 bytes integer (2 ** (4 * 4) = 65536 variants)

тут сложнее,
например на 8 ядрах будут одинаковые time, machine_id, pid.
остается только increment.
тут вижу вариант использовать какой-нибудь memcached incr например,
чтобы сразу увеличить и получить данное значение атомарно.
тогда 8 потоков получат ключ 1,2,3,4,5,6,7,8 соответственно и не будет коллизий.
import memcache
cache = memcache.Client(['127.0.0.1:11211'])
cache_key = ‘cache_pid_’.format(pid_id)
cache.set(cache_key, 0)
increment_id = cache.incr(cache_key) — увеличит и возвратит новое инкрементированное поле
part4 = 1 / 2 / 3 /…

получается в итоге что-то типа такого:

1314823196 + 1 + 01318 + 1
1314823196 + 1 + 01318 + 2
1314823196 + 1 + 01318 + 3

1314823196 + 2 + 71673 + 1
1314823196 + 2 + 71673 + 2
1314823196 + 2 + 71673 + 3

…
т.е. число где-то так:
13148231962716733

если взять для хранения BIGINT то получается
-9223372036854775808 to 9223372036854775807

13 148 231 962 716 733
9 223 273 036 854 775 807

т.е. запаса много.

собственно вопрос, все ли правильно в данном методе или где-то есть ошибка или что-то возможно улучшить?

а как бы вы генерировали такую штуку?

Спасибо!

update:
хм, а еще вариант просто брать memcache increment, не знаю он на весь кластер нормально работает?

Вопрос задан более трёх лет назад
2902 просмотра

Комментировать

Подписаться 3 Оценить Комментировать

Помогут разобраться в теме Все курсы

Stepik

PRO C#. Базы данных

2 месяца

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Java-разработчик + ИИ

9 месяцев

Далее

Решения вопроса 1

3 комментария

Lestat @Lestat Автор вопроса

спасибо, первый вариант очень привлекательный.
правда IP может поменяться, впрочем наверное hostname когда-нибудь тоже.

что ж, буду думать :)

Написано более трёх лет назад
korvindest @korvindest

Думаю для того что бы не привязываться к IP или hostname достаточно где то держать таблицу корреляции (hostname/IP->Upper_id), которая будет загружаться 1 раз при старте машины. Это позволит в любой момент переименовать, добавить и удалить любой из узлов.
В остальном полностью поддерживаю lesha_penguin.

Написано более трёх лет назад
Lestat @Lestat Автор вопроса

спасибо )

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 1

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Базы данных

+1 ещё

Средний
Есть ли у вас Oracle Application Server 10g?
- 2 подписчика
- 10 июл.
- 227 просмотров
1

ответ
Базы данных

Средний
В чем разница между логической и физической модели в БД?
- 1 подписчик
- 27 мая
- 303 просмотра
3

ответа
MySQL

Простой
Странное поведение COALESCE в SQL запросе?
- 1 подписчик
- 15 мая
- 128 просмотров
1

ответ
MySQL

+2 ещё

Простой
Как исправить ошибку could not load file or assembly «System.Data.SqlClient»?
- 1 подписчик
- 06 мая
- 105 просмотров
1

ответ
Базы данных

Простой
Как решить проблему когда две запущенные транзакции изменяют одну и ту же строку, но одна из транзакций видит старые данные а не новые?
- 1 подписчик
- 28 мар.
- 288 просмотров
3

ответа
MySQL

+1 ещё

Простой
Как поднять контейнер mysql через wsl?
- 1 подписчик
- 21 мар.
- 362 просмотра
2

ответа
Базы данных

Простой
Когда использовать рекурсивное удаление?
- 1 подписчик
- 10 мар.
- 170 просмотров
2

ответа
MySQL

+1 ещё

Простой
Как удалить число содержащееся в ячейке таблицы бд Mysql среди чисел через запятую, если таких чисел 2 или более удалить только первое найденое?
- 1 подписчик
- 19 февр.
- 246 просмотров
1

ответ
MySQL

Простой
Выдаёт ошибку #1062 — Дублирующаяся запись '??????' по ключу 'PRIMARY', как исправить?
- 1 подписчик
- 16 февр.
- 215 просмотров
2

ответа
MySQL

Простой
Как оптимизировать или создать правильно mysql запрос?
- 1 подписчик
- 11 февр.
- 223 просмотра
2

ответа
Показать ещё Загружается…

Answer 1 · 2011-09-01 00:56:12

Варианты решения uniqid от лучшего к худшему:
1) Если 64bitный bigint то вообще проблем никаких: в старшие 32 бита засовываем заведомо уникальный идентификатор машины (например ip-адрес, или crc32/adler32 от hostname). а младшие 32 крутим как обычный сиквенс.
Достоинства: для любого идентификатора можно в случае «жесткого дебага» найти «откуда ноги растут» — т.е. однозначно идентифицировать тачку на которой возникла запись с исследуемым id.
2) Если есть желание убраться в 32bit (разумное желание, ведь не все хорошо работает даже в наш 64разрядный век с большими числами) лучше применять кешированый сиквенс. При запросе сиквенс увеличивается не на 1 а сразу на большое значение, например на 1000 или на 10000. Соотвественно, нода, получив от сиквенса диапазон 320000..329999 спокойно может не обращатся снова к сиквенсу, пока не израсходует этот диапазон. Плюсы: опять-таки возможно логировать. Минусы (правда устранимые резервным сиквенсом с резервным диапазоном): придется выбирать порцию отдачи.
3) Экстремальный вариант. Еще расширяем integer до 128 бит и используем хеши или что-нибудь uuid-подобное. Минус очевиден — 99.9% софта не сможет работать с таким значением как с числом.
4) Hardcode-вариант. Если вам известно, что нод будет не более чем N, каждая нода просто крутит сиквенс S а id получает по ф-ле id=S*N+n; где n-номер ноды. Плохой вариант, очень чреват нехорошими последствиями, если вдруг вы ошиблись в смелых оценках.
5) Метод проб и повторов. еще хуже, поскольку сработает если у вас записей мало и добавляются они редко и вообще надежно будет работать если источник добавления записей только один.

Answer 2 · 2011-09-01 08:08:19

Ололёша Ололоев @alexeygrigorev

Переворачиватель пингвинов

А если UUID использовать?

Ответ написан более трёх лет назад

1 комментарий

как сгенерировать уникальный integer id в кластере?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт