okazymyrov, у тебя довольно странная задача.
Скажи пожалуйста, для чего и на сколько часто ты планируешь использовать этот глобальный счетчик?
По сути ты пытаешься в параллельную систему добавить строго последовательный участок, что может привести к значительной деградации производительности и чем больше ядер — тем больше деградация. 4096 ядер уже достаточно большая величина, чтобы начать следить за потерями производительности из-за синхронизаций.
Напиши задачу, которую ты решаешь, возможно к ней можно придумать более эффективное решение, чем глобальный счетчик.