не могу придумать пример что бы затестить.
Почему то-везде где видел пишется такая иерархия
- Регистры,
- Локальная память
- Разделяемая
- Глобальная
Логично подумать, что раз она ниже, значит медленнее. Так ли это, Но тут я уже не раз читаю, что она там где-то на каком-то кристале ближе чем локальная, находится.
Когда допустим итератор в цикле не вмещается в регистры, сбрасывается в стек, он идет в локальную память, то его чтение становится медленнее, чем если бы он был в разделяемой, или за счет того что он наверное будет в l1 кеше быстрее.