Почему T * может работать ощутимо быстрее (~ на 25-30%) в качестве хранилища данных, чем std::byte *?

Question

floppa322 @Lite_stream

C++

Почему T * может работать ощутимо быстрее (~ на 25-30%) в качестве хранилища данных, чем std::byte *?

Есть некоторая шаблонная структура данных, где в качестве массива для данных T использовался T * или std::byte * .

После множества прогонов (версия: С++ 20 с флагом -O3, компилятор Clang) бенчмарков на большом количестве данных (особенно большая разница была для типов std::is_scalar (порядка 25%), и порядка 10% для пользовательских типов) заметил, что когда в качестве массива используется T *, а не std::byte *, появляется ощутимый прирост прозводительности.

При переходе на T * с std::byte * изменились только следующие участки кода:

Инициализация массива

buffer(new (std::align_val_t(alignof(T))) std::byte[initialCapacity * sizeof(T)])
// Изменилась на 
buffer(reinterpret_cast<T *>(new (std::align_val_t(alignof(T))) std::byte[initialCapacity * sizeof(T)])

И несколько сравнений

FirstComparator{}((*reinterpret_cast<T *>(&buffer[(position * sizeof(T)) * 2])), (*reinterpret_cast<T *>(&buffer[((position * 2 + 1) * sizeof(T))])))
// Поменялось на 
FirstComparator{}(buffer[position * 2], buffer[position * 2 + 1])

Откуда могла возникнуть такая разница? Может быть, компилятор, зная точный тип, а не std:: byte *, делает какие-то оптимизации ? Полагаю, что с T * у компилятора есть больше инфы (в частности, сам тип T, а не std::byte), на основе этого он делает какие-то доп. оптимизации

P.S.: посмотрел код EASTL, там тоже, например в векторе, используется T *, а не char *

Вопрос задан более трёх лет назад
314 просмотров

14 комментариев

Подписаться 3 Простой 14 комментариев

mayton2019 @mayton2019

Эээ... так а где весь код бенчмарка? Что это за огрызки ты привел? Или ты думаешь что по этому можно какие-то суждения делать?

Написано более трёх лет назад
floppa322 @Lite_stream Автор вопроса

mayton2019, ну я на 99% уверен, что проблема фундаментально связана с типами
Если нужно, могу привести бенчмарки, но они одинаковые
Мог в принципе и код самих структур данных привести, но мне кажется, его никто бы смотреть особо не стал, именно поэтмоу решил скинуть диффы перехода с std::byte * на T *

Написано более трёх лет назад
mayton2019 @mayton2019

floppa322, извини а какие в бенмарке ты видишь ПУТИ исследования оптимизаций? Просто играться с типами и дождаться что вдруг на каком-то из них будет щастье? Мне кажется что это не инженерный путь.

Написано более трёх лет назад
floppa322 @Lite_stream Автор вопроса

mayton2019, ну я и говорю, что скорость работы связана, скорее всего, с какими-то фичами компилятора, когда у него из-за наличия явно T *, а не std::byte *, есть больше информации и он может сделать какие-то оптимизации, и интересно какие именно ему нельзя сделать, имея std::byte *
Ну и, покопавшись в известных имплементациях, вроде EASTL, заметил, что всегда используется именно T *, значит какая-то причина есть на это

Написано более трёх лет назад
mayton2019 @mayton2019

Скорее всего в компилляторе есть некий хардкод который если видит знакомый шаблон - включается. Типа интризик.
Но я-бы на твоём месте собирал это в отдельных функциях и наблюдал-бы ассемблерный выхлоп. Хотя-бы на уровне - меняется код или не меняется для данной функции.

Кстати обидно что в топике ты не указал компиллер. Clang? Gcc? VisualC++?

Написано более трёх лет назад
floppa322 @Lite_stream Автор вопроса

mayton2019, забыл, извиняюсь, только что дополнил и указал это )

Написано более трёх лет назад
Adamos @Adamos

Скорость шаблона может оправдываться тем, что там подставляется 64-битное число, совпадающее с размером регистра процессора, и алгоритм бенчмарка ложится на команды процессора удачнее, не требуя преобразований в байты. Правда, по памяти он при этом проигрывает в разы.
Такой вариант, в частности, показывает бессмысленность "просто бенчмарков" - в реальных применениях числодробилка, жрущая лишнюю память, упрется в кэш и вполне может отрабатывать в разы медленнее и теоретической синтетики, а альтернатив, использующих память экономнее.

Написано более трёх лет назад
floppa322 @Lite_stream Автор вопроса

Adamos, ну да, если компилятор заменит 4-х байтный инт на 8-ми байтный, то количество промахов по кэшу удвоится, но в конкретном случае, что с T *, что с std::byte * размеры массивов (в байтах) одинаковые и влиять не должно
Или Вы что-то другое имели в виду ?

Написано более трёх лет назад
Adamos @Adamos

floppa322, я имел в виду, что, кроме приведенных огрызков кода, может быть и работа с данными по этим указателям. Вот в ней и разница.

Написано более трёх лет назад
floppa322 @Lite_stream Автор вопроса

Adamos, просто до этого, когда писал структуры данных в академических целях, всегда использовал std::byte *, сейчас решил посмотреть, как у других, и везде, что в бусте, что в каком-нибудь EASTL, вижу, что используют именно T *

Написано более трёх лет назад
Adamos @Adamos

floppa322, в шаблонных библиотекак используют шаблоны везде, где могут? Удивительно!..

Написано более трёх лет назад
floppa322 @Lite_stream Автор вопроса

Adamos, например, у меня в унике, на структурах данных, их реализовывали через массив байтов, а не T, вроде бы даже аргументируя это чем-то, поэтому так в памяти отложилось и делал через массив байтов. Судя по всему, аргументы были неверны

Написано более трёх лет назад
Adamos @Adamos

floppa322, в "унике", с точки зрения профессионального программирования, в основном учат дрочить вприсядку.
А насчет аргументирования - нет аргументов, как делать это всегда единственно верным способом, есть причины сделать так или иначе в зависимости от стоящей задачи. Например, если вы пишете библиотеку - делать код максимально обобщенным и универсальным. А в прикладной программе этот карточный домик из шаблонов может быть на хрен не нужен.

Написано более трёх лет назад
floppa322 @Lite_stream Автор вопроса

Adamos, конкретно по АиСД, если уник норм, например, МФТИ или ИТМО, то они там на высоте, а вот фреймворкдроч как раз (которым промышляют на всяких курсах) не очень, да он и не нужен в вузе, в том же МФТИ фреймворки факультативом являются и не входят в основную программу

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Разработчик на C++

12 месяцев

Далее
Академия Эдюсон

Разработчик игр на Unreal Engine: тариф Базовый

9 месяцев

Далее
Яндекс Практикум

Разработчик C++ расширенный

12 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

C++

+3 ещё

Средний
MacOS 13.4.1 XCode 14.3.1 lldb не показывает std::string, как исправить?
- 1 подписчик
- 30 апр.
- 63 просмотра
1

ответ
C++

+1 ещё

Простой
Не могу запустить код C++ на VS Code?
- 1 подписчик
- 25 мар.
- 361 просмотр
2

ответа
C++

Простой
Неверное приведение типа через static_cast это UB или его чтение/изменение это UB?
- 1 подписчик
- 21 мар.
- 116 просмотров
1

ответ
C++

Простой
Reinterpret_cast вектора типа double в T неопределенное или определенное поведение?
- 1 подписчик
- 04 мар.
- 133 просмотра
1

ответ
C++

+2 ещё

Простой
Заголовочные файлы в Си нужны только для интерфейса?
- 3 подписчика
- 26 февр.
- 585 просмотров
5

ответов
C++

+1 ещё

Простой
Как найти причину недетерминизма программы?
- 1 подписчик
- 12 февр.
- 305 просмотров
4

ответа
C++

+1 ещё

Простой
Почему не решает задачу?
- 1 подписчик
- 05 февр.
- 393 просмотра
1

ответ
C++

Простой
Как правильно установить значения интерпретатора для того, чтобы запустить клиент minecraft?
- 1 подписчик
- 31 янв.
- 214 просмотров
1

ответ
C++

Простой
Фатальная ошибка: Файла tabulate?
- 1 подписчик
- 25 янв.
- 100 просмотров
0

ответов
C++

Простой
Как решить ошибку «Код инcтрументирования объектов cookie стека обнаружил переполнение буфера, связанное со стеком»?
- 1 подписчик
- 23 янв.
- 90 просмотров
1

ответ
Показать ещё Загружается…

Системный аналитик

ITK academy • Краснодар

от 75 000 до 130 000 ₽

LEAD AI/ML ENGINEER

Selecty • Москва

от 400 000 ₽

Разработчик в буткемп Core Infrastructure

Яндекс • Москва

от 300 000 до 490 000 ₽

Эээ... так а где весь код бенчмарка? Что это за огрызки ты привел? Или ты думаешь что по этому можно какие-то суждения делать?
mayton2019, ну я на 99% уверен, что проблема фундаментально связана с типами
Если нужно, могу привести бенчмарки, но они одинаковые
Мог в принципе и код самих структур данных привести, но мне кажется, его никто бы смотреть особо не стал, именно поэтмоу решил скинуть диффы перехода с std::byte * на T *
floppa322, извини а какие в бенмарке ты видишь ПУТИ исследования оптимизаций? Просто играться с типами и дождаться что вдруг на каком-то из них будет щастье? Мне кажется что это не инженерный путь.
mayton2019, ну я и говорю, что скорость работы связана, скорее всего, с какими-то фичами компилятора, когда у него из-за наличия явно T *, а не std::byte *, есть больше информации и он может сделать какие-то оптимизации, и интересно какие именно ему нельзя сделать, имея std::byte *
Ну и, покопавшись в известных имплементациях, вроде EASTL, заметил, что всегда используется именно T *, значит какая-то причина есть на это
Скорее всего в компилляторе есть некий хардкод который если видит знакомый шаблон - включается. Типа интризик.
Но я-бы на твоём месте собирал это в отдельных функциях и наблюдал-бы ассемблерный выхлоп. Хотя-бы на уровне - меняется код или не меняется для данной функции.

Кстати обидно что в топике ты не указал компиллер. Clang? Gcc? VisualC++?
mayton2019, забыл, извиняюсь, только что дополнил и указал это )
Скорость шаблона может оправдываться тем, что там подставляется 64-битное число, совпадающее с размером регистра процессора, и алгоритм бенчмарка ложится на команды процессора удачнее, не требуя преобразований в байты. Правда, по памяти он при этом проигрывает в разы.
Такой вариант, в частности, показывает бессмысленность "просто бенчмарков" - в реальных применениях числодробилка, жрущая лишнюю память, упрется в кэш и вполне может отрабатывать в разы медленнее и теоретической синтетики, а альтернатив, использующих память экономнее.
Adamos, ну да, если компилятор заменит 4-х байтный инт на 8-ми байтный, то количество промахов по кэшу удвоится, но в конкретном случае, что с T *, что с std::byte * размеры массивов (в байтах) одинаковые и влиять не должно
Или Вы что-то другое имели в виду ?
floppa322, я имел в виду, что, кроме приведенных огрызков кода, может быть и работа с данными по этим указателям. Вот в ней и разница.
Adamos, просто до этого, когда писал структуры данных в академических целях, всегда использовал std::byte *, сейчас решил посмотреть, как у других, и везде, что в бусте, что в каком-нибудь EASTL, вижу, что используют именно T *
floppa322, в шаблонных библиотекак используют шаблоны везде, где могут? Удивительно!..
Adamos, например, у меня в унике, на структурах данных, их реализовывали через массив байтов, а не T, вроде бы даже аргументируя это чем-то, поэтому так в памяти отложилось и делал через массив байтов. Судя по всему, аргументы были неверны
floppa322, в "унике", с точки зрения профессионального программирования, в основном учат дрочить вприсядку.
А насчет аргументирования - нет аргументов, как делать это всегда единственно верным способом, есть причины сделать так или иначе в зависимости от стоящей задачи. Например, если вы пишете библиотеку - делать код максимально обобщенным и универсальным. А в прикладной программе этот карточный домик из шаблонов может быть на хрен не нужен.
Adamos, конкретно по АиСД, если уник норм, например, МФТИ или ИТМО, то они там на высоте, а вот фреймворкдроч как раз (которым промышляют на всяких курсах) не очень, да он и не нужен в вузе, в том же МФТИ фреймворки факультативом являются и не входят в основную программу

Answer 1 · 2023-02-10 00:20:54

Надо смотреть, что там компилятор нагенерировал.

Создайте 2 функции, которые отличаются только вот в этих вот местах.
Вставьте код в https://godbolt.org/

Смотрите ассемблерный код для двух функций.

Может, срабатывает strict aliasing. Видя тип T сомпилятор понимает, что эта переменная не может быть изменена какими-то другими std::byte в соседнем коде и может, например, пропустить загрузку-выгрузку данных в регистр из памяти.

Может вообще что-то другое.

Единственный вариант разобраться - это смотреть на ассемблерный код функций, которые вы и сравниваете. Не каких-то кусков, оттуда надерганных, а функций целиком.

Почему T * может работать ощутимо быстрее (~ на 25-30%) в качестве хранилища данных, чем std::byte *?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт