Xeon E5-2ххх, производительность при отключении ядер?

Приветствую!


Прошу помочь понять и осмыслить экспериментальные данные.

Задача:

Понять каков оптимальный конфиг железа при сшивке т.н. гигапиксельных панорам (для меня это важно).


Коллега любезно предоставил для теста такую машинку:

Supermicro X9DRi-F + 2 шт E5-2660 + 128gb


Мы гоняли разные тесты на основании сырья снятой мною в прошлом году панорамы. 684 кадра по 18 или 36мп.


Термины:

Warp — именно работа с геометрией, именно сшивка кадров;

Blending — выравнивание цвета и яркости по всему полю из всех жипегов.

Результаты такие:

0. 18мп исходники пережевываются ровно в 2 раза быстрее, чем 36мп исходники;


1. Включение НТ — дает проседание скорости варпа на 15-20% (для любого количества ядер);


2. И для 18мп и для 36мп исходных кадров скорость варпа на 12 (2х6) или 16 (2х8) ядрах — совершенно одинаковая, +2 ядра на процессор не дают никакого прироста, -2 ядра на процессор не дают никакого проседания;


3. Дальнейшее уменьшение числа активных ядер уже приводит к падению скорости варпа;


4. Загрузка процессора (по условным процентам диспетчера задач) никогда (!) не доходит до 100%, пики на 90%;


5. Оперативная память на стадии варпа полностью не выедается: для 18мп исходников — в пике занято 35-40гб из 128, для 36мп исходников в пике занято 75-90гб из 128;


6. Обращения к накопителю не особо впечатляют. Довольно быстро записывается кэш в 26 или 53гб (для 18 и 36мп сырья, соответственно). Это соразмерно будущему результирующему файлу. Затем, в течение получаса или часа записывается примерно 15гб кэшей, и считывается примерно 10гб. Т.е. упираться в производительность дисковой подсистемы негде. К тому же там чередующийся рейд из 4 дисков;


7. Ну а на стадии блендинга оперативная память выедается моментально и вся сразу. И сотни гигабайт кэшей пишутся\читаются. А загрузка процессора не выше 4-8%.

Вопросы:

1. Логично ли мое предположение о том, что все упирается в кэши процессоров? Или дело может быть в чем-то другом?


2. При отключении двух ядер весь процессорный кэш распределяется между оставшимися шестью? Или часть кэша тоже простаивает?


3. Что логичнее: и дальше собирать систему на 8-ядерниках, но работать только на 6 ядрах или сразу брать 6-ядерные процессоры? Но тут нюанс, L2 кэш «на ядро» у 6 и 8 ядерных процессоров одинаковый.
  • Вопрос задан
  • 8341 просмотр
Пригласить эксперта
Ответы на вопрос 7
@bdmalex
Я стесняюсь, но можно задать глупейший вопрос: «На какой ОС крутились ваши эксперименты»?
Ответ написан
@oleksandr_veles
Ну врядли кто-то Вам выдвинет теорию на основании этих скудных фактов.
Обычно в подобном ПО есть много рычагов настройки, число потоков, использование GPU, размеры кэшей и т.п. Нада просто их перебрать экспериментально.
По поводу разницы 6-8 ядер, посмотрите на каких реально частотах работают CPU при рендеринге.
Просто с турбобустом не все так очевидно, 2660 при полной загрузке 8 ядер работают на 2.7ГГц, а при неполной на 2.8-2.9, вот и нету например разности 12 ядер на 2.8 ГГц и 16 ядер на 2.7ГГц.
Ответ написан
Akson87
@Akson87
Еще все может радостно в шину памяти. Еще может упираться в шину между процессорами. Еще, как сказали выше, турбобуст очень много может менять, сам такое наблюдал.

По идее, кэш L3 должен на все ядра делиться (кроме размера L2+L1 наверное), остальные уже каждому ядру свои.

Маленький коммент, перенесите описание слова варп выше, дабы сразу было понятно, что имеется в виду.
Ответ написан
Комментировать
ArtStudio3D
@ArtStudio3D Автор вопроса
Терминологию пофиксил.

Турбобуст:
Я тоже думал об этом, искал в биосе параметры отключения турбобуста (что бы зафиксировать частоту), но не нашлось.

У вас есть мысли о том, как можно проверить упираемся в шину памяти или в кэши?
Ответ написан
ArtStudio3D
@ArtStudio3D Автор вопроса
Что делать с Intel VTune? %)
Ответ написан
Комментировать
ArtStudio3D
@ArtStudio3D Автор вопроса
Новости:

В конфигурациях 16 ядер + НТ, 16 ядер, 12 ядер при сшивке все одно и то же — процессор загружен «почти полностью» (порядка 90% по показаниям венды), частота — строго 2200мгц, т.е. номинальная. Это уже по данным CPU-Z (попутно выяснилось, что процессор не 2660, а 2670).

Какой вывод из этого следует?

PS
Понизить частоту искусство не получается — в биосе нет опций.
Ответ написан
ArtStudio3D
@ArtStudio3D Автор вопроса
Да мне и в голову не приходило, что они разные. Было сказано — 2х2660. Ну и все :)

Хорошо, что всплыло. И есть чего еще тестировать.

Эх, найти бы где в аренду сервер хотя бы с 256 памяти. Покупать под 1-2 панорамы никакого смысла нет.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы