Почему сопроцессор в тысячу раз медленнее процессора?

Question

Ckpyt @Ckpyt

Assembler

Почему сопроцессор в тысячу раз медленнее процессора?

Изучаю интересу ради работу сопроцессора.
И вот, напоролся на неожиданный результат.

#include "stdafx.h"
#include <conio.h>
#include <ctime>
#include <thread>

#define MAX_I 4000000

unsigned __int32 rezult[64];

std::thread* thr[8];

void StartPR(int str)
{
	int i = MAX_I;
	int x = str;
	__asm {
		    mov eax, MAX_I
			xor ebx, ebx
			xor ecx, ecx
			xor edx, edx
circle:
			dec eax
			mov i, eax
			add ebx, i
			add ecx, i
			add edx, i

			cmp eax, 0
			jnz circle

		mov eax, x
		mov esi, eax

		mov [rezult + esi], eax
		add esi, 4
		mov [rezult + esi], ebx
		add esi, 4
		mov [rezult + esi], ecx
		add esi, 4
		mov [rezult + esi], edx
	}
}

void StartMMX(int str)
{
	int i = MAX_I;
	int x = str;
	_asm {

		mov eax, MAX_I
		fldz
		xor ebx, ebx
		fldz
		xor ecx, ecx
			
circle2:

			dec eax
			mov i, eax
			add ecx, i
			add ebx, i

			fincstp
			fld i
			fadd st(1), st(0)
			fadd st(2), st(0)

			cmp eax, 0
			jnz circle2

		mov eax, x
		mov esi, eax
		mov dword ptr[rezult + esi], ebx
		add esi, 4
		fstp [rezult + esi]
		add esi, 4
		mov dword ptr[rezult + esi], ecx
		add esi, 4
		fstp [rezult + esi]
	}
}

void stardThreads(int numOfThread)
{
	printf("threads: %i", numOfThread);
	int i = 0;
	clock_t strt = clock();
	for (int i = 1; i < numOfThread; i++)
	{
		thr[i] = new std::thread(StartPR, i * 32);
	}
	StartPR(0);

	clock_t strt2 = clock();
	clock_t bk1 = strt2 - strt;

	i = 16;
	for (int i = 1; i < numOfThread; i++)
	{
		thr[i] = new std::thread(StartMMX, i * 32 + 16);
	}
	StartMMX(i);
	clock_t bk2 = clock() - strt2;
	printf("time block1:%i, block2:%i, tics per second:%i\n", (__int32)bk1, (__int32)bk2, CLOCKS_PER_SEC);
	//for (int i = 0; i < numOfThread * 8; i++)
		//printf("rezult[%i] = %u \n", i, rezult[i]);
}

int _tmain(int argc, _TCHAR* argv[])
{
	for (int i = 1; i < 9; i++)
		stardThreads(i);

	_getch();
	return 0;
}

результат
threads: 1time block1:16, block2:5765, tics per second:1000
threads: 2time block1:22, block2:5653, tics per second:1000
threads: 3time block1:12, block2:3130, tics per second:1000
threads: 4time block1:17, block2:2430, tics per second:1000
threads: 5time block1:23, block2:3026, tics per second:1000
threads: 6time block1:14, block2:3401, tics per second:1000
threads: 7time block1:29, block2:3814, tics per second:1000
threads: 8time block1:21, block2:5198, tics per second:1000

блок StartMMX выполняется в тысячу раз медленнее блока StartPR. Причем, дело в командах сопроца. Если я их отключаю, моментально быстродействие сравнивается.
Кто подскажет, что я делаю не так?

Upd.
Поставил в количестве потоков цифры сперва 1, потом 4, и в конец офгел: в первом случае время неизменно и равно 6сек. Во втором - плавно опускается до 2сек и дальше остается таким. Как это в принципе возможно?

Вопрос задан более трёх лет назад
282 просмотра

5 комментариев

Подписаться 1 Оценить 5 комментариев

nirvimel @nirvimel

Должно быть где-то в 3-5 раза медленнее. В 1000 раз - это нонсенс!
Как и чем меряете? Сколько прогонов теста. Перед реальным тестом прогон на прогрев не забываете? Приведите весь код своего бенчмарка и его полный вывод.
По нормам должно уходить не меньше секунды на прогрев (точно такой же прогон, только без замера) и сразу после этого реальный прогон с замером, по продолжительности тоже не меньше секунды независимо от того, сколько итераций циклов на это потребуется.

Написано более трёх лет назад

Ckpyt @Ckpyt Автор вопроса

nirvimel:

#include "stdafx.h"
#include <conio.h>
#include <ctime>
#include <thread>

#define MAX_I 4000000

unsigned __int32 rezult[64];

std::thread* thr[8];

void StartPR(int str)
{
	int i = MAX_I;
	int x = str;
	__asm {
		    mov eax, MAX_I
			xor ebx, ebx
			xor ecx, ecx
			xor edx, edx
circle:
			dec eax
			mov i, eax
			add ebx, i
			add ecx, i
			add edx, i

			cmp eax, 0
			jnz circle

		mov eax, x
		mov esi, eax

		mov [rezult + esi], eax
		add esi, 4
		mov [rezult + esi], ebx
		add esi, 4
		mov [rezult + esi], ecx
		add esi, 4
		mov [rezult + esi], edx
	}
}

void StartMMX(int str)
{
	int i = MAX_I;
	int x = str;
	_asm {

		mov eax, MAX_I
		fldz
		xor ebx, ebx
		fldz
		xor ecx, ecx
			
circle2:

			dec eax
			mov i, eax
			add ecx, i
			add ebx, i

			fincstp
			fld i
			fadd st(1), st(0)
			fadd st(2), st(0)

			cmp eax, 0
			jnz circle2

		mov eax, x
		mov esi, eax
		mov dword ptr[rezult + esi], ebx
		add esi, 4
		fstp [rezult + esi]
		add esi, 4
		mov dword ptr[rezult + esi], ecx
		add esi, 4
		fstp [rezult + esi]
	}
}

void stardThreads(int numOfThread)
{
	printf("threads: %i", numOfThread);
	int i = 0;
	clock_t strt = clock();
	for (int i = 1; i < numOfThread; i++)
	{
		thr[i] = new std::thread(StartPR, i * 32);
	}
	StartPR(0);
	clock_t bk1 = clock() - strt;
	i = 16;
	for (int i = 1; i < numOfThread; i++)
	{
		thr[i] = new std::thread(StartMMX, i * 32 + 16);
	}
	StartMMX(i);
	clock_t bk2 = clock() - bk1;
	printf("time block1:%i, block2:%i, tics per second:%i\n", (__int32)bk1, (__int32)bk2, CLOCKS_PER_SEC);
	//for (int i = 0; i < numOfThread * 8; i++)
		//printf("rezult[%i] = %u \n", i, rezult[i]);
}

int _tmain(int argc, _TCHAR* argv[])
{
	for (int i = 1; i < 9; i++)
		stardThreads(i);

	_getch();
	return 0;
}

вывод:
threads: 1time block1:13, block2:5659, tics per second:1000
threads: 2time block1:12, block2:11975, tics per second:1000
threads: 3time block1:17, block2:15983, tics per second:1000
threads: 4time block1:9, block2:18935, tics per second:1000
threads: 5time block1:27, block2:21661, tics per second:1000
threads: 6time block1:30, block2:25007, tics per second:1000
threads: 7time block1:19, block2:28853, tics per second:1000
threads: 8time block1:21, block2:33343, tics per second:1000

очень смущает, что время работы сопроцессора линейно растет с количеством потоков.
Учитывая, что у ноута два ядра с гипертрейдингом.
Процессор core i5-5200U

Написано более трёх лет назад

nirvimel @nirvimel

Ckpyt: Под какой это компилятор? Я на GCC так и не смог скомпилировать (там много разных причин).

Если бы я смог запустить у себя, то смог бы сказать что-то определенное по этому поводу, а так...

Повторю еще: Разрыв в тысячи раз - это нонсенс для такого простого кода, тут просто негде спрятать что-то достаточно тяжелое, что бы оправдывало такой разрыв. Причина тут явно не в процессоре и вообще не в железе. Возможно, разгадка тут будет какая-нибудь простая. Например, что-то связанное с компилятором.

Написано более трёх лет назад
Ckpyt @Ckpyt Автор вопроса

nirvimel: Это под VisualStudio 2015

Написано более трёх лет назад

Ckpyt @Ckpyt Автор вопроса

UPD: нашли первый баг, проблема не исчезла.

#include "stdafx.h"
#include <conio.h>
#include <ctime>
#include <thread>

#define MAX_I 4000000

unsigned __int32 rezult[64];

std::thread* thr[8];

void StartPR(int str)
{
	int i = MAX_I;
	int x = str;
	__asm {
		    mov eax, MAX_I
			xor ebx, ebx
			xor ecx, ecx
			xor edx, edx
circle:
			dec eax
			mov i, eax
			add ebx, i
			add ecx, i
			add edx, i

			cmp eax, 0
			jnz circle

		mov eax, x
		mov esi, eax

		mov [rezult + esi], eax
		add esi, 4
		mov [rezult + esi], ebx
		add esi, 4
		mov [rezult + esi], ecx
		add esi, 4
		mov [rezult + esi], edx
	}
}

void StartMMX(int str)
{
	int i = MAX_I;
	int x = str;
	_asm {

		mov eax, MAX_I
		//fldz
		xor ebx, ebx
		//fldz
		xor ecx, ecx
			
circle2:

			dec eax
			mov i, eax
			add ecx, i
			add ebx, i

			//fincstp
			//fld i
			//fadd st(1), st(0)
			//fadd st(2), st(0)

			cmp eax, 0
			jnz circle2

		mov eax, x
		mov esi, eax
		mov dword ptr[rezult + esi], ebx
		add esi, 4
		//fstp [rezult + esi]
		add esi, 4
		mov dword ptr[rezult + esi], ecx
		add esi, 4
		//fstp [rezult + esi]
	}
}

void stardThreads(int numOfThread)
{
	printf("threads: %i", numOfThread);
	int i = 0;
	clock_t strt = clock();
	for (int i = 1; i < numOfThread; i++)
	{
		thr[i] = new std::thread(StartPR, i * 32);
	}
	StartPR(0);

	clock_t strt2 = clock();
	clock_t bk1 = strt2 - strt;

	i = 16;
	for (int i = 1; i < numOfThread; i++)
	{
		thr[i] = new std::thread(StartMMX, i * 32 + 16);
	}
	StartMMX(i);
	clock_t bk2 = clock() - strt2;
	printf("time block1:%i, block2:%i, tics per second:%i\n", (__int32)bk1, (__int32)bk2, CLOCKS_PER_SEC);
	//for (int i = 0; i < numOfThread * 8; i++)
		//printf("rezult[%i] = %u \n", i, rezult[i]);
}

int _tmain(int argc, _TCHAR* argv[])
{
	for (int i = 1; i < 9; i++)
		stardThreads(i);

	_getch();
	return 0;
}

результат
threads: 1time block1:12, block2:6048, tics per second:1000
threads: 2time block1:16, block2:5641, tics per second:1000
threads: 3time block1:10, block2:3066, tics per second:1000
threads: 4time block1:9, block2:2406, tics per second:1000
threads: 5time block1:11, block2:2694, tics per second:1000
threads: 6time block1:10, block2:3201, tics per second:1000
threads: 7time block1:13, block2:3292, tics per second:1000
threads: 8time block1:16, block2:5270, tics per second:1000

Убираем команды сопроцессора, тайминги внезапно начинают совпадать.

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Академия Codeby

Профессия Реверс-инженер

10 месяцев

Далее
GOLANG NINJA

Искусство работы с ошибками и безмолвной паники в Go (Golang)

9 недель

Далее
GOLANG NINJA

Искусство безмолвной паники в Go (Golang)

3 месяца

Далее

Решения вопроса 1

4 комментария

nirvimel @nirvimel

А я так в asm засмотрелся, что проглядеть это. Но, как я и предполагал - причина простая я и с железом не связана.

Написано более трёх лет назад
Ckpyt @Ckpyt Автор вопроса
jcmvbkbc
Окей, этот баг я исправил. Получил странные результаты.
clock_t strt2 = clock(); clock_t bk1 = strt2 - strt; ... clock_t bk2 = clock() - strt2;

результат:
threads: 1time block1:12, block2:6042, tics per second:1000
threads: 2time block1:16, block2:5476, tics per second:1000
threads: 3time block1:10, block2:3208, tics per second:1000
threads: 4time block1:12, block2:2463, tics per second:1000
threads: 5time block1:11, block2:2887, tics per second:1000
threads: 6time block1:34, block2:3543, tics per second:1000
threads: 7time block1:12, block2:4317, tics per second:1000
threads: 8time block1:28, block2:4598, tics per second:1000

Почему он такой странный? Если полностью убираю обращение к сопроцу - время block1 = block2.
Почему работа с сопроцом занимает от 2 до 6 секунд? Откуда это?
П.с. на ноуте включен гипертрейдинг
Написано более трёх лет назад
Ckpyt @Ckpyt Автор вопроса

Спасибо! Там было две ошибки: переполнение стэка и загрузка int командой fld Обе существенно замедляли время выполнения.
Сейчас наконец-то все ок.
threads: 1time block1:54, block2:40, tics per second:1000
threads: 2time block1:66, block2:60, tics per second:1000
threads: 3time block1:83, block2:62, tics per second:1000
threads: 4time block1:108, block2:71, tics per second:1000
threads: 5time block1:140, block2:116, tics per second:1000
threads: 6time block1:145, block2:142, tics per second:1000
threads: 7time block1:210, block2:158, tics per second:1000
threads: 8time block1:230, block2:173, tics per second:1000

П.с. не подскажите, почему сопроцессор должен быть в полтора-два раза медленнее процессора?

Написано более трёх лет назад
jcmvbkbc @jcmvbkbc

> почему сопроцессор должен быть в полтора-два раза медленнее процессора
Ckpyt: я не уверен, что должен, и судя по вашим цифрам это не так. По моим судить не стоит, поскольку там существенно разные внутренности циклов.
Если вопрос чисто теоретический, то возможно сопроцессору нужен более длинный пайплайн, но я не знаю никакой конкретики об интеловских микроархитектурах.

Написано более трёх лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Assembler

Средний
Как решить данную задачу?
- 2 подписчика
- 21 дек. 2025
- 294 просмотра
1

ответ
C++

+2 ещё

Простой
Как скомпилировать рабочую dll библиотеку?
- 3 подписчика
- 26 нояб. 2025
- 427 просмотров
1

ответ
Assembler

+2 ещё

Простой
Как заставить GCC (i686) генерировать реальный 16-битный код без использования EAX, ECX и т. д.?
- 1 подписчик
- 31 окт. 2025
- 249 просмотров
2

ответа
Assembler

Простой
Почему в коде assembler выдает бесконечный цикл?
- 1 подписчик
- 28 июл. 2025
- 247 просмотров
1

ответ
Linux

+2 ещё

Простой
Как сделать новое чтение из STDIN?
- 1 подписчик
- более года назад
- 250 просмотров
1

ответ
Linux

+2 ещё

Простой
GAS ассемблер: записать в секцию опкоды, затем выполнить их?
- 2 подписчика
- более года назад
- 223 просмотра
1

ответ
C

+2 ещё

Простой
Как реализовать файловую систему?
- 1 подписчик
- более года назад
- 415 просмотров
3

ответа
C#

+3 ещё

Простой
Почему код без условных переходов медленнее чем с ними? Ассемблер. Если должно быть наоборот?
- 1 подписчик
- более года назад
- 311 просмотров
0

ответов
Assembler

+1 ещё

Средний
Не работает customasm, как исправить?
- 1 подписчик
- более года назад
- 117 просмотров
0

ответов
C++

+2 ещё

Простой
Покажите на ассемблере как выглядит защита от переполнения буфера?
- 2 подписчика
- более года назад
- 9931 просмотр
3

ответа
Показать ещё Загружается…

Должно быть где-то в 3-5 раза медленнее. В 1000 раз - это нонсенс!
Как и чем меряете? Сколько прогонов теста. Перед реальным тестом прогон на прогрев не забываете? Приведите весь код своего бенчмарка и его полный вывод.
По нормам должно уходить не меньше секунды на прогрев (точно такой же прогон, только без замера) и сразу после этого реальный прогон с замером, по продолжительности тоже не меньше секунды независимо от того, сколько итераций циклов на это потребуется.
Ckpyt: Под какой это компилятор? Я на GCC так и не смог скомпилировать (там много разных причин).

Если бы я смог запустить у себя, то смог бы сказать что-то определенное по этому поводу, а так...

Повторю еще: Разрыв в тысячи раз - это нонсенс для такого простого кода, тут просто негде спрятать что-то достаточно тяжелое, что бы оправдывало такой разрыв. Причина тут явно не в процессоре и вообще не в железе. Возможно, разгадка тут будет какая-нибудь простая. Например, что-то связанное с компилятором.

Answer 1 · 2016-04-15 03:08:56

Кто подскажет, что я делаю не так?

Это:

clock_t strt = clock();
...
clock_t bk1 = clock() - strt;
...
clock_t bk2 = clock() - bk1;

bk1 -- это разность абсолютных времён, т.е. продолжительность, а bk2 -- это разность абсолютного времени и продолжительности, т.е. абсолютное время.

Ок, после исправления этого бага я вижу проблему с переполнением стека сопроцессора: fadd не сдвигает стек обратно и fld его очень быстро переполняет.

С переполнением стека я тоже наблюдаю, что fpu работает ~ в 1000 раз медленнее чем ALU. Но если сбалансировать загрузки, операции и выгрузки так, чтобы стек не переполнялся у меня все работает со сравнимой скоростью. Подозреваю, что там случается исключение, но оно не фатальное и молча глотается ядром.

Я тестировал следующий код (выкинул вообще всё лишнее):

#include <stdio.h>
#include <inttypes.h>
#include <time.h>

#define MAX_I 4000000

int32_t rezult[64];

void StartPR(int str)
{
        asm volatile ("mov $4000000, %%eax\n\t"
                      "xor %%ebx, %%ebx\n\t"
                      "xor %%ecx, %%ecx\n\t"
                      "xor %%edx, %%edx\n"

                      "circle:\n\t"
                      "add %%eax, %%ebx\n\t"
                      "add %%eax, %%ecx\n\t"
                      "add %%eax, %%edx\n\t"
                      "dec %%eax\n\t"
                      "jnz circle\n\t" ::: "memory");
}

void StartMMX(int str)
{
        double v = 4000000;
        asm volatile ("mov $4000000, %%eax\n\t"
                      "fldz\n\t"

                      "circle2:\n\t"
                      "fld %0\n\t"
                      "faddp \n\t"
                      "fld %0\n\t"
                      "faddp \n\t"
                      "fld %0\n\t"
                      "faddp \n\t"
                      "fld %0\n\t"
                      "faddp \n\t"
                      "sub $4, %%eax\n\t"
                      "jnz circle2\n\t"
                      "fstp %0" :"+m"(v):: "memory");
}

void stardThreads(int numOfThread)
{
        printf("threads: %i", numOfThread);
        int i = 0;
        clock_t strt = clock();
        StartPR(0);

        clock_t strt2 = clock();
        clock_t bk1 = strt2 - strt;

        StartMMX(i);
        clock_t bk2 = clock() - strt2;
        printf("time block1:%i, block2:%i, tics per second:%i\n", (int32_t)bk1, (int32_t)bk2, CLOCKS_PER_SEC);
}

int main(int argc, char *argv[])
{
        int i;
        for (i = 1; i < 9; i++)
                stardThreads(i);

        return 0;
}

Результат:

threads: 1time block1:6949, block2:9311, tics per second:1000000
threads: 2time block1:4061, block2:7872, tics per second:1000000
threads: 3time block1:3901, block2:7398, tics per second:1000000
threads: 4time block1:3615, block2:7045, tics per second:1000000
threads: 5time block1:3389, block2:6716, tics per second:1000000
threads: 6time block1:3250, block2:6342, tics per second:1000000
threads: 7time block1:3189, block2:6036, tics per second:1000000
threads: 8time block1:3032, block2:5885, tics per second:1000000

Почему сопроцессор в тысячу раз медленнее процессора?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт