Как объяснить разную скорость выполнения вложенных циклов в разных языках?

Question

Alexey Al @palkokrut

Как объяснить разную скорость выполнения вложенных циклов в разных языках?

Добрый вечер!
Читал пост о том, как код на ассемблере работает быстрее си.
thedeemon.livejournal.com/49226.html
Там суть такова, что есть два int массива на 256 элементов:

Задачка очень простая: есть два массива 16-битных целых чисел, найти сумму квадратов разностей. В оригинале это были блоки 16х16, и проходить их надо было в двойном цикле.... Цикл такой прогоняю 10 млн раз и смотрю время, а также смотрю, что за код сгенерировался.

И мне стало интересно, сколько этот процесс займет на C и на Python.
Я накидал такой код на C:

int main(int argc, char **argv)
{
	int g = 0;
	int a_list[] = {256 рандомных чисел от 1 до 100};
	int b_list[] = {256 рандомных чисел от 1 до 100};
	
	for (g = 0; g < 1000000; g++)
		array_func(a_list, b_list);
	return 0;
}

void array_func(int arr1[], int arr2[])
{
	int sum = 0, j=0;
	int x = 0, y = 0;
	for (y = 0; y < 16; y++)
	{
		for (x = 0; x < 16; x++)
		{
			short v = arr1[j] - arr2[j];
			sum += v*v;
			j++;
		}
	}
}

Такой же код у меня был на Питоне:

def main_func(a_list, b_list):
    summ = 0 #инициализация суммы
    j = 0 #независимый счетчик от 0 до 256
    for y in range(0, 16):
        for x in range(0, 16):
            p = a_list[j] - b_list[j]
            summ += p * p
            j += 1

for g in range(0, 1000000):
    main_func(a_list, b_list)

Замерял время выполнения с помощью линуксовой команды time.
И выяснил следующие удивительные для меня вещи:

Второй python отрабатывает миллион итераций быстрее третьего: 40 с против 52-55 с
Perl (на нем я писал, правда, методом тыка) отрабатывает тот же миллион за две с половиной минуты
Си отрабатывает десять миллионов за 11 с
Если переписать всё в одну функцию (соответственно, три вложенных цикла) - python и си выполняются на пару мс быстрее, а Perl - на минуту быстрее(!?)

Я программировать только начинаю учиться, и у меня несколько вопросов:

Почему третий питон работает в этом случае медленнее второго?
Почему Perl работает так медленно и ведет себя так странно?
И самое главное - почему этот же код на JavaScript в мозилле срабатывает за 6,8 секунд?? Как он оказался быстрее скомпилированного C ?

P.S. Код на JavaScript:

function main_func(a_list, b_list) {
    for (var g = 0; g < 10000000; g++) {
        var summ = 0;
        var j = 0;
        for (var y = 0; y < 16; y++) {
            for (var x = 0; x < 16; x++) {
                var p = a_list[j] - b_list[j];
                summ += p * p;
                j++;
            }
        }
    }
}
console.time('test');
main_func(a_list, b_list);
console.timeEnd('test');

Вопрос задан более трёх лет назад
2489 просмотров

10 комментариев

Подписаться 3 Оценить 10 комментариев

romy4 @romy4
Последовательность из 256 рандомных чисел от 0 до 100, которую вы упустили
#!/bin/bash entries=($(shuf -i 0-256 -n 100)) echo ${entries[@]} | sed 's/ /,/g'
Написано более трёх лет назад
romy4 @romy4

а ещё компиляция с флагом -O2 даёт 0,02с

Написано более трёх лет назад
abcd0x00 @abcd0x00

Второй python отрабатывает миллион итераций быстрее третьего: 40 с против 52-55 с

На втором и третьем питоне этот код должен быть написан по-разному. То есть ты уже неправильно сравниваешь.
Во втором питоне надо писать xrange(), а в третьем - range().

Написано более трёх лет назад
Alexey Al @palkokrut Автор вопроса

abcd0x00: с xrange() второй питон стал еще на одну секунду быстрее. Почему же третий заметно тормозит?

Написано более трёх лет назад
Alexey Al @palkokrut Автор вопроса

romy4: для удобства я явно задал эти массивы, а не заполнял их каждый раз.

Написано более трёх лет назад
Alexey Al @palkokrut Автор вопроса

romy4: точно, вот это оптимизация!

Написано более трёх лет назад

abcd0x00 @abcd0x00

Alexey Vasilev:
Твой код не работает

[guest@localhost py]$ ./t2.py 
Traceback (most recent call last):
  File "./t2.py", line 14, in <module>
    main_func(a_list, b_list)
NameError: name 'a_list' is not defined
[guest@localhost py]$

Написано более трёх лет назад

Alexey Al @palkokrut Автор вопроса

abcd0x00:
abcd0x00: правильно, пропущено определение массивов. Что-то типа

import random
a_list = []
b_list = []
def fill_array(array):
    """функция заполняет массив случайными числами"""
    for i in range(0, 256):
        array.append( random.randint(0,100) )

fill_array(a_list)
fill_array(b_list)

Написано более трёх лет назад

abcd0x00 @abcd0x00

Alexey Vasilev:

Да в третьем медленнее, чем во втором
заменил для второго все range() на xrange()

[guest@localhost bench]$ time ./t2.py 

real    1m8.657s
user    1m8.493s
sys     0m0.004s
[guest@localhost bench]$

[guest@localhost bench]$ time ./t3.py 

real    2m1.226s
user    2m0.818s
sys     0m0.010s
[guest@localhost bench]$

Написано более трёх лет назад

abcd0x00 @abcd0x00

Alexey Vasilev:
Это полный код на всякий случай

#!/usr/bin/env python3

import random

a_list = []
b_list = []

def fill_array(array):
    """функция заполняет массив случайными числами"""
    for i in range(0, 256):
        array.append( random.randint(0,100) )

fill_array(a_list)
fill_array(b_list)

def main_func(a_list, b_list):
    summ = 0 #инициализация суммы
    j = 0 #независимый счетчик от 0 до 256
    for y in range(0, 16):
        for x in range(0, 16):
            p = a_list[j] - b_list[j]
            summ += p * p
            j += 1

for g in range(0, 1000000):
    main_func(a_list, b_list)

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Skillbox

JavaScript

3 месяца

Далее
Академия Eduson

Fullstack-разработчик на JavaScript

11 месяцев

Далее
Skypro

JavaScript-разработчик с нуля

9 месяцев

Далее

Решения вопроса 1

10 комментариев

d'Ivan @2ord

А почему нужно рассматривать вычисления при помощи специализированных средств? Тогда использовать ещё OpenCL/CUDA?

Написано более трёх лет назад
Alexey Al @palkokrut Автор вопроса

Большое спасибо! Постараюсь поставить эту конструкцию. Пока что в Дебиане всё отваливается с ошибкой компиляции, похоже из-за несовместимости версий pip3 llvmlite и пакета llvm

Написано более трёх лет назад
nirvimel @nirvimel

Роман Мирр: На олимпиаде по программированию такое может и не прокатит. Но продакш - это не спорт, тут нет допинг-контроля. В гонке за производительность победителей не судят.
В этом примере чистый python-синтаксис. Разработка идет на той же скорости, что и в любом python-проекте. При этом в runtime мы достигаем почти предельных скоростей для железа.

Написано более трёх лет назад
nirvimel @nirvimel

Alexey Vasilev: У меня самого в debian 8 это стоит в virtualenv (правда сейчас окружение собрано под python 2, но я когда-то подобное и на третьем собирал). Версии:
llvmlite - 0.8.0
numba - 0.22.1

Написано более трёх лет назад
nirvimel @nirvimel

Alexey Vasilev: Вот еще забыл: Для последних версий llvmlite нужна llvm 3.6, а в jessie есть только 3.5. Значит 3.6 нужно ставить из stretch/testing. Но она нормально становится рядом с 3.5, ничего не ломает.
Prerequisites: https://llvmlite.readthedocs.org/en/latest/install/

Написано более трёх лет назад
Alexey Al @palkokrut Автор вопроса

nirvimel: вчера всю ночь переезжал с jessie на sretch ))
код при maxint = 100 и 10^7 итерациях работает за 2 секунды против 9 для си!
(а gcc -O2 дает код, выполняющийся за 55 мс)

Написано более трёх лет назад
nirvimel @nirvimel

Alexey Vasilev: Код выполняется за 55 мс независимо от задаваемого количества итераций - вас ничего не смущает в этом? Обратите внимание, я в своем коде специально добавил в каждой функции return той переменной, которая изменяется внутри цикла. Без этого умный оптимизатор просто выкидывает весь цикл, из которого ничего не возвращается. Это же касается и вашего си-кода. Для получения честных результатов нужно возвращать значение (sum, например) из самого глубокого цикла на самый верх и потом где-то его использовать, например выводить в консоль.

Написано более трёх лет назад
rPman @rPman

nirvimel шикарный пример, но в данном случае это не мощь питона а мощь именно numba потому что из тормозного и жрущего оперативную память интерпретатора (ok,ok, оно уже давно виртуальная машина но все равно медленная и везде где оно быстрое, это когда использует готовые библиотеки со внешними вызовами) оно превращается в компилятор в llvm, т.е. получаем скорость c++ и кроссплатформенность llvm в комплекте.

Написано более трёх лет назад
Alexey Al @palkokrut Автор вопроса

rPman, ого))) я и забыл уже про этот вопрос, уже и профессию сменил, программистом устроился) надо это нумбу попробовать

Написано более трёх лет назад
rPman @rPman

жесть, вот это я снекропостил ;)

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 3

4 комментария

Alexey Al @palkokrut Автор вопроса

Понятно, что это всё непоказательно, но остается два вопроса: почему один и тот же код на python3 выполняется ощутимо медленнее, чем на втором
и почему когда я вместо for g in range(0, 1000000) написал
for g in range(1, 1000):
for h in range(1, 1000):
стало сразу 25 с вместо сорока? я думал чем больше вложенных циклов, тем медленнее программа?

Написано более трёх лет назад
Олег Цилюрик @Olej

Alexey Vasilev:
почему один и тот же код на python3 выполняется ощутимо медленнее, чем на втором

Потому что Python 3 более высокоуровневый, с более сложной системой типизации. А за всё нужно платить.
Но Python 3 (за счёт того же) позволяет писать код по-другому, который будет более эффективным.
См. Тонкости использования языка Python: Часть 2. Типы...

Написано более трёх лет назад
Олег Цилюрик @Olej

Alexey Vasilev:

почему когда я вместо for g in range(0, 1000000) написал
for g in range(1, 1000):
for h in range(1, 1000):
стало сразу 25 с вместо сорока? я думал чем больше вложенных циклов, тем медленнее программа?

1. А с чего бы вообще время выполнения зависело от числа вложенностей? (хоть 10...).
Оно может зависеть от общего числа итераций, т.е. от произведения размерностей по всем вложенностям.

2. 25 и 40 - это настолько величины одного порядка, близкие, что при измерении времени выполнения (в многозадачной операционной системе!) они не показательны - повторите эксперимент 10 раз подряд, и ваши цифры изменятся ... или даже вообще поменяются местами.

Написано более трёх лет назад
Alexey Al @palkokrut Автор вопроса

Спасибо за статьи!
"Первое, что здесь сразу бросается в глаза: Python 2 быстрее Python 3 на 65%. Это достаточно ожидаемо — это естественная плата за существенно расширенный синтаксис"

Написано более трёх лет назад

3 комментария

Alexey Al @palkokrut Автор вопроса

померил выполнения самого блока кода - разница с командой time в 25 мс для ста тысяч итераций и в 50 мс для миллиона, что не очень существенно.
Больше всего меня волнует, почему питон третий на 25% медленнее второго в этом скрипте??

Написано более трёх лет назад
VZVZ @VZVZ

Alexey Vasilev: вот прямо ТОЛЬКО в этом скрипте, а в остальных все гладко? Типа пасхальное яйцо?)
Раз вы занимаетесь направлением, связанным с реверс-инжинирингом, то вы должны уметь путем экспериментов локализовать проблему, чтобы говорить, на чем конкретно там тормозит. Тогда и ответ конкретный дать будет легче.

Написано более трёх лет назад
Alexey Al @palkokrut Автор вопроса

VZVZ: покопался еще, в меру своих сил - выяснил, что код с конструкцией
for g in range(0, 1000000) - выполняется за сорок секунд
а если написать
for g in range(0, 1000):
for h in range(0, 1000):
- за 26 секунд.
мне казалось - чем больше вложений, тем медленнее должен быть код. Почему этого не происходит?

Написано более трёх лет назад

3 комментария

Олег Цилюрик @Olej

вы забыли на си сделать многопоточное вычисление вот он и проиграл джаве,

1. Вообще то, про Java в вопросе ни слова не было сказано. Было про JavaScript ... что немного разные вещи ;-)

2. Java никогда не использует многопоточность самостоятельно, если вы сами явно не напишете многопоточный код. JavaScript вообще на-дух не умеет использовать несколько процессоров (так же, собственно, как и Python, например).

3. Вы так и вправду думаете, что на коротких массивах при многопоточности в C вы что-то выиграете? ... а не проиграете, раза в 4? ;-)
Пикантно ... пикантно...

Написано более трёх лет назад
Василий @Foolleren

Олег Цилюрик: какой у вас критерий длинного и короткого цикла позвольте поинтересоваться?

Написано более трёх лет назад
Олег Цилюрик @Olej

какой у вас критерий длинного и короткого цикла позвольте поинтересоваться?

- в задаче автором указаны массивы размерностью 256
- распараллелить поэлементную работу над массивами, между потоками (процессорами!), можно только разделив массивы на части (если вы хоть когда в жизни написали хоть одну строчку многопоточного кода - вам это должно быть понятно ;-))
- после чего вам ещё нужно собрать частные результаты от разных потоков воедино...
- при размерностях массивов меньше чем ... в 10000? в 100000? - многопоточное выполнение на многих процессорах (да ещё при настолько простой обработке) будет давать не выигрыш в скорости, а значительный проигрыш.

Я в достаточной мере позволил вам поинтересоваться? ;-)

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

JavaScript

+2 ещё

Простой
Как сделать резкое переключение слайдов?
- 1 подписчик
- вчера
- 93 просмотра
0

ответов
JavaScript

Простой
Как сделать чтоб условия не перезаписывались?
- 1 подписчик
- 02 дек.
- 174 просмотра
1

ответ
Python

Простой
Как получить конкретный атрибут приложенный в обьект?
- 1 подписчик
- 28 нояб.
- 184 просмотра
1

ответ
Python

Простой
Как сохранить курсор в строке ввода при перезапуске explorer.exe?
- 1 подписчик
- 28 нояб.
- 126 просмотров
1

ответ
JavaScript

+2 ещё

Простой
Элемент стилизации на js, как сделать чтобы не было резкой смены картинки фона?
- 1 подписчик
- 27 нояб.
- 184 просмотра
1

ответ
Python

Простой
Ошибка IndexError: string index out of range в написании реализации системы Линденмайера – от чего происходит и как исправить?
- 1 подписчик
- 27 нояб.
- 117 просмотров
1

ответ
JavaScript

Простой
Переход по ссылке с параметром на конкретный узел в vis.js?
- 1 подписчик
- 24 нояб.
- 115 просмотров
0

ответов
JavaScript

+1 ещё

Простой
Как сделать сложную виртуализацию?
- 1 подписчик
- 22 нояб.
- 264 просмотра
2

ответа
Python

+1 ещё

Простой
Как сделать рассылку в viber в фоне?
- 1 подписчик
- 22 нояб.
- 99 просмотров
0

ответов
Debian

+1 ещё

Простой
Где OpenWatcom в Debian!?
- 1 подписчик
- 17 нояб.
- 167 просмотров
1

ответ
Показать ещё Загружается…

Fullstack JavaScript разработчик

MakeDifference

от 60 000 до 110 000 ₽

React разработчик

ITK academy • Нижний Новгород

от 50 000 до 90 000 ₽

Fullstack-разработчик (PHP, Vue.js)

Qwintry

от 1 200 до 2 000 $

Последовательность из 256 рандомных чисел от 0 до 100, которую вы упустили
#!/bin/bash entries=($(shuf -i 0-256 -n 100)) echo ${entries[@]} | sed 's/ /,/g'
а ещё компиляция с флагом -O2 даёт 0,02с
Второй python отрабатывает миллион итераций быстрее третьего: 40 с против 52-55 с

На втором и третьем питоне этот код должен быть написан по-разному. То есть ты уже неправильно сравниваешь.
Во втором питоне надо писать xrange(), а в третьем - range().
abcd0x00: с xrange() второй питон стал еще на одну секунду быстрее. Почему же третий заметно тормозит?
romy4: для удобства я явно задал эти массивы, а не заполнял их каждый раз.
Alexey Vasilev:
Твой код не работает
[guest@localhost py]$ ./t2.py Traceback (most recent call last): File "./t2.py", line 14, in <module> main_func(a_list, b_list) NameError: name 'a_list' is not defined [guest@localhost py]$
abcd0x00:
abcd0x00: правильно, пропущено определение массивов. Что-то типа
import random a_list = [] b_list = [] def fill_array(array): """функция заполняет массив случайными числами""" for i in range(0, 256): array.append( random.randint(0,100) ) fill_array(a_list) fill_array(b_list)
Alexey Vasilev:

Да в третьем медленнее, чем во втором
заменил для второго все range() на xrange()
[guest@localhost bench]$ time ./t2.py real 1m8.657s user 1m8.493s sys 0m0.004s [guest@localhost bench]$

[guest@localhost bench]$ time ./t3.py real 2m1.226s user 2m0.818s sys 0m0.010s [guest@localhost bench]$
Alexey Vasilev:
Это полный код на всякий случай
#!/usr/bin/env python3 import random a_list = [] b_list = [] def fill_array(array): """функция заполняет массив случайными числами""" for i in range(0, 256): array.append( random.randint(0,100) ) fill_array(a_list) fill_array(b_list) def main_func(a_list, b_list): summ = 0 #инициализация суммы j = 0 #независимый счетчик от 0 до 256 for y in range(0, 16): for x in range(0, 16): p = a_list[j] - b_list[j] summ += p * p j += 1 for g in range(0, 1000000): main_func(a_list, b_list)

Answer 1 · 2015-01-02 02:50:09

Меня как-то не устроило то, как вы оценили производительность Python, поэтому я взялся чуть подправить ваш пример для демонстрации совершенно других результатов. Запуск моего примера кроме установки numpy (pip install numpy), потребует установку еще одной интересной библиотеки (pip install numba) с ее установкой могут быть связанны некоторые трудности на различных ОС (она зависит еще и от llvm), но, поверьте, оно того стоит, полученные цифры производительности должны вам понравиться.
Для демонстрации реальной скорости вычислений в моем примере миллион итераций это довольно мало, камень не успевает хорошо прогреться. Обратите внимание, я заменил миллион итераций на 100 миллионов, поэтому полученный результат надо разделить на 100 для сравнения с другими языками. Вот, собственно, сам код:

from numba import jit
import numpy


@jit
def inner_func(a_list, b_list):
    sum = 0
    j = 0
    for y in range(0, 16):
        for x in range(0, 16):
            p = a_list[j] - b_list[j]
            sum += p * p
            j += 1
    return sum


@jit
def outer_func(a_list, b_list):
    sum = 0
    for g in range(0, 100000000):  # 100 000 000 == 10^8 !!!
        sum += inner_func(a_list, b_list)
    return sum


def main():
    maxint = numpy.iinfo(numpy.intc).max
    a_list = numpy.random.randint(maxint, size=256)
    b_list = numpy.random.randint(maxint, size=256)
    sum = outer_func(a_list, b_list)
    print(sum)


if __name__ == '__main__':
    main()

Если вам удалось это запустить и полученные цифры вас впечатлили, то я бы попросил подправить в вашем вопросе ту часть, которая касается Python, для восстановления справедливости в отношении этого великолепного языка.

Answer 2 · 2015-01-02 12:28:20

Я программировать только начинаю учиться, и у меня несколько вопросов:

Вообще то, такие "измерения" во многом - бессмыслица.
Ваши результаты будут зависеть:
- от уровня оптимизации, установленного для компилятора...
- от используемого компилятора с одного и того же языка (Clang из расхваливаемого здесь LLVM будет хуже GCC)
- от того, насколько ваши массивы (особенно при большем их размере)будут попадать в процессорные кэши и какого уровня кэши, что зависит от способа размещения массивов, порядка дивжения по ним и др. (и разница в скорости может быть не 15%, а 4-5 раз и более)
- от числа ядер и возможностей языковой системы задействовать несколько процессоров в исполняющей системе...
- ... от времени восхода Солнца на вашей широте ;-)

Так что такие "измерения" достаточно бессмысленное занятие, и ним можно оценивать только порядки величин.
Любопытства ради см. Языки программирования: скорость, Сравнительное обозрение языков программирования.

Answer 3 · 2015-01-02 00:50:49

Вообще в таких случаях все сводится к интерпретации (ну или исполнению машинного кода, если он машинный; по сути-то это та же интерпретация).
А именно, к двум факторам:

1) насколько хорошо оптимизирован алгоритм интерпретатора (алгоритм разбора кода, + не слишком ли много интерпретатор делает лишних операций, не связанных с выполнением кода, например, он может подгружать что-то там)
> Замерял время выполнения с помощью линуксовой команды time.
Это то есть вы смотрели не время выполнения алгоритма, а время выполнения программы в целом, от запуска до завершения? Ну там вообще куча причин может быть, интерпретатор не моментально запускается, и что он подгружает и делает при запуске, вообще одним авторам известно.

2) насколько минимизирован (и вообще оптимизирован для интерпретации) сам интерпретируемый код. Именно поэтому код в бинарном формате (машинный код, байт-код) потенциально быстрее, чем код в текстовом формате. Во-первых, бинарник тупо компактнее, скажем вместо слова function (которое занимает самый минимум 8 байт) может быть всего лишь 1-2 кракозябра. Во-вторых, бинарный формат - он строгий, всё там более однозначно и не бывает всей этой мути с пробелами, табами и пр., интерпретатору меньше приходится думать что же значит каждый байт вместе с байтами перед ним и байтами после него. Минимизация кода с помощью утилит помогает сделать его компактнее, но интерпретатор-то все равно проверяет на табы, пробелы и т.д., так что и минифицированный код в текстовом формате - все равно не очень быстр всегда.
Но в случае с Си, стандартные компиляторы по дефолту просто загаживают код всякой "дрянью", это отлично видно, если взять OllyDbg и сравнить хотя бы по длине с тем кодом, который дают компиляторы ассемблера.

Answer 4 · 2015-01-02 09:58:36

вы забыли на си сделать многопоточное вычисление вот он и проиграл джаве,
по поводу библиотек, их и на си много,
а ещё разные языки по разному работают с массивами, си например болт забивает на проверку границ массива оставляя это на совести программиста, ещё очень много зависит от того как массивы расположены в памяти , выравнивания, я уже не говорю про некоторые читы типа разворачивания цикла, вот у вас длинна цикла известна заранее, компилятору развернуть такой цикл как нефиг делать - меньше условных переходов быстрее код

Как объяснить разную скорость выполнения вложенных циклов в разных языках?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт