Как ускорить np.dot()?

Question

PyTuch @PyTuch

Python
NumPy

Как ускорить np.dot()?

Коллеги, доброго времени суток!
Интересует следующее:
Я из БД получаю df размером 10 млн строк на n столбцов;
Дальше выбираю из этого df один столбец;
Делаю его копию состоящую из обратных значений;
Полученную копию делаю строкой;
Дальше умножаю матричным способом через np.dot()столбец на сформированную строку.
------------------------------------------------------------------------------------------------------------------
Chunk - первый способ ускорения, чтобы умножать по частям - матрицами размером chunk_size на 10 млн
Есть еще варианты как это можно было бы ускорить? Возможно есть какое то оптимальное значение параметра chunk?
chunk_size = 25

df_values = DF.to_numpy()
v = df_values[:, criteria_number - 1:criteria_number]
length = v.shape[0]

kolvo_shagov = int(length / chunk_size) + int(
(length % chunk_size) / ((length % chunk_size - 1)))

b = 1 / v

if vector is None:
vector = np.zeros([v.shape[0], 1])
i = -1
for shag in range(kolvo_shagov):
i += 1
matrix = v[chunk_size * i:chunk_size * (i + 1), :].dot(b.T)
gm = stats.gmean((matrix), axis=1)
gm = gm.reshape([len(gm), 1])
vector[chunk_size * i:chunk_size * (i + 1)] = gm

vector_sum = vector.sum()
vector = vector / vector_sum

Вопрос задан более трёх лет назад
136 просмотров

Комментировать

Подписаться 1 Средний Комментировать

Пригласить эксперта

Ответы на вопрос 1

9 комментариев

U235U235 @U235U235

Т.е. 10 млн.

Написано более трёх лет назад
PyTuch @PyTuch Автор вопроса

Матрица столбец, выделенная из изначального столбца размером 10 млн, размером chunk умножается на матрицу строку размером 10 млн - в итоге получается матрица размером chunk на 10 млн

Написано более трёх лет назад
PyTuch @PyTuch Автор вопроса

U235U235, будет не одномерный массив, а таблица содержащая размерность которой 10млн*Chunk_size

Написано более трёх лет назад
U235U235 @U235U235

PyTuch, тогда не пойму при чем здесь скалярное произведение (dot). Это же обычное матричное умножение.. вектора-столбца на вектор строку с результатом - матрицей...
Можно пример какой-нибудь небольшой.. хоть из 3-4 элементов?

Написано более трёх лет назад
PyTuch @PyTuch Автор вопроса

U235U235,

Написано более трёх лет назад
U235U235 @U235U235

PyTuch, понятно. Но для 10млн вектора должна получится матрица 10млнх10млн это ~ 800Тб...

Написано более трёх лет назад
PyTuch @PyTuch Автор вопроса

U235U235,
Именно по этому я и вводу понятие chunk

Чтобы из столбца брать не все 10 млн а только часть и в цикле прозожусь по столбцу обрабатывая матрицу размером chunk на 10 млн (размер chunk определяется способностями компьютера)

И вопрос в том - можно ли сделал код лучше (например Возможно есть оптимальное значение chunk то есть не чем больше тем лучше )

Написано более трёх лет назад
U235U235 @U235U235

Все равно чтобы найти все значения нужно большой объем памяти. Тут вопрос зачем нужна такая большая матрица? Какой смысл расчетов?

Написано более трёх лет назад
PyTuch @PyTuch Автор вопроса

U235U235, сегментация клиентской базы

Когда считается матрица, дальше по ее строки сводится среднее геометрическое и сохраняется только оно

А потом считается следующая матрица
Код представлен сверху

Написано более трёх лет назад