Как оптимизировать работу в JupyterNotebook?

Question

Иосиф Гудман @lolaevv

В процессе изучения азов JAVA

Как оптимизировать работу в JupyterNotebook?

Доброго времени суток.
Прохожу на Stepik курс по machine learning и столкнулся с довольно неприятной проблемой.
Во время подготовки данных конечный датафрейм разросся до небывалых размеров

Есть ли какая-то возможность оптимизировать использование ресурсов компьютера, а то работать невозможно. При запуске ячейки комп просто зависает. Даже для того, чтобы вывести сообщение на скриншоте компьютер довольно сильно залагал.

Комп имеет старенький intel core i3 и 8гб ddr3. Или всё-таки надо менять комплектующие?

Вопрос задан более трёх лет назад
106 просмотров

Комментировать

Подписаться 1 Средний Комментировать

Решения вопроса 2

Комментировать

Пригласить эксперта

Ответы на вопрос 1

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Что не так с моими асинхронными запросами?
- 1 подписчик
- 20 авг.
- 144 просмотра
0

ответов
Python

Простой
Как в питоне генерировать (создавать+заполнять значениями по умолчанию) вложенный словарь так, чтобы вложенные элементы не были копиями друг друга?
- 1 подписчик
- 20 авг.
- 120 просмотров
1

ответ
Аналитика

+1 ещё

Простой
Какие есть эффективные средства анализа больших данных?
- 1 подписчик
- 20 авг.
- 98 просмотров
2

ответа
Python

+1 ещё

Простой
Из-за чего возникает ошибка неверный дескриптор?
- 1 подписчик
- 19 авг.
- 104 просмотра
1

ответ
Python

Простой
Непонимание ошибки yolo8?
- 1 подписчик
- 19 авг.
- 67 просмотров
0

ответов
Python

+1 ещё

Простой
Как грамотно изначально сделать телеграмм бота на Python с помощью aiogram чтобы выдерживал как минимум 10к пользователи и можно было масштабировать?
- 1 подписчик
- 18 авг.
- 232 просмотра
2

ответа
Python

Простой
Как сделать lock для двух асинхронных программ?
- 1 подписчик
- 18 авг.
- 131 просмотр
1

ответ
Python

+1 ещё

Простой
Как создать параметризированный SQL запрос через pyodbc к Mysql?
- нет подписчиков
- 16 авг.
- 146 просмотров
2

ответа
Python

+1 ещё

Простой
Как сделать экранирование символов в Python для SQL запроса?
- 1 подписчик
- 16 авг.
- 143 просмотра
1

ответ
Python

Простой
Что можно ускорить в коде решателя игры крестики нолики?
- 1 подписчик
- 16 авг.
- 233 просмотра
1

ответ
Показать ещё Загружается…

Ведущий Python разработчик

Сбер • Москва

от 200 000 до 250 000 ₽

Python Developer

Nomadic Soft

от 2 800 до 3 200 $

Python разработчик

ITK academy • Казань

от 75 000 ₽

Answer 1 · 2020-06-28 10:43:29

Первым делом посмотрите, как используется память:
df.memory_usage(deep=True)

А дальше оптимизируйте тип каждой колонки:

Для категориальных данных:
df['object'].astype('category')
user_id и days, например, должны быть int type
ну и float64 вам скорее всего тоже не нужен. Достаточно float32 , а иногда и float16

Answer 2 · 2020-06-28 12:38:03

Можно использовать популярный скрипт reduce_mem_usage например отсюда. Он проверяет переменной какого типа достаточно чтобы описать минимальное и максимальное значение в колонке и преобразует тип. Предварительно нужно преобразовать целочисленные колонки в int64. Или загуглите и найдите вариант скрипта, который лучше подойдет, в сети море подобных скриптов с небольшими вариациями, в том числе с обработкой NaN, автоматической проверкой на целочисленность данных и т.п.

Answer 3 · 2020-06-28 12:42:09

Изменил тип одной из колонок с float64 на int через df.step_id.astype(int) и использование памяти уменьшилось с 4gb+ до 3,4gb . Правда комп был абсолютно неработоспособным 15 минут, пока выполнялись операции по изменению типа столбца

Как оптимизировать работу в JupyterNotebook?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт