Как настроить ML-модель?

Question

Kind_Man @Kind_Man

Как настроить ML-модель?

Всем привет. Я новичок в машинном обучении, и передо мной стоит задача настроить модель Рандомного Леса. Я решил, что лучшим (так ли это?) способом поиска лучших настроек для модели будет перебор всех возможных настроек модели, и затем выбор из них лучших. Для этого я загнал все в циклы и дал машинному обучению возможность посмотреть все варианты.

Проблема в том, что от такой нагрузки не выдержала память ПК (осталось 11гб и они за 3 часа кончились). Теперь либо надо освобождать для этой задачи больше памяти, либо, зачем я пришел к вам: 1) пересмотреть свой алгоритм? 2) попросить вас подсказать бесплатный сайт с компилятором Питона, куда я могу закинуть свой логфайл, из которого строится датафрейм, и на котором все вычисления и будут проведены.

Так же оставлю свой код:

random_states=[0,42,1000]
min_samples_leafs = np.linspace(0.1, 0.5, 5, endpoint=True)
min_samples_splits = np.linspace(0.1, 1.0, 10, endpoint=True)
n_estimators = [1, 2, 4, 8, 16, 32, 64, 100, 200]
max_depths = np.linspace(1, 32, 32, endpoint=True)
train_results = []
test_results = []
temp_results = []
attempts = [1,2,3,4,5,6,7,8,9,10]
for estimator in n_estimators:
    for max_depth in max_depths:
        for min_samples_split in min_samples_splits:
            for min_samples_leaf in min_samples_leafs:
                for random_state in random_states:
                    for attempt in attempts:
                       X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.2,random_state=random_state)
                       rf = RandomForestClassifier(n_estimators=estimator, max_depth=int(max_depth),n_jobs=-1, min_samples_split=min_samples_split, min_samples_leaf=min_samples_leaf)
                       rf.fit(X_train, y_train)
                       train_pred = rf.predict(X_train)
                       false_positive_rate, true_positive_rate, thresholds = roc_curve(y_train, train_pred)
                       roc_auc = auc(false_positive_rate, true_positive_rate)
                       temp_results.append({"estimator":estimator, "max_depth":max_depth, "sample_split":min_samples_split,"sample_leaf":min_samples_leaf,"random_state":random_state,"attempt":attempt,"result":roc_auc})
                       if attempt==attempts[-1]:
                           results = 0
                           for elem in temp_results:
                               results+=float(elem["result"])
                           results=results/10
                           test_results.append({"estimator":estimator, "max_depth":max_depth, "sample_split":min_samples_split,"sample_leaf":min_samples_leaf,"random_state":random_state,"attempt":attempt,"final_result":results})




result= []
max = 0
goat = 0
for dict in test_results:
    if dict["final_result"]>max:
        max = dict["final_result"]
        goat = dict
        result.append(dict)
print(datetime.now().strftime("%H:%M:%S"), "END ML")
print(result)
print(goat)

Вопрос задан более двух лет назад
273 просмотра

2 комментария

Подписаться 4 Простой 2 комментария

Даниил Рыжов @Bl4ckm45k

Не знаю что за модель и либы используются, посмотрите в сторону optuna и rl-zoo

Написано более двух лет назад
kamenyuga @kamenyuga
Вполне жизнеспособный подход. Я именно так на работе своей делаю. У тебя, правда, в коде есть лишние действия - каждый раз сплит при фиксированном рандоме, рок-кривая, хотя можно сразу аук считать. Я в такой код, в самый внутренний цикл обычно добавляю
del model gc.collect()

Ну, и результаты лучше сохранять в файл или бд, чтоб они в памяти не копились.
Написано более двух лет назад

Решения вопроса 2

Комментировать

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Как создать параметризированный SQL запрос через pyodbc к Mysql?
- нет подписчиков
- 14 часов назад
- 74 просмотра
2

ответа
Python

+1 ещё

Простой
Как сделать экранирование символов в Python для SQL запроса?
- 1 подписчик
- 17 часов назад
- 89 просмотров
1

ответ
Python

Простой
Что можно ускорить в коде решателя игры крестики нолики?
- 1 подписчик
- вчера
- 136 просмотров
0

ответов
Python

Простой
Как подключиться по SMTP к Reg ru?
- 1 подписчик
- вчера
- 122 просмотра
0

ответов
Python

+1 ещё

Простой
Как имитировать нажатие пкм в неактивное окно DirectX?
- 1 подписчик
- вчера
- 38 просмотров
1

ответ
Python

+1 ещё

Простой
Как настроить группы при создании нового пользователя в битриксе?
- 1 подписчик
- 14 авг.
- 110 просмотров
0

ответов
Python

+1 ещё

Простой
При добавления строчки @commands.has_permissions в терминале при запуске выдает ошибку?
- 1 подписчик
- 14 авг.
- 86 просмотров
0

ответов
Python

+1 ещё

Простой
Можно ли отключить SSL сертификат при парсинге?
- 1 подписчик
- 13 авг.
- 127 просмотров
0

ответов
Python

Простой
Не работает код, что делать?
- 2 подписчика
- 10 авг.
- 2126 просмотров
4

ответа
Python

Простой
Почему консольная программа перестает работать спустя время?
- 3 подписчика
- 08 авг.
- 2295 просмотров
3

ответа
Показать ещё Загружается…

Ведущий Python разработчик

Сбер • Москва

от 200 000 до 250 000 ₽

Python Developer

Nomadic Soft

от 2 800 до 3 200 $

Python-разработчик (Senior)

BCraft

от 3 500 до 4 500 $

Не знаю что за модель и либы используются, посмотрите в сторону optuna и rl-zoo
Вполне жизнеспособный подход. Я именно так на работе своей делаю. У тебя, правда, в коде есть лишние действия - каждый раз сплит при фиксированном рандоме, рок-кривая, хотя можно сразу аук считать. Я в такой код, в самый внутренний цикл обычно добавляю
del model gc.collect()

Ну, и результаты лучше сохранять в файл или бд, чтоб они в памяти не копились.

Answer 1 · 2023-02-08 14:01:26

То что вы пытаетесь сделать это называется тюнинг гиперпараметров. Так не делается конечно. в sklearn есть решения из коробки. При чем это целый этап в машинном обучении по этому целый раздел документации этому посвящен. https://scikit-learn.org/stable/modules/grid_searc...
Там не только представлены классы но и различные методики которые используются. Изучайте там примеры есть, так что решите свой вопрос.

Answer 2 · 2023-02-08 16:22:10

автор выше вам ответил очень объемно и правильно. Дополнительно, не забывайте про такую библиотеку (hyperopt): https://habr.com/en/post/542624/
Она работает лучше, чем встроенная в sklearn (но для базового понимания надо начать с нее)

Как настроить ML-модель?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт