Какой алгоритм лучше подходит для определения прибыльной сделки на бирже?

Question

Kind_Man @Kind_Man

Машинное обучение

Какой алгоритм лучше подходит для определения прибыльной сделки на бирже?

Есть список сделок с различной информацией о каждой: цена, объемы и тд. У каждой сделки есть итоговый статус - True/False - и стоит задача определять по всей информации, каким окажется итоговый статус - будет ли сделка прибыльной.

Для этого я сначала применял алгоритм Random Forest. Но как пришло время тюнинга - пришли большие сомнения. Я использовал GridSearchCV, TPE и Anneal из HyperOpt, bayessearch и Randomized Search, и каждый в отдельности давал около 0,7 Accuracy. Дальше почитал, что необязательно использовать только Random Forest, можно добавить еще алгоритм, а потом их соединить. Так я добавил GradientBoostingClassifier, а затем связал их VotingClassifier'ом.

Но результаты тоже не шибко хорошие, и как тюнить непонятно. Поэтому вопрос к специалистам: какой алгоритм лучше использовать для моей задачи, как лучше тюнить и какие показатели Accuracy считаются хорошими?

Вопрос задан более двух лет назад
132 просмотра

Комментировать

Подписаться 1 Простой Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Инженер машинного обучения

4 месяца

Далее
Skillbox

Профессия Machine Learning Engineer

12 месяцев

Далее
Нетология

Машинное обучение

10 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 4

9 комментариев

Kind_Man @Kind_Man Автор вопроса

Спасибо за развернутый ответ. А как вы считаете, есть ли смысл применить несколько алгоритмов, а потом объединить их ответы через Голосование?

Написано более двух лет назад
Максим Припадчев @Maksim_64

Kind_Man, Я подразумеваю, что под применением нескольких алгоритмов, вы имеете ввиду построение нескольких моделей и сравнения их перфоманса. Если так то обычно в финансовом мире у вас не одна модель на все случаи жизни, а несколько приготовленных для разных сценариев, например главным фактором ценообразования являются новости, от новостей рынок может скакнуть на 20-30 процентов что вверх что вниз, ну какие тут деревья или бустинги они даже правильно натренированные будут плохо себя вести в следствии оверфитинга , что то по скромнее нужно . Иной сценарий рынок будет расти, в следующий год новостей которые вызывают скачки не будет (или вероятность из ничтожно мала), ну при таком сценарии можно и оверфитить. Вообще подводя итог, хотите развиваться в данном направлении. Х (данные на вход) - вот это вот самое главное, что бы нужные трансформации были сделаны, нужные данные добыты и ИСПОЛЬЗОВАНЫ В НУЖНЫЙ МОМЕНТ времени. Я могу ошибаться конечно, но у меня есть ощущение что вы сильно переоцениваете возможности алгоритмов и недооцениваете ПОДГОТОВКУ правильных данными. И мыслите сценариями vмодель НА ВСЕ СЛУЧАИ жизни это дело гиблое.

Написано более двух лет назад
Kind_Man @Kind_Man Автор вопроса

Я имею в виду использовать RandomForest, KNeighborsClassifier, DecisionTreeClassifier и SVC отдельно, оттюнив каждую, а потом совместив их все через VotingClassifier

Написано более двух лет назад
Максим Припадчев @Maksim_64

Kind_Man, Я бы не заморачивался. Вы имеете коллекцию классификаторов, он берет либо среднюю вероятность среди классификаторов, либо лучший предиктор. soft vote vs majority vote. Это все такие детали. Нужно тонну работы проделать с данными что бы все было правильно, составить несколько сценариев основываясь на источниках вариативности. И когда вот это все сделано. Ну можно попробовать, никакой фундаментальности в нем нет, или золотого правила используй VotingClassifier тоже нет. Может в самом конце имеет смысл а может и нет. Я бы работал с вводными данными (70 процентов времени) и только 30 с алгоритмами. И смотрел как и что работает. А от таких частностей я бы вообще не ждал каких то результатов.

Написано более двух лет назад
Kind_Man @Kind_Man Автор вопроса

Понял, спасибо

Написано более двух лет назад
Kind_Man @Kind_Man Автор вопроса
Максим Припадчев, хочу попросить совета, т.к. новичок в теме, и не до конца понимаю, что происходит.

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) list = [n for n in range(1, 30)] list2 = [n for n in range(1, 30)] grid_params = { 'n_neighbors' : list2, 'weights' : ['uniform','distance'], 'metric' : ['minkowski','euclidean','manhattan'], 'algorithm':['auto', 'ball_tree', 'kd_tree', 'brute'], 'leaf_size':list} gs = GridSearchCV(KNeighborsClassifier(), grid_params, verbose = 1, cv=3, n_jobs = -1) g_res = gs.fit(X_train, y_train) print(g_res.best_score_, g_res.best_params_) knn = KNeighborsClassifier(**gs.best_params_) knn.fit(X_train, y_train) y_hat = knn.predict(X_train) y_knn = knn.predict(X_test) print('Training set accuracy: ', metrics.accuracy_score(y_train, y_hat)) print('Test set accuracy: ',metrics.accuracy_score(y_test, y_knn)) scores = cross_val_score(knn, X, y, cv =5) print('Model accuracy: ',np.mean(scores))

Использую KNN и тюню её поиском по сетке. Результаты получаются такими:

Training set accuracy: 1.0
Test set accuracy: 0.72
Model accuracy: 0.512

Что напрягает: почему на трейнинге 1? Оверфиттинг? Однако, как я понял, главное тут - это тест сет точность, и она хорошая. Проблема случилась, когда я в свой датасет добавил ещё одну запись. После этого цифры точности упали до 0,5 везде.

Где здесь может быть что-то не так?
Написано более двух лет назад
Максим Припадчев @Maksim_64
Kind_Man, Смотрите, да оверфиттинг, что значит оверфиттинг - модель на все сто следует тренировочным данным, то есть найдена детерминистическая функция которая вход X сопоставляет с целью y. Как это понимать, нарисуйте на листе бумаге систему координат и нарисуйте несколько точек соедините их линий функция вашей линии это модель которой предстоит попросту экстраполировать будущие X которые она некогда не видела. Это безнадежно, Это упрощенный пример конечно, в вашем случае речь идет функции где графики мы рисовать не можем в силу того что нарисовать мы можем только три переменных, но принцип как понимать от этого не меняется.

Цель же машинного обучения найти модель которая обобщит данные найдет в них некий паттерн, а не просто на все сто будет повторять тренировочный сет данных.

Как исправить по кусочку кода я не подскажу и не ждите что кто то подскажет, это невозможно. Нужно видеть и работать с данными визуализировать их, смотреть метрики и много чего другого и только потом думать какой алгоритм и как применять.

Я вам уже говорил, но вы не хотите слышать, сначала нужно понимать данные и привести их правильному виду потом алгоритмы. Вы сфокусировались на тюнинге и ждете результатов.

И наконец подучите python
list = [n for n in range(1, 31)] list2 = [n for n in range(1, 31)]
вот это говорит о том что с python вы едва знакомы. Как результат ищите кусочки кода копируете их пытаетесь так учится. Вы попросту теряете время. Учитесь нормально, не забегая вперед. Иначе не будет прогресса а одни иллюзии.
Написано более двух лет назад
Kind_Man @Kind_Man Автор вопроса

Максим Припадчев, что вы имеете под приведением данных к нормальному виду? У меня есть множество разных показателей, все они числа. Как и к какому виду они приводятся?

Написано более двух лет назад
Максим Припадчев @Maksim_64

Kind_Man, Например, большинство алгоритмов будут работать лучше если данные нормализованы, ваш X (только числовая ее часть) я сейчас о нем говорю. Что значит нормализовать. Каждая ваша переменная имеет mean=0 и std=1. Как этого добиться (x - x.mean()) / x.std(), для каждой переменной, можете использовать StandardScaler из sklearn. Все переменные которые относятся к разраду категории закодированы правильно. Например KNeighborsClassifier очень зависим от того нормализованы ли данные или нет. Все что я сейчас рассказал это мизер, Основная работа data science это приведение данных к виду на котором алгоритм будет работать хорошо, когда это сделано тогда и надо тюнить. Тюнить значит подкрутить настройки, на каких он будет работать оптимально это потом. Подготовка данных это огромная и основная тема. Я вам тут не изложу всего.

Написано более двух лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Машинное обучение

+1 ещё

Средний
Есть ли готовая архитектура модели, которая принимает на вход подобный формат данных?
- 3 подписчика
- 27 сент.
- 165 просмотров
0

ответов
Машинное обучение

+1 ещё

Простой
Поиск по образцу. Как сделать быстрый поиск вхождения картинок-символов на большом чертеже?
- 2 подписчика
- 19 сент.
- 194 просмотра
1

ответ
Нейронные сети

+1 ещё

Простой
С помощью чего проанализировать данные и построить свою нейронную сеть для бана пользователей?
- 1 подписчик
- 09 сент.
- 188 просмотров
2

ответа
Нейронные сети

+1 ещё

Средний
Как повысить macro f1 в задаче классификации изображения?
- 1 подписчик
- 03 сент.
- 61 просмотр
0

ответов
Веб-разработка

+1 ещё

Простой
Какие есть ML-инструменты, которые по структуре или изображению лендинга предсказывают зоны внимания пользователей?
- 1 подписчик
- 28 авг.
- 399 просмотров
3

ответа
Видеокарты

+1 ещё

Средний
Целесообразно ли использование двух RTX 5080 для обучения нейросетей?
- 1 подписчик
- 24 авг.
- 412 просмотров
1

ответ
IT-образование

+2 ещё

Средний
LLM для школьных экспериментов. Существует ли что то подходящее?
- 1 подписчик
- 03 авг.
- 471 просмотр
3

ответа
Нейронные сети

+1 ещё

Простой
Как вычисляется MSE в VAE?
- 1 подписчик
- 24 июл.
- 65 просмотров
0

ответов
Машинное обучение

+1 ещё

Простой
Reverse engineering black box ML-модели?
- 1 подписчик
- 10 июл.
- 148 просмотров
3

ответа
Python

+3 ещё

Простой
Как повысить точность классификации по табличным документам?
- 2 подписчика
- 19 мая
- 308 просмотров
1

ответ
Показать ещё Загружается…

DevOps инженер

Data World • Москва

До 200 000 ₽

Инженер производительности систем

Vital Partners

До 304 000 ₽

Ассистент руководителя кадрового агентства SmartyHR

SmartyHR

от 60 000 ₽

Answer 1 · 2023-02-14 17:32:26

А вы уверенны что тюните правильно, при тюнинге вы не должны сравнивать с тестовым сетом, это приведет к классической ошибке утечке тестовых данных. Нужно создавать либо либо третий сет валидации либо использвать кросс-валидацию но с осторожностью (там можно то же набедакурить и получить утечку и на практике никаких 0.7 вы не увидите).

Если у вас есть алгоритм который например в течении следующих торговых 252 дней, покажет точность 0.7 то вы богаты. 0.7 вероятность успеха при экспонентом росте хватит с головой. (Помните что речь о последовательности) а не а классической классификации или регрессии. Возможно вы учите модель на данных которых у вас не будет в момент прогноза, (классическая ошибка). То есть все ваши данные должны быть: это различные индикаторы (оконные функции, которые с агрегировали статистику за определенное время), например какой нибудь скользящее среднее с окном 10, скользящее среднее с окном 21 и.т.д. Ваши вход X это набор индикаторов, статистик которые будут вам доступны в момент предсказания.

Там временная последовательность, кросс-валидация делается специальным классом для этого в документации sklearn есть про это в разделе кросс-валидации.

Ну и наконец про алгоритм лучший алгоритм не существует. Даже если вам удастся создать модель которая зацепит текущее положение дел, и будет КАКОЕ ТО время хорошо работать потом она перестанет никакого универсального хорошего алгоритма не существует. Потому что на ценообразование в разное время в мире влияют разные факторы. В одно время это факторы настроения а все фундаментальные работают слабо, в другое в точности наоборот и т.д. Не ищете лучший алгоритм.

Answer 2 · 2023-02-14 17:48:03

и каждый в отдельности давал около 0,7 Accuracy.

Возможно это и есть предел прогнозирования для такой системы. Остановись на этом. Дальнейшая кастомизация
алгоритмов просто может привести к переобучению модели. Это значит что она будет допустим лучше на твоих тестовых данных но на каких-то новых станет в два раза хуже.

Answer 3 · 2023-02-17 15:18:56

как тюнить непонятно. Поэтому вопрос к специалистам: какой алгоритм лучше использовать для моей задачи, как лучше тюнить и какие показатели Accuracy считаются хорошими?
- Существует три основных видов ансамблирования алгоритмов ML (а именно так называется то, что вы хотите сделать) - стекинг, бэггинг, бустинг. И масса производных от них. (Правда - если вы хотите более тонко настраивать ансамбль, то в ход идут другие, более сложные методы, которые учитывают статистические характеристики, включая доверительные интервалы, ROC оценки конкретных алгоритмов и пытаются работать с ними - но это уже далеко от старта).

Про эти простейшие способы можно прочитать и в серьезных работах, коих немало, и в статьях для начинающих, например:
https://habr.com/ru/post/561732/
https://alexanderdyakonov.wordpress.com/2019/04/19...
arbir.ru/articles/a_4053.htm
а есть книги различной степени серьезности на эту тему:
Kunapuli Ensemble Methods for Machine Learning
Kyriakides Hands-On Ensemble Learning with Python:...
Semi Ensemble Methods in Data Mining: Improving Ac...
И вообще, сегодня уже ни одна книга по МL не выходит без раздела про ансамблирование. Ну вот просто из последнего, 2022 год издания, что под рукой
Pajankar Hands-on Machine Learning with Python: Im...
и в ней глава "CHAPTER 10 Ensemble Learning Methods"

По сути, сегодня все соревнующиеся на Kaggle и в M4 Competition - именно этим (построением ансамблей алгоритмов) занимаются, понимая, что объединение нескольких алгоритмов может дать несколько процентов выигрыша. Можете посмотреть несколько примеров где объединяют казалось бы необъединимые алгоритмы (например - статистическую оценку параметров с нейросетью). Но вот жестких подсказок тут никто не даст - для каждой задачи это эксперименты + знания, опыт и интуиция исследователя.

какие показатели Accuracy считаются хорошими -
а вот тут все намного проще. Нет понятия "хороший" или "плохой" показатель. Это не школа, где вам надо найти правильный ответ. ML вообще, и ансамблирование еще в большей мере - это процесс творческий. Какое значение получите - вот то и есть (для вас) хороший результат. Хотите больше - экспериментируйте дальше.
Ну и замечание вдогонку. Accuracy - это не единственный показатель. Не даром напридумывали еще как минимум с полдесятка характеристик эффективности моделей ML. И часто надо искать компромисс, поскольку одни алгоритмы оказываются лучше по одним показателям, а некоторые - по другим. И вам надо найти и как-то оценить, какие именно характеристики работают в вашем случае. Так что поле для деятельности открывается достаточно широкое.

Answer 4 · 2023-03-11 08:50:24

Спасибо за такой ответ. А можете ещё дать конкретные советы по моей работе?

В данный момент я моделирую работу робота на биржах и записываю логи сделок, как если бы они случались в реальности с разной информацией о валютах.

Статистика сделок такая:

253 - прибыльные
193 - нет
то есть 56% - TRUE
44% - FALSE

Когда запускаю разные модели алгоритмов (KNN, RF, DL, AdaBoost и тд), которые в процессе тюню ГридПоиском, всегда результат максимум 59%. Т.к. я новичок, не знаю, куда двинуться, чтобы достичь лучших результатов (собираю итог не только по Accuracy, но и f1 recall, precision и тд, что выдает базовая команда отчета, они все все равно колеблются в диапазоне 55-60%).

Мысли пока такие.
1) Продолжать собирать данные. Больше данных - больше случаев - лучше обучение.
2) А дальше что?

Есть мысль, что не все колонки данных нужно на обучение подавать. Какие-то могут наоборот смутить алгоритм и запутать. Но как их определить? Не может быть так, что какому-то алгоритму какие-то колонки будут нужны, а какому-то нет? Тогда может начать с выбора алгоритма? Но опять, как подобрать, какой лучший?

Какой алгоритм лучше подходит для определения прибыльной сделки на бирже?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт