Ответы пользователя Максим Припадчев по тегу «Машинное обучение»

С помощью чего проанализировать данные и построить свою нейронную сеть для бана пользователей?

Максим Припадчев @Maksim_64

ML Engineer

1. Размечаешь датасет вся информация о действиях пользователя и метка хороший/нехороший

2. Арендуешь сервер с gpu

3. Разворачиваешь Базу в которой будут хранится размеченные данные. (плюс mlflow и airflow требуют коннекта к бд)

4. Разворачиваешь в докере mlflow для трекинга результатов экспериментов.

5. Разворачиваешь в докере airflow для управления тасками (композиции пайплана тренировки определенной архитектуры нейронной сети и оценки результатов)

6. Возможно понадобится векторная база тоже поднимаешь в докере (в зависимости от архитектуры нейронной сети), ты можешь создать эмбеддинги "плохих пользователей" (портреты так сказать) и потом транслировать поведение пользователей которые заходят на сайт в эмбеддингии искать ближайшие (тех кто похож).

7. Здесь можно и нейронки и классификатор с xgboost/catboost попробовать, что не отменяет необходимость трекировать эксперименты.

8. В целом либо классическая архитектура нейрокна получает на вход информацию в определенном представлении и выдает вероятность пользователя быть "нехорошим" либо вариант с созданием эмбеддинга либо и то другое.

Это если реально интересен результат продакшен уровня, а не просто пойграться с нейронками и их параметрами.

Ответ написан 09 сент.

1 комментарий

Целесообразно ли использование двух RTX 5080 для обучения нейросетей?

Максим Припадчев @Maksim_64

ML Engineer

Может быть, такое, что и одна практически в холостую будет работать. Все зависит, от архитектуры нейронной сети и от архитектуры пайплайна.

Ответ написан 24 авг.

3 комментария

Reverse engineering black box ML-модели?

Максим Припадчев @Maksim_64

ML Engineer

1. Нет нельзя.
2. Тоже нельзя.

Без параметров, и детальной архитектуры ML - модели, ловить нечего.

Для первого случая вообще нет исключений, даже если твой black-box это простая линейна регрессия, такой же выхлоп, может давать куда более сложная модель.

Для второго, в качестве исключения на примитивных взаимоотношениях да.

Ответ написан 10 июл.

Комментировать

Как получить бесплатные вычислительные мощности для исследований?

Максим Припадчев @Maksim_64

ML Engineer

1. google colab
2. kaggle.

Ответ написан более года назад

4 комментария

Почему предсказания дерева решений не совпадает с ожиданием?

Максим Припадчев @Maksim_64

ML Engineer

А почему ты решил, что вероятности должны совпадать с твоей реализацией.
predict_proba из scikit-learn не в коем случае не считает вероятности а калибрует их. И он вполне может это делать плохо.

DecisionTreeClassifier в принципе не является детерминистическим, результаты могут отличаться (не обязательно, но могут.

Ответ написан более года назад

1 комментарий

Как задетекировать изменение вероятности успеха в испытаниях Бернулли?

Максим Припадчев @Maksim_64

ML Engineer

Если одним словом то тестирование гипотез:
Например Cumulative Sum (CUSUM) Control Charts.
1. https://www.ncss.com/wp-content/themes/ncss/pdf/Pr...

2. https://www.osti.gov/servlets/purl/1374023 (с vpn)

3. https://en.wikipedia.org/wiki/Sequential_probabili...

4. Чего нибудь байесовое обязательно тоже имеется (погуглить)
5. Огромное семейство Likelihood тестов тоже подойдет, p-это всего лишь параметр (погуглить).

Будешь работать с CUSUM (это моя рекомендация для решения проблемы) там тоже тест статистика для кумулативный суммы и т.д. В конечном счете все сводится к тестированию гипотез.

Ответ написан более года назад

1 комментарий

Не работает модель для игры камень, ножницы, бумага?

Максим Припадчев @Maksim_64

ML Engineer

Вся твоя затея не имеет никакого смысла. KNeighborsClassifier - использует по умолчанию Minkowski metric, что эквивалетно для p=2, обычной Евклидовой дистанции.

Евклидова дистанция не имеет никакого смысла - для категориальных переменных на вход, она мощный инструмент для непрерывных и бесполезный для категориальных. А у тебя именно категории stone, shears и paper которые закодировал ты правда, совершенно не правильно. Тебе тут нужен OneHotEncoder, а так ты как бы говоришь алгоритму что paper (3) чем то отличается по весу в модели чем stone (1) . В целом можно работать с так называемой Hamming distance, которая позволяет KNeighborsClassifier получать категории на вход, но scikit-learn не поддерживает ее из коробки, то есть ее можно добавить как custom metric.

Если ты собираешься чему то научится то:
1. Изучи примеры с объектом pipeline он позволяется осуществлять трансформации на тестовом и тренировачном датасете, внутри пайплайна.

2. Для любого алгоритма для этой задачи необходим OneHotEncoder его прям в пайплайн встроешь. Примеры в доках scikit-learn имеются.

3. По скольку у тебя категориальные переменные на вход, то используй алгоритмы которые базируются на деревьях решений. Все они есть в scikit-learn.

Ответ написан более года назад

2 комментария

Какую нейросеть можно использовать для позиционирования стикера на макете упаковки товара?

Максим Припадчев @Maksim_64

ML Engineer

Безнадежные вводные.
1. Никто не будет делать и предоставлять в открытом доступе нейронные сети столь узкой направленности. Это не имеет ни какого коммерческого смысла.

2. Здесь речь идет о профессиональном софте работы с изображениями который поддерживает скриптинг (для автоматизации процесса).

Какой именно понятия не имею, я в этом не разбираюсь.

Ответ написан более года назад

6 комментариев

Какая есть литература полезная и понятная по Data Science на русском?

Максим Припадчев @Maksim_64

ML Engineer

Data Science довольно широкий термин. Насчет Deep Learning посмотри недавно советовал хорошую книгу Ну а насчет Data Science слишком широко берешь, вышеупомянутый Deep Learning относится к DS, статистические тесты, вероятностное моделирование и т.д. также относится к DS, при этом они требуют углубления в совершенно разные разделы математики.

Ответ написан более года назад

1 комментарий

Как лучше построить архитектуру ML-сервиса?

Максим Припадчев @Maksim_64

ML Engineer

Мало информации, конечно. Я обычно использую dash. Он позволяет создать полноценное веб приложение. Для взаимодействия с пользователем. Есть большое коммунити например я использую компоненты для создания красивого интерфейса и взаимодействия. Насчет одновременного доступа не проблема, каждая сессия пользователя изолирована. В доках есть раздел галерея там большие и крутые проекты выложены на github, то есть можно много чего подсмотреть. Есть и платные компоненты. Все что по ссылкам это бесплатно и для продакшен уровня достаточно.

Возможно если требуется высоконагрузочное приложение то не подойдет. Сами модели то серриализованны и не требуют много ресурсов, я имею ввиду много пользователей большие объемы данных и т.д.

А так в небольшие сроки можно крутое приложение, как по дизайну (фронт) так и по функционалу сделать. И все в рамках одного языка даже фронт.

Ответ написан более года назад

Комментировать

Как оценить напрямую результаты классификации и регрессии?

Максим Припадчев @Maksim_64

ML Engineer

Ну у твоей модели есть метод predict. Что то вроде этого.

df['predictions'] = (
    model
   .predict(X)
   .replace({0:'Метка ассоциируема с 0', 1:'Метка ассоциируемая с 1'})
)

Где, X это входные данные массив фич.

Все самые лучшие примеры лежат в доках scikit-learn это вообще где брать примеры относительно ML, а это классический классификатор распознаватель цифр, твой пример куда проще так как у тебя бинарная классификация.

Ответ написан более года назад

Комментировать

Почему удаление отклоненных значений удаляет так много данных?

Максим Припадчев @Maksim_64

ML Engineer

Ну если у тебя одинаковых значений много, на приграничных значениях (low, upper) возможно ты все удаляешь такие значения.

Если тебе надо отфильтровать фрейм по возрасту (5 персентиль 95 персентиль). Используй что нибудь вроде такого.

low = df['Age'].quantile(0.05)
upper = df['Age'].quantile(0.95)

df[df['Age'].between(low, upper)]

Ну и не забудь про параметры метода quantile, например задать interpolation (интерполяцию). По у молчанию там линейная среднее между двумя значения, можешь например поставить 'nearest' и будет идентичное поведение np.percentile()

Ответ написан более года назад

Комментировать

Как youtube детектирует использование нейросети при создании видеоконтента?

Максим Припадчев @Maksim_64

ML Engineer

Путем другой нейросети, которую обучали различать контент созданный нейросетью или человеком. Как создавали такую сеть? Да также как и другие, создали множество контента средствами AI и дали обычный контент созданный людьми и поставили метки AI not AI, бинарная классификация. И обучили, все.

Ответ написан более двух лет назад

Комментировать

Обучение модели машинного обучения прерывается без ошибки. Что может быть причиной и как это решить?

Максим Припадчев @Maksim_64

ML Engineer

Я тоже читал эту книгу, класс книга. В colab запускал? У тебя там не заглушены сообщения об ошибках или предупреждениях? Ну а так остается только экспериментировать попробуй learning rate ему поменять. Попробуй optimizer поменять. Например увеличил вдвое batch_size, увеличь вдвое и learning rate. Скорее всего схождения не происходит, точнее происходит но слишком медленно, ну и видимо, notebook подвисает или там какая нибудь остановка предусмотрена. Одназначно увеличивай learning rate (линейно с увеличением batch), после того как в colab попробуешь, конечно.

Ответ написан более двух лет назад

3 комментария

Можно ли обучить нейросеть на книгах?

Максим Припадчев @Maksim_64

ML Engineer

Можно при чем во всех случаях. Если пишешь с нуля обучать можно на чем угодно, в том числе закодировать тексты в векторную форму и обучать, но это очень сложная задача, и книг по какой то специфике будет недостаточно, а самое главное это безумно дорого. По этому можно использовать уже предтренирванную языковую модель и тюнить ее для создания текстов в контексте специфических знаний (книг в определенном стиле). Это направление для решения задачи.

Ответ написан более двух лет назад

Комментировать

Можно ли предсказывать несколько признаков одной моделью нейронной сети?

Максим Припадчев @Maksim_64

ML Engineer

Конечно можно. Это называется Multitarget Classification или Mixtarget classification.
Смотри в целом. Тип скрытого слоя + Конфигурация размерностей последнего слоя + подходящая функция активации + подходящая loss функция позволяет конфигурировать практически все что угодно.

Гугли neural networks Multitarget Classification, это не посредственно то что ты ищешь.
Например вот https://towardsdatascience.com/predicting-mixed-ta..., Но лучше гугли сам. И приходи с более конкретными вопросами, может надо будет помочь сконфигурировать слои правильно например или препроцессинг сделать.

Ответ написан более двух лет назад

Комментировать

Как точность нейронной сети зависит от функции активации?

Максим Припадчев @Maksim_64

ML Engineer

Ну "формулировка" вашего вопроса, говорит о том, что надо начать с архитектуры нейронных сетей.

Узел (Node) | Персептрон | Нейрон | Unit - все это одно и тоже, вычислительная единица которая имеет входные данные, функцию активации, выходные данные.

функция активации - определяет каким образом взвешенная сумма (weighted sum) ввода трансформирована в вывод из нейрона.

Слои Layers Input Layer, Hidden Layer, Output Layer.

Нейронные сети используют одну и туже функцию активации внутри слоя. Часто внутри Hidden Layers используется одна функция активации, а в Output Layer другая в зависимости от типа задачи например мы хотим интерпретировать выходной слой как вероятности, что бы они были от 0 до 1 и суммировались в 1. И наша функция активации в Hidden будет RELU, а в Output Layer Sigmoid например. Потому что каким таким чудом RELU нам даст числа которые могут быть интерпретированы как вероятности? Нормализация не решит наших проблем RELU не может быть использована в задачах классификации в OUTPUT LAYER в HIDDEN на здоровье самая популярная.

Я к чему это все, вы в своем вопросе упускаете этот момент, что это обычное дело иметь разные функции активации для Hidden и Output Layer's.

Для Hidden Layer вот эти три функции самые популярные.

1. Rectified Linear Activation (ReLU)
2. Logistic (Sigmoid)
3. Hyperbolic Tangent (Tanh)

Для Output Layer вот эти функции самые популярные.
1. Linear
2. Logistic (Sigmoid)
3. Softmax

Подробнее про Output Layer линейная функция активации, она не для мебели в списке, а это как нейронные сети решают задачи регрессии, то есть например для регрессии например Hidden Layer - RELU + Output Layer - Линейная функция, это абсолютно нормальная конфигурация.

Для классификации там или softmax или logistic в Output Layer. В зависимости от количества классов и т.д.

Про количество нейронов да и количество слоев мы имеем.

Size - количество нейронов в модели
Width - количество нейронов внутри слоя
Depth - Количество слоев в модели.

Сколько нейронов использовать внутри слоя? Ответ мы не знаем, это дизайн ты экспериментируешь, нету на этот счет теории. Сколько слоев? больше одного не считая входного, если объекты нельзя разделить в пространстве прямой линией (Linearly separable). Дальше этого у нас нет теории сколько слоев иметь, эксперимент и еще раз эксперимент. Так обычно нейронные сети имеют 2+ hidden layers.

По этому вопрос сколько слоев и нейронов в каждом на сегодняшний момент имеет ответ - экспериментируйте.

Ответ написан более двух лет назад

2 комментария

Возможно ли обучить ИИ определять данные анализов по фото?

Максим Припадчев @Maksim_64

ML Engineer

Есть библиотека tensorflow. Она имеет api для разных языков, в том числе и для js. Ее вы и нашли tensorflow.js.

Да это возможно. Построить классификатор (распознаватель) OCR (Optical character recognition) в данном случае, который будет распознавать данные из каждой ячейки. Построение таких распознователей, это задача для специалиста. Такого что засунул файл с изображением в нейронную сеть и готово нет. Это целый процесс.

В первую очередь я бы попробовал готовый parser таблиц, для картинок и pdf файлов. На python. Библиотека img2table она базируется на OpenCV, но специализируется на табличных данных. Возможно она решит все ваши вопросы, это будет значительно проще и быстрее.

Ответ написан более двух лет назад

Комментировать

Какой тип нейросетей или машинного обучения выбрать для обучения торгового робота?

Максим Припадчев @Maksim_64

ML Engineer

1. У вас звучит слово находить, машинное обучение (нейронные сети это один из классов алгоритмов машинного обучения, а не что то отдельное) ничего не находит, оно предсказывает. Если цель предсказания непрерывная переменная, например цена акции то это задача регрессии, если цель дискретная например рынок пойдет вверх или рынок пойдет вниз то это задача классификации.

2. Вы говорите данные для обучения поступают в потоковом режиме каждую минуту. Алгоритм учится на тренировочных данных которые собраны ранее, затем подаются данные которые он не видел и на них делается предсказание. Так вот ваши данные которые поступают каждую минуту на них алгоритм не может учится потенциально он может на них предсказывать.

3. Отсюда вывод вы слабо себе представляете то о чем спрашиваете, так или иначе, то о чем вы спрашиваете это работа с временной последовательностью, вот прочтите https://qna.habr.com/q/1295634

Ответ написан более двух лет назад

4 комментария

Какая разница между валидационным и тестовым наборами данных?

Максим Припадчев @Maksim_64

ML Engineer

Смотри в теории машинного обучения есть такая важная тема как Resampling Methods. Это методы случайной выборки из данных которые у тебя есть. Есть два основных это Cross Validation и Bootstrap. Обычно во всяких обучающих материалах используется Cross Validation да и на практике он тоже очень популярен. Что он из себя представляет мы берем например делим случайным образом датасет на 5 частей. Сначала треним на 4 потом тестим на одном что остался, потом на других 4 и тестим на одном что остался и т.д. Так вот каждый такой набор (на котором мы тестим) называется валидационным набором. Например наша метрика MSE мы получим 5 MSE по каждому валидационному набору потом обычно берут среднее по ним.

Теперь про тестовый сет. Есть правило алгоритм во время трениовки, никогда не должен видеть тестовый набор. Есть два подхода первый мы имеем отдельно тестовый набор на котором мы тестим после всех дел, когда все закончили включая тюнинг модели и тренировочный разбиваем как в примере выше и у нас по очереди получаются валидацонные наборы. Есть и второй подход, когда обходятся без тестового набора, потому что его нет, данных мало и тогда только поочередные валидационные наборы используются.

Используют и то и то. Это инженерное решение и ты будешь видеть оба подхода. Ну и на каких то обучающих историях, ты можешь увидеть отсутствие кросс-валидации и только разбиение train_test_split.

В идеале все выглядит вот так. Единственное существует огромное количество разных кросс-валидаций.

Это пример где кросс-валидация используется для тюнинга гиперпараметров, но точно также она будет использоваться и для других целей, каждый синий Fold это и есть валидационный набор.

Ответ написан более двух лет назад

4 комментария

Войдите на сайт