Как точность нейронной сети зависит от функции активации?

Question

Евгений Лернер @ehevnlem

Программирую с 1975, в интернете с 1993.

Как точность нейронной сети зависит от функции активации?

Здравствуйте! Например для машинного зрения. Быстрее всего сеть будет работать со ступенчатой функцией активации. Но насколько хуже? Можно ли снижение точности компенсировать увеличением количества нейронов?

Вопрос задан более двух лет назад
218 просмотров

Комментировать

Подписаться 1 Средний Комментировать

Пригласить эксперта

Ответы на вопрос 4

Комментировать

3 комментария

Евгений Лернер @ehevnlem Автор вопроса

Я конечно попробую. Но наверняка
Это уже делали, скорее всего буржуи.надеюсь, хотя и не сильно получить информацию

Написано более двух лет назад
mayton2019 @mayton2019

Смотри. Нейросети - это очень практическая наука. Тоесть в ней очень мало теорем и аксиом.

И очень много практики и наблюдения. Это как в химии например. Делаешь эксперимент.
Обучаешь на сигмоидах. Запускаешь в эскплуатацию готовую модель но заменяешь на ступенчатые
функции активации.

Качество модели упадет. Скорее всего.... Я так думаю....

Делай сам короче. Никакие буржуи за тебя это не сделают. А даже если сделают толку тебе от их результатов
не будет. Ведь у них были свои требования к выходу и свои калибровки точности. А у тебя будут своих.

Поэтому не надо кивать ни на каких буржуев.

Написано более двух лет назад
Евгений Лернер @ehevnlem Автор вопроса

Прежде чем делать самому я изучаю что сделали другие.это всегда полезно и даёт информацию к размышлению. Но вроде здесь мне не помогут,

Написано более двух лет назад

1 комментарий

2 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Анимация

+1 ещё

Простой
Существет ли AI делающая промежуточную анимацию между 2 кадрами?
- 1 подписчик
- 09 авг.
- 86 просмотров
1

ответ
Нейронные сети

Простой
Существуют ли нейросети делающие видео с персонажем по эскизу фото?
- 1 подписчик
- 08 авг.
- 81 просмотр
1

ответ
Видео

+1 ещё

Простой
Есть ли видео-нейросеть, дорисовывающая объекты к реальному видео?
- 1 подписчик
- 03 авг.
- 161 просмотр
1

ответ
IT-образование

+2 ещё

Средний
LLM для школьных экспериментов. Существует ли что то подходящее?
- 1 подписчик
- 03 авг.
- 286 просмотров
3

ответа
Нейронные сети

+2 ещё

Простой
Можно ли закешировать результат загрузки gguf модели в Forge?
- 1 подписчик
- 27 июл.
- 42 просмотра
1

ответ
Нейронные сети

+1 ещё

Простой
Как вычисляется MSE в VAE?
- 1 подписчик
- 24 июл.
- 56 просмотров
0

ответов
Нейронные сети

Простой
Как подключить Context7 к claude.ai?
- 1 подписчик
- 23 июл.
- 65 просмотров
0

ответов
Нейронные сети

+2 ещё

Средний
Как правильно подобрать модель, VAE и T5 чтобы запустить Flux1 gguf версию?
- 1 подписчик
- 16 июл.
- 63 просмотра
2

ответа
Нейронные сети

+2 ещё

Простой
Что мешает создать сугубо инженерную генеративную нейросеть?
- 1 подписчик
- 14 июл.
- 227 просмотров
3

ответа
Нейронные сети

+2 ещё

Простой
Требуется ли junior deep learning инженеру знание математики?
- 1 подписчик
- 13 июл.
- 174 просмотра
2

ответа
Показать ещё Загружается…

Middle/Senior Data Scientist (команда ИИ и аналитика)

Сбер • Москва

от 200 000 до 350 000 ₽

Стажер Моушен дизайнер для контента в соцсетях музыкального стартапа

Vocaberry

от 15 000 до 15 000 ₽

JS Fullstack Инженер (Node.js + Vue.js)

SteadyControl • Воронеж

от 100 000 до 250 000 ₽

Answer 1 · 2023-08-12 23:12:01

Zerg89 @Zerg89

Если это приведёт к достаточному уровню реакции и времени исполнения то да

Ответ написан более двух лет назад

Комментировать

Answer 2 · 2023-08-12 23:21:10

В процессе обучения сигмоид очень важен т.к. он обеспечивает сходимость алгоритма. Направление грубо говоря.

Насчет рабочего режима модели я не скажу. Но вроде-как нейросети очень толерантны к элементной базе. В 20м веке считалось что нейроны вообще нужно строить не на софте а в виде транзисторной логики. Или на биологических элементах (уж каких я не знаю).

Практически если у тебя уже есть софт и модель то замена одно функции на другую в коде это дело одной
минуты. Лямбду заменить. Или еще один класс унаследовать.

Answer 3 · 2023-08-13 05:31:53

Ступенчатая функция (sign) сейчас не применяется из-за невозможности реализации градиентного спуска во время обучения. Самая быстрая это Relu (кусочно-линейная).
Точность достигается за счёт архитектурных решений (количество слоёв, прямой проброс (residual layer), ячейки памяти (LSTM, GRU), свёрточные фильтры, трансформеры).

Answer 4 · 2023-08-13 10:29:41

Ну "формулировка" вашего вопроса, говорит о том, что надо начать с архитектуры нейронных сетей.

Узел (Node) | Персептрон | Нейрон | Unit - все это одно и тоже, вычислительная единица которая имеет входные данные, функцию активации, выходные данные.

функция активации - определяет каким образом взвешенная сумма (weighted sum) ввода трансформирована в вывод из нейрона.

Слои Layers Input Layer, Hidden Layer, Output Layer.

Нейронные сети используют одну и туже функцию активации внутри слоя. Часто внутри Hidden Layers используется одна функция активации, а в Output Layer другая в зависимости от типа задачи например мы хотим интерпретировать выходной слой как вероятности, что бы они были от 0 до 1 и суммировались в 1. И наша функция активации в Hidden будет RELU, а в Output Layer Sigmoid например. Потому что каким таким чудом RELU нам даст числа которые могут быть интерпретированы как вероятности? Нормализация не решит наших проблем RELU не может быть использована в задачах классификации в OUTPUT LAYER в HIDDEN на здоровье самая популярная.

Я к чему это все, вы в своем вопросе упускаете этот момент, что это обычное дело иметь разные функции активации для Hidden и Output Layer's.

Для Hidden Layer вот эти три функции самые популярные.

1. Rectified Linear Activation (ReLU)
2. Logistic (Sigmoid)
3. Hyperbolic Tangent (Tanh)

Для Output Layer вот эти функции самые популярные.
1. Linear
2. Logistic (Sigmoid)
3. Softmax

Подробнее про Output Layer линейная функция активации, она не для мебели в списке, а это как нейронные сети решают задачи регрессии, то есть например для регрессии например Hidden Layer - RELU + Output Layer - Линейная функция, это абсолютно нормальная конфигурация.

Для классификации там или softmax или logistic в Output Layer. В зависимости от количества классов и т.д.

Про количество нейронов да и количество слоев мы имеем.

Size - количество нейронов в модели
Width - количество нейронов внутри слоя
Depth - Количество слоев в модели.

Сколько нейронов использовать внутри слоя? Ответ мы не знаем, это дизайн ты экспериментируешь, нету на этот счет теории. Сколько слоев? больше одного не считая входного, если объекты нельзя разделить в пространстве прямой линией (Linearly separable). Дальше этого у нас нет теории сколько слоев иметь, эксперимент и еще раз эксперимент. Так обычно нейронные сети имеют 2+ hidden layers.

По этому вопрос сколько слоев и нейронов в каждом на сегодняшний момент имеет ответ - экспериментируйте.

Как точность нейронной сети зависит от функции активации?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт