Задать вопрос
@1Tima1
Меня здесь не любят

Как понять нейросеть начинающим?

В общем прочитал статью -https://habr.com/ru/post/312450/
И появился некий интерес.
понимаю,что для углубленных знаний нужна конечно же высшая математика. Но интерес только прибавляется.
Не буду много говорить.
1) Для простой нейросети используют функцию сигмоид. Я как понял,она выдает значения в пределах (-1:1)
Почему именно эти пределы? Если бы было (0:1),то я бы списал это на двоичный код. Но так как там есть -1.
Я долго размышлял,возможно для простоты,или чтобы не забивать память,или чтобы эпохи проходили быстрее. Ну так и не пришел к верной мысли. Помогите!
2) почему среднеквадратичная ошибка?
допустим, нужное число-1 у нас получилось 0,36
если тупо вычесть,то получится 0,64
а по mse 0,4096
Ответы разные, поэтому я предполагаю,что там все глубже чем кажется.
Почему процент ошибки это 0,40, а не 0,64- непросто так же решили возвести в квадрат.
оставлю эту тему для объяснения вам(надеюсь)
3) более организационный вопрос. По сути после каждой эпохи должны меняться только w1, w2, ..... wn(вес)??
У них же есть значения. Так вот после каждой эпохи меняется полностью значение или веса меняются местами, допустим значение w2 перешло в w1, а из w2 в w3. НУ мне просто так кажется логичным)).
4) к чему вообще сводится нейросеть.
есть обычная таблица искл. ИЛИ. 2 переменные есть,нужно найти 3
на 1 входе-1, на 2 входе 0.
Получили ответ 0,33,ошибка 45% (из задачи по ссылке)
и что? 1) ответ может быть и отрицательный, это и не 0 и не 1.
2) к чему мы стремимся? к уменьшению процента ошибки, или к приближению выходного числа к правильному ответу?
чтобы получить 1-как правильный ответ
O1input = 0.61*1.5+0.69*-2.3=-0.672
O1output = sigmoid(-0.672)=0.33
чтобы получить в out 1 нужно чтобы x стремился к бесконечности
и даже тут никогда не будет 1,разумнее говорить о пределе функции?
чтобы была бесконечность, веса должны быть тоже большими,.
А как они будут большими,если им зачастую дают числа меньше -1
И чтобы получить правильный ответ нужно чтобы все 5 веса были большими. Ну это так не теории. Если один вес будет достаточно большим чтобы скомпенсировать второй вес то вторым можно и пренебречь. Я просто не очень понимаю структуру нейросети, каким способом она с каждой эпохой приближается к ответу. и даже если так, мы же все-равно используем функцию random, а значит никакие данные не сохраняются в памяти и не выбирается нейрон с самым близким ответом(отбор) Отбора же на том примере нет,а на чем тогда базируется нейросеть?
простите)
  • Вопрос задан
  • 100 просмотров
Подписаться 1 Простой Комментировать
Решения вопроса 1
@dmshar
Во-первых, вы хотите, что-бы тут вам прочитали мини-курс по нейронным сетям?
Во-вторых - если уж лень самому разбираться (хотя как может быть лень, если есть интерес? скорее всего тогда это не интерес а просто любопытство, ну да ладно ) разбейте свой вопрос на отдельные подвопросы и задавайте их по одному. И будет вам бесплатная консультация по мини курсу.
По ходу отвечу на первый вопрос:
1) Для простой нейросети используют функцию сигмоид. Я как понял,она выдает значения в пределах (-1:1)
Во-первых, функций активаций может быть великое множество: ступенчатая, сигмоидная, экспоненциальная, линейный выпрямитель, арктангенс и пр, пр.пр.
Выбор конкретной функции диктуется конкретной задачей и опытом аналитика. Равно как и пределы сигмоидной ф-ции, которые могут быть как [-1,1], так и [0,1] (кстати, вообще-то говоря именно последняя - это классика). К двоичному коду это ни имеет никакого отношения - к дихатомии функция с пределами [-1,1] приводится так-же просто, как и [0,1]. Про "забивать память" - это тоже не из этой оперы. На скорость обучения действительно влияет но не столько вами обозначенные пределы, как то, они ограниченные (в том числе и ваши) с одной стороны или неограниченные - с другой. Кстати, если область значений бесконечна, обучение, как правило, более эффективно, и требуется меньший темп обучения. А если ограничена, то методы обучения на основе градиента оказываются более стабильны. Все эти факторы (наряду с огромным множеством других) и надо учитывать при построении сети.
Ответ написан
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы