Зачем несколько слоев в tensorflow и как они работают?

Question

AlexBoss @AlexBoss

Зачем несколько слоев в tensorflow и как они работают?

Добрый день. При решении одной и той же задачи встречаю такие вариации:
1) model.add(keras.layers.Dense(800, activation='relu'))

2)model.add(keras.layers.Dense(500, activation='relu'))
model.add(keras.layers.Dense(150, activation='relu'))

Какой в данном случае смысл второго слоя, и, если не сложно, просьба объяснить на пальцах как он работает.
Я понимаю, что нейроны первого слоя связаны каждый с каждым второго слоя и что это повышает качество сети, но почему не проще в данном случае сделать один масштабный слой?

Вопрос задан более трёх лет назад
721 просмотр

Комментировать

Подписаться 1 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Skillbox

Python-разработчик

10 месяцев

Далее
ProductStar

Профессия: Python-разработчик

8 месяцев

Далее

Решения вопроса 1

5 комментариев

AlexBoss @AlexBoss Автор вопроса

Если не затруднит, что посоветуешь почитать по этому поводу? Хочу понять, но нигде не объясняют это. Просто пишут: добавим два слоя с полносвязными нейронами и все..

Написано более трёх лет назад
origami1024 @origami1024

Могу только посоветовать оригинальные статьи Хинтона, Лекуна, Бенжио.
На вопрос почему много слоев работает лучше чем один нет теоретического обоснования.
Исследователи в основном пробуют что-то новое в каждой статье.
Ты можешь сделать одинаковый функционал с 1м слоем и с 1000.
Количество слоев для определенной проблемы можно обосновать тем, что в других подобных проектах сейчас популярно столько слоев и ты таким образом будешь полагаться на их опыт и развивать его.

Написано более трёх лет назад
AlexBoss @AlexBoss Автор вопроса

origami1024, забавно, спасибо) То есть имеет смысл тестить разное количество dense слоев и смотреть на результат, я правильно понял?

Написано более трёх лет назад
origami1024 @origami1024

AlexBoss,
Есть еще эмпирически не опровергнутое утверждение, что на одном слое для сложных функций нужно значительно больше нейронов для описания той же функции, что можно описать большим кол-вом слоев.

Написано более трёх лет назад
origami1024 @origami1024

Универсальная теорема аппроксимации
https://ru.wikipedia.org/wiki/%D0%A2%D0%B5%D0%BE%D...

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 2

6 комментариев

AlexBoss @AlexBoss Автор вопроса

Так да, это я понимаю. Но мы же не задаем никакое условия для функции, а просто пихаем +n слоев такого же типа, с тем же активатором. Вот это для меня вообще дико и не понятно)

Написано более трёх лет назад
origami1024 @origami1024

каждый слой можно заменить одной кривой на графике, к примеру для разделения груш от яблок

Это не верно.
Если у тебя 0 скрытых слоев, (то есть слой инпутов и слой оутпутов) тогда сеть только линейные функции может описывать.
Если у тебя есть хотябы 1 слой между ними, то чтобы добавить новую кривую на график, нужно добавить 1 нейрон в этот скрытый слой.
И сеть с 1им скрытым слоем может аппроксимировать любую нелинейную ф-цию.

Написано более трёх лет назад
AlexBoss @AlexBoss Автор вопроса

origami1024, при добавлении нейрона, за счет веса w и формируется f(x) = w*x?

Написано более трёх лет назад
origami1024 @origami1024

AlexBoss,
при добавлении нейрона, за счет веса w и формируется f(x) = w*x?

Так просто ты не поймешь, добавление нейрона влияет на возможности всех других нейронов.
Проекты с нейронными сетями делаются без понимания что делает каждый нейрон. И даже если добыть какое-то понимание, то это одна возможная интерпретация.
Понимать можно глобальные возможности сети с определенными параметрами

Написано более трёх лет назад
TriKrista @TriKrista

origami1024, да, вы правы, насчет слоев.

Написано более трёх лет назад
BitNeBolt @BitNeBolt

Нет, активационная функция на вход принимает сумму произведений, но если связь 1, то это верно

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Какой отлдачик для Python поставить новичку?
- 1 подписчик
- 14 часов назад
- 48 просмотров
1

ответ
Python

Простой
Существует ли менеджер виртуальных окружений для python, который хранит все пакеты в одном месте?
- 1 подписчик
- 18 дек.
- 167 просмотров
1

ответ
Python

Простой
Почему не работает await event.message.delete()?
- 1 подписчик
- 16 дек.
- 212 просмотров
1

ответ
Python

Простой
Почему при установке iJulia у меня возникает ошибка, указывающая на отсутствие Conda?
- 1 подписчик
- 16 дек.
- 67 просмотров
0

ответов
Python

Простой
Почему выходит ошибка?
- 1 подписчик
- 15 дек.
- 188 просмотров
2

ответа
Python

+1 ещё

Средний
Разработка самообучающегося бота. Как лучше настроить экранное зрение?
- 2 подписчика
- 14 дек.
- 211 просмотров
1

ответ
Python

+2 ещё

Простой
Как получить доступ к элементам внутри shadow-root (closed)?
- 1 подписчик
- 09 дек.
- 138 просмотров
1

ответ
Python

+1 ещё

Простой
Как повысить читабельность кода?
- 1 подписчик
- 08 дек.
- 240 просмотров
0

ответов
Python

Простой
Как получить конкретный атрибут приложенный в обьект?
- 1 подписчик
- 28 нояб.
- 235 просмотров
1

ответ
Python

Простой
Как сохранить курсор в строке ввода при перезапуске explorer.exe?
- 1 подписчик
- 28 нояб.
- 157 просмотров
1

ответ
Показать ещё Загружается…

Специалист по API и автоматизации данных (Google Apps Script / Python)

Агентство ШОЛЬЧЕВ

До 100 000 ₽

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python Backend Developer

Hard Bootstrapping LLC. • Санкт-Петербург

от 175 000 до 350 000 ₽

Answer 1 · 2019-03-05 21:30:06

На пальцах не объяснить, это не доказанный вопрос. Теоретически любая функция может быть построена и обучена на одном слое, если там достаточно много нейронов. Но эмпирически более сложная функция может быть построена и легче обучена на 6 нейронах в виде двух слоев 3-3, чем 6 нейронах в одном слое.

Answer 2 · 2019-03-05 21:54:37

ИМХО, если на пальцах, в общем случае, каждый слой можно заменить одной кривой на графике, к примеру для разделения груш от яблок, хватит одной кривой, и того один слой, а для решения задачи "ИЛИ" нужно две кривые, итого два слоя.

Так же, в общем случае, для решения одной и той же задачи, многослойная сеть потребует меньше синапсов чем однослойная.

Answer 3 · 2019-03-06 14:30:53

https://playground.tensorflow.org/
Тут можно поиграться с количеством слоев и нейронов в тривиальной сети и посмотреть, как эти параметры влияют на выразительность модели.

Зачем несколько слоев в tensorflow и как они работают?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт