Как увеличиваются фильтры в CNN?

Question

Andrei1penguin1 @Andrei1penguin1

Как увеличиваются фильтры в CNN?

Доброго времени суток, проконсультируйте пожалуйста по следующему моменту в работе свертки:
Вот у нас допустим есть на входе цветное изображение 100×100×3
Мы продаем его на свёрточный слой
Инициализировали фильтры (пусть 16 фильтров (3,3) с нулевым паддингом) и получили выход 100×100×16
Подали в активацию, получили те же 100×100×16
Подали в макспулинг, получили 50×50×16
Подали в следующий слой с количеством фильтров 32, выход должен быть 50×50×32
Собственно вопрос: как из 16 фильтров мы должны получить 32?
Мы должны инициализировать заново новые 16 фильтров, или инициализировать только 16, сохранив предыдущие 16?

Вопрос задан более двух лет назад
103 просмотра

2 комментария

Подписаться 1 Средний 2 комментария

Решения вопроса 1

1 комментарий

Andrei1penguin1 @Andrei1penguin1 Автор вопроса

Да, все верно
Сам же написал про разницу между ядром фильтра и самим фильтром при многоканальном изображении, сам же про это забыл
Да, теперь я въехал в историю
На вход подаётся 100×100×3, далее мы имеем 16 фильтров с 3 ядрами каждый, где размер ядра—3×3, выходом является матрица 100×100×16, то есть 16 карт признаков, где карта признаков—результат применения фильтра к исходному изображению, размер каждой карты признаков 100×100×1 (три ядра одного фильтра складываются поэлементно)
Затем у нас идёт активация каждого значения в этой выходной матрице, после макспулинг и выход с размером 50×50×16
Следующая свертка инициализирует 32 фильтра, включающих по 16 ядер каждый
После применения каждого фильтра к исходной матрице значения всех 16 ядер для каждого фильтра поэлементно складываются, образуя матрицу 50×50×1, но так как фильтров таких у нас 32, получаем выход 50×50×32
И так далее

Написано более двух лет назад

Пригласить эксперта

Ответы на вопрос 1

3 комментария

Andrei1penguin1 @Andrei1penguin1 Автор вопроса

Тогда количество операций получится 16×16×32×50×50=20.480.000
Это слишком много
Может быть Вы имели ввиду, что мы должны каждый из 32 инициализирован них фильтров прогнать через все 16 фильтров, поступивших на вход?
Тогда число операций будет приемлемым—32×16×50×50=1.280.000

Написано более двух лет назад
freeExec @freeExec

Andrei1penguin1, нет, из пришедших 16 фичимап мы с помощью индивидуальных фильтров создаёт одну новую фичимап.
И я не совсем понял, что за операции вы тут насчитали.

Написано более двух лет назад
Andrei1penguin1 @Andrei1penguin1 Автор вопроса

freeExec, ну я так и написал
32×16×50×50, где 32—количество фильтров на новом слое; 16—количество фильтров в предыдущем слое (то есть каждым новым фильтром мы обрабатываем 16 предыдущих и складываем результат для итоговой карты признаков), ну а 50×50—рахмер изображения

Написано более двух лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Анимация

+1 ещё

Простой
Существет ли AI делающая промежуточную анимацию между 2 кадрами?
- 1 подписчик
- 09 авг.
- 91 просмотр
1

ответ
Нейронные сети

Простой
Существуют ли нейросети делающие видео с персонажем по эскизу фото?
- 1 подписчик
- 08 авг.
- 85 просмотров
1

ответ
Видео

+1 ещё

Простой
Есть ли видео-нейросеть, дорисовывающая объекты к реальному видео?
- 1 подписчик
- 03 авг.
- 170 просмотров
1

ответ
IT-образование

+2 ещё

Средний
LLM для школьных экспериментов. Существует ли что то подходящее?
- 1 подписчик
- 03 авг.
- 296 просмотров
3

ответа
Нейронные сети

+2 ещё

Простой
Можно ли закешировать результат загрузки gguf модели в Forge?
- 1 подписчик
- 27 июл.
- 44 просмотра
1

ответ
Нейронные сети

+1 ещё

Простой
Как вычисляется MSE в VAE?
- 1 подписчик
- 24 июл.
- 56 просмотров
0

ответов
Нейронные сети

Простой
Как подключить Context7 к claude.ai?
- 1 подписчик
- 23 июл.
- 67 просмотров
0

ответов
Нейронные сети

+2 ещё

Средний
Как правильно подобрать модель, VAE и T5 чтобы запустить Flux1 gguf версию?
- 1 подписчик
- 16 июл.
- 63 просмотра
2

ответа
Нейронные сети

+2 ещё

Простой
Что мешает создать сугубо инженерную генеративную нейросеть?
- 1 подписчик
- 14 июл.
- 232 просмотра
3

ответа
Нейронные сети

+2 ещё

Простой
Требуется ли junior deep learning инженеру знание математики?
- 1 подписчик
- 13 июл.
- 174 просмотра
2

ответа
Показать ещё Загружается…

Middle/Senior Data Scientist (команда ИИ и аналитика)

Сбер • Москва

от 200 000 до 350 000 ₽

Стажер Моушен дизайнер для контента в соцсетях музыкального стартапа

Vocaberry

от 15 000 до 15 000 ₽

JS Fullstack Инженер (Node.js + Vue.js)

SteadyControl • Воронеж

от 100 000 до 250 000 ₽

Объясните, как из 100×100×3 с помощью 16 фильтров (3,3) получили 100×100×16?
Тут или 100х100х48, или 100х100х3х16 должно быть..?
Или у вас не цветное изображение..
U235U235, почему, цветное
Просто мы каждым фильтром проходим по трем каналам (ядро свертки проходит по трем каналам, потом ядра складываются—получается 1 фильтр)

Answer 1 · 2022-08-26 09:06:15

Ответ на это вопрос очевиден, если знать, что такое фильтр сверточного слоя в нейронных сетях. В случае с изображениями - это трехмерный тензор (матрица), вот так вот просто, никакой магии. А теперь конкретика и умножение целых чисел.

На входе идут изображения 100х100х3. Размер ядра фильтра 3х3, значит, каждый фильтр имеет размер 3х3х3, всего их 16 штук, следовательно ((3*3*3) + 1) * 16 = 448 обучаемых коэффициентов (trainable parameter). Потом макспулинг, размер уменьшается до 50х50, количество фильтров не меняется. Выход имеет размер 50х50х16. Фильтры применяются к изображению 100*100*16 = 160к раз. Выход - это результат применения фильтров к изображению, т.е. новое изображение, именно оно подается дальше, никакие фильтры тут дальше не передаются. Фильтры - это как распылитель на покрасочном конвейере, распылитель наносит краску на деталь, фильтр преобразует изображение. Как может фильтр передаваться дальше? Никак. Это противоестественно.

Потом идут новые 32 фильтра с ядром 3х3 и размером 3х3х16. Следовательно, ((3*3*16) + 1) * 32 = 4460 обучаемых коэффициентов. Фильтры применяются к изображению 50*50*32 = 80к раз. Выход перед макспулингом имеет размер 50х50х32. Потом опять макспулинг или флэттен слой (flatten).

По итогу общее количество фильтров = 16 + 32. Общее количество обучаемых параметров = 448 + 4460. Фильтры помножены на изображение 240к раз. Вот только в этом маленьком кусочке из двух сверточных слоев (conv2d).

Answer 2 · 2022-08-25 13:55:43

Берутся входные 16 слоёв прогоняются через свои 16 слоёв фильтра и выдаётся 1 слой на выходе. Затем входные 16 прогоняются через другие 16 фильтров, чтобы получить 2 слой на выходе. И так 32 раза.

Как увеличиваются фильтры в CNN?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт