Если обычные многослойные нейронные сети вам понятны, то проще всего будет сформулировать, что "глубокие" сверточные слои выполняют такую же роль, как и "глубокие" слои в обычной нейросети. Они берут набор признаков из предыдущего слоя и комбинируя их получают новые более высокоуровневые признаки.
Разница в том, что нейрон типового Dense слоя нейронной сети владеет всей информацией с предыдущего слоя, а сверточные слои оперируют "локальными" ядрами. Поэтому обычно между сверточными слоями делают какой-либо pooling и тогда ядра новых сверточных слоев, получается, используют бОльше информации с предыдущих слоев.
Ведь там просто числа значение которых показывают наличие признака, но набор этих значений уже не дает какой то признак, а всего лишь показывает наличие этих прзнаков.
Набор двух базовых признаков можно считать как один высокоуровневый.
Очень условный пример:
- Например, вы на первом сверточном слое вы нашли одним ядром "левый угол глаза", а другим ядром "правый угол глаза".
- Сделали pooling. Теперь новый сверточный слой при таком же размере ядра в пикселях будет охватывать бОльшую часть картинки
- На втором сверточном слое, мы скомбинировать информацию, что "левый угол глаза" находится рядом слева от "правого угла глаза", то есть на этом слое мы можем сказать, что это новый признак "глаз".