Давайте начнем с вопроса, что такое НС ?
Все очень просто. Это некая функция от множества переменных f(x1, ..., xn, k1, ... kn).
Что вы делаете, когда обучаете НС ?
Вы находите такое k1 .. kn, чтобы результат функции для всех примеров был с минимальным отклонением.
Т.о. вы осуществляете задачу аппроксимации в многомерном пространстве.
Далее.
Пример на пальцах (на плоскости).
У вас есть парабола. Вы пытаете её аппроксимировать линейной функцией: f(x) = ax+b.
Как думаете какая у вас будет точность ? Точно не 100%.
Т.о. любая аппроксимация, это процесс приближения одной функции к набору точек (или к другой функции).
И если вас не устраивает точность обучения, то достаточно увеличить сложность сети, либо в ширину, либо в глубину. Т.о. вы увеличите сложность аппроксимирующей функции.
Но тут надо смотреть на такое явление как переобучение.
На пальцах, это когда вы линию пытаетесь аппроксимировать параболой. Ваша парабола каждый раз будет вырождаться в линию, а на самом деле это вам не надо. Вам нужно чтобы аппроксимирующая функция обобщила все свойста аппроксимируемой.
Как вам такое объяснение ? :)