Если нетворк будет состоять из одного скрытого слоя, то обратное распространение ошибки (backpropagation) не сложно. А вот если из нескольких то подсчет градиента будет происходить при помощи chain rule - это сложно реализовать.- по заданию количество слоев не ограничено, но для задачи, которую должна будет решать эта сеть, по идее 1 скрытый слой и может быть даже 1 выход с набором значений от 0 до 1 принадлежности к i-тому классу
Ну ищи примеры и от них отталкивайся.— искал, может плохо, но ничего более менее похожего не нашел, что можно скачать, посмотреть код, запустить и «пощупать»
Model нетворк, это коллекция слоев, имеет методы compile где ты указываешь loss функцию, то что ты будешь минимизировать, ну и наблюдаемые метрики. также имеет метод fit где ты не посредственно, обучаешь, имеет параметры batch (какими частями ты будешь подавать на вход (количество рядов в матрице)) количество эпох (сколько итераций по каждому batch), ну и данные не посредственно.loss я так понимаю ошибка (что-то, что не правильно посчитано), которую надо минимизировать