он или включен или выключен
Активацию ступеньку (sign) заменили на сигмоиду, т.к. нужно по частным производным считать градиент от конца к началу.
Потом перешли на ReLU для повышения скорости вычисления.
Полносвязные слои имели много параметров, поэтому нашли свёрточные фильтры (в основном, для изображений).
Было развитие систем с обратной связью (как в мозге), они же рекуррентные: LSTM, GRU. Там вместо нейрона несколько вентилей. Но обучение шло на последовательных данных.
Для параллельной обработки запроса внедрили корреляционные матрицы (внимание), так что современные сети делают на трансформерах. Но там миллиарды параметров, обычным компьютерам они не по зубам, поэтому пользователи делают только запросы через облако.