Если посмотреть, как работает глубокая нейронная сеть без функций активаций у нас получается следующее:
y = W"W'Wx (W"-веса третьего слоя, W'-веса второго слоя...)
Так как у нас нет нелинейности, то каждый слой - это простое линейное преобразование, а из лин. алгебры мы знаем AB=C, значит W"W'W мы можем заменить на одну матрицу W*. То есть добавление нового слоя без функции активации нам ничего не дает.