Есть, например, выборка в которой говорится, что люди одного возраста играют в футбол, а другого нет. Те, кто меньше 30 лет(нам неизвестен порог) играют(желаемое значение 1), а больше - нет(желаемое значение 0).
Можно ли в этом случае использовать функцию активации f(x) = 1 - sigmoid(x)?
sigmoid(x) = 1 / ( 1 + exp(-x))
Смысла особого нет, т.к. все линейные коэффициенты будут учтены в последнем слое сети.
Т.е. можно оставить f(x) = sigmoid(x), тогда сеть сама обучится, что в конце надо домножать на -1 и прибавлять 1.
Точнее обучится не домножать на -1 и прибавлять 1, а назначать первому классу большое положительное значение перед сигмоидом, а второму - большое отрицательное.
Сигмоид же идет последним преобразованием.