Обычно так не делают, но если вы тяготеете к предельной простоте, то да, так можно. Тем не менее кое-что нуждается в комментариях.
качественный звук
Качество звука этой схемой не определяется, а зависит сугубо от того, что скрывается внутри esp32 (я имею ввиду и софт, и железо, т.е. ЦАП).
максимальный ток через динамик -- около 1 А, мощность на динамике -- до 4 Вт
Вот так в лоб это не рассчитывается. Вы забыли, во-первых, про действующее значение переменного напряжения, и во-вторых, двойную амплитуду, т.е. размах. Чтобы получить 4 ватта, вам надо иметь амплитуду звука на динамике около 6 вольт, соответственно размах около 12 вольт. От эмиттерного повторителя при 5-вольтовом питании это не получится.
Для минимального потребления во время простоя держать на аналоговом выходе в это время 0.
Я не программист, но если вы уверены, что сможете написать софт, распознающий паузы в звуке и не создающий на паузах щелчков... в общем, вам виднее. Аналоговая техника решает вопросы экономичности иначе, да и цифровая тоже (ШИМ).
Чтобы не было искажений выводимый сигнал программно сжать и сдвинуть так, чтобы его амплитуда была в диапазоне +0.5...+3.3 вольта.
Тут опять неверная прикидка. В диапазон 0,5...3,3 вольт должна помещаться не амплитуда, а размах. Если он в пределе составляет 2,8 вольт, то пиковая амплитуда - 1,4 вольт, действующее значение - около 1 вольт, и при токе 1 ампер получается всего около 1 ватт.
Тем не менее получить 4 ватта при 5 вольтах питания можно. Для этого надо либо уменьшить сопротивление динамика до 2 Ом (транзистор изменить на более мощный с бОльшим коэфф.усиления по току базы), либо усложнить схему (сделать её 2-тактной или с трансформаторным выходом).