Как минимум Вам потребуется несколько микроконтроллеров (устройств). Например:
1) Модуль, который показал
че! . Он будет распознавать несколько заранее заданных команд.
2) Какой-нибудь DFPlayer + модуль усилителя звука. Они будут воспроизводить заранее записанные на карту mp3 файлы
3) Ваша ардуина, которая свяжет логически и физически 1 и 2, ну и ещё какие-нибудь действия будет выполнять заодно (что-нибудь включать-выключать, например).
Можно ли это назвать "голосовым помощником"? В какой-то мере может и да.
И последнее, Python не пригодится.