Что значит "На какой архитектуре"?
Для распознавания голоса используются обычно рекуррентные нейронные сети (RNN) или сверточные нейронные сети (CNN).
Но здесь гугул Вам в помошь.
Конкретно, какие разработки применили в Anki - наверное лучше спрашивать у них самих. У них уже лет 10 бекграунда в разработке интерактивных игрушек (десятки тысяч человекочасов, думаю).
Вот, например, на почитать, но и сами могли бы нагуглить -
https://habr.com/ru/articles/649489/