Это относится к разделам математики: цифровая обработка сигналов (ЦОС, англ. DSP) --> распознавание образов (англ. pattern recognition) --> распознавание речи (англ. speech recognition).
Я думаю что это действует так:
1. захват звука с микрофона
2. первичная обработка звука (обрезание с концов, удаление шума и др.)
3. извлечение характеристик фонем
4. сопоставление с эталоном и получение разницы
Ещё ссылка по теме:
https://habr.com/company/yandex/blog/198556/