Собственно, алгоритм, который должен лечь в основу поиска Вам уже подсказал выше
@peleron (из них мне более привычен FFT).
А "поверх" него я посоветовал бы реализовать следующую высокоуровневую логику :
1) после проключения соединения должно пройти не менее K миллисекунд речевого сигнала (он тоже хорошо виден на FFT) или тишины (бывает автоответчик без приветствия);
2) после этого должен в течение L миллисекунд быть слышен тон одной частоты (т.е. в спектральной области - постоянная картина с небольшими шумами);
3) после этого в течение N*L миллисекунд должна быть тишина - это защита от того, что на самом деле в фазе 2 был слышен не сигнал автоответчика, а длинный или короткий in-band (т.е. генерируемый DSP вызываемой стороны) отбой.
+ естественно, нужно смотреть за тем, чтобы вызов не был разорван вызываемой стороной - автоответчик так не сделает.
После успешных проверок этих трех фаз, можно с определенной вероятностью считать, что это был тон автоответчика.