Должно быть, я не совсем точно сформулировал вопрос. Я имею в виду, например, диалог двух людей, в котором иногда присутствуют паузы (которые могут быть заполнены каким-то несильным шумом, но без голосов). В этом случае тоже все банально? А то я читал про всякие Voice Activity Detection и все такое.