Громкость фактически вытекает из динамического диапазона - соотношения между самым высоким пиком в файле (0 дБ) и среднекваратичным значением всей дорожки (-N дБ). Чем меньше N, тем громче, но меньше качество. Для качественной симфонической музыки N>10. Если нет каких-то специфических требований, то для обычной речи сойдёт N~3.