from pydub import AudioSegment
import matplotlib.pyplot as plt
from scipy.io import wavfile
from tempfile import mktemp
import pyttsx3
#Создаем голосовой отрезок
engine = pyttsx3.init()
engine.save_to_file('тест спектрограммы', 'speech.mp3')
#раскодируем
mp3_audio = AudioSegment.from_file('speech.mp3', format="mp3")
wt = mktemp('temp.wav')
mp3_audio.export(wt, format="wav")
FS, data = wavfile.read(wt)
#строим спектрограмму
plt.specgram(data, Fs=FS, NFFT=128, noverlap=0)
plt.show()
Вот через 3 хитрых задницы мы получили спектрограмму