Да, есть. То, что вам нужно, называется диаризация. Нейросеть Whisper умеет такое делать. Но это даже на GPU занимает время.
Суть, скорее всего в классификации спектров голосов. Те, сначала распознаются слова, потом участки со словами классифицируются по спектру нейросетью. Или численными методами, например, сверткой спектров, но тогда нужны образцы спектра говорящих.
Не копал, если честно, но лично я бы делал так.