Не встречал готовых решений как сервисов.
Но есть решения задачи оценки произношения на базе НС глубокого обучения. Попробуйте разобраться, построить, натренировать и развернуть самостоятельно? Или ищите, кто уже реализовал подобное.
Гуглить "machine learning evaluate pronunciation" и найти несколько публикаций, даже от 2013.
Также гуглить "computer-aided language learning"