Задача в том, чтобы определить в мобильном приложении, правильно ли человек прочитал текст с экрана устройства.
Сейчас я реализовал это так: дефолтный гугловый спич рекогнайзер, встроенный в мой смартфон, распознает речь, и уже полученный результат я сопоставляю с текстом. В долгосрочной перспективе это плохой вариант, т.к. иногда этот спич рекогнайзер бессовестно врёт.
Есть ещё google speech api и аналогичное у amazon. Они поумнее, могут присылать вам разные варианты распознанного текста, если сомневаются, но они дорогие, если распознавать много.
Какие ещё есть технологии, которые можно было бы использовать для решения подобной задачи? Возможно, другие сторонние api или открытые библиотеки? Или, быть может, проще написать свою нейросеть, ведь задача сопоставления с текстом в теории должна быть сильно легче, чем просто распознавание голоса?
Сопоставление прочитанного с написанным?
Пускай кто-то из них вернет вам текст речи с указанием основных моментов расстановки речи, его и сравнивайте хотя бы по словам. идеально если сами распознавать будете.