Русский речевой корпус для нейросети. Создавать самостоятельно или есть готовые?
Необходимы данные в виде аудио + транскрипция. Скачал с voxforge корпус данных на 2.9Гб. Для распознавания команд, этого достаточно, но хотелось бы еще улучшить качество. Англоязычный корпус данных в открытом доступе намного больше. В связи с этим вопрос, есть ли ресурсы, на которых можно скачать (возможно даже коммерческие) именно готовый речевой корпус. Поделитесь ссылками, пожалуйста, если кто знает.
Ну вообще подойдут, я так с ютуба выкачал туеву хучу данных. Но фильмы с сабами, еще найти надо, чаще это англоязычные фильмы с русскими сабами, редко когда русский фильм с нормальными русскими сабами. Да и косяк в сабах в том, что не всегда они с реальным произношением фраз по временным меткам синхронизированы, а то бывает и вообще не совпадают с тем, что говорят.