Всем привет, делаю модель на основе
https://www.tensorflow.org/tutorials/sequences/aud... по туториалу нам дают датасет размером в 2 гб, у меня же есть всего 5 голосовых записей одно слова, к примеру cat, подойдет ли мне этот тутор, если да то каким образом подтянуть train.py под небольшой датасет.
Мне нужно распознавать только слово cat, как по типу Hello Siri или Окей Гугл
Не могу использовать чей либо api, мне нужно на выходе получать tfile потом скорее всего конвертировать в tlfile