Как работает распознавание речи в iOS приложениях?

Question

Денис Мариан @DanMarian

Начинающий дизайнер и проектировщик интерфейсов

Как работает распознавание речи в iOS приложениях?

Здравствуйте, я начинающий дизайнер. Появилась идея сделать концепт финансового приложения, где расходы и доходы можно вводить голосом. Например сказать: «300 рублей на телефон» и приложение поймет и запишет куда надо.

Я начинающий дизайнер и нет опыта в программировании, обращаюсь к вам, чтобы проверить свою идею на прочность. Даже если это только концепт, то чтобы это небыло просто набором картинок, а продуманное приложение которое можно воплотить в жизнь.

Как я себе это представляю:

Например человек говорит: «300 рублей на еду» — приложение понимает, что 300 это 300. Рублей это валюта. «Еду» — тег, то на что мы тратим эти самые 300 рублей. При этом приложение не должно записывать этот расход в тег «еду», а в тег «еда». При этом приложение должно само определять, что это расход (для этого в приложений будут предустановленные теги).

Можно определять время: «Потратил вчера 300 рублей на еду».

Повторяемые транзакции: «45 000 рублей зарплата каждый месяц 25 числа».

Запланированные транзакции: «4000 рублей за свет напомнить завтра в 10:00»

Перевод со счета на счет: «Снял с карты 5000 рублей» — переводит со счета «карта» на счет «наличные».

Так же было бы неплохо сделать управление приложением через голос. Например: «удалить счет карта», или «удалить последнюю транзакцию», или «открыть настройки. Возможно ли вообще такое?

Возможно ли реализовать такое в приложении? Насколько это сложно и т.д. Делали ли вы подобные приложения? Пользовались бы вы таким приложением?

Спасибо.

Вопрос задан более трёх лет назад
1181 просмотр

Комментировать

Подписаться 1 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

iOS-разработчик с нуля

11 месяцев

Далее
Академия Эдюсон

IOS-Разработчик: тариф Базовый

7 месяцев

Далее
Яндекс Практикум

iOS-разработчик

10 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 4

Комментировать

2 комментария

Денис Мариан @DanMarian Автор вопроса

Спасибо за полезный ответ.

Интересно, можно ли сделать так, когда человек произносит: «15 000 рублей на запчасти» и если нет тега «запчасти», чтобы приложение само его создавала? При создании, чтобы приложение спрашивало пользователя расход это или доход. В приложении предусматривается обучалка, т.е. пользователю объясняется как лучше всего произносить траты. И пользователь, и приложение знают, что каждая запись должна состоять как минимум из суммы + тег. Если приложение определило, что «15 000 рублей» это сумма и что не тега «запчасти», то приложение должно создать такой тег. Как-то так я себе представляю создание нового тега на ходу.

Еще думаю как можно реализовать запись заметок на ходу. Практика показала, что если не писать заметки к расходам, то быстро забывается на что именно были потрачены деньги. Например: «1000 рублей на продукты заметка картошку огурцы помидоры гречку и красную икру» и все что после слова «заметка» записывалось как заметка к транзакции. Возможно ли такое?

Другая идея реализации этой функции. Все что не тег, сумма, валюта, дата записывается как заметка. «1000 рублей на продукты картошку огурцы помидоры гречку и красную икру» — приложение распознало тег + сумму, а все остальное что не распозналось попадает в заметки к транзакции. Как думаете какой из этих вариантов лучше с точки зрения пользователя, и с точки зрения программиста?

Написано более трёх лет назад
azShoo @azShoo

Денис Мариан: С автоматическим созданием тега будет проблема - будут бесконечно плодиться тэги.
Грубо говоря, один раз человек скажет "1000 рублей на еду", другой раз скажет - "1000 рублей на продукты", третий раз скажет - "сходил в магазин, потратил 1000 рублей".
По сути это одна статья расходов, но по факту у вас будет 3 тэга.

В описанной вами схеме основная проблема: вы предполагаете, что пользователь будет говорить по заданной схеме <сумма> <тэг> <заметки>.
По факту это будет не так.
Со схемой <сумма> <тэг> все несколько проще, узнали сумму - остальное тэг, и наоборот.
Чем больше элементов в схеме - тем сложнее будет правильно соотнести элементы.

Написано более трёх лет назад

2 комментария

Денис Мариан @DanMarian Автор вопроса

На самом деле я над юзабилити подумал задолго до того как написал сюда.

Да приложение не идеально. Было бы намного лучше, если можно было просто поднести телефон к уху и сразу начать говорить. Или сделать это через Siri, но к сожалению Apple нам этого не разрешает.

Тут надо учитывать еще в каком контексте используется приложение. Что делает, чувствует, ощущает пользователь. Если использует приложение дома лежа на диване, то да вы правы, нет смысла делать голосовую запись расходов. Но чаще всего такие приложения используют сразу после покупки. Представьте выходите вы из магазина, вы хотите записать сколько вы потратили, при этом у вас на руках 3 пакета, пытаетесь открыть машину, еще вы куда-то спешите. Открываете какое-нибудь приложение для учета финансов, вводите сумму, выбираете категорию или две, пишите заметку(потому что практика показывает, что потом все равно забывается на что были потрачены деньги), выбираете доход/расход, выбираете счет списания....

Представьте ту же самое сцену, только вместо ручного ввода пользователь вводит все голосом. Конечно это тоже не идеальный способ, но тут приходится выбирать из двух зол меньшее. Конечно существуют мобильные клиенты банков, которые показывают транзакцию по картам, там и вводить ничего не надо. Но все еще много людей пользуется наличкой.

Сам пользуюсь приложениями учета финансов и это их самая большая проблема. Больше всего бесит когда стоишь у магазина и пол минуты вводишь трату. Минута кажется вечностью.

Написано более трёх лет назад
Александр Щербаков @mkll

> Но чаще всего такие приложения используют сразу после покупки. Представьте выходите вы из магазина, вы хотите записать сколько вы потратили, при этом у вас на руках 3 пакета, пытаетесь открыть машину, еще вы куда-то спешите.

Вот, собственно, всё вот это, что вы написали - очень спорно. Понятно, что люди разные, но, черт возьми, не настолько же!

Если человек выходит из магазина с 3-мя пакетами и открывает машину, то следует предположить, что это:
1. Относительно обеспеченный человек
2. Он отоваривался не в "магазине у дома", а в супермаркете.

Значит, у него есть чеки с подробным перечислением и ценой каждой купленной позиции. КАКОЙ СМЫСЛ заносить это СРАЗУ? Пришел домой, лег на диван, внес расходы. Нет, еще раз говорю, я понимаю, что люди разные и привычки разные, но мне сложно представить настолько отличающегося от меня человека, который будет наговаривать содержимое трех пакетов, сидя в машине возле магазина. Зачем??? Чтобы не забыть? У него есть чеки! А если чеков нет, то он УЖЕ ЗАБЫЛ, и наговаривать тупо нечего.

> Открываете какое-нибудь приложение для учета финансов, вводите сумму, выбираете категорию или две, пишите заметку(потому что практика показывает, что потом все равно забывается на что были потрачены деньги), выбираете доход/расход, выбираете счет списания....

Да побойтесь бога! В нормальном приложении для учета финансов не нужно писать заметки, поскольку суммы раскладываются либо по категориям, либо даже прямо по товарам - зависит от того, насколько подробный учет вы ведете. Писать заметки о содержимом трех здоровых пакетов? Раскладывая и перекладывая их прямо в машине?

Я не то что с трудом - я вообще не могу представить себе нормального человека за этим занятием.

> Конечно существуют мобильные клиенты банков, которые показывают транзакцию по картам, там и вводить ничего не надо.

Кстати, не дадите наводку - какой банк предоставляет такой шикарный сервис, что есть перечень купленных товаров, а не просто сумма транзакции одним списанием?

> Больше всего бесит когда стоишь у магазина и пол минуты вводишь трату.

Чеки не пробовали не выкидывать, а брать с собой? Попробуйте. :))

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

iOS

+1 ещё

Средний
Почему не работает xray на телефоне?
- 2 подписчика
- 18 мая
- 1686 просмотров
2

ответа
iOS

+2 ещё

Сложный
Как вернуть книги в IBooks?
- 1 подписчик
- 05 мая
- 213 просмотров
1

ответ
iOS

+2 ещё

Простой
Как можно оплатить подписки на ICloud, если заблокировали оплату со счета мобильного телефона?
- 2 подписчика
- 16 апр.
- 376 просмотров
1

ответ
iOS

Простой
Не могу зайти на российский сайт с IOS?
- 1 подписчик
- 11 апр.
- 635 просмотров
2

ответа
iOS

+3 ещё

Простой
Как достать фотографии из заблокированного iPhone 4?
- 1 подписчик
- 25 мар.
- 387 просмотров
0

ответов
JavaScript

+1 ещё

Простой
Как открыть ссылку из Webview в safari?
- 1 подписчик
- 12 февр.
- 153 просмотра
0

ответов
Linux

+1 ещё

Простой
Диктовалки (speech to text) под Линукс?
- 2 подписчика
- 23 янв.
- 369 просмотров
2

ответа
Usability & UX

Простой
Правда ли что UX UI дизайнеры занимаются только логикой, проектированием интерфейсов, или также выполняют функции графического дизайнера?
- 1 подписчик
- 23 дек. 2025
- 127 просмотров
1

ответ
iOS

+1 ещё

Простой
Как сделать так, чтобы клавиатура safari в айфоне меняла размер страницы?
- 1 подписчик
- 21 нояб. 2025
- 110 просмотров
0

ответов
iOS

+1 ещё

Простой
Basic авторизация на сайте через QR код на IOS все равно появляется окно для ввода логина и пароля. Почему так?
- 2 подписчика
- 16 окт. 2025
- 187 просмотров
0

ответов
Показать ещё Загружается…

Answer 1 · 2015-04-12 08:42:24

От компании яндекс есть технология, она разрешает и поощряет ее встраивать в приложения для android and ios - SpeechKit Cloud API.

Answer 2 · 2015-04-13 17:02:37

Как уже сказали выше, есть много инструментов для распознавания речи, вам надо использовать их, а не писать свое.
Далее. Предположим, вы распознали голос и получили на выходе, грубо говоря, String переменную с фразой, произнесенной в микрофон.
Тут уже начинаются ваши сложности.
В вашу пользу играет то, что у вас есть N тэгов (заранее встроенных в приложение), по которым распределяются расходы. Например: Еда, Мобильная связь, Обучение, Кредиты, етк. Их число ограничено, не бесконечно и известно заранее.
Дальше ваша цель - составить "словари" для распределения этих String переменных по категориям.
Из сложностей - разный порядок слов, синонимы и просторечия, излишнее и\или недостаточное описание + дефекты распознавания речи.

Решите для себя следующую задачу:
У вас есть 15 текстовых описаний расходов в произвольной форме (начиная от "сегодня я потратил пятьдесят тысяч рублей на баночку вкуснейшей черной икры" и заканчивая "пятихаточка на мобилу").
Вам нужно соотнести их по категориям расходов.
Как? Словари, ключевые слова, максимальное количество совпадений. Как-то так.
Когда закончите с этим - прикрутите распознавалку речи и проблем уже не будет.

Answer 3 · 2015-04-16 12:31:03

Тут есть другой момент, через который вы "перескочили", сразу обратив внимание на технические вопросы распознавание речи. Момент этот - юзабилити. Идея, как я понимаю, в том, чтобы ускорить ввод информации - наговорить голосом легче, чем вбивать на клавиатуре, так ведь?

А теперь давайте посмотрим полный сценарий использования приложения:
1. Достать телефон
2. Разблокировать его
3. Запустить приложение
4. Включить в нем режим ввода информации (голосом или вводом текста - неважно).
И только после этого начинается, собственно, "упрощение". Спросите себя - какой процент от общей совокупности действий пользователя составляет это упрощение? Стоит ли игра свеч? Если пользователь уже выполнил столько действий "руками", то что мешает ему довести начатое до конца теми же самыми руками? :)

Ведь, в отличие от Siri, например, которая является частью операционной системы и активируется прямо с экрана блокировки в пару нажатий, ваше приложение будет требовать от пользователя вышеперечисленных действий.

Answer 4 · 2015-04-12 03:36:52

xmoonlight @xmoonlight

https://sitecoder.blogspot.com

Голосовой ассистент:
Дуся (Android)
Cortana (Win10, WinPhone, планируется iOS и Android)

Ответ написан более трёх лет назад

Комментировать

Как работает распознавание речи в iOS приложениях?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт