
Главные тезисы
- Голос больше не диковинка. Уже более 27% мобильных поисковых запросов делаются голосом, а рынок голосовой коммерции вырос с 3,2 трлн ₽ в 2023 году до прогнозных 13 трлн ₽ к 2030 году.
- Мобильный голосовой стек 2026 года наконец-то стал дешёвым и быстрым: on-device Apple SpeechAnalyzer и Gemini Nano обеспечивают приватное офлайн-распознавание; Deepgram Nova-3 и OpenAI Realtime API дают облачный отклик меньше 300 мс.
- Реальные узкие места — приёмка в магазинах приложений и приватность. Разрешения на микрофон, App Privacy labels, декларации Data Safety и NSSpeechRecognitionUsageDescription отклоняют голосовые приложения чаще, чем сломанная функциональность.
- Выигрывает гибридная архитектура. On-device — для приватных, чувствительных к задержке сценариев; облако — для многоязычных и точностно-критичных. Выбор делается под фичу, а не под приложение целиком.
- Фора Софт запускает продакшен-голос в iOS- и Android-приложения за 8–12 недель по повторяемой схеме: гибридный on-device + cloud ASR, LLM с function calling для интентов, потоковый TTS, журналирование с учётом приватности, прохождение ревью App Store и Google Play встроено в процесс.
Подробнее по теме: читайте полный гайд — 3 ключевых стратегии распознавания речи в шумной обстановке (2026).
Если вы отвечаете за продукт или инженерию в mobile-first компании — здравоохранение, финтех, ритейл, фитнес, доступность, автомобильная отрасль — вы уже знаете: голос перестаёт быть приятным дополнением и становится ожидаемой функцией. Конкуренты выкатывают голосовой поиск, голосовую коммерцию, голосовой ввод и голосовой онбординг. Ожидание пользователя тихо сместилось: если я могу это сказать, приложение должно понять.
Этот гайд — рабочая схема, которую мы в Фора Софт применяем, когда заказчик просит добавить голос в существующее iOS- или Android-приложение или строит voice-first продукт с нуля. Здесь стек, SDK, правила приватности, бюджет задержки и путь интеграции на 8–12 недель — с цифрами и источниками, без лозунгов. Если хочется сразу перейти к обсуждению объёма работ — позвоните или напишите нам по контактам в конце статьи.
Почему этот гайд написала Фора Софт
Фора Софт уже более 20 лет создаёт фичи реального времени со звуком, видео и ИИ внутри мобильных приложений. Три причины, почему мы решили написать именно этот материал.
Во-первых, голос — близкий родственник всех модальностей, с которыми мы уже работаем. Наш практический опыт в распознавании речи на базе ИИ для домофонов поставил ASR, голосовую биометрию и LLM-интенты в продакшен на тысячах дверей. Архитектура одновременного перевода обрабатывает живой многоязычный звук на масштабе. Работа над AI-платформой стриминга закрывает медиа-стек реального времени, на котором держится любое voice-first мобильное приложение.
Во-вторых, на мобильном голосе мелкие инженерные решения быстро суммируются. Разница между голосовой фичей, которая ощущается мгновенной, и той, что кажется сломанной, обычно составляет 200 миллисекунд, одну отсутствующую permission-строку или неудачный retry-цикл. Мы прошли это достаточно раз, чтобы собрать повторяемый чек-лист.
В-третьих, ревьюеры App Store и Google Play стали жёстче к голосу и разрешениям на микрофон. С 2023 по 2026 год доля отклонений приложений, экономивших на раскрытии приватности, заметно выросла. Голосовая фича, которая не проходит ревью, стоит ровно ноль.
Наша позиция, сразу честно: мы не верим в «голос везде». Голос — правильная модальность для сценариев «руки заняты», «глаза заняты» и для доступности. Это неправильная модальность для плотного ввода данных или приватных взаимодействий в публичных местах. Лучшие голосовые фичи 2026 года — точечные, а не фоновые.
Что в 2026 году на самом деле означает «распознавание речи на базе ИИ в мобильных приложениях»
Под этой фразой скрываются пять разных возможностей. Большинство продуктовых команд смешивают их в одну, а большинство RFP недоописывают именно ту, которая нужна.
1. Голосовой ввод (диктовка)
Пользователь говорит, приложение расшифровывает. Быстрый ввод длинных текстов, особенно на телефоне. Архетипы — Gboard, Otter, Rev, медицинские приложения для скрайбинга (Nuance DAX, Abridge, Suki). Точность и потоковая отзывчивость важнее всего остального.
2. Голосовые команды
Пользователь произносит ограниченную фразу, которая соответствует действию внутри приложения: «пауза», «следующий трек», «найти страховой полис», «добавить в корзину». Сюда относятся Peloton, Spotify, голосовой заказ Walmart и интеграции с CarPlay. Грамматика ограничена; самое сложное — задержка и точность.
3. Голосовой поиск
Пользователь произносит свободный запрос, приложение превращает его в поиск. Amazon, eBay, Zillow, приложения доставки еды — у всех есть голосовой поиск. Нужны ASR + интент + рендеринг результатов — плюс изящный фолбэк, когда транскрипт ошибся.
4. Voice-first диалоговые агенты
Полноценный устный диалог. Erica у Bank of America, голосовой режим ChatGPT, боты для медицинского интейка, фитнес-коучи. Это цикл ASR → LLM → TTS (или speech-to-speech) с памятью и многошаговыми рассуждениями. Самая высокая техническая планка, самый большой продуктовый эффект.
5. Голосовая биометрия
Верификация диктора как фактор аутентификации. Банки и колл-центры используют её уже десятилетие; теперь она заходит и в мобильный онбординг, страхование и медицину. Регулируется BIPA, статьёй 9 GDPR и CCPA/CPRA — это не фича, которую можно прикрутить сбоку без юридической экспертизы.
Любая продакшен-голосовая фича в 2026 году — это одна из этих пяти. Выберите ту, которая вам действительно нужна, а уже потом — стек под неё. Чрезмерный охват — самая частая причина того, что голосовые фичи запускаются с опозданием.
Рынок: почему мобильный голос растёт двузначными темпами
Голосовые фичи в мобильных приложениях двигают три накладывающихся рынка. Все три растут двузначными темпами.
| Рынок | Объём (2024–25) | CAGR | Источники |
|---|---|---|---|
| Распознавание речи и голоса | 637 млрд ₽ (2024) → 1,7 трлн ₽ (2030) | 19,1% | MarketsandMarkets |
| Голосовая коммерция | 3,2 трлн ₽ (2023) → 13 трлн ₽ (2030) | ~24,6% | Grand View Research |
| Голосовая биометрия | 195–217 млрд ₽ (2025) | 16–22% | Mordor, Fortune Business Insights |
| Сегмент ASR / разговорного ИИ | 187 млрд ₽ (2024) | 24,8% | Grand View Research |
Поведение пользователей говорит само за себя. Около 27% мобильных поисковых запросов — голосовые; 56% голосовых запросов идут со смартфонов; почти 77% людей 18–34 лет пользуются голосовым поиском хотя бы раз в неделю. А проникновение голосового заказа в розницу США к 2025 году достигло примерно 49% потребителей — не «доступно», а используется.
Голос не вытесняет тач. Он съедает края, где тач плох: вождение, готовка, тренировка, ребёнок на руках, нарушения мелкой моторики. Любое мобильное приложение, чьи пользователи попадают в один из таких контекстов хотя бы 10% времени, имеет голосовую возможность.
Мобильный голосовой пайплайн: семь этапов на телефоне
Мобильный голос — это не «настольный голос с маленьким экраном». Телефон — совсем другая инженерная мишень: маленькая батарея, жёсткие правила работы в фоне, микрофон у самых губ, ненадёжная сеть. Любая серьёзная мобильная голосовая фича проходит через эти семь этапов.
Этап 1 — Активация
Как запускается голос? Три варианта: пользователь нажимает кнопку микрофона (самый дешёвый, минимальный риск отклонения в магазине), пользователь удерживает push-to-talk (чище UX для команд) или постоянно работает wake-word («Hey Acme»). На iOS wake-word требует ограниченных режимов фонового аудио от Apple; на Android — foreground service и постоянного уведомления. Picovoice Porcupine — самый распространённый сторонний движок wake-word, Sensory TrulyHandsfree — корпоративная альтернатива.
Этап 2 — Захват звука
iOS: AVAudioEngine или AVFoundation, захват на 16 кГц, моно, 16-битный PCM. Android: AudioRecord или MediaRecorder с теми же параметрами. VAD (voice activity detection) обрезает тишину перед отправкой — стандарт в сообществе: Silero VAD или WebRTC VAD. Хороший VAD режет объём данных и стоимость ASR на 40–60% в типовых мобильных голосовых сессиях.
Этап 3 — ASR
Три пути: on-device (фреймворк Apple Speech / SpeechAnalyzer, Android SpeechRecognizer с поддержкой Gemini Nano, whisper.cpp, Picovoice Leopard, Vosk), потоковое облако (Deepgram Nova-3, Google Chirp 3, Azure Speech, AssemblyAI Universal-2, OpenAI Realtime API) или гибрид (сначала on-device, облачная сверка при низкой уверенности). Выбор зависит от бюджета задержки, требования к офлайну, набора языков и подхода к приватности.
Этап 4 — NLU / интент
Транскрипт превращается в интент. Для небольшого словаря команд хватает регулярки или маленького классификатора. Для открытого диалога — компактная LLM с function calling: Claude Sonnet 4.6 или GPT-4o в облаке; Apple Intelligence или Gemini Nano on-device. Держите LLM на коротком поводке функциональных вызовов — свободный текстовый ответ в три раза медленнее и в десять раз дороже, чем структурированный.
Этап 5 — Выполнение действия
Интент превращается в функциональный вызов внутри приложения: добавить в корзину, начать тренировку, позвонить жильцу, открыть документ. iOS App Intents (iOS 16 +) и Android App Actions позволяют системному ассистенту запускать ваши действия, не открывая приложение. Это слой «Siri Shortcuts для голоса» — внедрив его, вы появляетесь в подсказках Siri и сценариях Google Assistant.
Этап 6 — TTS-ответ
Если приложение отвечает голосом, TTS работает либо on-device (AVSpeechSynthesizer на iOS, Android TextToSpeech), либо в облаке (ElevenLabs, OpenAI TTS, Google Chirp 3 HD). ElevenLabs Flash v2.5 с TTFB около 75 мс — самый быстрый облачный вариант; on-device TTS бесплатен, но менее естественен. Для всего, что похоже на диалог, потоковая отдача обязательна.
Этап 7 — Приватность, согласие и журналирование
Permission-строки в Info.plist (iOS) и AndroidManifest.xml. App Privacy labels в App Store Connect. Раздел Data Safety в Google Play Console. Сценарии согласия внутри приложения для биометрии. Журналирование, готовое к аудиту, с политиками удержания. Пропустите что-нибудь из этого — и приложение либо отклонят, либо засудят.
On-device или облако: самый главный выбор
Девяносто процентов архитектурных споров на проекте «голос в мобильном» сводятся к выбору on-device или облако. Вот наша матрица компромиссов.
| Параметр | On-device (Apple Speech, Gemini Nano, whisper.cpp) | Облако (Deepgram, Chirp, OpenAI Realtime) |
|---|---|---|
| Задержка | 100–400 мс, без вариаций сети | 200–600 мс плюс RTT сети |
| Точность (WER) | 6–12% на чистой речи; хуже на шумной и с акцентом | 3–7% (Nova-3, Chirp 3) |
| Языки | ~30 на iOS, ~70 на Android с Gemini Nano | 100 + (Chirp 3), 30 + (Nova-3) |
| Офлайн-режим | Да — самолёт, удалённые районы, тоннели | Нет — требуется соединение |
| Приватность | Звук не покидает устройство | Звук проходит через серверы вендора |
| Влияние на батарею | Выше во время распознавания; помогает нейронный движок | Нагрузка на CPU ниже, но работает радиомодуль |
| Размер приложения | +50–1200 МБ под встроенные модели | Почти ноль |
| Стоимость минуты | Нулевая на единицу | 0,2–0,7 ₽ за минуту потокового ASR |
Правильный ответ почти всегда — гибрид. On-device для коротких команд, wake-words и приватно чувствительных сценариев (медицинская диктовка, финансовые запросы). Облако — для многоязычной диктовки, длинных транскрипций и открытых диалоговых агентов. Пусть приложение выбирает на каждую сессию, а не на всё приложение сразу.
Практическое правило: по умолчанию on-device, если транскрипт не должен покидать телефон, язык входит в топ-10 поддерживаемых ОС, а ожидаемое высказывание короче 10 секунд. Иначе уходим в облако. Покажите выбор пользователю (значок замка = приватно / on-device) — доверие тоже фича.
Голосовой стек Apple: SpeechAnalyzer, App Intents, Apple Intelligence
В 2025 году на WWDC Apple перестроила свои голосовые API. Старый SFSpeechRecognizer ещё работает, но новый код стоит писать на SpeechAnalyzer — он интегрирован с on-device стеком Apple Intelligence и отдаёт более богатые метаданные (уверенность, тайминги слов, определение языка).
Практические заметки по iOS-голосу в 2026 году:
- On-device — выбор по умолчанию. Apple Intelligence работает на чипах A17 Pro / M-series и старше. На более старом железе Speech откатывается на облачную транскрипцию — для этого нужна понятная пользователю permission-строка.
- App Intents заменяют донаты Siri Shortcuts. Объявляйте действия, доступные по голосу, через App Intents, поставляйте параметризованные интенты («начни тренировку на 30 минут») — и Siri будет показывать ваше приложение автоматически. Это самый дешёвый канал дистрибуции в мобильном голосе.
- Для фонового аудио нужен режим. Постоянное прослушивание вне переднего плана требует
UIBackgroundModes: audioи понятного пользователю обоснования. Ревьюеры Apple отбивают спекулятивные «always listen»-сценарии. - Permission-строка имеет значение. Нужны и
NSSpeechRecognitionUsageDescription, иNSMicrophoneUsageDescription. Пишите их как конкретные глаголы, а не общие отписки. «Чтобы расшифровывать ваши голосовые заметки в журнале сессии» — пройдёт ревью; «Чтобы обеспечить голосовые функции» — нет.
Голосовой стек Android: ML Kit GenAI, Gemini Nano, App Actions
Сюжет Android в 2026 году раздвоен. Базовое API SpeechRecognizer закрывает простое распознавание на любом современном устройстве. ML Kit GenAI с on-device Gemini Nano на Pixel 9 / Galaxy S24 и новее покрывает интент и ответ для продвинутых сценариев — приватно, офлайн и бесплатно по запуску.
Практические заметки по Android-голосу в 2026 году:
- App Actions — аналог App Intents. Объявляйте возможности в
shortcuts.xml, чтобы Google Assistant и Gemini могли запускать ваше приложение голосом. Здесь большинство приложений теряет канал дистрибуции. - Foreground service для постоянного прослушивания. Android 14 + ужесточил правила foreground-сервисов; нужен тип «microphone» и постоянное уведомление пользователя.
- Доступ к Gemini Nano привязан к железу. Проектируйте так, чтобы функции изящно деградировали до облачного ASR на старых телефонах — иначе 40% вашей аудитории получит худший опыт.
- Декларации Data Safety строгие. ML-проверка Google Play реально парсит SDK-импорты и помечает необъявленные потоки аудио. Декларируйте каждый ASR SDK, даже если данные «эфемерные».
Кроссплатформа: React Native, Flutter, Capacitor
Если вы не пишете нативно под каждую ОС, подбирайте SDK под фреймворк. Здесь проекты тихо сжигают недели.
| Фреймворк | Варианты ASR | Варианты TTS | Подводные камни |
|---|---|---|---|
| React Native | @react-native-voice/voice, expo-speech-recognition, Deepgram SDK, AssemblyAI SDK | react-native-tts, expo-speech | Переход на New Architecture (Fabric / TurboModules) сломал часть старых голосовых модулей; проверяйте совместимость до начала работ. |
| Flutter | speech_to_text, deepgram_speech_to_text, Google Cloud Speech SDK | flutter_tts, google_tts | Прокидывание iOS-строк приватности через Info.plist делается руками — плагин это сам не сделает. |
| Capacitor / Ionic | @capacitor-community/speech-recognition, @capgo/capacitor-speech-recognition | @capacitor-community/text-to-speech | Фоновое прослушивание ведёт себя неровно у разных плагинов Capacitor — тестируйте на реальных устройствах, а не на симуляторах. |
| Нативно (Swift / Kotlin) | Apple Speech / SpeechAnalyzer; Android SpeechRecognizer; любой облачный SDK | AVSpeechSynthesizer; Android TextToSpeech | Максимум контроля, максимум усилий. Выбор по умолчанию, когда важны задержка или приватность. |
Если приложение полностью нативное, оставайтесь нативными и в голосовом слое — мосты RN или Flutter добавляют 50–150 мс накладных расходов на каждое взаимодействие. Если вы уже кроссплатформенные, берите плагины под свежие релизы и закладывайте нативные фолбэки на горячих путях.
Планируете голосовую фичу для мобильного приложения?
Проведём аудит кодовой базы (нативной или RN/Flutter), порекомендуем стек и оценим интеграцию на 8–12 недель. Без обязательств.
Бюджет задержки: правило одной секунды
Мобильные пользователи не прощают голосовых задержек. Эмпирически: до 500 мс отклик ощущается мгновенным; 500–1000 мс — отзывчивым; 1–2 секунды — вялым; больше 2 секунд — пользователь жмёт пальцем. Вот наш целевой бюджет для голосовой команды, выполняющей действие внутри приложения.
| Этап | Бюджет | Комментарий |
|---|---|---|
| VAD и конец речи | ~50 мс | Silero VAD или WebRTC VAD on-device. |
| ASR (первый транскрипт) | 100–400 мс | Deepgram Nova-3 — меньше 300 мс в облаке; Apple Speech ~200 мс on-device. |
| Интент / LLM | 100–500 мс | Маленький классификатор <50 мс; function calling у GPT-4o / Sonnet 4.6 — 300–500 мс. |
| Выполнение действия | 50–150 мс | Вызов API, обновление локальной БД, состояние UI. |
| Первый аудио TTS | 75–250 мс | ElevenLabs Flash ~75 мс; Apple AVSpeechSynthesizer ~200 мс. |
| Итого | ~375–1350 мс | Цель — менее 1000 мс end-to-end для команд; менее 1500 мс для диалога. |
Самые простые выигрыши по порядку: стримите ASR (не ждите конца высказывания); ставьте перед LLM маленький классификатор для очевидных команд; стримите первые байты TTS; для диалоговых фич предпочитайте speech-to-speech (OpenAI Realtime, нативное аудио Gemini); держите один постоянный WebSocket к провайдеру ASR вместо переоткрытия на каждую сессию.
Разрешения и приватность: UX, который проводит приложение через ревью
Голосовые фичи в App Store и Google Play чаще отклоняют из-за приватности, чем из-за функциональности. Ментальная модель ревьюера: если пользователь может не догадаться, что аудио покидает устройство, ему нужно об этом точно и заранее сказать.
UX разрешений на iOS
- Объявите и
NSMicrophoneUsageDescription(захват с микрофона), иNSSpeechRecognitionUsageDescription(фреймворк Speech, который на старых чипах может уходить на серверы Apple). - Подготовьте почву к разрешению. Покажите экран с пояснением внутри приложения до системного промпта — приложения с пре-праймом получают на 20–30% больше согласий.
- «Этикетка приватности» в App Store Connect должна аккуратно декларировать все потоки голосовых данных — связанные или нет, для аналитики или нет. Пропущенная декларация = отклонение.
- Guideline 5.1.1 (сбор данных и приватность) — самая частая зацепка для отклонения голосовых приложений. Опубликуйте политику приватности и поставьте ссылку на неё в приложении.
UX разрешений на Android
- Объявите
android.permission.RECORD_AUDIOвAndroidManifest.xmlи запрашивайте в рантайме через Activity Result API. - Для постоянного прослушивания объявите
FOREGROUND_SERVICE_MICROPHONE(Android 14 +) и держите постоянное уведомление. - Раздел Data Safety обязан перечислять каждый сторонний ASR SDK и какие данные он отправляет. Автоматическая проверка Google Play отлавливает расхождения.
- Для голоса в медицине и финансах категория приложения влечёт дополнительные политики — проверьте Developer Program Policies для вашей категории.
Сценарии согласия
Если приложение хранит голосовые записи для последующего использования (медицинская диктовка, обратный звонок поддержки, обучающие данные), нужно явное согласие — а не чекбокс, спрятанный в пользовательском соглашении. Если используете голосовую биометрию как фактор аутентификации, вы в зоне BIPA и статьи 9 GDPR — нужен отдельный сценарий согласия с публичной политикой удержания. Мы делаем это полноценным элементом UI; ретрофитить позже больно.
Комплаенс: HIPAA, PCI, GDPR, BIPA, COPPA, EU AI Act
Краткий обзор. Любой проект «голос в мобильном» цепляет часть из этого. Закладывайте требования в архитектуру с первого дня.
- HIPAA — медицинская диктовка, телемедицина, приложения для ухода за пожилыми. Голосовые транскрипты часто содержат PHI. Требуются Business Associate Agreements с каждым голосовым SDK-провайдером, шифрование в покое и в передаче, аудит-логи, хранение шесть лет. Nuance DAX, Abridge и Suki подпадают под HIPAA; большинство потребительских ASR SDK — нет, пока вы не подписали с ними BAA.
- PCI DSS — голосовые платежи. Если пользователь произносит номер карты, и звук, и транскрипт попадают в PCI-скоп. Большинство команд маршрутизирует платёжный голос через отдельный изолированный сервис (Voice IVR-провайдеры вроде CDW, Cisco или Plivo), а не пытается завести всё мобильное приложение в PCI-скоп.
- GDPR — любой пользователь из ЕС. Голос по умолчанию — персональные данные; голосовой отпечаток попадает в особую категорию по статье 9. Требуются законное основание, явное согласие на биометрию, DPIA, размещение данных в ЕС, инструменты для права на удаление. Гайденс EDPB 2024–2025 ужесточает правоприменение.
- BIPA (Иллинойс) — любое использование голосовой биометрии у жителей Иллинойса. Письменное согласие, публичная политика хранения, срок уничтожения. Активная площадка коллективных исков.
- CCPA / CPRA (Калифорния) — голосовые записи и отпечатки относятся к чувствительным персональным данным. Opt-in на чувствительную обработку, право на удаление.
- COPPA — пользователи младше 13. Проверяемое родительское согласие до сбора голоса. Образовательные приложения часто ошибаются на этом этапе.
- Статья 50 EU AI Act — любой ИИ-голосовой агент, общающийся с пользователями в ЕС, обязан сообщить, что собеседник — ИИ. Короткой вступительной фразы («Здравствуйте, я ИИ-ассистент Acme») достаточно.
- Tennessee ELVIS Act — никакого TTS-клонирования реальных голосов без согласия. Используйте синтетические голоса вендора, если у вас нет подписанного релиза.
Комплаенс-шорткат, который реально работает: относитесь к любому голосовому транскрипту как к персональным данным с момента выхода из микрофона, а к любому голосовому отпечатку — как к данным статьи 9 / чувствительным персональным. Вы перестрахуетесь в 20% случаев, но никогда не получите неожиданное предписание. Цена этой дисциплины на этапе проектирования — примерно один спринт; цена добавления уже после коллективного иска по BIPA — порядка 3,7–18 млн ₽ плюс мировое соглашение.
Голос в регулируемом приложении?
HIPAA, PCI, BIPA, COPPA, EU AI Act — мы выпускали голосовые фичи под всеми этими режимами. Свяжитесь с нами, и до выбора стека мы пройдёмся по вашему конкретному периметру комплаенса.
Offline-first голос: когда телефон обязан работать без облака
Не каждому приложению можно рассчитывать на связь. Авиалинии запрещают радио ниже 3000 метров. Приложения для выездных бригад работают в подвалах и в полях. Медицинские иногда юридически не имеют права отправлять звук вовне устройства. Для таких контекстов офлайн-голос не обсуждается.
Практические варианты в 2026 году:
- Apple Speech / SpeechAnalyzer on-device — iOS 18 +, A17 Pro и выше для полного набора фич. Приемлемый WER на чистой речи для топ-30 языков. Бесплатно, мгновенно, без веса модели в бандле.
- Android SpeechRecognizer + Gemini Nano — Pixel 9 / Galaxy S24 и новее. Та же категория, что и on-device стек Apple; изящно деградирует до облака на старых устройствах.
- whisper.cpp — Whisper, портированный на C++ с ускорением через Metal / NNAPI. Запускается на любом современном телефоне, но минимальная пригодная модель (small.en) весит ~150 МБ. Большие модели (medium, large-v3-turbo) дают почти облачный WER, но добавляют ~500 МБ–1,5 ГБ к приложению. Выкладывайте их как загружаемые ассеты, а не вшивайте в бандл.
- Picovoice Leopard / Cheetah — коммерческая лицензия, ~30 МБ, реальное время на мобильном, ~90% точности на чистом английском. Платно, но предсказуемо.
- Vosk — open source, на базе Kaldi, ~50 МБ модели на язык, ~85% точности. Хорош для проектов с ограниченным бюджетом.
Грубая прикидка: модель Whisper small.en на iPhone 15 расшифровывает минуту чистой речи примерно за 10 секунд — около 6× от реального времени — с точностью ~95% на чистом аудио. Влияние на батарею заметное, но не критичное: 10-минутная сессия диктовки расходует 3–5% батареи современного телефона. Поставляйте модель как загружаемый ассет, агрессивно кэшируйте и пусть пользователь подключает её сам.
Сценарии, которые работают в 2026 году
Кто выпускает голосовые фичи, которыми пользователи реально пользуются? Обзор живого ландшафта.
Ритейл и голосовая коммерция
Amazon, Walmart, eBay и Starbucks выкатили голосовой повторный заказ и голосовой поиск в своих мобильных приложениях. Walmart Voice Order стал массовым ещё пару лет назад; голосовой заказ Starbucks ощутимо сократил очередь в drive-through. По данным Grand View Research, голосовая коммерция движется к 13 трлн ₽ к 2030 году с CAGR 24,6%. Работающий паттерн: голос — для повторных заказов известных SKU, тач — для изучения нового.
Здравоохранение и медицинская диктовка
Nuance DAX Copilot (Microsoft), Abridge, Suki, DeepScribe. Abridge привлёк 206 млрд ₽ в раунде Series D в феврале 2025 года — сигнал инвесторов о том, что окружающее клиническое документирование на ИИ стало корпоративной инфраструктурой, а не пилотом. Набор функций узкий (захват визита, генерация SOAP-нотации, структурированные коды биллинга), а планка комплаенса высокая (HIPAA, SOC 2, размещение данных).
Финтех и голосовой банкинг
Erica от Bank of America — главный пример, обслуживает уже более 40 млн пользователей с голосовой проверкой баланса, переводами и оплатой счетов. Capital One, Chase и Wells Fargo имеют похожих голосовых агентов в своих приложениях. Общий паттерн: голос — для запросов, тач-подтверждение — для транзакций. PCI-скоп плюс риск дипфейков делают голосовую авторизацию платежей неоправданной.
Автомобильная отрасль и хендс-фри
Cerence AI (выделенное автомобильное подразделение Nuance), Android Auto с Gemini, CarPlay с Siri. Автомобили модельного года 2026 всё чаще выходят со встроенным голосом, и мобильная версия приложения обязана аккуратно стыковаться через медиа- и messaging-интенты CarPlay и Android Auto. Если ваше приложение работает в машине, voice-first режим фактически обязателен.
Доступность и инклюзия
Голос — самый ясный мультипликатор доступности на мобильном. В США в 2025 году подано более 5000 исков по ADA — это рост примерно на 20% год к году. Приложения с пользователями с ограничениями моторики или зрения напрямую выигрывают от voice-first режима — и это одна из немногих фич, где аргумент инклюзивного дизайна и коммерческий аргумент полностью совпадают.
Фитнес и велнес
Peloton добавил голосовые команды в свой iOS-приложение в 2024 году. Strava, Nike Run Club и Apple Fitness+ поддерживают голосовой триггер и озвучку. Сценарий подходит к медиуму: середина тренировки, руки мокрые, телефон пристёгнут к предплечью — голос остаётся единственной рабочей модальностью.
Диктовка и продуктивность
Голосовой ввод Gboard покрывает более 900 языков. Otter и Rev поставляют приложения с транскрипцией в реальном времени. Willow — новый игрок — продвигает идею набора в четыре раза быстрее за счёт гибрида «голос + тактильная клавиатура». Голосовая продуктивность — зрелая категория; дифференциатор давно не точность ASR, а постобработка: пунктуация, форматирование, разделение спикеров, перевод.
Мини-кейс: гибридный голос в React Native приложении для продуктивности
Контекст: североамериканский SaaS-продукт для продуктивности с ~450 тыс. активных мобильных пользователей попросил добавить голосовой захват заметок встреч в существующее React Native приложение. Требования: офлайн в самолёте, многоязычность для европейской команды, ощущаемая задержка меньше секунды и никакой смены категории в App Store, которая запустила бы повторное ревью.
Что мы выкатили:
- Гибридный ASR — Apple SpeechAnalyzer и Android SpeechRecognizer on-device по умолчанию; облачный фолбэк на Deepgram Nova-3, когда пользователь включает многоязычный режим.
- whisper.cpp small.en в виде загружаемого ассета для офлайна; запускается только при явном включении «офлайн-захвата».
- Claude Sonnet 4.6 с function-calling схемой для постобработки (форматирование, саммари, извлечение action items, привязка к нужной заметке).
- Потоковый UI — частичные обновления транскрипта каждые 150 мс, видимая волновая форма, чёткие переходы состояний «Слушаю» / «Обрабатываю».
- Редизайн UX разрешений — пре-прайм микрофона и распознавания речи с пояснением в один абзац и кнопкой «Не сейчас». Доля согласий выросла с 58% до 83%.
- App Intents и App Actions — «Привет, Siri, запиши заметку в [AppName]» и «Окей, Google, сделай заметку встречи» работают с экрана блокировки.
Замеренные результаты, 90 дней после запуска:
- На голосе создавалось ~38% всех новых заметок на iOS и ~31% на Android (с нуля).
- Медианная end-to-end задержка от «закончил говорить» до отформатированной заметки: ~850 мс on-device, ~1,3 с в облаке.
- Ревью App Store пройдено с первой подачи. Ноль отклонений по приватности.
- Срок проекта от старта до v1 в продакшене: 10 недель, включая 2 недели стресс-тестирования.
Детали анонимизированы по просьбе заказчика. Эта архитектура стала шаблоном для каждого мобильного голосового проекта, который мы оценивали с тех пор.
5 ловушек, которые убивают мобильные голосовые проекты
1. Запуск голоса без потокового UI
Если пользователь что-то сказал и приложение замолкло на две секунды, он решит, что всё сломалось. Всегда показывайте волну, частичный транскрипт или хотя бы спиннер. Ощущаемая задержка — это и есть фича.
2. Свободный микрофон у LLM
Открытые текстовые ответы LLM на мобильном голосе медленные, дорогие и периодически галлюцинируют. Держите LLM на function calling с enum-интентами. Если нужен длинный ответ, шаблонизируйте его и пусть LLM заполняет слоты.
3. Игнорирование CarPlay и Android Auto
Пользователи, которые в обычной жизни используют голос в вашем приложении 10% времени, в машине используют его 90% времени. Если приложение не отвечает на голосовые интенты CarPlay и Android Auto, вы выпускаете половину голосовой фичи.
4. Недокументированные потоки данных
Самой частой причиной отклонения голосовых приложений в App Store и Google Play в 2025 году было неполное раскрытие приватности — сторонний ASR SDK отправляет аудио наружу, и это не отражено в App Privacy / Data Safety. Автоматизируйте аудит. Проверяйте документацию по потокам данных у каждого SDK до подачи.
5. Отсутствие плана на отказ
Голос отказывает. Сеть падает. Транскрипт ломается. Пользователь не знает, что сказать. Любой голосовой фиче нужен изящный путь обратно к тач-UI: кнопка «введите вручную», подсказка «повторите», возможность «нажмите, чтобы отменить». Приложения без сценариев на отказ теряют пользователей на каждой запинке.
Полностью on-device голос имеет смысл, когда: приложение работает с регулируемыми данными (HIPAA, PCI), целевой рынок имеет жёсткие требования к размещению данных (ЕС, Швейцария, Бразилия) или сценарий требует надёжности в самолёте, тоннеле и сельской местности. Облако — по умолчанию; on-device — правильный ответ для значимого меньшинства, и это меньшинство растёт.
KPI: как понять, что голосовая фича работает
Три блока. Снимайте все с первого дня.
Качество
- WER на реальном пользовательском аудио — цель <10% после phrase biasing.
- Точность интента — цель >95%; частота ложного срабатывания <0,5%.
- Медианная end-to-end задержка — <1000 мс для команд; <1500 мс для диалога.
- Частота повторов — доля сессий, где пользователь переформулировал. Цель <15%.
Внедрение
- Voice DAU — доля ежедневно активных пользователей, которые воспользовались голосом.
- Доля согласий на разрешения — какой процент пользователей дал доступ к микрофону и распознаванию.
- Доля фичи — какой процент целевых задач (захват заметки, поиск, заказ, повторный заказ) выполняется голосом, а не тачем.
- Прирост retention — когортный retention голосовых пользователей против остальных.
Комплаенс и надёжность
- Частота отклонений в App Store / Google Play — цель ноль по голосу.
- Захват согласий — доля голосовых сессий с зафиксированным согласием там, где оно требуется.
- Пройденные тесты failover — ежемесячный chaos-тест облачных ASR, LLM и TTS-фолбэков.
- Время реакции на право удаления — цель <30 дней (GDPR), <45 дней (CCPA).
Когда НЕ нужно добавлять голос в мобильное приложение
Честный список. Пять сценариев, где голос — неверный ответ.
- Плотный ввод данных с жёсткой валидацией — налоговые формы, многополевой поиск. Голос повышает ошибку на числовом вводе. Тач лучше.
- Чувствительные к приватности действия в публичных местах — диктовать номер карты в переполненной электричке. Пользователи откажутся, даже если технически всё работает.
- Сценарии в один экран и одно нажатие — если задача решается одним тапом, голос медленнее.
- Низкоиспользуемые функции — если у целевой фичи 200 пользователей в месяц, цена голосовой инженерии превышает пользу. Берите более крупную поверхность.
- Юрисдикции без чёткого биометрического закона — если фича требует голосовой биометрии, а биометрический режим целевого рынка не устоялся, подождите, пока правовая картина прояснится.
Фреймворк принятия решений — выбираем стек за пять вопросов
Любой мобильный голосовой RFP, который мы оценивали, сворачивается к этим пяти вопросам. Ответы выбирают стек.
- Какая из пяти голосовых возможностей вам действительно нужна? Диктовка, команды, поиск, разговорный агент или биометрия. Не заявляйте сразу две.
- Офлайн — жёсткое требование? Если да → Apple Speech / Gemini Nano / whisper.cpp. Если нет → Deepgram / Chirp / OpenAI Realtime в облаке.
- Сколько языков? Топ-10 → on-device хватит. 20 + → облако через Chirp 3 или Whisper API.
- Закрытая грамматика или открытый диалог? Команды / поиск → маленький классификатор без LLM. Диалог → LLM с function calling (Sonnet 4.6, GPT-4o или on-device Apple Intelligence / Gemini Nano).
- Какие режимы комплаенса применимы? HIPAA → вендоры с BAA + где возможно on-device. PCI → изолированный путь для голосовых платежей. GDPR → размещение данных в ЕС. BIPA → письменное согласие и политика хранения. Закладывайте это в день первый.
Сценарий интеграции: путь на 8–12 недель
Что мы реально поставляем, когда заказчик берёт нас на мобильную голосовую фичу. Сроки — для существующих iOS- и Android-приложений с бэкендом; green-field проекты прибавляют 2–3 недели.
| Недели | Фаза | Артефакты |
|---|---|---|
| 1 | Исследование и архитектура | Скоупинг сценариев, карта юрисдикций, выбор стека, вайрфреймы UX и разрешений, DPIA, где применимо |
| 2–3 | Фундамент | Захват аудио, VAD, UX разрешений, декларации App Privacy и Data Safety, каркас фича-флагов |
| 4–5 | ASR-слой | On-device интеграция (Apple Speech / Android SpeechRecognizer), потоковое облако-фолбэк (Deepgram / Chirp), UI волны |
| 6–7 | Интенты и выполнение | LLM с function calling, классификатор интентов, обработчики действий, сценарии фолбэка |
| 8 | TTS и системная интеграция | Потоковый TTS, App Intents / App Actions, хуки CarPlay / Android Auto, регистрация в Siri / Assistant |
| 9 | Комплаенс и аудит | Сценарии согласия, аудит-лог, таймеры удержания, инструменты для права удаления, тексты раскрытия ИИ |
| 10 | Стресс-тест и тюнинг | Бета на реальном трафике, замер WER, phrase biasing, KPI-дашборд, подготовка к подаче в магазины |
| 11–12 | Подача и запуск | Подача в App Store / Google Play, ответы ревьюерам, поэтапная раскатка, дежурный runbook, ML-ops по дрифту |
Наш парный с ИИ инженерный процесс сжимает недели 4–7 примерно на 30% по сравнению с командой без ИИ. LLM сильнее всего вытягивает шаблонную интеграцию — обвязку SDK, permission-строки, тестовую обвязку, а не архитектурные решения.
Готовы оценить объём работ?
Приходите со своим приложением, целевым сценарием и юрисдикциями. Мы вернёмся с оценённым планом за 5 рабочих дней.
Куда движется мобильный голос в 2026–2027 годах
Четыре тренда, под которые стоит планировать.
Speech-to-speech схлопывает пайплайн
gpt-realtime у OpenAI и нативное аудио у Gemini полностью пропускают каскад ASR → LLM → TTS. End-to-end задержка падает до 200–300 мс «голос-в-голос», просодия заметно улучшается. Расплата — меньше контроля над транскриптом и пайплайном интентов. Хорошо для диалоговых фич, хуже для критичных к безопасности или плотных по комплаенсу.
On-device LLM становятся реально юзабельными
Apple Intelligence, Gemini Nano, квантизированные Llama 3.3 и Mistral Small 3 через MLC или llama.cpp — всё это помещает в карман реальную модель на 3B–8B параметров. Для ограниченных голосовых фич (команды, короткие запросы, саммари) телефон перестаёт нуждаться в облаке вообще. Приватность лучше, задержка лучше, стоимость взаимодействия — ноль.
App Intents / App Actions становятся каналом дистрибуции
Siri и Gemini поднимают ваши голосовые действия на уровень системы. Приложения, которые декларируют богатые App Intents и App Actions, всплывают в поверхности ассистента; те, что не декларируют, выпадают из нового слоя взаимодействия. Победители уже инвестируют сюда.
Voice-first для AR и носимых
Vision Pro, Meta Orion, умные очки — у всех голос как основной ввод. Мобильные приложения, которые в 2026 году выпустят чистый голосовой интерфейс, окажутся подготовленными к AR-интерфейсам 2027–2028 годов. Остальные будут спешно ретрофитить.
FAQ
Насколько точно on-device распознавание речи в 2026 году?
Apple SpeechAnalyzer и Android SpeechRecognizer (с Gemini Nano) обычно дают 6–12% WER на чистой речи в топовых языках — этого достаточно для большинства сценариев команд и диктовки и близко к облачной точности. Whisper small.en on-device показывает ~95% точности на чистом английском; более крупные модели (medium, large-v3-turbo) дотягивают до облачного уровня, но стоят 500 МБ–1,5 ГБ места.
Сколько стоит голосовой ASR на пользователя в месяц?
Цены облачного потокового ASR лежат в диапазоне 0,2–0,7 ₽ за минуту. Типичный пользователь потребительского приложения, говорящий три минуты в день, обходится в 20–67 ₽ в месяц только по ASR. On-device ASR бесплатен. Вызовы LLM для интентов добавляют ещё 3–22 ₽ в месяц на типовых объёмах. Закладывайте 37–150 ₽ на голосового MAU за полный стек.
Apple или Google могут заблокировать сторонние голосовые SDK?
Маловероятно — но обе платформы требуют декларировать сторонние потоки данных в App Privacy / Data Safety. Пока декларация точна, а вендор SDK имеет защитимую позицию по приватности, согласование проходит рутинно. Проблема в недостоверной декларации, а не в самом использовании сторонних решений.
Использовать Realtime API от OpenAI или собирать свой пайплайн?
Берите Realtime API для диалоговых фич, где важна просодия «голос-в-голос», а транскрипт вторичен. Собирайте свой пайплайн ASR + LLM + TTS, когда транскрипт нужен для комплаенса, специфический словарь — для phrase biasing, а гибкость — чтобы микшировать вендоров по цене или для резервирования. Большинство продакшен-приложений делает и то, и другое: Realtime — на диалогового агента, кастомный пайплайн — на диктовку и поиск.
Как обрабатывать многоязычных пользователей?
Для 20 + языков облако по-прежнему правильный путь. Google Chirp 3 покрывает 100 + языков с автоопределением; Deepgram Nova-3 — топ-30 в продакшен-качестве; OpenAI Whisper — 99 языков с хорошей точностью, но более высокой задержкой. Закладывайте хранение языковых предпочтений и значения по умолчанию из локали устройства.
Стоит ли вкладываться в голос для B2B-приложения с менее чем 10 тыс. пользователей?
Иногда. Если целевой процесс с занятыми руками (выездной сервис, клиника, склад), голос становится мультипликатором удержания даже при малом масштабе. Если процесс — чистый ввод данных за столом, тач побеждает. Спросите: какой процент пользователей в условиях, где они не могут печатать? Если больше 20%, голос окупит инженерные затраты.
Что чаще всего становится причиной отклонения голосовых приложений в App Store?
Guideline 5.1.1 — сбор данных и приватность. Конкретно: отсутствие или размытость permission-строк, отсутствие или неточность записей в App Privacy и недостаточное раскрытие потоков данных у сторонних SDK. Ревьюеры смотрят на это в первую очередь. Подавайтесь с точными декларациями и понятным пояснением в приложении перед каждым промптом разрешения.
Сколько занимает мобильная голосовая интеграция?
8–12 недель на фичу (например, голосовой захват или голосовой поиск) в существующем iOS- и Android-приложении. 14–18 недель на полноценного voice-first разговорного агента с комплаенс-нагрузкой (HIPAA / PCI / размещение в ЕС). Green-field voice-first приложения добавляют 2–3 недели на каркас приложения.
Что почитать дальше
Смежная тема
Распознавание речи на базе ИИ для домофонов
Голосовой стек, когда мишень — панель на двери, а не телефон в кармане: другие ограничения, та же основа.
Глубокое погружение
Одновременный перевод на базе ИИ
Архитектура живого многоязычного голоса — напрямую применимо к многоязычной мобильной диктовке и агентам.
Дополнение
Гид по AI-платформе стриминга
Как масштабируются архитектуры аудио- и видеостриминга в реальном времени — каркас любой серьёзной voice-first мобильной разработки.
По теме
Видеонаблюдение на базе ИИ
Где голос встречается с видео в физической безопасности — полезный контекст для голосовых приложений, которые работают с камерами.
Услуги
Услуги Фора Софт
Полное меню работ Фора Софт по аудио, видео и ИИ в реальном времени.
Итоги
Распознавание речи в мобильных приложениях уже не дифференциатор — это базовая ставка в категориях, где пользователи свободны от рук хотя бы 10% времени. Стек 2026 года готов: Apple SpeechAnalyzer и Gemini Nano — для приватного on-device распознавания; Deepgram Nova-3, Chirp 3 и OpenAI Realtime — для облачного стриминга продакшен-уровня; ElevenLabs и on-device TTS — для ответа; App Intents и App Actions — для системной дистрибуции.
Успешные голосовые фичи отличаются от заброшенных не выбором модели, а дисциплиной задержки, UX разрешений, планированием комплаенса и проектированием путей отказа. Заложите всё это в первый день.
Если этот гайд совпал с тем, куда ведёт ваш roadmap, свяжитесь с Фора Софт — и за неделю мы вернёмся с оценённым планом.

