
Главное
• Пять движков закрывают 95% реальных проектов. Deepgram Nova-3, OpenAI gpt-4o-transcribe, Speechmatics Ursa 2, Google Chirp 2 и Azure AI Speech — единственные AI-сервисы распознавания речи, с которых стоит начинать оценку в 2026 году.
• Одна метрика WER — неверный ориентир. Движок с 6,8% WER, который пропускает 33% имён, цен и редких слов, провалит вашу бизнес-логику. Считайте долю распознанных ключевых слов (KRR, keyword recall rate) на собственных аудиофайлах.
• Реальное время и пакетная обработка — это разные продукты. Голосовым агентам нужен стриминг с задержкой меньше 300 мс (Deepgram, Speechmatics, Azure real-time). Резюме встреч можно собирать пакетно и платить на 60–75% меньше.
• Точка окупаемости self-hosting — около 10–15 тыс. часов аудио в месяц. Ниже этого объёма платить 0,45–1,8 ₽/мин за облачный API дешевле, чем разворачивать Whisper или NVIDIA Riva на своих GPU.
• HIPAA, GDPR и резидентность данных в ЕС быстро сужают выбор. Только AWS Transcribe Medical, Azure, IBM и Deepgram подписывают BAA; для нагрузок в ЕС обычно нужен контейнеризованный on-prem или модель, развернутая в вашем VPC.
По теме: читайте наш полный гид — 3 ключевые стратегии распознавания речи в шумной среде (2026).
Почему Фора Софт написала этот гид
Мы делаем продукты с аудио и видео в реальном времени с 2005 года. Большинству таких продуктов рано или поздно требуется распознавание речи: живые субтитры в виртуальном классе, синхронный перевод в контакт-центре, расшифровка приёма у врача в телемедицинском сервисе, голосовые команды в инструменте для встреч. Мы запускали такой пайплайн больше 200 раз — в e-learning, телемедицине, видеоконференциях, вещании и корпоративных SaaS — и оценили на реальных клиентских аудиозаписях все серьёзные движки распознавания речи на рынке.
Один из этих проектов, BrainCert, обслужил более 500 миллионов минут аудио в 10 дата-центрах для миллиона с лишним учеников; другой, Translinguist, обеспечивает синхронный перевод на 62 языках для Национальной службы здравоохранения Великобритании и более чем 3 000 профессиональных переводчиков. Именно эти цифры объясняют, почему в гиде на первом месте — операционные компромиссы (стоимость в масштабе, чистота диаризации, задержка стриминга), а не маркетинговые буклеты вендоров. Используйте его так же, как им пользуются наши архитекторы решений — как чек-лист, который за один день превращает «нам нужен голос в приложении» в обоснованный технический выбор.
Нужен второй взгляд на то, какой AI-сервис распознавания речи подойдёт вашему приложению?
Пришлите образец вашего аудио и требования к задержке, точности и комплаенсу. Тридцати минут хватит, чтобы сузить шортлист до двух движков.
Состояние AI-распознавания речи в 2026 году
Рынок наконец перестал гнаться за десятыми долями процента на LibriSpeech. Сегодня все серьёзные решения определяют три фактора.
1. Точность упёрлась в плато, а LLM-fused-модели его пробили. Лучшие бенчмарк-показатели 2026 года — у систем с LLM-слиянием: OpenAI gpt-4o-transcribe выдаёт около 2,46% WER на TED-LIUM, а NVIDIA Canary-Qwen и Mistral Voxtral опускают многоязычный WER ниже того уровня, на котором был Whisper-v3 в 2024. Чистый encoder-decoder ASR (Deepgram Nova-3, Speechmatics Ursa 2) по-прежнему правильный выбор для real-time-задач, потому что LLM-fused-модели работают только в пакетном режиме и медленнее.
2. Задержка стриминга стала новым водоразделом. Голосовые агенты теперь должны звучать как живой собеседник. Deepgram и Speechmatics держат сквозную p95-задержку меньше 300 мс; Azure real-time и Google Chirp ближе к 500–1 000 мс; у OpenAI Whisper и gpt-4o-transcribe реального стриминга нет вовсе. Если ваш продукт «разговаривает», эта одна цифра отсекает половину вендоров.
3. Цены расслоились. Стриминг стоит 1,12–1,8 ₽/мин. Пакет — на 60–75% дешевле: Azure batch обходится в 0,45 ₽/мин, Google Dynamic Batch на больших объёмах опускается до 0,3 ₽/мин. Стройте архитектуру вокруг пакетной обработки везде, где это допускает SLA. Сам рынок в 2025 году достиг 724 млрд ₽ и, по прогнозам, к 2030-му вырастет до 1,7 трлн ₽ (CAGR 19,1%), так что вендоры конкурируют и по цене тоже.
Ещё два макросдвига тихо перекраивают выбор вендора. Coqui AI закрылись в декабре 2025 года — сигнал о том, что чисто опенсорсный ASR потерял путь к монетизации. А IBM и Deepgram в феврале 2026-го объявили о корпоративном партнёрстве в области голосовых решений: Deepgram теперь встроен в watsonx Orchestrate — сильный сигнал, что в 2026 году Deepgram — консенсусный корпоративный выбор для real-time-голоса.
Пять движков распознавания речи, которые действительно имеют значение в 2026 году
Вендоров десятки. Реальных вариантов — пять. Начинайте выбор с этого списка; расширяйте поиск, только если конкретное ограничение (медицинский комплаенс, уже оплаченный счёт AWS, бенчмарк исследовательского уровня) этого требует.
Deepgram Nova-3 — для продакшен-голосовых агентов и распознавания на встречах в реальном времени, где важнее всего задержка меньше 300 мс и предсказуемая цена за минуту.
OpenAI gpt-4o-transcribe — для пакетной расшифровки, где важна только точность, а одну-две секунды ожидания можно себе позволить.
Speechmatics Ursa 2 — для задач, где критичны точность, многоязычность и качество диаризации: юриспруденция, медицина, вещательные субтитры — везде, где ошибка в идентификации спикера стоит реальных денег.
Google Cloud Chirp 2 — для пакетных многоязычных нагрузок по цене (Dynamic Batch — самый дешёвый облачный вариант за минуту) и для команд, которые уже сидят на GCP.
Microsoft Azure AI Speech — для корпоративной IT-инфраструктуры на Azure, задач с кастомным словарём и HIPAA-нагрузок, где корпоративный BAA от Microsoft уже закрывает комплаенс.
OpenAI Whisper и gpt-4o-transcribe
Whisper в опенсорс-варианте по-прежнему дефолтная отправная точка для прототипов. Хостируемый API стоит 0,45 ₽/мин, поддерживает 99 языков и держит около 10,6% WER на шумном реальном аудио. Новый gpt-4o-transcribe (март 2025-го) стоит столько же и примерно в четыре раза точнее — около 2,46% WER на TED-LIUM, — но он только пакетный, поэтому задержка составляет 1–2 секунды на запрос, а стриминг-эндпоинта нет.
Зачем брать
Лучшая в классе пакетная точность по минимальной публичной цене за минуту. Легко интегрируется тем же SDK, который вы уже используете для GPT-4o. Опенсорс-веса для self-hosting (Whisper-v3, Whisper-large-v3-turbo) выкладываются на Hugging Face и через faster-whisper.
Ограничения
Реального стриминга нет. Нет встроенной диаризации — её добавляют отдельно через Pyannote или NeMo. Пунктуация и форматирование сущностей слабее, чем у AssemblyAI или Deepgram. По умолчанию не подходит под HIPAA: OpenAI предлагает соглашение о нулевом хранении данных (ZDR), но BAA на стандартных тарифах не подписывает.
Выбирайте OpenAI, когда: нужна максимальная точность по минимальной цене, бюджет задержки больше 1 секунды, диаризация не нужна, пакетная нагрузка с преобладанием английского или одним из 99 языков (расшифровки подкастов, субтитры к видео, наполнение базы знаний).
Deepgram Nova-3
Nova-3 — движок, на котором в 2026 году в итоге работает большинство продакшен-голосовых агентов. Deepgram сообщает о медианном WER в продакшене 5,26–6,84%, улучшении на 54,2% над Whisper в стриминг-бенчмарках, поддерживает более 40 языков и держит задержку стриминга меньше 300 мс. Есть доменно-настроенные модели (Nova-3 Medical, Nova-3 Phonecall) — на аудио из здравоохранения и контакт-центров они заметно опережают общую модель.
Зачем брать
Самая низкая сквозная задержка стриминга среди облачных API. Встроенная диаризация, умное форматирование, определение языка, кастомный словарь. Подходит под HIPAA (BAA доступен). Интеграция с IBM watsonx, объявленная в феврале 2026 года, делает Deepgram безопасным корпоративным выбором.
Ограничения
Цены через отдел продаж, на сайте их нет: ориентируйтесь примерно на 0,93–1,35 ₽/мин за стриминг, при согласованных коммитах — ниже. Меньше языков, чем у Google или Azure. Нет встроенного режима LLM-fused для предельной пакетной точности — за этим идут к OpenAI или Speechmatics.
Выбирайте Deepgram, когда: вы строите голосового агента, живые субтитры для видеоконференций, аналитику контакт-центра в реальном времени или любой продукт, который отвечает пользователю меньше чем за секунду.
AssemblyAI Universal-2
Universal-2 даёт около 6,88% WER, но настоящее его преимущество — аудио-интеллект-стек поверх: распознавание редких слов на 24% лучше Universal-1, пунктуация и регистр на 15% точнее, числовые идентификаторы (телефоны, номера счетов) — на 21% точнее, плюс редактирование PII, анализ тональности, определение тем и AI-резюме в одном вызове API. Поддерживает 99 языков и предоставляет как пакетный, так и стриминг-эндпоинт.
Зачем брать
Если вы всё равно собираетесь прогонять расшифровку через LLM (списки дел, краткие сводки тикетов, квалификация лидов), AssemblyAI экономит вам второй вызов модели. Лучшие в категории показатели по распознаванию именованных сущностей.
Ограничения
Цены непрозрачные (по объёмным тарифам, через отдел продаж). Задержка стриминга ближе к 500–800 мс — не уровень Deepgram. Чистый WER средний по рынку — Universal-2 «достаточно хорош», а не «лучший».
Выбирайте AssemblyAI, когда: нужны расшифровка, краткое резюме, редактирование PII и анализ тональности у одного вендора, а задержка меньше 300 мс не критична.
Speechmatics Ursa 2
Speechmatics тихо лидирует по точности там, где это важно: на 25% впереди конкурентов по чистоте диаризации, на 22% ниже WER, чем у Microsoft, и на 25% ниже, чем у Whisper, на оригинальном бенчмарке Ursa; снижение WER на 18% на 50 языках в Ursa 2; и 93% точности на медицинском речевом бенчмарке, который не превзошла ни одна универсальная модель. Стриминг в реальном времени конкурентоспособен (меньше 500 мс), есть контейнеризованный on-prem-вариант.
Зачем брать
Лучшая диаризация на рынке: если расшифровка должна надёжно отвечать «кто что сказал» (юридические показания, консультации с несколькими врачами, вещательные субтитры), Speechmatics — безопасный выбор. Сильное качество на многих языках. Контейнер для on-prem-деплоя — для суверенных и ЕС-нагрузок.
Ограничения
Только корпоративные цены, готовьтесь к продажному циклу в несколько месяцев и более высокой ставке за минуту, чем у Deepgram. Список языков меньше, чем у Google. Меньше вспомогательного инструментария вокруг API.
Выбирайте Speechmatics, когда: качество диаризации, многоязычная точность или резидентность данных в ЕС/суверенных зонах — непереговариваемые требования, а бюджет — не ограничение.
Google Cloud Speech-to-Text v2 (Chirp / Chirp 2)
Chirp 2 — это многоязычная модель Google с выравниванием по LLM. Поддерживает более 125 языков — самый широкий охват на рынке, — а v2 API использует регионализованные эндпоинты для резидентности данных. Стандартный стриминг стоит 1,2 ₽/мин; Dynamic Batch снижает эту цену на 75% (до примерно 0,3 ₽/мин на объёмах) для нагрузок без жёстких требований к реальному времени — это самый дешёвый облачный вариант за минуту из тех, что мы бенчмарили.
Зачем брать
Самый дешёвый пакет на масштабе. Самый широкий список языков. Нативная интеграция с BigQuery, Vertex AI и Pub/Sub, если вы уже на GCP. Региональные эндпоинты в ЕС и APAC для резидентности.
Ограничения
Диаризация слабая на фоне Speechmatics и Deepgram. Кастомный словарь требует PhraseSets и адаптации — это больше работы, чем простая отправка списка слов в конфиге. Задержка стриминга средняя по рынку (500–1 000 мс).
Выбирайте Google, когда: нужна дешёвая асинхронная пакетная расшифровка на многих языках или вы уже платите GCP и хотите один счёт.
Microsoft Azure AI Speech
Azure AI Speech стоит 1,25 ₽/мин в режиме реального времени и 0,45 ₽/мин в пакете — одна из самых больших дельт между стримингом и пакетом на рынке (около 64%). Модели Custom Speech добавляют 90 ₽/час для real-time и 27 ₽/час для пакета. Корпоративный BAA от Microsoft покрывает HIPAA-нагрузки, поддерживается более 80 языков. Диаризация — дополнительная опция за 22 ₽/час.
Зачем брать
Самый простой путь внутри Microsoft 365 / Teams / Dynamics. Зрелые инструменты Custom Speech для дообучения на ваших расшифровках. Сильная цена за пакет для комплаенс-нагрузок.
Ограничения
Цена за стриминг — самая высокая в топ-5. Ценовые тарифы печально известны своей запутанностью — заложите день на калькулятор. Качество диаризации уступает Speechmatics.
Выбирайте Azure, когда: остальной стек на Microsoft, нужен действующий BAA, а нагрузка преимущественно пакетная с кастомным словарём.
Amazon Transcribe и Transcribe Medical
Amazon Transcribe стоит 1,8 ₽/мин как в пакете, так и в стриминге (скидки за пакет нет — это редкость в этом рынке), со снижением до 0,58 ₽/мин на объёмах больше 5 млн минут в месяц. Transcribe Medical стоит 5,6 ₽/мин — премия 3,1×, — и это единственный медицински-настроенный ASR с чистым AWS BAA. Поддерживает более 75 языков.
Зачем брать
Самая простая интеграция, если вы уже обрабатываете медиа на AWS (S3, MediaConvert, Comprehend Medical). Transcribe Medical — де-факто выбор для HIPAA-расшифровки на AWS-нагрузках.
Ограничения
Нет скидки на пакет относительно стриминга. Медицинская цена крутая. Диаризация частичная (по каналам, без кластеризации спикеров). Точность общей модели средняя по рынку и ничем не выделяется.
Выбирайте AWS Transcribe, когда: остальной стек на AWS — или вы строите HIPAA-регулируемую медицинскую расшифровку, и наличие BAA важнее цены за минуту.
Self-hosting: Whisper.cpp, faster-whisper и NVIDIA Riva
В 2026 году стоит использовать три self-host-стека. Старые варианты — Mozilla DeepSpeech, CMU Sphinx, оригинальный Coqui — все либо не поддерживаются, либо закрыты (Coqui свернулся в декабре 2025-го), их брать в новые проекты не нужно.
faster-whisper переписывает Whisper-v3 на CTranslate2 и работает примерно в 4× быстрее эталонного Whisper на том же GPU — это дефолтный опенсорсный выбор для пакетной расшифровки на одной инстансе A10 или L4. Whisper.cpp переносит ту же модель на CPU и ARM, включая телефоны — пригодится, если нужна оффлайн-расшифровка на устройстве. NVIDIA Riva — единственный серьёзный self-host-стек для стриминга в реальном времени: задержка меньше 100 мс на T4 или A10G, поддерживает кастомные акустические и языковые модели, в том же контейнере поставляются TTS и перевод.
Kaldi всё ещё работает в продакшене в крупных исследовательских лабораториях и колл-центрах, но для эксплуатации нужен выделенный инженер-речевик. Для новых продуктовых сборок в 2026 году мы Kaldi не рекомендуем.
Выбирайте self-hosting, когда: вы обрабатываете больше 10–15 тыс. часов аудио в месяц, есть жёсткое требование к резидентности данных или air-gap, либо нужен оффлайн-ASR на устройстве (мобильное, десктоп, embedded).
Сравнение AI-сервисов распознавания речи
Единое сравнение движков, которые мы оцениваем в первую очередь. Цифры взяты из публикаций вендоров или из независимых бенчмарков 2025–2026 годов.
| Движок | WER | Языки | ₽/мин стриминг | Задержка | Диаризация | Когда выбрать |
|---|---|---|---|---|---|---|
| Deepgram Nova-3 | 5,3–6,8% | 40+ | ~0,97–1,35 | <300 мс | Да | Голосовые агенты в реальном времени, живые субтитры, контакт-центр |
| OpenAI gpt-4o-transcribe | 2,46% | 99 | 0,45 | 1–2 с | Нет | Пакет, критична точность, ограниченный бюджет |
| Speechmatics Ursa 2 | ~4–5% | 50+ | Корпоративные | <500 мс | Да (лучшая) | Юриспруденция, медицина, вещательные субтитры |
| Google Chirp 2 | ~7–8% | 125+ | 1,2 / 0,3 пакет | 500–1 000 мс | Ограниченная | Самый дешёвый пакет, многоязычность, GCP-нативные проекты |
| Azure AI Speech | ~7–8% | 80+ | 1,25 / 0,45 пакет | 500–1 000 мс | Опция +22 ₽/час | Microsoft-инфраструктура, Custom Speech, HIPAA |
| AssemblyAI Universal-2 | 6,88% | 99 | По запросу | 500–800 мс | Да | Расшифровка + резюме + редакция в одном API |
| AWS Transcribe (Medical) | ~6–7% (1–10% медицинский) | 75+ | 1,8 / 5,6 медицинский | ~1 000 мс | Только по каналам | AWS-нативные проекты, HIPAA-медицина с BAA |
Хотите, чтобы эта матрица была пересчитана на вашем реальном аудио?
Пришлите нам 10 минут показательного аудио — мы прогоним его через три топовых движка и сведём WER, KRR, задержку и стоимость на одной странице.
Эталонная архитектура для распознавания речи на встречах в реальном времени
Это пайплайн, который мы разворачиваем, когда клиент просит живые субтитры, перевод в реальном времени или голосового агента поверх видеоконференц- или телемедицинского продукта. У каждого блока есть причина существовать; уберите один — и качество предсказуемо просядет.
Микрофон / аудиотрек SFU (Opus, 48 кГц моно)
|
v
[ VAD — Voice Activity Detection ]
WebRTC VAD или Silero; срезает вычисления ASR на 30–40%
|
v
[ Стриминг ASR-движок ]
Deepgram Nova-3 / Speechmatics Ursa / Azure real-time
аудиочанки 100–200 мс, p95-задержка < 300 мс
|
v
[ Диаризация и кластеризация спикеров ]
Встроенная в вендора (лучшая у Speechmatics) или Pyannote 3.x
|
v
[ Восстановление пунктуации и регистра ]
Встроено в Deepgram / AssemblyAI / Azure; иначе — проход LLM
|
v
[ Опционально: пост-обработка через LLM ]
Извлечение сущностей, списки дел, резюме (gpt-4o-mini)
|
v
[ Хранилище и поиск ]
PostgreSQL (расшифровки), pgvector (семантический поиск), Redis (live)
Webhooks: Slack, Salesforce, EHR / LMS
Три детали обычно определяют, ощущается ли пайплайн хорошо. Во-первых, детектор голосовой активности перед ASR срезает вычисления и не даёт модели галлюцинировать речь в тишине. Во-вторых, качество диаризации задаётся движком, а не пост-обработкой — правильного вендора выбирают на старте, а не латают потом. В-третьих, пунктуация важнее, чем кажется: без неё последующие LLM-резюме и поисковые запросы ломаются незаметным образом.
Для более глубокого разбора WebRTC-слоя, который кормит этот пайплайн, см. нашу заметку о том, что такое WebRTC и как он работает, а также разбор интеграции OpenAI Realtime API с WebRTC, SIP и WebSockets.
Модель затрат: 1 000 часов аудио в месяц
Рабочая цифра для SaaS на средней стадии: 1 000 часов аудио в месяц, то есть 60 000 минут. Стриминг и пакет считаем отдельно: разница в цене огромная.
| Движок | Стриминг/мес | Пакет/мес | Заметки |
|---|---|---|---|
| OpenAI gpt-4o-transcribe | — | 27 000 ₽ | Самый дешёвый точный пакет на рынке |
| Google Chirp 2 (Dynamic Batch) | 72 000 ₽ | 18 000–36 000 ₽ | Скидка 75% на пакет делает Google лидером по цене |
| Azure AI Speech | 75 000 ₽ | 27 000 ₽ | На пакете идёт вровень с OpenAI |
| Deepgram Nova-3 (оценка) | 58 500–81 000 ₽ | Договорная | Коммиты по объёму обычно снижают цену на 30–40% |
| Amazon Transcribe | 108 000 ₽ | 108 000 ₽ | Скидки за пакет нет; тариф первого уровня |
| Self-host Whisper (faster-whisper, A10G) | — | ~52 500 ₽ GPU + сопровождение | Добавляет ~750 тыс.–1,1 млн ₽ DevOps в первый год |
Из таблицы напрямую следует несколько решений. Если SLA допускает асинхронную обработку, пакет на Google или OpenAI даёт экономию в 3–6× против стриминга. Self-hosting Whisper на 1 000 часов в месяц не окупается, как только вы учитываете инженерное время и дежурства. Точка безубыточности смещается в вашу сторону на 10 000–15 000 часов в месяц — это совпадает с эмпирическим правилом в независимых разборах build-vs-buy.
Два ценовых рычага обычно снижают счёт ещё сильнее. Объёмные коммитменты на AWS Transcribe опускают цену с 1,8 ₽/мин до 0,58 ₽/мин на объёмах больше 5 млн минут в месяц — минус 68%. Годовые коммиты на Deepgram и AssemblyAI обычно открывают 30–40% скидки с прайса. Договаривайтесь до запуска, а не после.
Мини-кейс: субтитры и перевод в реальном времени в масштабе
Ситуация. Один из наших давних клиентов, BrainCert, держит виртуальный класс на WebRTC, обслуживающий более миллиона учеников в 10 дата-центрах. Когда состав преподавателей стал международным, понадобились живые субтитры на 30+ языках и перевод на лету — без изменений в существующей инфраструктуре и без срыва задержки урока в секунду.
План. За 12 недель мы провели A/B-тест трёх движков на реальном классном аудио (лекции, спикеры с акцентом, повествование при шеринге экрана). В качестве главной метрики использовали долю распознанных ключевых слов на доменных словарях (термины химии, синтаксис языков программирования, медицинская латынь), а не WER на LibriSpeech. Выбрали один движок для живых субтитров на английском, второй — для длинного хвоста менее поддерживаемых языков, и заложили слой fallback, чтобы региональный сбой никогда не убивал субтитры в живом уроке. Перевод вынесен отдельной LLM-стадией ниже по потоку, чтобы его можно было заменить без переучивания ASR-контракта.
Результат. Субтитры доставляются с воспринимаемой задержкой меньше 300 мс поверх существующего медиа-пайплайна, через который теперь прошло более 500 миллионов минут аудио. Инженерное время сократилось примерно на два месяца относительно базового сценария «возьмём AWS-сервис и выкатим» — в основном потому, что сравнительный тест выявил неожиданную слабость одного из вендоров на академической лексике. Хотите такую же оценку на собственном аудио — напишите нам.
Второй проект, Translinguist, ведёт синхронный перевод на 62 языках для Национальной службы здравоохранения Великобритании и более чем 3 000 профессиональных переводчиков. Урок там обратный BrainCert: с редкими языковыми парами и чувствительным медицинским контентом ни один вендор не покрывает всё поле, поэтому каждый язык мы направили в движок, который лучше всех показал себя именно на нём. Архитектурный паттерн — вендоро-независимый ASR-слой, языко-чувствительный роутер, перевод отдельным сервисом — теперь наш дефолтный старт для подобных задач.
Как выбрать AI-сервис распознавания речи: пять вопросов
1. Ваш бюджет задержки меньше 500 мс? Если да, поле сужается до Deepgram Nova-3, Speechmatics Ursa 2 (real-time), Azure real-time и self-hosted NVIDIA Riva. OpenAI gpt-4o-transcribe и Google Chirp 2 batch выпадают.
2. Нужна ли диаризация (кто что сказал)? Если да, по точности безопасный выбор — Speechmatics, конкурентоспособны Deepgram и AssemblyAI, а AWS / Google / Azure стоит исключить для серьёзной работы с несколькими спикерами.
3. Связаны ли вы HIPAA, GDPR или правилами суверенных данных? Если да, сужайте до вендоров, подписывающих BAA (AWS Transcribe Medical, Azure, IBM, Deepgram), и до развёртываний, удерживающих аудио в нужной зоне резидентности (контейнер Speechmatics, Riva on-prem, региональные эндпоинты GCP).
4. Сколько часов аудио в месяц в стационарном режиме? Ниже ~1 000 часов — берите самую дешёвую комбинацию стриминга/пакета, которая проходит по качеству. Между 1 000 и 10 000 — договаривайтесь о коммите по объёму. Выше 10 000–15 000 — серьёзно считайте self-hosting.
5. Английский только или много языков? Если многоязычно, дефолт — Google Chirp 2 (125+ языков), Speechmatics (50+ настроенных) или Whisper (99). Для одноязычных английских нагрузок хороших вариантов значительно больше.
Чего избегать
1. Оптимизировать чистый WER на публичном бенчмарке. Движок с 6% WER, который не слышит ваши названия продуктов, цены и номера счетов, провалится в продакшене. Меряйте долю распознанных ключевых слов (KRR) на собственном словаре — она регулярно разводит вендоров, которые на LibriSpeech выглядят одинаково.
2. Тестировать на студийно-чистом аудио. Публичные бенчмарки используют чистую речь. Продакшен-WER на 5–15 процентных пунктов хуже на шумных звонках, спикерах с акцентом и наложении голосов. Всегда прогоняйте сравнительный тест на реальных образцах, а не на докладах TED.
3. Self-hosting Whisper «ради экономии». Одна инстансе GPU плюс DevOps, мониторинг и дежурства обычно обходятся в 11 млн ₽+ в год по полной себестоимости. Точка безубыточности против облачного API — около 10 000 часов аудио в месяц; ниже этого вы платите больше за худший SLA.
4. Откладывать диаризацию до запуска. Качество диаризации задаётся ASR-вендором — её нельзя прикрутить позже без перестройки контракта между моделью и схемой расшифровки. Решайте на первом дне.
5. Считать, что облако = единый комплаенс-кейс. «Мы на Azure, значит мы под HIPAA» по умолчанию неверно. Azure BAA не распространяется автоматически на все Cognitive Services; нужно включать его на каждый сервис и проверять, какие модели в зоне действия. То же и с AWS, и с Google.
KPI после запуска
KPI качества. WER на замороженном оценочном наборе минимум из 10 000 эталонных слов; доля распознанных ключевых слов (KRR) на доменном словаре, цель — выше 95%; чистота и полнота диаризации, цель — выше 90% по обоим показателям. Пересчитывайте ежемесячно, чтобы ловить дрейф.
Бизнес-KPI. Доля решений на первом обращении или доля успешных задач для голосовых агентов (цель — выше 85%); метрики ниже по потоку, опирающиеся на расшифровку: доля принятых резюме встреч, точность авто-роутинга тикетов, корректность квалификации лидов. Это те цифры, которые на самом деле волнуют вашего CEO.
KPI надёжности. Real-time factor (RTF) ниже 0,5, чтобы ощущалось отзывчивым; среднее время до распознанной речи (MTRS) меньше 300 мс на стриминге и меньше 1 с на пакете; аптайм вендора (мерьте свой, SLA вендоров — скорее декларация); алерты по выгоранию error budget, когда WER уходит от базовой линии больше чем на 2 процентных пункта.
HIPAA, GDPR и резидентность данных
HIPAA. Голос, содержащий PHI — диагнозы, рецепты, идентификаторы, — нельзя законно передавать вендору, который не подпишет Business Associate Agreement. По состоянию на 2026 год безопасные BAA-варианты — AWS Transcribe Medical, Azure AI Speech (с BAA от Microsoft), Deepgram и IBM Watson. OpenAI подписывает ZDR-аддендумы, но полные BAA на стандартных тарифах — нет. Программа аудита HHS Phase 3 стартовала в марте 2025-го; теперь некомплаенс несёт риск проверки в добавок к риску утечки.
GDPR. Голос — это персональные данные. Нужны явное предварительное согласие, документированный срок хранения, удаление по запросу и «защита данных by design». Максимальные штрафы — до 20 млн евро или 4% мирового оборота. US-only-эндпоинты — проблема для ЕС-нагрузок: либо используйте ЕС-регион вендора (Google EU, Azure EU, Deepgram EU), либо разворачивайте контейнеризованную модель (контейнер Speechmatics, Riva on-prem) внутри ЕС-VPC.
Резидентность данных. Самый чистый паттерн для суверенных нагрузок: разверните контейнер вендора (Speechmatics или Riva) внутри своего VPC, в правильном регионе, с журналированием аудита в собственный SIEM. Ключи шифрования у вас, сырое аудио у вас — и при этом вы получаете качество модели вендора. Цена — более высокая ставка за минуту, обычно оправданная в первый же раз, когда регулятор спросит, куда ушло аудио.
Когда облачный ASR — не лучший выбор
Три сценария, в которых хостируемый API — неверный ответ. Первый — оффлайн-задачи на устройстве: iOS- или Android-приложение, которому нужно локально субтитрировать ради доступности; железо без надёжной связи; privacy-first потребительский продукт. Правильный ответ — Whisper.cpp на CPU или Whisper-large-v3-turbo через Core ML.
Второй — сверхвысокий объём за точкой безубыточности self-hosting: при более чем 10–15 тыс. часов аудио в месяц faster-whisper или Riva на собственных GPU дешевле и управляемее любого API.
Третий — суверенные и air-gapped развёртывания: оборона, разведка, отдельные госнагрузки, где никакое аудио не должно покидать среду заказчика. Контейнеризованный Speechmatics или Riva сделаны под это; облачные API — нет.
Что нас ждёт дальше
Три тренда формируют облик AI-распознавания речи к концу 2026 года. LLM-fused ASR — модели вроде NVIDIA Canary-Qwen и Mistral Voxtral, в которых акустический энкодер связан с языково-модельным декодером, поднимают многоязычную точность до 50% над Whisper-v3 на самых сложных тестах. Настоящие стриминг-голосовые модели — OpenAI должна выпустить real-time-аудиомодель в Q1 2026, что закрыло бы стриминг-разрыв с Deepgram и обнулило бы цены. Многоязычный code-switching — спанглиш, франгле и английский с акцентом наконец-то обрабатываются как полноценные входные данные, а не как крайние случаи, проседающие WER на 15–20%.
Для продуктов с голосовыми агентами, real-time-встречами и AI-конференциями наш базовый разбор архитектуры рассказывает про AI-функции, которые действительно двигают метрику, а заметка о голосовых мобильных приложениях с AI и NLP — про сторону «на устройстве».
FAQ
Какой AI-сервис распознавания речи самый точный в 2026 году?
Для пакетной расшифровки на английском сейчас лидирует OpenAI gpt-4o-transcribe — около 2,46% WER на TED-LIUM. Для реального времени и многоязычных задач Speechmatics Ursa 2 показывает лучшую диаризацию и самый сильный WER на 50+ языках. Deepgram Nova-3 — лучший баланс точности, задержки и цены для продакшен-голосовых нагрузок.
Сколько стоит AI-распознавание речи за минуту?
Публичные прайсы в 2026 году — от 0,3 ₽/мин (Google Dynamic Batch на объёмах) и 0,45 ₽/мин (OpenAI, пакет Azure) до 1,8 ₽/мин (стриминг AWS Transcribe) и 5,6 ₽/мин (AWS Transcribe Medical). Deepgram и Speechmatics торгуются за ставку индивидуально — ориентируйтесь примерно на 0,97–1,35 ₽/мин на стандартных стриминг-тарифах, меньше — при годовых коммитах.
OpenAI Whisper всё ещё лучший опенсорс-вариант?
Whisper-v3 (и large-v3-turbo) по-прежнему самый сильный опенсорсный базис. В 2026 году большинство команд запускают его через faster-whisper для пакета на GPU или Whisper.cpp для CPU и устройств. Для стриминга в реальном времени на собственной инфраструктуре NVIDIA Riva — практичнее, чем гонять Whisper в стриминг-цикле.
Какие AI-сервисы распознавания речи поддерживают HIPAA?
На 2026 год Amazon Transcribe Medical, Microsoft Azure AI Speech, IBM Watson Speech to Text и Deepgram подписывают Business Associate Agreement. OpenAI предлагает Zero Data Retention, но полные BAA на стандартных тарифах не подписывает; для Google Speech-to-Text BAA нужно явно включать в рамках Google Cloud BAA.
У какого движка самая низкая задержка стриминга?
Deepgram Nova-3 показывает самую низкую сквозную задержку стриминга среди облачных API (p95 меньше 300 мс). Speechmatics Ursa 2 идёт следом на real-time-тарифе. Azure real-time и Google Chirp 2 ближе к 500–1 000 мс. Для задержки меньше 100 мс обычно нужен self-hosted NVIDIA Riva на ко-локированном GPU.
Как оценить AI-распознавание речи на собственном аудио?
Соберите тестовый набор минимум из 100 минут показательного аудио с эталонной расшифровкой, выверенной вручную. Оценивайте каждый движок по WER, по доле распознанных ключевых слов (KRR) на доменном словаре, по чистоте диаризации и сквозной задержке. Прогоняйте одно и то же аудио через три движка, а не один. Решение принимайте по KRR плюс задержке, а не только по WER.
Каким индустриям AI-распознавание речи приносит больше всего ценности?
В нашем портфеле проектов с наибольшей отдачей работают деплои в телемедицине (клиническая документация, субтитры консультаций в реальном времени), e-learning и виртуальных классах (живые субтитры и перевод), контакт-центрах и службах поддержки (agent assist, пост-кол аналитика), юриспруденции и комплаенсе (расшифровки показаний) и видеоконференциях (резюме встреч, списки дел, доступность).
Свой ASR или API вендора?
Используйте API ниже 10 000 часов аудио в месяц. Выше этого считайте сборку честно: аренду GPU, MLOps-инженера, дежурства, переобучение моделей, регрессионное тестирование точности. Большинство команд, пытающихся «сэкономить на self-hosting Whisper», к девятому месяцу платят больше. Исключения — суверенные нагрузки, оффлайн на устройстве и команды, у которых уже есть инженер по речи в штате.
Что почитать дальше
Реализация
OpenAI Realtime API с WebRTC, SIP и WebSockets
Транспортные паттерны, которые мы используем для связывания ASR с real-time-голосовым продуктом.
Мобильная разработка
Голосовые мобильные приложения с AI и NLP
ASR и NLP на устройстве для голосовых функций iOS и Android.
Конференции
12 AI-функций видеоконференций, которые действительно важны
Где расшифровка, перевод и суммаризация дают отдачу на встречах.
База
Распознавание речи и обработка естественного языка
Как объединить ASR с NLP для голосовых команд и ассистентов.
Готовы выкатить правильный AI-сервис распознавания речи?
Если ваш продукт разговаривает с пользователями в реальном времени, начинайте с Deepgram Nova-3. Если нужна только пакетная расшифровка и пара секунд ожидания допустима, начинайте с OpenAI gpt-4o-transcribe. Если диаризация, многоязычная точность или резидентность данных в суверенной зоне непереговариваемы, начинайте со Speechmatics Ursa 2. Протестируйте все три на собственном аудио до того, как принять обязательства.
Неправильный AI-сервис распознавания речи трудно вырвать, когда вокруг него уже обвиты схема расшифровки, контракт вебхука и последующий LLM-пайплайн. Потратьте две недели на структурированный сравнительный тест сейчас — и сэкономите два квартала сожалений потом. Мы делали такой тест больше 200 раз в e-learning, телемедицине, видеоконференциях и вещании; принесите нам ограничения — и мы прогоним его за вас.
Выберите AI-сервис распознавания речи вместе с нами
Принесите ваше аудио, цель по задержке и комплаенс-ограничения. Мы вернёмся с шортлистом, моделью затрат и работающим прототипом в течение двух недель.

