AI-программа распознавания речи преобразует устную речь в текст с высокой точностью в 2025

Главное

Пять движков закрывают 95% реальных проектов. Deepgram Nova-3, OpenAI gpt-4o-transcribe, Speechmatics Ursa 2, Google Chirp 2 и Azure AI Speech — единственные AI-сервисы распознавания речи, с которых стоит начинать оценку в 2026 году.

Одна метрика WER — неверный ориентир. Движок с 6,8% WER, который пропускает 33% имён, цен и редких слов, провалит вашу бизнес-логику. Считайте долю распознанных ключевых слов (KRR, keyword recall rate) на собственных аудиофайлах.

Реальное время и пакетная обработка — это разные продукты. Голосовым агентам нужен стриминг с задержкой меньше 300 мс (Deepgram, Speechmatics, Azure real-time). Резюме встреч можно собирать пакетно и платить на 60–75% меньше.

Точка окупаемости self-hosting — около 10–15 тыс. часов аудио в месяц. Ниже этого объёма платить 0,45–1,8 ₽/мин за облачный API дешевле, чем разворачивать Whisper или NVIDIA Riva на своих GPU.

HIPAA, GDPR и резидентность данных в ЕС быстро сужают выбор. Только AWS Transcribe Medical, Azure, IBM и Deepgram подписывают BAA; для нагрузок в ЕС обычно нужен контейнеризованный on-prem или модель, развернутая в вашем VPC.

По теме: читайте наш полный гид — 3 ключевые стратегии распознавания речи в шумной среде (2026).

Почему Фора Софт написала этот гид

Мы делаем продукты с аудио и видео в реальном времени с 2005 года. Большинству таких продуктов рано или поздно требуется распознавание речи: живые субтитры в виртуальном классе, синхронный перевод в контакт-центре, расшифровка приёма у врача в телемедицинском сервисе, голосовые команды в инструменте для встреч. Мы запускали такой пайплайн больше 200 раз — в e-learning, телемедицине, видеоконференциях, вещании и корпоративных SaaS — и оценили на реальных клиентских аудиозаписях все серьёзные движки распознавания речи на рынке.

Один из этих проектов, BrainCert, обслужил более 500 миллионов минут аудио в 10 дата-центрах для миллиона с лишним учеников; другой, Translinguist, обеспечивает синхронный перевод на 62 языках для Национальной службы здравоохранения Великобритании и более чем 3 000 профессиональных переводчиков. Именно эти цифры объясняют, почему в гиде на первом месте — операционные компромиссы (стоимость в масштабе, чистота диаризации, задержка стриминга), а не маркетинговые буклеты вендоров. Используйте его так же, как им пользуются наши архитекторы решений — как чек-лист, который за один день превращает «нам нужен голос в приложении» в обоснованный технический выбор.

Нужен второй взгляд на то, какой AI-сервис распознавания речи подойдёт вашему приложению?

Пришлите образец вашего аудио и требования к задержке, точности и комплаенсу. Тридцати минут хватит, чтобы сузить шортлист до двух движков.

Позвоните нам → Напишите нам →

Состояние AI-распознавания речи в 2026 году

Рынок наконец перестал гнаться за десятыми долями процента на LibriSpeech. Сегодня все серьёзные решения определяют три фактора.

1. Точность упёрлась в плато, а LLM-fused-модели его пробили. Лучшие бенчмарк-показатели 2026 года — у систем с LLM-слиянием: OpenAI gpt-4o-transcribe выдаёт около 2,46% WER на TED-LIUM, а NVIDIA Canary-Qwen и Mistral Voxtral опускают многоязычный WER ниже того уровня, на котором был Whisper-v3 в 2024. Чистый encoder-decoder ASR (Deepgram Nova-3, Speechmatics Ursa 2) по-прежнему правильный выбор для real-time-задач, потому что LLM-fused-модели работают только в пакетном режиме и медленнее.

2. Задержка стриминга стала новым водоразделом. Голосовые агенты теперь должны звучать как живой собеседник. Deepgram и Speechmatics держат сквозную p95-задержку меньше 300 мс; Azure real-time и Google Chirp ближе к 500–1 000 мс; у OpenAI Whisper и gpt-4o-transcribe реального стриминга нет вовсе. Если ваш продукт «разговаривает», эта одна цифра отсекает половину вендоров.

3. Цены расслоились. Стриминг стоит 1,12–1,8 ₽/мин. Пакет — на 60–75% дешевле: Azure batch обходится в 0,45 ₽/мин, Google Dynamic Batch на больших объёмах опускается до 0,3 ₽/мин. Стройте архитектуру вокруг пакетной обработки везде, где это допускает SLA. Сам рынок в 2025 году достиг 724 млрд ₽ и, по прогнозам, к 2030-му вырастет до 1,7 трлн ₽ (CAGR 19,1%), так что вендоры конкурируют и по цене тоже.

Ещё два макросдвига тихо перекраивают выбор вендора. Coqui AI закрылись в декабре 2025 года — сигнал о том, что чисто опенсорсный ASR потерял путь к монетизации. А IBM и Deepgram в феврале 2026-го объявили о корпоративном партнёрстве в области голосовых решений: Deepgram теперь встроен в watsonx Orchestrate — сильный сигнал, что в 2026 году Deepgram — консенсусный корпоративный выбор для real-time-голоса.

Пять движков распознавания речи, которые действительно имеют значение в 2026 году

Вендоров десятки. Реальных вариантов — пять. Начинайте выбор с этого списка; расширяйте поиск, только если конкретное ограничение (медицинский комплаенс, уже оплаченный счёт AWS, бенчмарк исследовательского уровня) этого требует.

Deepgram Nova-3 — для продакшен-голосовых агентов и распознавания на встречах в реальном времени, где важнее всего задержка меньше 300 мс и предсказуемая цена за минуту.

OpenAI gpt-4o-transcribe — для пакетной расшифровки, где важна только точность, а одну-две секунды ожидания можно себе позволить.

Speechmatics Ursa 2 — для задач, где критичны точность, многоязычность и качество диаризации: юриспруденция, медицина, вещательные субтитры — везде, где ошибка в идентификации спикера стоит реальных денег.

Google Cloud Chirp 2 — для пакетных многоязычных нагрузок по цене (Dynamic Batch — самый дешёвый облачный вариант за минуту) и для команд, которые уже сидят на GCP.

Microsoft Azure AI Speech — для корпоративной IT-инфраструктуры на Azure, задач с кастомным словарём и HIPAA-нагрузок, где корпоративный BAA от Microsoft уже закрывает комплаенс.

OpenAI Whisper и gpt-4o-transcribe

Whisper в опенсорс-варианте по-прежнему дефолтная отправная точка для прототипов. Хостируемый API стоит 0,45 ₽/мин, поддерживает 99 языков и держит около 10,6% WER на шумном реальном аудио. Новый gpt-4o-transcribe (март 2025-го) стоит столько же и примерно в четыре раза точнее — около 2,46% WER на TED-LIUM, — но он только пакетный, поэтому задержка составляет 1–2 секунды на запрос, а стриминг-эндпоинта нет.

Зачем брать

Лучшая в классе пакетная точность по минимальной публичной цене за минуту. Легко интегрируется тем же SDK, который вы уже используете для GPT-4o. Опенсорс-веса для self-hosting (Whisper-v3, Whisper-large-v3-turbo) выкладываются на Hugging Face и через faster-whisper.

Ограничения

Реального стриминга нет. Нет встроенной диаризации — её добавляют отдельно через Pyannote или NeMo. Пунктуация и форматирование сущностей слабее, чем у AssemblyAI или Deepgram. По умолчанию не подходит под HIPAA: OpenAI предлагает соглашение о нулевом хранении данных (ZDR), но BAA на стандартных тарифах не подписывает.

Выбирайте OpenAI, когда: нужна максимальная точность по минимальной цене, бюджет задержки больше 1 секунды, диаризация не нужна, пакетная нагрузка с преобладанием английского или одним из 99 языков (расшифровки подкастов, субтитры к видео, наполнение базы знаний).

Deepgram Nova-3

Nova-3 — движок, на котором в 2026 году в итоге работает большинство продакшен-голосовых агентов. Deepgram сообщает о медианном WER в продакшене 5,26–6,84%, улучшении на 54,2% над Whisper в стриминг-бенчмарках, поддерживает более 40 языков и держит задержку стриминга меньше 300 мс. Есть доменно-настроенные модели (Nova-3 Medical, Nova-3 Phonecall) — на аудио из здравоохранения и контакт-центров они заметно опережают общую модель.

Зачем брать

Самая низкая сквозная задержка стриминга среди облачных API. Встроенная диаризация, умное форматирование, определение языка, кастомный словарь. Подходит под HIPAA (BAA доступен). Интеграция с IBM watsonx, объявленная в феврале 2026 года, делает Deepgram безопасным корпоративным выбором.

Ограничения

Цены через отдел продаж, на сайте их нет: ориентируйтесь примерно на 0,93–1,35 ₽/мин за стриминг, при согласованных коммитах — ниже. Меньше языков, чем у Google или Azure. Нет встроенного режима LLM-fused для предельной пакетной точности — за этим идут к OpenAI или Speechmatics.

Выбирайте Deepgram, когда: вы строите голосового агента, живые субтитры для видеоконференций, аналитику контакт-центра в реальном времени или любой продукт, который отвечает пользователю меньше чем за секунду.

AssemblyAI Universal-2

Universal-2 даёт около 6,88% WER, но настоящее его преимущество — аудио-интеллект-стек поверх: распознавание редких слов на 24% лучше Universal-1, пунктуация и регистр на 15% точнее, числовые идентификаторы (телефоны, номера счетов) — на 21% точнее, плюс редактирование PII, анализ тональности, определение тем и AI-резюме в одном вызове API. Поддерживает 99 языков и предоставляет как пакетный, так и стриминг-эндпоинт.

Зачем брать

Если вы всё равно собираетесь прогонять расшифровку через LLM (списки дел, краткие сводки тикетов, квалификация лидов), AssemblyAI экономит вам второй вызов модели. Лучшие в категории показатели по распознаванию именованных сущностей.

Ограничения

Цены непрозрачные (по объёмным тарифам, через отдел продаж). Задержка стриминга ближе к 500–800 мс — не уровень Deepgram. Чистый WER средний по рынку — Universal-2 «достаточно хорош», а не «лучший».

Выбирайте AssemblyAI, когда: нужны расшифровка, краткое резюме, редактирование PII и анализ тональности у одного вендора, а задержка меньше 300 мс не критична.

Speechmatics Ursa 2

Speechmatics тихо лидирует по точности там, где это важно: на 25% впереди конкурентов по чистоте диаризации, на 22% ниже WER, чем у Microsoft, и на 25% ниже, чем у Whisper, на оригинальном бенчмарке Ursa; снижение WER на 18% на 50 языках в Ursa 2; и 93% точности на медицинском речевом бенчмарке, который не превзошла ни одна универсальная модель. Стриминг в реальном времени конкурентоспособен (меньше 500 мс), есть контейнеризованный on-prem-вариант.

Зачем брать

Лучшая диаризация на рынке: если расшифровка должна надёжно отвечать «кто что сказал» (юридические показания, консультации с несколькими врачами, вещательные субтитры), Speechmatics — безопасный выбор. Сильное качество на многих языках. Контейнер для on-prem-деплоя — для суверенных и ЕС-нагрузок.

Ограничения

Только корпоративные цены, готовьтесь к продажному циклу в несколько месяцев и более высокой ставке за минуту, чем у Deepgram. Список языков меньше, чем у Google. Меньше вспомогательного инструментария вокруг API.

Выбирайте Speechmatics, когда: качество диаризации, многоязычная точность или резидентность данных в ЕС/суверенных зонах — непереговариваемые требования, а бюджет — не ограничение.

Google Cloud Speech-to-Text v2 (Chirp / Chirp 2)

Chirp 2 — это многоязычная модель Google с выравниванием по LLM. Поддерживает более 125 языков — самый широкий охват на рынке, — а v2 API использует регионализованные эндпоинты для резидентности данных. Стандартный стриминг стоит 1,2 ₽/мин; Dynamic Batch снижает эту цену на 75% (до примерно 0,3 ₽/мин на объёмах) для нагрузок без жёстких требований к реальному времени — это самый дешёвый облачный вариант за минуту из тех, что мы бенчмарили.

Зачем брать

Самый дешёвый пакет на масштабе. Самый широкий список языков. Нативная интеграция с BigQuery, Vertex AI и Pub/Sub, если вы уже на GCP. Региональные эндпоинты в ЕС и APAC для резидентности.

Ограничения

Диаризация слабая на фоне Speechmatics и Deepgram. Кастомный словарь требует PhraseSets и адаптации — это больше работы, чем простая отправка списка слов в конфиге. Задержка стриминга средняя по рынку (500–1 000 мс).

Выбирайте Google, когда: нужна дешёвая асинхронная пакетная расшифровка на многих языках или вы уже платите GCP и хотите один счёт.

Microsoft Azure AI Speech

Azure AI Speech стоит 1,25 ₽/мин в режиме реального времени и 0,45 ₽/мин в пакете — одна из самых больших дельт между стримингом и пакетом на рынке (около 64%). Модели Custom Speech добавляют 90 ₽/час для real-time и 27 ₽/час для пакета. Корпоративный BAA от Microsoft покрывает HIPAA-нагрузки, поддерживается более 80 языков. Диаризация — дополнительная опция за 22 ₽/час.

Зачем брать

Самый простой путь внутри Microsoft 365 / Teams / Dynamics. Зрелые инструменты Custom Speech для дообучения на ваших расшифровках. Сильная цена за пакет для комплаенс-нагрузок.

Ограничения

Цена за стриминг — самая высокая в топ-5. Ценовые тарифы печально известны своей запутанностью — заложите день на калькулятор. Качество диаризации уступает Speechmatics.

Выбирайте Azure, когда: остальной стек на Microsoft, нужен действующий BAA, а нагрузка преимущественно пакетная с кастомным словарём.

Amazon Transcribe и Transcribe Medical

Amazon Transcribe стоит 1,8 ₽/мин как в пакете, так и в стриминге (скидки за пакет нет — это редкость в этом рынке), со снижением до 0,58 ₽/мин на объёмах больше 5 млн минут в месяц. Transcribe Medical стоит 5,6 ₽/мин — премия 3,1×, — и это единственный медицински-настроенный ASR с чистым AWS BAA. Поддерживает более 75 языков.

Зачем брать

Самая простая интеграция, если вы уже обрабатываете медиа на AWS (S3, MediaConvert, Comprehend Medical). Transcribe Medical — де-факто выбор для HIPAA-расшифровки на AWS-нагрузках.

Ограничения

Нет скидки на пакет относительно стриминга. Медицинская цена крутая. Диаризация частичная (по каналам, без кластеризации спикеров). Точность общей модели средняя по рынку и ничем не выделяется.

Выбирайте AWS Transcribe, когда: остальной стек на AWS — или вы строите HIPAA-регулируемую медицинскую расшифровку, и наличие BAA важнее цены за минуту.

Self-hosting: Whisper.cpp, faster-whisper и NVIDIA Riva

В 2026 году стоит использовать три self-host-стека. Старые варианты — Mozilla DeepSpeech, CMU Sphinx, оригинальный Coqui — все либо не поддерживаются, либо закрыты (Coqui свернулся в декабре 2025-го), их брать в новые проекты не нужно.

faster-whisper переписывает Whisper-v3 на CTranslate2 и работает примерно в 4× быстрее эталонного Whisper на том же GPU — это дефолтный опенсорсный выбор для пакетной расшифровки на одной инстансе A10 или L4. Whisper.cpp переносит ту же модель на CPU и ARM, включая телефоны — пригодится, если нужна оффлайн-расшифровка на устройстве. NVIDIA Riva — единственный серьёзный self-host-стек для стриминга в реальном времени: задержка меньше 100 мс на T4 или A10G, поддерживает кастомные акустические и языковые модели, в том же контейнере поставляются TTS и перевод.

Kaldi всё ещё работает в продакшене в крупных исследовательских лабораториях и колл-центрах, но для эксплуатации нужен выделенный инженер-речевик. Для новых продуктовых сборок в 2026 году мы Kaldi не рекомендуем.

Выбирайте self-hosting, когда: вы обрабатываете больше 10–15 тыс. часов аудио в месяц, есть жёсткое требование к резидентности данных или air-gap, либо нужен оффлайн-ASR на устройстве (мобильное, десктоп, embedded).

Сравнение AI-сервисов распознавания речи

Единое сравнение движков, которые мы оцениваем в первую очередь. Цифры взяты из публикаций вендоров или из независимых бенчмарков 2025–2026 годов.

Движок WER Языки ₽/мин стриминг Задержка Диаризация Когда выбрать
Deepgram Nova-3 5,3–6,8% 40+ ~0,97–1,35 <300 мс Да Голосовые агенты в реальном времени, живые субтитры, контакт-центр
OpenAI gpt-4o-transcribe 2,46% 99 0,45 1–2 с Нет Пакет, критична точность, ограниченный бюджет
Speechmatics Ursa 2 ~4–5% 50+ Корпоративные <500 мс Да (лучшая) Юриспруденция, медицина, вещательные субтитры
Google Chirp 2 ~7–8% 125+ 1,2 / 0,3 пакет 500–1 000 мс Ограниченная Самый дешёвый пакет, многоязычность, GCP-нативные проекты
Azure AI Speech ~7–8% 80+ 1,25 / 0,45 пакет 500–1 000 мс Опция +22 ₽/час Microsoft-инфраструктура, Custom Speech, HIPAA
AssemblyAI Universal-2 6,88% 99 По запросу 500–800 мс Да Расшифровка + резюме + редакция в одном API
AWS Transcribe (Medical) ~6–7% (1–10% медицинский) 75+ 1,8 / 5,6 медицинский ~1 000 мс Только по каналам AWS-нативные проекты, HIPAA-медицина с BAA

Хотите, чтобы эта матрица была пересчитана на вашем реальном аудио?

Пришлите нам 10 минут показательного аудио — мы прогоним его через три топовых движка и сведём WER, KRR, задержку и стоимость на одной странице.

Позвоните нам → Напишите нам →

Эталонная архитектура для распознавания речи на встречах в реальном времени

Это пайплайн, который мы разворачиваем, когда клиент просит живые субтитры, перевод в реальном времени или голосового агента поверх видеоконференц- или телемедицинского продукта. У каждого блока есть причина существовать; уберите один — и качество предсказуемо просядет.

Микрофон / аудиотрек SFU (Opus, 48 кГц моно)
        |
        v
[ VAD — Voice Activity Detection ]
   WebRTC VAD или Silero; срезает вычисления ASR на 30–40%
        |
        v
[ Стриминг ASR-движок ]
   Deepgram Nova-3 / Speechmatics Ursa / Azure real-time
   аудиочанки 100–200 мс, p95-задержка < 300 мс
        |
        v
[ Диаризация и кластеризация спикеров ]
   Встроенная в вендора (лучшая у Speechmatics) или Pyannote 3.x
        |
        v
[ Восстановление пунктуации и регистра ]
   Встроено в Deepgram / AssemblyAI / Azure; иначе — проход LLM
        |
        v
[ Опционально: пост-обработка через LLM ]
   Извлечение сущностей, списки дел, резюме (gpt-4o-mini)
        |
        v
[ Хранилище и поиск ]
   PostgreSQL (расшифровки), pgvector (семантический поиск), Redis (live)
   Webhooks: Slack, Salesforce, EHR / LMS

Три детали обычно определяют, ощущается ли пайплайн хорошо. Во-первых, детектор голосовой активности перед ASR срезает вычисления и не даёт модели галлюцинировать речь в тишине. Во-вторых, качество диаризации задаётся движком, а не пост-обработкой — правильного вендора выбирают на старте, а не латают потом. В-третьих, пунктуация важнее, чем кажется: без неё последующие LLM-резюме и поисковые запросы ломаются незаметным образом.

Для более глубокого разбора WebRTC-слоя, который кормит этот пайплайн, см. нашу заметку о том, что такое WebRTC и как он работает, а также разбор интеграции OpenAI Realtime API с WebRTC, SIP и WebSockets.

Модель затрат: 1 000 часов аудио в месяц

Рабочая цифра для SaaS на средней стадии: 1 000 часов аудио в месяц, то есть 60 000 минут. Стриминг и пакет считаем отдельно: разница в цене огромная.

Движок Стриминг/мес Пакет/мес Заметки
OpenAI gpt-4o-transcribe 27 000 ₽ Самый дешёвый точный пакет на рынке
Google Chirp 2 (Dynamic Batch) 72 000 ₽ 18 000–36 000 ₽ Скидка 75% на пакет делает Google лидером по цене
Azure AI Speech 75 000 ₽ 27 000 ₽ На пакете идёт вровень с OpenAI
Deepgram Nova-3 (оценка) 58 500–81 000 ₽ Договорная Коммиты по объёму обычно снижают цену на 30–40%
Amazon Transcribe 108 000 ₽ 108 000 ₽ Скидки за пакет нет; тариф первого уровня
Self-host Whisper (faster-whisper, A10G) ~52 500 ₽ GPU + сопровождение Добавляет ~750 тыс.–1,1 млн ₽ DevOps в первый год

Из таблицы напрямую следует несколько решений. Если SLA допускает асинхронную обработку, пакет на Google или OpenAI даёт экономию в 3–6× против стриминга. Self-hosting Whisper на 1 000 часов в месяц не окупается, как только вы учитываете инженерное время и дежурства. Точка безубыточности смещается в вашу сторону на 10 000–15 000 часов в месяц — это совпадает с эмпирическим правилом в независимых разборах build-vs-buy.

Два ценовых рычага обычно снижают счёт ещё сильнее. Объёмные коммитменты на AWS Transcribe опускают цену с 1,8 ₽/мин до 0,58 ₽/мин на объёмах больше 5 млн минут в месяц — минус 68%. Годовые коммиты на Deepgram и AssemblyAI обычно открывают 30–40% скидки с прайса. Договаривайтесь до запуска, а не после.

Мини-кейс: субтитры и перевод в реальном времени в масштабе

Ситуация. Один из наших давних клиентов, BrainCert, держит виртуальный класс на WebRTC, обслуживающий более миллиона учеников в 10 дата-центрах. Когда состав преподавателей стал международным, понадобились живые субтитры на 30+ языках и перевод на лету — без изменений в существующей инфраструктуре и без срыва задержки урока в секунду.

План. За 12 недель мы провели A/B-тест трёх движков на реальном классном аудио (лекции, спикеры с акцентом, повествование при шеринге экрана). В качестве главной метрики использовали долю распознанных ключевых слов на доменных словарях (термины химии, синтаксис языков программирования, медицинская латынь), а не WER на LibriSpeech. Выбрали один движок для живых субтитров на английском, второй — для длинного хвоста менее поддерживаемых языков, и заложили слой fallback, чтобы региональный сбой никогда не убивал субтитры в живом уроке. Перевод вынесен отдельной LLM-стадией ниже по потоку, чтобы его можно было заменить без переучивания ASR-контракта.

Результат. Субтитры доставляются с воспринимаемой задержкой меньше 300 мс поверх существующего медиа-пайплайна, через который теперь прошло более 500 миллионов минут аудио. Инженерное время сократилось примерно на два месяца относительно базового сценария «возьмём AWS-сервис и выкатим» — в основном потому, что сравнительный тест выявил неожиданную слабость одного из вендоров на академической лексике. Хотите такую же оценку на собственном аудио — напишите нам.

Второй проект, Translinguist, ведёт синхронный перевод на 62 языках для Национальной службы здравоохранения Великобритании и более чем 3 000 профессиональных переводчиков. Урок там обратный BrainCert: с редкими языковыми парами и чувствительным медицинским контентом ни один вендор не покрывает всё поле, поэтому каждый язык мы направили в движок, который лучше всех показал себя именно на нём. Архитектурный паттерн — вендоро-независимый ASR-слой, языко-чувствительный роутер, перевод отдельным сервисом — теперь наш дефолтный старт для подобных задач.

Как выбрать AI-сервис распознавания речи: пять вопросов

1. Ваш бюджет задержки меньше 500 мс? Если да, поле сужается до Deepgram Nova-3, Speechmatics Ursa 2 (real-time), Azure real-time и self-hosted NVIDIA Riva. OpenAI gpt-4o-transcribe и Google Chirp 2 batch выпадают.

2. Нужна ли диаризация (кто что сказал)? Если да, по точности безопасный выбор — Speechmatics, конкурентоспособны Deepgram и AssemblyAI, а AWS / Google / Azure стоит исключить для серьёзной работы с несколькими спикерами.

3. Связаны ли вы HIPAA, GDPR или правилами суверенных данных? Если да, сужайте до вендоров, подписывающих BAA (AWS Transcribe Medical, Azure, IBM, Deepgram), и до развёртываний, удерживающих аудио в нужной зоне резидентности (контейнер Speechmatics, Riva on-prem, региональные эндпоинты GCP).

4. Сколько часов аудио в месяц в стационарном режиме? Ниже ~1 000 часов — берите самую дешёвую комбинацию стриминга/пакета, которая проходит по качеству. Между 1 000 и 10 000 — договаривайтесь о коммите по объёму. Выше 10 000–15 000 — серьёзно считайте self-hosting.

5. Английский только или много языков? Если многоязычно, дефолт — Google Chirp 2 (125+ языков), Speechmatics (50+ настроенных) или Whisper (99). Для одноязычных английских нагрузок хороших вариантов значительно больше.

Чего избегать

1. Оптимизировать чистый WER на публичном бенчмарке. Движок с 6% WER, который не слышит ваши названия продуктов, цены и номера счетов, провалится в продакшене. Меряйте долю распознанных ключевых слов (KRR) на собственном словаре — она регулярно разводит вендоров, которые на LibriSpeech выглядят одинаково.

2. Тестировать на студийно-чистом аудио. Публичные бенчмарки используют чистую речь. Продакшен-WER на 5–15 процентных пунктов хуже на шумных звонках, спикерах с акцентом и наложении голосов. Всегда прогоняйте сравнительный тест на реальных образцах, а не на докладах TED.

3. Self-hosting Whisper «ради экономии». Одна инстансе GPU плюс DevOps, мониторинг и дежурства обычно обходятся в 11 млн ₽+ в год по полной себестоимости. Точка безубыточности против облачного API — около 10 000 часов аудио в месяц; ниже этого вы платите больше за худший SLA.

4. Откладывать диаризацию до запуска. Качество диаризации задаётся ASR-вендором — её нельзя прикрутить позже без перестройки контракта между моделью и схемой расшифровки. Решайте на первом дне.

5. Считать, что облако = единый комплаенс-кейс. «Мы на Azure, значит мы под HIPAA» по умолчанию неверно. Azure BAA не распространяется автоматически на все Cognitive Services; нужно включать его на каждый сервис и проверять, какие модели в зоне действия. То же и с AWS, и с Google.

KPI после запуска

KPI качества. WER на замороженном оценочном наборе минимум из 10 000 эталонных слов; доля распознанных ключевых слов (KRR) на доменном словаре, цель — выше 95%; чистота и полнота диаризации, цель — выше 90% по обоим показателям. Пересчитывайте ежемесячно, чтобы ловить дрейф.

Бизнес-KPI. Доля решений на первом обращении или доля успешных задач для голосовых агентов (цель — выше 85%); метрики ниже по потоку, опирающиеся на расшифровку: доля принятых резюме встреч, точность авто-роутинга тикетов, корректность квалификации лидов. Это те цифры, которые на самом деле волнуют вашего CEO.

KPI надёжности. Real-time factor (RTF) ниже 0,5, чтобы ощущалось отзывчивым; среднее время до распознанной речи (MTRS) меньше 300 мс на стриминге и меньше 1 с на пакете; аптайм вендора (мерьте свой, SLA вендоров — скорее декларация); алерты по выгоранию error budget, когда WER уходит от базовой линии больше чем на 2 процентных пункта.

HIPAA, GDPR и резидентность данных

HIPAA. Голос, содержащий PHI — диагнозы, рецепты, идентификаторы, — нельзя законно передавать вендору, который не подпишет Business Associate Agreement. По состоянию на 2026 год безопасные BAA-варианты — AWS Transcribe Medical, Azure AI Speech (с BAA от Microsoft), Deepgram и IBM Watson. OpenAI подписывает ZDR-аддендумы, но полные BAA на стандартных тарифах — нет. Программа аудита HHS Phase 3 стартовала в марте 2025-го; теперь некомплаенс несёт риск проверки в добавок к риску утечки.

GDPR. Голос — это персональные данные. Нужны явное предварительное согласие, документированный срок хранения, удаление по запросу и «защита данных by design». Максимальные штрафы — до 20 млн евро или 4% мирового оборота. US-only-эндпоинты — проблема для ЕС-нагрузок: либо используйте ЕС-регион вендора (Google EU, Azure EU, Deepgram EU), либо разворачивайте контейнеризованную модель (контейнер Speechmatics, Riva on-prem) внутри ЕС-VPC.

Резидентность данных. Самый чистый паттерн для суверенных нагрузок: разверните контейнер вендора (Speechmatics или Riva) внутри своего VPC, в правильном регионе, с журналированием аудита в собственный SIEM. Ключи шифрования у вас, сырое аудио у вас — и при этом вы получаете качество модели вендора. Цена — более высокая ставка за минуту, обычно оправданная в первый же раз, когда регулятор спросит, куда ушло аудио.

Когда облачный ASR — не лучший выбор

Три сценария, в которых хостируемый API — неверный ответ. Первый — оффлайн-задачи на устройстве: iOS- или Android-приложение, которому нужно локально субтитрировать ради доступности; железо без надёжной связи; privacy-first потребительский продукт. Правильный ответ — Whisper.cpp на CPU или Whisper-large-v3-turbo через Core ML.

Второй — сверхвысокий объём за точкой безубыточности self-hosting: при более чем 10–15 тыс. часов аудио в месяц faster-whisper или Riva на собственных GPU дешевле и управляемее любого API.

Третий — суверенные и air-gapped развёртывания: оборона, разведка, отдельные госнагрузки, где никакое аудио не должно покидать среду заказчика. Контейнеризованный Speechmatics или Riva сделаны под это; облачные API — нет.

Три тренда формируют облик AI-распознавания речи к концу 2026 года. LLM-fused ASR — модели вроде NVIDIA Canary-Qwen и Mistral Voxtral, в которых акустический энкодер связан с языково-модельным декодером, поднимают многоязычную точность до 50% над Whisper-v3 на самых сложных тестах. Настоящие стриминг-голосовые модели — OpenAI должна выпустить real-time-аудиомодель в Q1 2026, что закрыло бы стриминг-разрыв с Deepgram и обнулило бы цены. Многоязычный code-switching — спанглиш, франгле и английский с акцентом наконец-то обрабатываются как полноценные входные данные, а не как крайние случаи, проседающие WER на 15–20%.

Для продуктов с голосовыми агентами, real-time-встречами и AI-конференциями наш базовый разбор архитектуры рассказывает про AI-функции, которые действительно двигают метрику, а заметка о голосовых мобильных приложениях с AI и NLP — про сторону «на устройстве».

FAQ

Какой AI-сервис распознавания речи самый точный в 2026 году?

Для пакетной расшифровки на английском сейчас лидирует OpenAI gpt-4o-transcribe — около 2,46% WER на TED-LIUM. Для реального времени и многоязычных задач Speechmatics Ursa 2 показывает лучшую диаризацию и самый сильный WER на 50+ языках. Deepgram Nova-3 — лучший баланс точности, задержки и цены для продакшен-голосовых нагрузок.

Сколько стоит AI-распознавание речи за минуту?

Публичные прайсы в 2026 году — от 0,3 ₽/мин (Google Dynamic Batch на объёмах) и 0,45 ₽/мин (OpenAI, пакет Azure) до 1,8 ₽/мин (стриминг AWS Transcribe) и 5,6 ₽/мин (AWS Transcribe Medical). Deepgram и Speechmatics торгуются за ставку индивидуально — ориентируйтесь примерно на 0,97–1,35 ₽/мин на стандартных стриминг-тарифах, меньше — при годовых коммитах.

OpenAI Whisper всё ещё лучший опенсорс-вариант?

Whisper-v3 (и large-v3-turbo) по-прежнему самый сильный опенсорсный базис. В 2026 году большинство команд запускают его через faster-whisper для пакета на GPU или Whisper.cpp для CPU и устройств. Для стриминга в реальном времени на собственной инфраструктуре NVIDIA Riva — практичнее, чем гонять Whisper в стриминг-цикле.

Какие AI-сервисы распознавания речи поддерживают HIPAA?

На 2026 год Amazon Transcribe Medical, Microsoft Azure AI Speech, IBM Watson Speech to Text и Deepgram подписывают Business Associate Agreement. OpenAI предлагает Zero Data Retention, но полные BAA на стандартных тарифах не подписывает; для Google Speech-to-Text BAA нужно явно включать в рамках Google Cloud BAA.

У какого движка самая низкая задержка стриминга?

Deepgram Nova-3 показывает самую низкую сквозную задержку стриминга среди облачных API (p95 меньше 300 мс). Speechmatics Ursa 2 идёт следом на real-time-тарифе. Azure real-time и Google Chirp 2 ближе к 500–1 000 мс. Для задержки меньше 100 мс обычно нужен self-hosted NVIDIA Riva на ко-локированном GPU.

Как оценить AI-распознавание речи на собственном аудио?

Соберите тестовый набор минимум из 100 минут показательного аудио с эталонной расшифровкой, выверенной вручную. Оценивайте каждый движок по WER, по доле распознанных ключевых слов (KRR) на доменном словаре, по чистоте диаризации и сквозной задержке. Прогоняйте одно и то же аудио через три движка, а не один. Решение принимайте по KRR плюс задержке, а не только по WER.

Каким индустриям AI-распознавание речи приносит больше всего ценности?

В нашем портфеле проектов с наибольшей отдачей работают деплои в телемедицине (клиническая документация, субтитры консультаций в реальном времени), e-learning и виртуальных классах (живые субтитры и перевод), контакт-центрах и службах поддержки (agent assist, пост-кол аналитика), юриспруденции и комплаенсе (расшифровки показаний) и видеоконференциях (резюме встреч, списки дел, доступность).

Свой ASR или API вендора?

Используйте API ниже 10 000 часов аудио в месяц. Выше этого считайте сборку честно: аренду GPU, MLOps-инженера, дежурства, переобучение моделей, регрессионное тестирование точности. Большинство команд, пытающихся «сэкономить на self-hosting Whisper», к девятому месяцу платят больше. Исключения — суверенные нагрузки, оффлайн на устройстве и команды, у которых уже есть инженер по речи в штате.

Реализация

OpenAI Realtime API с WebRTC, SIP и WebSockets

Транспортные паттерны, которые мы используем для связывания ASR с real-time-голосовым продуктом.

Мобильная разработка

Голосовые мобильные приложения с AI и NLP

ASR и NLP на устройстве для голосовых функций iOS и Android.

Конференции

12 AI-функций видеоконференций, которые действительно важны

Где расшифровка, перевод и суммаризация дают отдачу на встречах.

База

Распознавание речи и обработка естественного языка

Как объединить ASR с NLP для голосовых команд и ассистентов.

Готовы выкатить правильный AI-сервис распознавания речи?

Если ваш продукт разговаривает с пользователями в реальном времени, начинайте с Deepgram Nova-3. Если нужна только пакетная расшифровка и пара секунд ожидания допустима, начинайте с OpenAI gpt-4o-transcribe. Если диаризация, многоязычная точность или резидентность данных в суверенной зоне непереговариваемы, начинайте со Speechmatics Ursa 2. Протестируйте все три на собственном аудио до того, как принять обязательства.

Неправильный AI-сервис распознавания речи трудно вырвать, когда вокруг него уже обвиты схема расшифровки, контракт вебхука и последующий LLM-пайплайн. Потратьте две недели на структурированный сравнительный тест сейчас — и сэкономите два квартала сожалений потом. Мы делали такой тест больше 200 раз в e-learning, телемедицине, видеоконференциях и вещании; принесите нам ограничения — и мы прогоним его за вас.

Выберите AI-сервис распознавания речи вместе с нами

Принесите ваше аудио, цель по задержке и комплаенс-ограничения. Мы вернёмся с шортлистом, моделью затрат и работающим прототипом в течение двух недель.

Позвоните нам → Напишите нам →

  • Технологии