Лучшие сервисы распознавания речи на основе ИИ в 2026 году: как выбрать поставщика

Лучшие сервисы распознавания речи на основе AI в 2026 году: гид по выбору вендора — обложка

Главное

• Пять движков покрывают 95% реальных проектов. Deepgram Nova-3, OpenAI gpt-4o-transcribe, Speechmatics Ursa 2, Google Chirp 2 и Azure AI Speech — единственные AI-сервисы распознавания речи, с которых стоит начинать оценку в 2026 году.

• Одна метрика WER — неверный ориентир. Движок с 6,8% WER, который пропускает 33% имён, цен и редких слов, не справится с вашей бизнес-задачей. Измеряйте долю правильно распознанных ключевых слов (KRR, keyword recall rate) на ваших собственных аудиофайлах.

• Реальное время и пакетная обработка — это разные продукты. Голосовым агентам нужен стриминг с задержкой менее 300 мс (Deepgram, Speechmatics, Azure real-time). Резюме встреч можно обрабатывать пакетно и платить на 60–75% меньше.

• Точка окупаемости self-hosting — около 10–15 тыс. часов аудио в месяц. Ниже этого объёма дешевле платить 0,45–1,8 ₽/мин за облачный API, чем разворачивать Whisper или NVIDIA Riva на собственных GPU.

• HIPAA, GDPR и требования к хранению данных в ЕС быстро сужают выбор. Только AWS Transcribe Medical, Azure, IBM и Deepgram подписывают BAA; для нагрузок в ЕС обычно нужен контейнеризованный on-prem или модель, развернутая в вашем VPC.

По теме: читайте наш полный гид — 3 ключевые стратегии распознавания речи в шумной среде (2026).

Почему Фора Софт написала этот гид

Мы разрабатываем продукты с аудио и видео в реальном времени с 2005 года. Большинству таких решений рано или поздно требуется распознавание речи: живые субтитры в онлайн-уроках, синхронный перевод в колл-центрах, расшифровка приёма у врача в телемедицине, голосовые команды в инструментах для встреч. Мы реализовывали такой пайплайн более 200 раз — в e-learning, телемедицине, видеоконференциях, вещании и корпоративных SaaS — и протестировали на реальных аудиозаписях клиентов все серьёзные движки распознавания речи на рынке.

Один из этих проектов, BrainCert, обработал более 500 миллионов минут аудио в 10 дата-центрах для более чем миллиона учеников; другой, Translinguist, обеспечивает синхронный перевод на 62 языках для Национальной службы здравоохранения Великобритании и более чем 3000 профессиональных переводчиков. Именно эти цифры объясняют, почему в гиде на первом месте — операционные компромиссы (стоимость при масштабировании, качество диаризации, задержка стриминга), а не маркетинговые материалы вендоров. Используйте его так же, как наши архитекторы решений — как чек-лист, который за один день превращает «нам нужен голос в приложении» в обоснованный технический выбор.

Нужен второй взгляд на выбор AI-сервиса распознавания речи для вашего приложения?

Пришлите образец аудио и требования к задержке, точности и соответствию стандартам. Тридцати минут хватит, чтобы сузить шортлист до двух движков.

Позвоните нам → Напишите нам →

Состояние AI-распознавания речи в 2026 году

Рынок наконец перестал гнаться за десятыми долями процента на LibriSpeech. Сегодня все серьёзные решения определяют три фактора.

1. Точность достигла плато, а LLM-слиянные модели его преодолели. Лучшие результаты 2026 года — у систем с интеграцией LLM: OpenAI gpt-4o-transcribe показывает около 2,46% WER на TED-LIUM, а NVIDIA Canary-Qwen и Mistral Voxtral снижают многоязычный WER ниже уровня, которого достиг Whisper-3 в 2024 году. Чистые encoder-decoder ASR (Deepgram Nova-3, Speechmatics Ursa 2) по-прежнему остаются лучшим выбором для задач в реальном времени, поскольку LLM-слиянные модели работают только в пакетном режиме и медленнее.

2. Задержка стриминга стала новым водоразделом. Голосовые агенты теперь должны звучать как настоящий собеседник. Deepgram и Speechmatics обеспечивают сквозную p95-задержку менее 300 мс; Azure real-time и Google Chirp — около 500–1 000 мс; у OpenAI Whisper и gpt-4o-transcribe реального стриминга вообще нет. Если ваш продукт «разговаривает», эта одна цифра отсекает половину поставщиков.

3. Цены расслоились. Стриминг стоит 1,12–1,8 ₽/мин. Пакетная обработка — на 60–75% дешевле: Azure Batch обходится в 0,45 ₽/мин, а Google Dynamic Batch при больших объёмах снижается до 0,3 ₽/мин. Строить архитектуру стоит с опорой на пакетную обработку там, где это позволяет SLA. Сам рынок в 2025 году достиг 724 млрд ₽ и, по прогнозам, к 2030 году вырастет до 1,7 трлн ₽ (CAGR 19,1%), поэтому вендоры активно конкурируют и по цене.

Ещё два макросдвига тихо меняют выбор поставщика. Coqui AI закрылись в декабре 2025 года — это сигнал, что чисто открытый ASR потерял путь к монетизации. А в феврале 2026 года IBM и Deepgram объявили о корпоративном партнёрстве в области голосовых решений: Deepgram теперь интегрирован в watsonx Orchestrate — сильный сигнал, что в 2026 году Deepgram стал консенсусным корпоративным выбором для обработки голоса в реальном времени.

Пять движков распознавания речи, которые действительно важны в 2026 году

Вендоров десятки. Реальных вариантов — пять. Начинайте выбор с этого списка; расширяйте поиск, только если конкретное ограничение (медицинский комплаенс, уже оплаченный счёт AWS, бенчмарк исследовательского уровня) этого требует.

Deepgram Nova-3 — для голосовых агентов в продакшене и распознавания речи на встречах в реальном времени, где важны задержка менее 300 мс и стабильная цена за минуту.

OpenAI gpt-4o-transcribe — подходит для пакетной расшифровки, когда важна точность, а задержка в одну-две секунды допустима.

Speechmatics Ursa 2 — для задач, где важны высокая точность, поддержка нескольких языков и качественная диаризация: юриспруденция, медицина, субтитры для телевидения — везде, где ошибка в определении говорящего может стоить дорого.

Google Cloud Chirp 2 — оптимальный выбор для пакетных многоязычных задач по цене (Dynamic Batch — самый дешёвый облачный тариф за минуту) и для команд, уже использующих GCP.

Microsoft Azure AI Speech — для корпоративной IT-инфраструктуры на Azure, задач с пользовательским словарём и нагрузок, требующих соответствия HIPAA, где корпоративный BAA от Microsoft уже обеспечивает соответствие требованиям.

OpenAI Whisper и gpt-4o-transcribe

Whisper в open-source-версии по-прежнему остаётся отправной точкой для прототипов. Хостируемый API стоит 0,45 ₽/мин, поддерживает 99 языков и показывает WER около 10,6% на шумном реальном аудио. Новый gpt-4o-transcribe (март 2025) стоит столько же, но в четыре раза точнее — WER около 2,46% на TED-LIUM. Однако он работает только пакетно, из-за чего задержка составляет 1–2 секунды на запрос, а стримингового эндпоинта у него нет.

Зачем брать

Лучшая в классе точность при минимальной публичной цене за минуту. Интегрируется через тот же SDK, что вы уже используете для GPT-4o. Опенсорс-веса для self-hosting (Whisper-3, Whisper-large-3-turbo) доступны на Hugging Face и через faster-whisper.

Ограничения

Реального стриминга нет. Встроенной диаризации тоже нет — её нужно добавлять отдельно с помощью Pyannote или NeMo. Пунктуация и распознавание сущностей работают хуже, чем у AssemblyAI или Deepgram. По умолчанию сервис не соответствует требованиям HIPAA: OpenAI предлагает соглашение о нулевом хранении данных (ZDR), но стандартные тарифы не включают подписанное соглашение о обработке данных (BAA).

Выбирайте OpenAI, когда: нужна максимальная точность по низкой цене, задержка не критична (больше 1 секунды), диаризация не требуется, обработка идёт пакетами и преобладает английский или один из 99 поддерживаемых языков (например, расшифровка подкастов, создание субтитров к видео, наполнение базы знаний).

Deepgram Nova-3

Nova-3 — движок, на котором в 2026 году работает большинство продакшен-голосовых агентов. Deepgram сообщает о медианном WER в продакшене 5,26–6,84%, что на 54,2% лучше, чем у Whisper, в стриминг-бенчмарках. Поддерживает более 40 языков и обеспечивает задержку стриминга менее 300 мс. Есть доменно-специализированные модели (Nova-3 Medical, Nova-3 Phonecall) — на аудио из здравоохранения и контакт-центров они заметно превосходят общую модель.

Зачем брать

Самая низкая сквозная задержка стриминга среди облачных API. Встроенная диаризация, умное форматирование, определение языка, поддержка кастомного словаря. Совместим с HIPAA (доступен BAA). Интеграция с IBM watsonx, анонсированная в феврале 2026 года, делает Deepgram надёжным выбором для корпоративных задач.

Ограничения

Цены — только через отдел продаж, на сайте их нет: ориентировочно 0,93–1,35 ₽/мин за стриминг, при согласованных объёмах — дешевле. Поддерживается меньше языков, чем у Google или Azure. Отсутствует встроенный режим LLM-объединения для максимальной точности при пакетной обработке — для этого лучше обратиться к OpenAI или Speechmatics.

Выбирайте Deepgram, когда: вы создаёте голосового помощника, субтитры для видеоконференций, аналитику контакт-центра в реальном времени или любой продукт, который отвечает пользователю быстрее секунды.

AssemblyAI Universal-2

Universal-2 показывает WER около 6,88%, но его главное преимущество — полноценный аудио-интеллект-стек поверх: распознавание редких слов стало точнее на 24% по сравнению с Universal-1, пунктуация и регистр — на 15%, а числовые идентификаторы (например, телефоны и номера счетов) — на 21%. Кроме того, в одном вызове API доступны редактирование PII, анализ тональности, определение тем и AI-резюме. Поддерживает 99 языков и предлагает как пакетную, так и стриминговую обработку.

Зачем брать

Если вы всё равно планируете обрабатывать расшифровку с помощью LLM — например, создавать списки задач, краткие сводки по тикетам или квалифицировать лидов — AssemblyAI избавляет вас от необходимости делать второй вызов модели. У нас лучшие в отрасли показатели по распознаванию именованных сущностей.

Ограничения

Цены непрозрачные (по объёмным тарифам, через отдел продаж). Задержка стриминга — около 500–800 мс, что не соответствует уровню Deepgram. Средний чистый WER по рынку — у Universal-2 «достаточно хорош», но не «лучший».

Выбирайте AssemblyAI, когда: нужна расшифровка, краткое резюме, обработка персональных данных и анализ тональности — всё от одного поставщика, а задержка до 300 мс не важна.

Speechmatics Ursa 2

Speechmatics уверенно лидирует по точности там, где это особенно важно: на 25% выше у конкурентов по качеству диаризации, на 22% ниже WER, чем у Microsoft, и на 25% ниже, чем у Whisper, на оригинальном бенчмарке Ursa; снижение WER на 18% на 50 языках в Ursa 2; и 93% точности на медицинском речевом бенчмарке, который ни одна универсальная модель не смогла превзойти. Стриминг в реальном времени работает конкурентоспособно (задержка менее 500 мс), доступен контейнеризованный on-prem-вариант.

Зачем брать

Лучшая диаризация на рынке: если расшифровка должна точно определять, кто что сказал (юридические показания, консультации с несколькими врачами, вещательные субтитры), Speechmatics — надёжный выбор. Высокое качество на многих языках. Контейнер для развёртывания на собственных серверах — для суверенных и задач в ЕС.

Ограничения

Только корпоративные цены, ожидайте длительный цикл продаж и более высокую стоимость за минуту по сравнению с Deepgram. Поддерживается меньше языков, чем у Google. Меньше дополнительных инструментов для работы с API.

Выбирайте Speechmatics, когда: качество диаризации, точность распознавания на разных языках или хранение данных в ЕС и суверенных зонах — ключевые требования, а бюджет не является ограничением.

Google Cloud Speech-to-Text v2 (Chirp / Chirp 2)

Chirp 2 — это многоязычная модель Google, настроенная под работу с LLM. Поддерживает более 125 языков — самый широкий охват на рынке. Версия v2 API использует регионализованные эндпоинты для хранения данных в нужной юрисдикции. Стандартный стриминг стоит 1,2 ₽/мин; Dynamic Batch снижает цену на 75% (до примерно 0,3 ₽/мин при больших объёмах) для задач, где не требуется жёсткая привязка к реальному времени — это самый дешёвый облачный вариант по минутной стоимости среди протестированных нами решений.

Зачем брать

Самый доступный тариф при масштабировании. Поддержка наибольшего количества языков. Нативная интеграция с BigQuery, Vertex AI и Pub/Sub, если вы используете GCP. Региональные точки подключения в ЕС и APAC для соблюдения требований к хранению данных.

Ограничения

Диаризация работает хуже, чем у Speechmatics и Deepgram. Чтобы использовать кастомный словарь, нужны PhraseSets и дополнительная адаптация — это требует больше усилий, чем просто передать список слов в настройках. Задержка стриминга — средняя по рынку (500–1 000 мс).

Выбирайте Google, когда: нужна недорогая асинхронная пакетная расшифровка на многих языках или вы уже используете GCP и хотите объединить оплату в одном счёте.

Microsoft Azure AI Speech

Azure AI Speech стоит 1,25 ₽/мин в режиме реального времени и 0,45 ₽/мин при обработке пакетами — одна из самых больших разниц между стримингом и пакетной обработкой на рынке (около 64%). Модели Custom Speech добавляют 90 ₽/час для работы в реальном времени и 27 ₽/час для пакетной обработки. Корпоративный BAA от Microsoft покрывает требования HIPAA, поддерживается более 80 языков. Диаризация — дополнительная опция за 22 ₽/час.

Зачем брать

Самый простой способ в Microsoft 365 / Teams / Dynamics. Зрелые инструменты Custom Speech для дообучения на ваших расшифровках. Хорошая цена за пакет при комплаенс-нагрузках.

Ограничения

Цена за стриминг — самая высокая среди пяти лидеров. Ценовая политика печально известна своей запутанностью — на расчёт может уйти целый день. Качество диаризации ниже, чем у Speechmatics.

Выбирайте Azure, когда: остальной стек работает на Microsoft, требуется действующий BAA, а нагрузка в основном пакетная с использованием кастомного словаря.

Amazon Transcribe и Transcribe Medical

Amazon Transcribe стоит 1,8 ₽/мин как в пакетном режиме, так и при стриминге (скидок за объём нет — редкость на рынке), с снижением до 0,58 ₽/мин при использовании более 5 млн минут в месяц. Transcribe Medical — 5,6 ₽/мин, что в 3,1 раза дороже, и это единственный медицинский ASR с чистым AWS BAA. Поддерживает более 75 языков.

Зачем брать

Самая простая интеграция — если вы уже обрабатываете медиа на AWS (S3, MediaConvert, Comprehend Medical). Transcribe Medical — стандартный выбор для расшифровки по HIPAA в нагрузках на AWS.

Ограничения

Нет скидки на пакет по сравнению со стримингом. Цена на медицинскую версию высокая. Диаризация частичная — по каналам, без разделения по спикерам. Точность общей модели соответствует среднему уровню на рынке, особых преимуществ нет.

Выбирайте AWS Transcribe, когда: остальной стек работает на AWS — или вы создаёте медицинскую расшифровку, подлежащую регулированию HIPAA, и для вас важнее наличие соглашения о обработке данных (BAA), чем стоимость за минуту.

Self-hosting: Whisper.cpp, faster-whisper и NVIDIA Riva

В 2026 году стоит использовать три self-host-стека. Старые варианты — Mozilla DeepSpeech, CMU Sphinx, оригинальный Coqui — либо больше не поддерживаются, либо закрыты (Coqui прекратил работу в декабре 2025 года). Их не стоит использовать в новых проектах.

faster-whisper переписывает Whisper-3 на CTranslate2 и работает примерно в 4 раза быстрее стандартной версии Whisper на том же GPU — это основной открытый выбор для пакетной расшифровки на одной инстансе A10 или L4. Whisper.cpp переносит ту же модель на CPU и ARM, включая смартфоны — пригодится, если нужна оффлайн-распознавание речи прямо на устройстве. NVIDIA Riva — единственный серьёзный self-host-стек для стриминга в реальном времени: задержка меньше 100 мс на T4 или A10G, поддерживает кастомные акустические и языковые модели, а в том же контейнере поставляются TTS и перевод.

Kaldi всё ещё используется в крупных исследовательских лабораториях и колл-центрах, но для его эксплуатации требуется отдельный специалист по обработке речи. Для новых продуктовых сборок в 2026 году мы не рекомендуем использовать Kaldi.

Выбирайте self-hosting, когда: вы обрабатываете более 10–15 тыс. часов аудио в месяц, требуется строгая резидентность данных или air-gap, либо нужен оффлайн-распознавание речи на устройстве (мобильном, десктопном, embedded).

Сравнение AI-сервисов распознавания речи

Единое сравнение движков, которые мы оцениваем в первую очередь. Цифры взяты из публикаций вендоров или независимых бенчмарков 2025–2026 годов.

Движок	WER	Языки	₽/мин стриминг	Задержка	Диаризация	Когда выбрать
Deepgram Nova-3	5,3–6,8%	40+	~0,97–1,35	<300 мс	Да	Голосовые агенты в реальном времени, живые субтитры, контакт-центр
OpenAI gpt-4o-transcribe	2,46%	99	0,45	1–2 с	Нет	Пакет, критична точность, ограниченный бюджет
Speechmatics Ursa 2	~4–5%	50+	Корпоративные	<500 мс	Да (лучшая)	Юриспруденция, медицина, вещательные субтитры
Google Chirp 2	~7–8%	125+	1,2 / 0,3 пакет	500–1 000 мс	Ограниченная	Самый дешёвый пакет, поддержка нескольких языков, проекты, нативные для GCP
Azure AI Speech	~7–8%	80+	1,25 / 0,45 пакет	500–1 000 мс	Опция +22 ₽/час	Microsoft-инфраструктура, Custom Speech, HIPAA
AssemblyAI Universal-2	6,88%	99	По запросу	500–800 мс	Да	Расшифровка, резюме и редактирование в одном API
AWS Transcribe (Medical)	~6–7% (1–10% — медицинский)	75+	1,8 / 5,6 медицинский	~1 000 мс	Только по каналам	AWS-нативные проекты, медицина по стандарту HIPAA с BAA

Хотите, чтобы эта матрица была пересчитана на вашем реальном аудио?

Пришлите нам 10 минут демонстрационного аудио — мы обработаем его тремя топовыми движками и соберём на одной странице WER, KRR, задержку и стоимость.

Позвоните нам → Напишите нам →

Эталонная архитектура для распознавания речи на встречах в реальном времени

Это пайплайн, который мы запускаем, когда клиенту нужны живые субтитры, перевод в реальном времени или голосовой агент для видеоконференц- или телемедицинского сервиса. Каждый блок в нём выполняет свою задачу — уберите любой, и качество сразу снизится.

Микрофон / аудиотрек SFU (Opus, 48 кГц моно)
        |
        v
[ VAD — Voice Activity Detection ]
   WebRTC VAD или Silero; срезает вычисления ASR на 30–40%
        |
        v
[ Стриминг ASR-движок ]
   Deepgram Nova-3 / Speechmatics Ursa / Azure real-time
   аудиочанки 100–200 мс, p95-задержка < 300 мс
        |
        v
[ Диаризация и кластеризация спикеров ]
   Встроенная в вендора (лучшая у Speechmatics) или Pyannote 3.x
        |
        v
[ Восстановление пунктуации и регистра ]
   Встроено в Deepgram / AssemblyAI / Azure; иначе — проход LLM
        |
        v
[ Опционально: пост-обработка через LLM ]
   Извлечение сущностей, списки дел, резюме (gpt-4o-mini)
        |
        v
[ Хранилище и поиск ]
   PostgreSQL (расшифровки), pgvector (семантический поиск), Redis (live)
   Webhooks: Slack, Salesforce, EHR / LMS

Три детали обычно определяют, насколько хорошо работает пайплайн. Во-первых, детектор голосовой активности перед ASR отключает вычисления и не даёт модели «слышать» речь там, где её нет. Во-вторых, качество диаризации зависит от движка, а не от постобработки — правильного поставщика выбирают заранее, а не пытаются исправить ошибки потом. В-третьих, пунктуация важнее, чем кажется: без неё LLM-резюме и поисковые запросы ломаются незаметно.

Для более глубокого разбора WebRTC-слоя, который питает этот пайплайн, см. нашу заметку о том, что такое WebRTC и как он работает, а также разбор интеграции OpenAI Realtime API с WebRTC, SIP и WebSockets.

Модель затрат: 1 000 часов аудио в месяц

Рабочая цифра для SaaS на средней стадии: 1 000 часов аудио в месяц, то есть 60 000 минут. Стриминг и пакетная обработка считаем отдельно — разница в цене значительная.

Движок	Стриминг/мес	Пакет/мес	Заметки
OpenAI gpt-4o-transcribe	—	27 000 ₽	Самый дешёвый точный пакет на рынке
Google Chirp 2 (Dynamic Batch)	72 000 ₽	18 000–36 000 ₽	Скидка 75% на пакет делает Google лидером по цене
Azure AI Speech	75 000 ₽	27 000 ₽	На пакете идёт вровень с OpenAI
Deepgram Nova-3 (оценка)	58 500–81 000 ₽	Договорная	Коммиты по объёму обычно снижают цену на 30–40%
Amazon Transcribe	108 000 ₽	108 000 ₽	Скидки за пакет не предусмотрены; тариф базового уровня
Self-host Whisper (faster-whisper, A10G)	—	~52 500 ₽ GPU + сопровождение	Добавляет ~750 тыс. – 1,1 млн ₽ DevOps в первый год

Из таблицы напрямую следуют несколько выводов. Если SLA допускает асинхронную обработку, пакетная обработка через Google или OpenAI даёт экономию в 3–6 раз по сравнению со стримингом. Самостоятельный запуск Whisper на 1000 часов в месяц не окупается, если учитывать затраты на инженерное время и дежурства. Точка безубыточности смещается в вашу пользу при 10 000–15 000 часов в месяц — это совпадает с эмпирическим правилом, которое часто встречается в независимых анализах «разработка или покупка».

Два ценовых рычага обычно снижают стоимость ещё сильнее. Объёмные коммитменты на AWS Transcribe снижают цену с 1,8 ₽/мин до 0,58 ₽/мин при объёме больше 5 млн минут в месяц — это экономия 68%. Годовые коммиты на Deepgram и AssemblyAI обычно дают скидку 30–40% от прайса. Договоритесь о ценах до запуска, а не после.

Мини-кейс: субтитры и перевод в реальном времени в масштабе

Ситуация. Один из наших давних клиентов, BrainCert, проводит виртуальные уроки на WebRTC для более чем миллиона учеников в 10 дата-центрах. Когда преподавательский состав стал международным, возникла необходимость в живых субтитрах на 30+ языках и переводе в реальном времени — без изменений в существующей инфраструктуре и без увеличения задержки урока сверх одной секунды.

План. За 12 недель мы провели A/B-тест трёх движков на реальных аудиофайлах — лекциях, выступлениях с акцентом, озвучке при демонстрации экрана. Основной метрикой стала доля правильно распознанных ключевых слов из тематических словарей (термины химии, синтаксис языков программирования, медицинская латынь), а не WER на LibriSpeech. Мы выбрали один движок для живых субтитров на английском, второй — для языков с низкой поддержкой, и добавили резервный слой, чтобы сбой в одном регионе не отключал субтитры на уроке. Перевод вынесен в отдельную стадию с использованием LLM, чтобы его можно было менять без переобучения ASR-модели.

Результат. Субтитры доставляются с задержкой менее 300 мс поверх существующего медиа-пайплайна, через который уже прошло более 500 миллионов минут аудио. Инженерное время сократилось примерно на два месяца по сравнению с базовым сценарием «возьмём AWS-сервис и запустим» — в основном из-за того, что сравнительный тест выявил неожиданную слабость одного из вендоров на академической лексике. Хотите такую же оценку на своём аудио — напишите нам.

Второй проект, Translinguist, обеспечивает синхронный перевод на 62 языках для Национальной службы здравоохранения Великобритании и более чем 3 000 профессиональных переводчиков. Здесь ситуация противоположная BrainCert: из-за редких языковых пар и чувствительного медицинского контента ни один поставщик не может охватить всё. Поэтому каждый язык мы направили в тот движок, который лучше всего справляется именно с ним. Архитектурный подход — вендор-независимый ASR-слой, роутер, чувствительный к языку, и отдельный сервис перевода — теперь стал нашим стандартным решением для подобных задач.

Как выбрать сервис распознавания речи на основе ИИ: пять вопросов

1. Ваш бюджет задержки меньше 500 мс? Если да, выбор сужается до Deepgram Nova-3, Speechmatics Ursa 2 (real-time), Azure real-time и self-hosted NVIDIA Riva. OpenAI gpt-4o-transcribe и Google Chirp 2 batch не подходят.

2. Нужна ли диаризация (кто что сказал)? Если да, то по точности безопасный выбор — Speechmatics, конкурентоспособны Deepgram и AssemblyAI, а AWS, Google и Azure стоит исключить для серьёзной работы с несколькими спикерами.

3. Связаны ли вы с HIPAA, GDPR или правилами суверенных данных? Если да, выбирайте поставщиков, подписывающих BAA (AWS Transcribe Medical, Azure, IBM, Deepgram), и решения, хранящие аудио в нужной географической зоне (контейнер Speechmatics, Riva on-prem, региональные эндпоинты GCP).

4. Сколько часов аудио в месяц в стационарном режиме? Ниже ~1 000 часов — выбирайте самую дешёвую комбинацию стриминга и пакета, которая соответствует требованиям по качеству. От 1 000 до 10 000 часов — обсудите с поставщиком фиксированный объём. Выше 10 000–15 000 часов — серьёзно рассмотрите вариант self-hosting.

5. Английский или много языков? Если нужна поддержка нескольких языков, по умолчанию можно выбрать Google Chirp 2 (поддержка 125+ языков), Speechmatics (50+ настроенных) или Whisper (99 языков). Для одноязычных задач на английском языке вариантов гораздо больше.

Чего избегать

1. Оптимизировать чистый WER на публичном бенчмарке. Движок с 6% WER, который не распознаёт названия продуктов, цены и номера счетов, провалится в реальной эксплуатации. Измеряйте долю правильно распознанных ключевых слов (KRR) на собственном словаре — этот показатель часто выявляет разницу между вендорами, которые на LibriSpeech выглядят одинаково.

2. Тестировать на студийно-чистом аудио. Публичные бенчмарки используют чистую речь. На шумных звонках, у спикеров с акцентом и при наложении голосов производительность в реальных условиях (продакшен-WER) оказывается на 5–15 процентных пунктов хуже. Всегда проводите сравнительные тесты на реальных данных, а не на выступлениях с конференций вроде TED.

3. Self-hosting Whisper «ради экономии». Один GPU-под, плюс DevOps, мониторинг и дежурства обычно обходятся в 11 млн ₽+ в год по полной себестоимости. Точка безубыточности по сравнению с облачным API — около 10 000 часов аудио в месяц; ниже этого порога вы платите больше за худший SLA.

4. Откладывать диаризацию до запуска. Качество диаризации зависит от ASR-провайдера — её нельзя добавить потом без изменения контракта между моделью и схемой расшифровки. Это нужно решить с самого начала.

5. Считать, что облако = единый комплаенс-кейс. «Мы на Azure, значит мы под HIPAA» — по умолчанию неверно. Azure BAA автоматически не распространяется на все Cognitive Services; его нужно включать для каждого сервиса отдельно и проверять, какие модели попадают в зону действия. То же самое касается AWS и Google.

KPI после запуска

KPI качества. WER на замороженном оценочном наборе — не менее 10 000 эталонных слов; доля распознанных ключевых слов (KRR) на доменном словаре — цель выше 95%; чистота и полнота диаризации — цель выше 90% по каждому показателю. Пересчитывайте ежемесячно, чтобы вовремя замечать дрейф.

Бизнес-метрики. Доля решений с первого обращения или доля успешных задач для голосовых агентов (цель — выше 85%); показатели по цепочке: доля принятых заявок на встречи, точность автоматического направления тикетов, правильность квалификации лидов. Эти цифры действительно важны для вашего CEO.

KPI надёжности. Real-time factor (RTF) должен быть ниже 0,5 — тогда система будет ощущаться отзывчивой; среднее время до распознанной речи (MTRS) — меньше 300 мс при стриминге и меньше 1 секунды при обработке пакетов; аптайм вендора (измеряйте свой, SLA у поставщиков — скорее формальность); алерты по расходу error budget, если WER отклоняется от базового уровня более чем на 2 процентных пункта.

HIPAA, GDPR и резидентность данных

HIPAA. Голос, содержащий PHI — диагнозы, рецепты, идентификаторы — нельзя законно передавать вендору, который не подпишет Business Associate Agreement. По состоянию на 2026 год безопасные варианты с BAA — AWS Transcribe Medical, Azure AI Speech (с BAA от Microsoft), Deepgram и IBM Watson. OpenAI подписывает ZDR-аддендумы, но полные BAA на стандартных тарифах не предоставляет. Программа аудита HHS Phase 3 стартовала в марте 2025 года; теперь нарушение требований несёт не только риск утечки, но и проверку со стороны регулятора.

GDPR. Голос — это персональные данные. Требуется явное предварительное согласие, чётко прописанный срок хранения, возможность удаления по запросу и «защита данных по умолчанию». Максимальные штрафы — до 20 млн евро или 4% мирового оборота. Эндпоинты, работающие только в США, не подходят для нагрузки из ЕС: либо используйте регион вендора в ЕС (Google EU, Azure EU, Deepgram EU), либо разверните контейнеризованную модель (например, контейнер Speechmatics или Riva on-prem) внутри VPC в ЕС.

Резидентность данных. Самый чистый подход для суверенных нагрузок: разверните контейнер вендора (Speechmatics или Riva) внутри своего VPC, в нужном регионе, с передачей логов аудита в собственный SIEM. Ключи шифрования — у вас, исходное аудио — у вас. При этом вы получаете качество модели от вендора. Стоимость выше — больше платят за минуту обработки, но это обычно окупается уже после первого запроса регулятора: куда делось аудио.

Когда облачный ASR — не лучший выбор

Три сценария, в которых хостируемый API — не лучший выбор. Первый — оффлайн-задачи на устройстве: iOS- или Android-приложение, которому нужно локально добавлять субтитры для доступности; устройство без стабильного интернета; продукт, ориентированный на конфиденциальность. Правильный выбор — Whisper.cpp на CPU или Whisper-large-3-turbo через Core ML.

Второй — сверхвысокий объём за точкой безубыточности self-hosting: при более чем 10–15 тыс. часов аудио в месяц faster-whisper или Riva на собственных GPU дешевле и проще в управлении, чем любой API.

Третий — суверенные и air-гapped развёртывания: оборона, разведка, отдельные госнагрузки, где никакое аудио не должно покидать среду заказчика. Контейнеризованные Speechmatics или Riva подходят для таких задач; облачные API — нет.

Что нас ждёт дальше

Три тренда формируют облик AI-распознавания речи к концу 2026 года. LLM-фьюзед ASR — модели вроде NVIDIA Canary-Qwen и Mistral Voxtral, в которых акустический энкодер соединён с декодером языковой модели, повышают многоязычную точность на 50% по сравнению с Whisper v3 на самых сложных тестах. Настоящие стриминговые голосовые модели — OpenAI должна выпустить модель для реального времени в первом квартале 2026 года, что сократит разрыв со стримингом у Deepgram и приведёт к обнулению цен. Многоязычный code-switching — спанглиш, франгле и английский с акцентом теперь обрабатываются как полноценные входные данные, а не как редкие случаи, из-за которых WER ухудшается на 15–20%.

Для продуктов с голосовыми агентами, real-time-встречами и AI-конференциями наш базовый разбор архитектуры рассказывает об AI-функциях, которые реально влияют на метрики, а заметка о голосовых мобильных приложениях с AI и NLP — о работе «на устройстве».

FAQ

Какой AI-сервис распознавания речи самый точный в 2026 году?

Для пакетной расшифровки на английском языке сейчас лидирует OpenAI gpt-4o-transcribe — около 2,46% WER на TED-LIUM. Для задач в реальном времени и с поддержкой множества языков Speechmatics Ursa 2 демонстрирует лучшую диаризацию и наименьший WER на 50+ языках. Deepgram Nova-3 — оптимальный выбор по соотношению точности, задержки и стоимости для голосовых нагрузок в продакшене.

Сколько стоит AI-распознавание речи за минуту?

Публичные цены в 2026 году — от 0,3 ₽/мин (Google Dynamic Batch на больших объёмах) и 0,45 ₽/мин (OpenAI, пакет Azure) до 1,8 ₽/мин (стриминг AWS Transcribe) и 5,6 ₽/мин (AWS Transcribe Medical). Deepgram и Speechmatics работают по индивидуальным ставкам — ориентировочно 0,97–1,35 ₽/мин на стандартных стриминговых тарифах, дешевле — при годовых обязательствах.

OpenAI Whisper всё ещё лучший вариант с открытым исходным кодом?

Whisper-v3 (и large-v3-turbo) по-прежнему самый сильный опенсорсный базис. В 2026 году большинство команд запускают его через faster-whisper для пакета на GPU или Whisper.cpp для CPU и устройств. Для стриминга в реальном времени на собственной инфраструктуре NVIDIA Riva — практичнее, чем гонять Whisper в стриминг-цикле.

Какие AI-сервисы распознавания речи поддерживают HIPAA?

На 2026 год Amazon Transcribe Medical, Microsoft Azure AI Speech, IBM Watson Speech to Text и Deepgram подписывают Business Associate Agreement. OpenAI предлагает политику Zero Data Retention, но полные BAA на стандартных тарифах не предоставляет; для Google Speech-to-Text BAA нужно явно активировать в рамках Google Cloud BAA.

У какого движка самая низкая задержка стриминга?

Deepgram Nova-3 демонстрирует самую низкую сквозную задержку стриминга среди облачных API (p95 менее 300 мс). Speechmatics Ursa 2 следует за ней на тарифе real-time. Azure real-time и Google Chirp 2 показывают задержку около 500–1000 мс. Для задержки ниже 100 мс обычно требуется самостийная установка NVIDIA Riva на GPU, расположенном в той же сети.

Как оценить AI-распознавание речи на собственном аудио?

Соберите тестовый набор минимум из 100 минут демонстрационного аудио с эталонной расшифровкой, проверенной вручную. Оценивайте каждый движок по WER, по доле распознанных ключевых слов (KRR) на доменном словаре, по качеству диаризации и сквозной задержке. Прогоняйте одно и то же аудио через три движка, а не по одному. Принятие решения основывайте на KRR и задержке, а не только на WER.

Каким индустриям AI-распознавание речи приносит больше всего ценности?

В нашем портфеле проектов наибольшую отдачу дают решения в телемедицине (клиническая документация, субтитры к консультациям в реальном времени), e-learning и виртуальных классах (живые субтитры и перевод), контакт-центрах и службах поддержки (помощь оператору, анализ звонков после разговора), юриспруденции и комплаенсе (расшифровка показаний) и видеоконференциях (резюме встреч, списки задач, обеспечение доступности).

Свой ASR или API вендора?

Используйте API, если работаете с менее чем 10 000 часов аудио в месяц. Если больше — считайте честно: аренду GPU, работу MLOps-инженера, дежурства, переобучение моделей, тестирование точности. Большинство команд, которые пытаются «сэкономить» на самостоятельном запуске Whisper, к девятому месяцу платят больше. Исключения — суверенные задачи, оффлайн-обработка на устройстве и команды, у которых уже есть инженер по обработке речи в штате.

Что почитать дальше

Реализация

OpenAI Realtime API с WebRTC, SIP и WebSockets

Транспортные паттерны, которые мы используем для интеграции ASR с продуктом реального времени.

Мобильная разработка

Голосовые мобильные приложения с AI и NLP

ASR и NLP на устройстве для голосовых функций iOS и Android.

Конференции

12 AI-функций видеоконференций, которые действительно важны

Где расшифровка, перевод и суммаризация приносят пользу на встречах.

База

Распознавание речи и обработка естественного языка

Как объединить ASR с NLP для голосовых команд и ассистентов.

Готовы запустить правильный AI-сервис распознавания речи?

Если ваш продукт разговаривает с пользователями в реальном времени, начинайте с Deepgram Nova-3. Если нужна только пакетная расшифровка и пара секунд ожидания допустима, начинайте с OpenAI gpt-4o-transcribe. Если диаризация, многоязычная точность или резидентность данных в суверенной зоне непереговариваемы, начинайте со Speechmatics Ursa 2. Протестируйте все три на собственном аудио до того, как принять обязательства.

Неправильный AI-сервис распознавания речи сложно заменить, если вокруг него уже построены схема расшифровки, контракт с вебхуком и последующий пайплайн на основе LLM. Потратьте две недели на структурированный сравнительный тест — и сэкономите два квартала сожалений. Мы провели такой тест более 200 раз в e-learning, телемедицине, видеоконференциях и вещании; сообщите нам свои ограничения — и мы проведём тест за вас.

Выберите AI-сервис распознавания речи вместе с нами

Принесите ваше аудио, цель по задержке и ограничения по комплаенсу. Мы подготовим шортлист, модель затрат и работающий прототип в течение двух недель.

Позвоните нам → Напишите нам →

Технологии

Показатель	Цифра за 2025	Что это значит для вас
Выручка мобильных приложений с генеративным ИИ	225 млрд ₽, +273% год к году	Самостоятельное AI-приложение теперь — полноценный продукт, а не просто функция.
Время в приложениях с генеративным ИИ	48 млрд часов (×3,6 к 2024)	Привычка у пользователей сформировалась — ассистенты теперь конкурируют с вашим приложением за время сессии.
Внедрение разработчиками	63% выпускают не менее одной AI-функции	Не выпускать ИИ в 2026 году — это уже конкурентное отставание, а не нейтральный выбор.
Прирост вовлечённости от персонализации	+62% вовлечённости, +80% конверсии	Одни только AI-рекомендации влияют на финансовый результат.
Пользователи мобильных AI-ассистентов (США)	200 млн+ (110 млн — только на мобильных)	Пользователи ожидают, что голосовой и текстовый ИИ будет работать везде.
Прогноз Gartner	Использование мобильных приложений снизится на 25% к 2027 году (из-за AI-ассистентов)	Приложения без встроенного ИИ будут терять пользователей в пользу системных ассистентов.

Фреймворк / API	Платформа	Лучше всего для	Типичная задержка	Структура затрат
Core ML	iOS, macOS, watchOS	Зрение и NLP на устройстве с Apple Neural Engine	< 100 мс	Разовая, внутри приложения
Apple Foundation Models	iOS 18+, macOS 15+	LLM на устройстве, резюмирование, инструменты письма	< 500 мс	Бесплатно (в составе ОС)
TensorFlow Lite / LiteRT	Android, iOS, Web	Кроссплатформенное ML на устройстве	< 200 мс	Разовая, внутри приложения
MediaPipe	Android, iOS, Web	Поза, руки, лицо, жесты, сегментация	< 100 мс	Разовая, внутри приложения
ML Kit (Google)	Android, iOS	Распознавание текста, штрихкоды, перевод, обнаружение лиц	50 мс–2 с	Бесплатный тариф + оплата за запрос
Gemini Nano (AICore)	Android (Pixel 9+, S26+)	LLM на устройстве, резюмирование, подсказки ответов	< 1 с	Бесплатно (в составе ОС)
ONNX Runtime Mobile	Android, iOS, Web	Переносимые модели между фреймворками	< 300 мс	Разовая, внутри приложения
OpenAI API (GPT-5)	Облако	Рассуждения, код и зрение уровня state-of-the-art	1–3 с	93,75–750 ₽ за 1 млн токенов
Anthropic Claude API	Облако	Рассуждения с длинным контекстом, анализ, код	1–3 с	75–1 875 ₽ / 1 млн токенов (скидка 50% при батч-обработке)
Google Gemini API	Облако	Мультимодальность, экономичный текст и зрение	1–2 с	6–375 ₽ / 1 млн токенов
AWS Rekognition	Облако	Анализ изображений и видео, модерация	500 мс–2 с	0,075–0,9 ₽ за изображение
Azure Cognitive Services	Облако	Корпоративное видение, стиль общения, язык	500 мс–2 с	За запрос + подписка

Объём	Пример функции	Сроки	Ориентировочная стоимость
Одна функция на устройстве	Сканирование документа + OCR	4–8 недель	2–6 млн ₽
Гибрид среднего размера	Зрение на устройстве + облачный LLM-чат	8–14 недель	6–13,5 млн ₽
Полноценный гибрид под продакшн	Оркестрация нескольких моделей, RAG, мониторинг	14–22 недели	11,2–22,5 млн ₽
Корпоративная платформа	Регулируемая отрасль (здравоохранение / финтех), несколько регионов, SLA	22+ недели	от 22,5 млн ₽

Платформа	Для чего лучше всего	Стартовая цена	Нужна гарнитура?
ClassVR	Школа (K–12), более 1 500 сценариев по учебной программе	от 75 000 ₽ за школьный комплект	Да (гарнитуры в комплекте)
Labster	Лаборатории биологии, химии, физики в вузах	5 925–8 175 ₽ за студента в год	Нет (браузер + опционально VR)
Nearpod (с VR)	Встраивание в уроки в школе	11 925–29 775 ₽ в год на преподавателя	Опционально
zSpace	AR/VR без гарнитуры; более 3 500 округов	По запросу (фирменное оборудование)	Нет (очки + дисплей с трекингом)
Prisms VR	Математика и естественные науки, 140 округов	По запросу (лицензия округа)	Да
Engage / Spatial	Совместные классы в высшем образовании	37 500–150 000 ₽ в год за помещение	Да (несколько устройств)
CoSpaces Edu	VR-проекты, которые создают сами ученики	75–225 ₽ за ученика в год	Опционально
Osso VR / FundamentalVR	Хирургическая подготовка	450 000–3 млн ₽ в год за рабочее место	Да

Статья расходов	Год 1	Год 2 и далее
30 × Meta Quest 3S (комплект за 37 500 ₽)	1 125 000 ₽	0 ₽ (обновление раз в 3–4 года)
Контент-платформа (ClassVR / Nearpod)	150 000–375 000 ₽	150 000–375 000 ₽
Обучение преподавателей (1 день)	112 500–225 000 ₽	Обновление: 37 500 ₽/год
Зарядная станция + MDM	112 500–187 500 ₽	0 ₽
Страховка / поломки (10%)	112 500 ₽	112 500 ₽
Итого	1,6–2 млн ₽	300 000–525 000 ₽

Лучшие сервисы распознавания речи на основе ИИ в 2026 году: как выбрать поставщика

Почему Фора Софт написала этот гид

Состояние AI-распознавания речи в 2026 году

Пять движков распознавания речи, которые действительно важны в 2026 году

OpenAI Whisper и gpt-4o-transcribe

Зачем брать

Ограничения

Deepgram Nova-3

Зачем брать

Ограничения

AssemblyAI Universal-2

Зачем брать

Ограничения

Speechmatics Ursa 2

Зачем брать

Ограничения

Google Cloud Speech-to-Text v2 (Chirp / Chirp 2)

Зачем брать

Ограничения

Microsoft Azure AI Speech

Зачем брать

Ограничения

Amazon Transcribe и Transcribe Medical

Зачем брать

Ограничения

Self-hosting: Whisper.cpp, faster-whisper и NVIDIA Riva

Сравнение AI-сервисов распознавания речи

Эталонная архитектура для распознавания речи на встречах в реальном времени

Модель затрат: 1 000 часов аудио в месяц

Мини-кейс: субтитры и перевод в реальном времени в масштабе

Как выбрать сервис распознавания речи на основе ИИ: пять вопросов

Чего избегать

KPI после запуска

HIPAA, GDPR и резидентность данных

Когда облачный ASR — не лучший выбор

Что нас ждёт дальше

FAQ

Что почитать дальше

Готовы запустить правильный AI-сервис распознавания речи?

Похожие статьи

Хотите обсудить ваш проект?