
Распознавание речи в шумной среде — решённая задача 2026 года, если правильно собрать три уровня. Нейросетевой фронтенд для шумоподавления (Krisp, NVIDIA Maxine или RNNoise), устойчивая к шуму акустическая модель (Deepgram Nova-3, Whisper Large v3, NVIDIA Parakeet или Conformer-RNNT) и дообучение под домен плюс keyterm-биасинг на вашем реальном словаре. Соберите все три — и Word Error Rate (WER) в шумных условиях падает с 25–40% до 8–12%. Это близко к тому, что три года назад давало только чистое аудио.
Соберите только один из трёх — и получите продукт, который красиво показывается в офисе, но разваливается на складе, в окне drive-thru, в колл-центре или в больничном коридоре. Мы знаем, потому что внедряли ASR во все эти среды. За 21 год компания Фора Софт (Fora Soft) выпустила более 625 продуктов для коммуникаций в реальном времени, и AI-интегрированные голосовые и видеосистемы — одна из наших самых глубоких специализаций: от медицинских видеоплатформ, где должен корректно распознаваться каждый клинический термин, до приложений для live-стриминга, где субтитры в реальном времени работают поверх шума толпы и музыки.
Это руководство — рабочая методичка, которую мы используем сами. Три стратегии, которые имеют значение, ландшафт моделей 2026 года с реальными цифрами, референсный пайплайн, который можно перенести в продакшен, и честная экономика облачных API против self-hosted. Если вы выбираете между Deepgram, Whisper, Riva или AssemblyAI для продукта, где люди не всегда будут в тихой комнате, — этот документ для вас.
Ключевые выводы
• Три слоя, а не один. Шумоподавление + устойчивая к шуму модель + дообучение под домен. Пропустите любой — и потеряете 10–20 пунктов WER.
• Nova-3 лидирует в реальном времени, Whisper v3 — в open-source. Deepgram Nova-3 даёт 6,84% WER на чистом аудио и 11–15% на шумном при задержке менее 300 мс. Whisper Large v3 Turbo — лучший офлайн-вариант.
• Keyterm-биасинг побеждает дообучение для большинства задач со словарём. Современные API принимают до 1000 пользовательских терминов прямо на инференсе — это бесплатная точность на именах собственных, названиях препаратов, артикулах.
• Фронтенд важнее, чем кажется. Одно только шумоподавление уровня Krisp снижает WER в шуме на 20–40% — ещё до того, как заработает сама модель.
• Измеряйте WER на своём аудио, а не на чужом. Публичные лидерборды ничего не знают о том, как звучит ваш склад, ваш сканер штрихкодов или ваш набор акцентов.
Почему распознавание речи в шуме всё ещё сложно в 2026 году
ASR на трансформерах вытеснил всех с бенчмарков. На чистом студийном английском лучшие модели 2026 года показывают WER 5–7% — это паритет с человеком на большинстве материала. Но продакшен-аудио редко бывает чистым. Реальные пользователи говорят:
Используйте бимформинг, когда: вы контролируете железо. Два микрофона + AEC почти всегда обыгрывают модель побольше на одном микрофоне.
• В микрофоны ноутбуков в open space с HVAC и болтовнёй коллег на уровне 60–80 дБ.
• Через автомобильную громкую связь на скорости 70 км/ч, где гул дороги сосредоточен в полосе 100–500 Гц и накладывается на основные мужские частоты.
• По VoIP от операторов колл-центра, делящих этаж с 200 другими операторами.
• В сканеры на складе под писк погрузчиков, объявления по громкой связи и удары металла о металл.
• В клинические гарнитуры в реанимации, где мониторы пищат каждые две секунды, а вентиляторы непрерывно шипят.
• Через Bluetooth-наушники, которые агрессивно шумоподавляют сигнал ещё до того, как он дойдёт до вашего сервиса — иногда вместе с шумом срезая фонемы.
Запустите модель мирового уровня в любой из этих сред — и WER утроится. Сам Deepgram в своей документации признаёт, что шумные условия добавляют 5–10 пунктов WER даже у Nova-3. Whisper, обученный на широком распределении интернет-аудио, деградирует более плавно, но всё равно теряет 8–15 пунктов на тяжёлом шуме. Разрыв между «бенчмарком модели» и «WER продукта» — это то место, где тихо умирает большинство ASR-проектов.
Хорошая новость: три стратегии из этого руководства, применённые вместе, закрывают большую часть этого разрыва. Плохая новость: они требуют инженерной работы, о которой маркетинговые страницы облачных API обычно умалчивают.
Бенчмарки WER в 2026: как выглядит хороший результат
Прежде чем ставить цель, поймите, что реально умеет фронтир. Это цифры, которые мы используем как точки отсчёта в 2026 году. Они собраны из публичных лидербордов (Artificial Analysis ASR, HuggingFace Open ASR Leaderboard) и из наших собственных внутренних оценок на клиентском аудио.
| Сценарий | Целевой WER (английский) | Что нужно для такого результата |
|---|---|---|
| Чистая студия / гарнитура, носитель языка | 5–7% | Любая фронтирная модель из коробки |
| Видеоконференция, тихая комната | 7–10% | Фронтирная модель + базовый VAD |
| Open space, фоновая болтовня | 10–14% | Добавить нейросетевое шумоподавление |
| Колл-центр / контакт-центр | 12–16% | Шумоподавление + keyterm-биасинг |
| В машине, drive-thru, ритейл | 14–20% | Все 3 стратегии + дообучение под домен |
| Промышленность / склад / клиника | 16–24% | Все 3 стратегии + кастомная акустическая модель |
| Акцент / неносители языка | +3–8 пунктов WER к носителям | Мультиязычные модели + сбалансированные обучающие данные |
Если ваш текущий пайплайн отстаёт от соответствующей строки больше чем на 5 пунктов WER, есть пространство для роста — обычно за счёт добавления слоя, а не смены модели.
Три стратегии, которые действительно сдвигают стрелку
Каждая устойчивая к шуму ASR-система, которую мы внедряли или аудировали, сводится к трём слоям. Пропустите один — и попытаетесь компенсировать остальными, упрётесь в потолок.
Можно пропустить кастомное обучение, если: доменный словарь пересекается с общеанглийским более чем на 90%. Whisper-large-v3 из коробки достаточно.
1. Очистите аудио до того, как его увидит модель. Нейросетевой фронтенд убирает стационарные шумы (вентиляторы, HVAC), нестационарные (стук клавиш, хлопки дверей) и конкурирующую речь. Это вмешательство с самым высоким рычагом в 2026 году, потому что современные шумоподавители достаточно быстры, чтобы работать в реальном времени на обычном железе, а улучшение умножается на всё, что идёт дальше.
2. Используйте модель, обученную на шуме. Фронтирные ASR-модели в 2026 году не просто крупнее — их обучают на специально ухудшенном аудио (SpecAugment, свёртка с импульсной характеристикой помещения, аддитивный шум при контролируемом SNR). Выбирайте модель, чьё обучающее распределение совпадает со средой развёртывания.
3. Научите модель вашему словарю. Даже идеальная общая модель ошибётся на ваших названиях продуктов, препаратов, медицинских кодах или артикулах. Keyterm-биасинг на инференсе или лёгкое дообучение на доменных данных дёшево возвращают эти классы ошибок.
Три стратегии — дополняющие друг друга, а не альтернативы. Следующие три раздела — подробная версия каждой из них.
Стратегия 1: нейросетевой фронтенд — шумоподавление до ASR
В 2026 году нет оправдания тому, чтобы отправлять сырое аудио с микрофона прямо в ASR-модель. Нейросетевой шумоподавитель встаёт между микрофоном и распознавателем и очищает сигнал в реальном времени. Топ-варианты:
Krisp SDK
Самый массово развёрнутый нейросетевой шумоподавитель в индустрии. Zoom лицензировал технологию Krisp для своей функции шумоподавления, а SDK встроен в сотни коммуникационных продуктов. Работает менее чем за 15 мс на одном ядре CPU, убирает большую часть стационарного и нестационарного шума и сохраняет естественность речи лучше, чем классический DSP. Наша рекомендация по умолчанию для продакшен-приложений, где приемлема стоимость лицензии.
NVIDIA Maxine Audio Effects
Шумоподавление с ускорением на GPU, подавление эха помещения и супер-разрешение. На тяжёлых случаях качество выше, чем у Krisp, но нужно железо NVIDIA — вариант для серверных пайплайнов и AI-first устройств, а не для массовых мобильных.
RNNoise / Demucs / open-source варианты
RNNoise (Mozilla) — классический лёгкий вариант: бесплатный, с крошечной нагрузкой на CPU, для многих задач этого достаточно. Варианты Demucs от Facebook Research и DeepFilterNet от Microsoft вытягивают качество выше за счёт большей вычислительной нагрузки. Для on-device на mid-range смартфонах наш текущий выбор — DeepFilterNet v3 в int8.
Платформенные шумоподавители
Apple Voice Isolation, шумоподавление Google Meet и современные Bluetooth-кодеки (LC3plus) агрессивно подавляют шум на стороне устройства. Это полезно, но и рискованно: они могут срезать фонемы, нужные вашему ASR. Мы тестируем с включённым и выключенным нативным шумоподавлением, а иногда просим пользователей отключить его.
Правило большого пальца: добавление нейросетевого шумоподавителя в шумный пайплайн снижает WER на 20–40% относительных. Это самое дешёвое вмешательство, которое можно сделать, не меняя модель.
Стратегия 2: устойчивые к шуму акустические модели (Conformer и далее)
Архитектура Conformer (Google, 2020) объединила self-attention и свёрточное извлечение признаков и стала де-факто бэкбоном современного ASR. Whisper (OpenAI, 2022) добавил крупномасштабную слабую супервизию — более 680 000 часов разнообразного интернет-аудио — и стал первой ASR-моделью, которая плавно деградирует на «диких» распределениях.
Компромиссы стриминга: каузальные модели добавляют 1–2 пункта WER, но снижают задержку до < 200 мс. Для живых субтитров обмен оправдан.
К 2026 году фронтир — это несколько семейств моделей, каждое оптимизировано под свой профиль развёртывания:
• Deepgram Nova-3 — проприетарная, стриминг в реальном времени, задержка 300 мс, 36 языков, WER 6,84% на чистом аудио / 11–15% на шумном. Лучший выбор для голосовых агентов в реальном времени и живых субтитров.
• Whisper Large v3 Turbo — open-source, офлайн/батч, в 5,4 раза быстрее v3 за счёт обрезания слоёв декодера, при этом отстаёт от полной модели меньше чем на 1 пункт WER. Лучший выбор для пакетной транскрипции записанного контента при нулевой стоимости за минуту.
• NVIDIA Parakeet TDT 0.6B v2 и Canary-Qwen 2.5B — топ лидерборда Artificial Analysis ASR в 2026 году. Canary-Qwen держит #1 на шумной подвыборке VoxPopuli. Поставляются через Riva NIM.
• AssemblyAI Universal-2 — сильна на аудио колл-центров и диаризации, с встроенным определением тематики и модерацией контента как бонусом.
• gpt-realtime speech — унифицированная модель OpenAI speech-in / speech-out. Не чистый ASR-эндпоинт, но конкурентоспособен для диалоговых агентов, где вы и так пойдёте в LLM.
SpecAugment и обучение с примесью шума сейчас стандарт, поэтому большинство этих моделей и так деградируют плавно — но количество шума, который они видели при обучении, отличается. Если у вас сильно шумная среда, предпочитайте модели, чьи вендоры публикуют WER в шумных условиях (Deepgram, NVIDIA), а не те, что публикуют только LibriSpeech.
Стратегия 3: дообучение под домен и keyterm-биасинг
Даже лучшая универсальная модель искалечит «метопролол» в «мета проло» или «SKU 4-7-A-2-1» в «skew forty seven eight 21». Лечится это не обучением с нуля. Есть три более дешёвых хода:
Keyterm-биасинг на инференсе. Deepgram Nova-3 принимает до 1000 пользовательских терминов на запрос с настраиваемыми весами. Whisper поддерживает промптинг текстом глоссария. AssemblyAI поставляет Word Boost. Это бесплатная точность на именах собственных, названиях продуктов, препаратов, артикулах и отраслевом жаргоне — никакого обучения, можно выкатить сегодня.
LoRA / лёгкое дообучение на доменном аудио. Для случаев, когда полностью неподходит акустическое распределение — сильные акценты, специфические условия записи, редкие языковые варианты, — LoRA-адаптер, обученный на 20–100 часах размеченного клиентского аудио, возвращает 3–8 пунктов WER. Доступно для Whisper, Canary и большинства пайплайнов на базе Hugging Face.
Пользовательский словарь и фонетические лексиконы. Для слов с неочевидным произношением (бренды, заимствованные термины с переключением языков) явный словарь произношений заставляет модель правильно обрабатывать слово. Большинство корпоративных ASR-платформ это поддерживают.
Порядок «сначала биасинг, потом дообучение» имеет значение. Биасинг бесплатный, обратимый и катится за день. Дообучение стоит времени GPU и MLOps-накладных. Всегда исчерпывайте биасинг до того, как браться за обучение.
Сравнение моделей: Nova-3, Whisper v3, Riva, AssemblyAI
| Критерий | Deepgram Nova-3 | Whisper Large v3 Turbo | NVIDIA Riva Parakeet/Canary | AssemblyAI Universal-2 |
|---|---|---|---|---|
| Развёртывание | Облачный API, возможен self-host | Open-source, self-host | NIM-микросервис, on-prem | Облачный API |
| Стриминг в реальном времени | Да — ~300 мс | Ограниченно (батч-ориентирован) | Да — ~200 мс | Да — ~400 мс |
| WER на чистом аудио (английский) | ~6,8% | ~7,5% | ~6,3% (Canary-Qwen) | ~7,2% |
| WER на шумном аудио | 11–15% | 12–17% | 10–14% | 12–16% |
| Языки | 36 | 99+ | 25+ | 17 |
| Keyterm-биасинг | До 1000 терминов | Через промпт | Пользовательский словарь | Word Boost |
| Диаризация | Да | Через надстройку pyannote | Да | Да, сильная |
| Цена (за минуту) | ~0,3–0,6 ₽ | Только инфраструктура (~0,07 ₽) | По часам GPU | ~0,3–0,7 ₽ |
| Подходит для | Голосовые агенты в реальном времени, контакт-центры | Пакетная обработка медиа, чувствительность к приватности | On-prem под регуляцией, борьба за WER на лидерборде | Аналитика подкастов и встреч |
Универсального победителя нет. В 2026 году наш выбор по умолчанию для шумных задач в реальном времени — Nova-3 + фронтенд Krisp + keyterm-биасинг. Для on-prem и задач с требованиями комплаенса — Whisper v3 Turbo или Riva Canary на GPU заказчика. Для массовой транскрипции медиа батчевый Whisper выигрывает по стоимости.
Типичная ошибка: бенчмаркать на LibriSpeech, а не на вашем реальном аудио. Публичные бенчмарки занижают шумный WER на 15–25%.
Референсная архитектура: пайплайн ASR для шума в 2026
Вот пайплайн, который мы разворачиваем под шумные задачи в реальном времени. У каждой стадии есть конкретная работа, бюджет задержки и запасной вариант.
| Стадия | Компонент | Бюджет задержки |
|---|---|---|
| 1. Захват | 16 кГц моно PCM, AEC выключен, если ниже по конвейеру сильное шумоподавление | < 5 мс |
| 2. Voice Activity Detection | Silero VAD v5 или WebRTC VAD для простых случаев | < 10 мс |
| 3. Шумоподавление | Krisp SDK, NVIDIA Maxine или DeepFilterNet v3 | < 15 мс |
| 4. Транспорт | WebSocket или data-канал WebRTC с Opus, кадры по 20 мс | 20–60 мс |
| 5. ASR | Nova-3 / Riva Parakeet / Whisper Turbo со стриминговым эндпойнтером | 150–300 мс |
| 6. Keyterm-биасинг и постобработка | Подстановка по пользовательскому словарю, пунктуация, регистр, форматирование чисел | 10–30 мс |
| 7. LLM или действие ниже | Опционально — классификация интента, NER, голосовой агент, отрисовка субтитров | по-разному |
От рта до отрисованного субтитра end-to-end — 250–450 мс. Это укладывается в диапазон, который человек воспринимает как реальное время. Перевалите за 600 мс — разговорный поток ломается.
В голосовых агентах основной потребитель задержки — ходы LLM. Полный стек агента мы разбираем в нашем гайде по мультимодальным агентам на LiveKit — тот же транспорт и слой ASR, описанный здесь, встраивается в ту архитектуру напрямую.
Аппаратный слой: микрофоны, бимформинг и ограничения устройств
Алгоритмы шумоподавления могут восстановить только то, что захватил микрофон. Если вы контролируете железо, мелкие изменения дают большой выигрыш в WER:
Расположение микрофона. Расстояние от рта до микрофона важнее качества микрофона. Бумовый микрофон за 375 ₽ в 3 см от губ обыграет конференц-микрофон за 15 000 ₽ в 2 метрах.
Микрофонные массивы и бимформинг. Два и более микрофона с известной геометрией позволяют направить лепесток приёма на говорящего. ReSpeaker, MiniDSP UMA-8 и большинство современных конференц-систем делают это на железе. Для стационарного развёртывания (киоск, машина, переговорная) бимформинг — самое дешёвое улучшение на 3–6 пунктов WER.
Частота дискретизации. Используйте 16 кГц моно. Выше не помогает ASR — большинство моделей внутри даунсэмплят. Ниже (8 кГц телефонное аудио) теряет высокочастотный контент и добавляет 3–5 пунктов WER.
Эхокомпенсация (AEC). Если система проигрывает аудио пользователю (голосовой агент, видеозвонок), без AEC вы будете транскрибировать собственный TTS. AEC3 из WebRTC отлично работает и бесплатна.
Нужна доменно-настроенная STT-модель, которая стабильно держит WER ниже 7%?
Наша NLP-команда дообучает open-source модели под клиентский словарь и акустический профиль. Свяжитесь с нами, чтобы обсудить сбор данных и тестовый стенд.
Что мы узнали, внедряя ASR в реальные приложения с шумом
Несколько паттернов повторяются в наших внедрениях ASR:
Медицинские и телемедицинские платформы. Главное узкое место — клиническая лексика, а не шум. Прогоняйте keyterm-биасинг по списку препаратов, кодам МКБ и названиям процедур. Поставляйте лексикон, который ведёт сам провайдер. Для систем уровня BrainCert — платформ для обучения — тот же лексиконный паттерн применим и к терминологии конкретного курса.
Субтитры для live-стриминга. Музыка под речью — самый тяжёлый случай: шумоподавители срезают гармоники, модели галлюцинируют текст песни. Лечится фронтендом, осведомлённым о музыке (разделение источников через Demucs), и моделью, обученной на аудио с примесью музыки. Whisper v3 справляется с этим лучше большинства коммерческих API.
Полевые сервисы и стройка. Ветер, техника и заглушающие СИЗ — неизбежны. Вкладывайтесь в аппаратный слой (микрофоны костной проводимости, направленные гарнитуры) до того, как настраивать софт.
Многоязычные встречи. Переключение языков в середине предложения ломает большинство ASR-моделей. Используйте модели с явным мультиязычным обучением (Whisper, мультиязычный Canary). Сторону перевода для деловых встреч мы разбирали в обзоре платформ для перевода встреч в реальном времени.
Голосовые агенты и замена IVR. Низкая задержка побеждает маржинальный WER. Система на 200 мс быстрее с WER на 1% выше ощущается пользователям лучше, чем наоборот. Выбирайте стриминговые Nova-3 или Riva; избегайте батчевого Whisper для реального времени.
Реальная экономика в 2026: облачный API против self-hosted
На низких объёмах облачные API всегда выигрывают. На высоких — выигрывает self-hosted Whisper на собственных GPU. Точка перехода — где-то между 5000 и 20 000 минут в день.
| Объём (минут/месяц) | Облачный API (Nova-3 ~0,45 ₽/мин) | Self-hosted Whisper (GPU L4/A10) | Победитель |
|---|---|---|---|
| 100 000 (мало) | ~45 000 ₽ | ~60 000 ₽ (один GPU, недозагрузка) | Облако |
| 1 000 000 (средне) | ~450 000 ₽ | ~262 500 ₽ (2–3 GPU) | Self-hosted |
| 10 000 000 (энтерпрайз) | ~4,5 млн ₽ | ~1,1–1,8 млн ₽ | Self-hosted |
| 100 000 000 (гипермасштаб) | ~45 млн ₽ | ~6–9 млн ₽ | Self-hosted |
В цифрах self-hosted учтены GPU, размазанное время MLOps-инженера и наблюдаемость. В них не учтены альтернативные издержки от того, что ваши инженеры не работают над чем-то другим — именно поэтому большинство компаний с объёмом меньше 10 млн минут в месяц остаются на облачных API, даже когда экономика склоняется в другую сторону. Реальный вопрос не «что дешевле?», а «что разблокирует скорость продукта?».
Делать или купить: когда обучать собственную акустическую модель
В 2026 году обучение ASR-модели с нуля почти никогда не правильный ответ. Правильный — дообучение фронтирной open-source модели (Whisper, Canary, Parakeet) на доменных данных. Редкие случаи, когда оправдана кастомная модель:
• Вы работаете с языком или диалектом, который фронтирные модели покрывают плохо.
• Среда настолько далека от мейнстрима, что публичные модели деградируют без шансов (экстремальный промышленный шум, кастомные радио- и связные каналы, ультранизкоскоростная телефония).
• У вас есть большой размеченный датасет (>1000 часов) и достаточно масштаба, чтобы амортизировать MLOps-нагрузку.
• Регуляторные или контрактные требования требуют end-to-end доказуемости происхождения модели.
Всем остальным: начните с фронтирной модели плюс трёх стратегий выше, измерьте WER и вкладывайтесь в обучение только тогда, когда упрётесь в чёткий пол. Мы строили оба пути для клиентов, и путь дообучения добирается до продакшен-готового WER в 5–10 раз быстрее, чем обучение с нуля.
Оценка: как измерять WER в условиях, в которых вы реально работаете
Цифры WER от вендоров — это цифры в бенчмарочных условиях. Ваши пользователи не живут в LibriSpeech. Соберите внутренний набор для оценки, который отражает ваше продакшен-распределение: демографию говорящих, профили шума, разнообразие устройств, словарь, распределение акцентов. 100–300 размеченных вручную фрагментов достаточно, чтобы получить статистически значимое сравнение пайплайнов-кандидатов.
Измеряйте метрики, которые важны именно для вашего продукта:
• WER — классика. Но сегментируйте: чистое / средне-шумное / сильно-шумное / акцентированное.
• Полнота по ключевым терминам — модель попала по вашему критичному словарю? Пайплайн с WER 15%, который правильно распознаёт каждый препарат, обыгрывает пайплайн с WER 10%, который их коверкает.
• Перцентили задержки — p50, p95, p99. Хвостовая задержка ломает голосовых агентов.
• Точность эндпойнтинга — ложные старты, обрезанные фразы, слишком длинные паузы.
• Семантическая корректность — для пайплайнов голосовой агент / LLM мерьте точность конечной задачи, а не только точность транскрипции.
Автоматизируйте оценку. Каждое обновление модели, каждое изменение пайплайна, каждая итерация дообучения должны выдавать отчёт по WER на одном и том же эталонном наборе. Без этого вы гадаете.
Приватность, комплаенс и EU AI Act
Речь — персональные данные в большинстве юрисдикций. Обращайтесь с ней соответственно:
GDPR и HIPAA. Если вы обрабатываете голос пользователей из ЕС или защищённую медицинскую информацию, ASR-вендор — ваш суб-обработчик. Нужны DPA, обязательство по локации обработки и право на удаление. Deepgram, AssemblyAI и NVIDIA подписывают HIPAA BAA. Self-hosted Whisper полностью обходит проблему, но переносит её на вашу собственную безопасность.
EU AI Act (требования к high-risk вступают в силу 2 августа 2026). ASR в контексте мониторинга работников, биометрической категоризации или распознавания эмоций попадает под обязательства high-risk. Большинство развёртываний «только транскрипция» туда не попадают, но если ваш пайплайн извлекает идентичность говорящего, демографические выводы или эмоциональное состояние, нужен анализ по статьям 9 и 50.
Законы о записи звонков. Юрисдикции с правилом «согласия всех сторон» (Калифорния, Иллинойс, Германия) требуют явного согласия до записи и транскрипции. Встраивайте поток согласия в продукт с первого дня.
Срок хранения данных. По умолчанию — короткий срок хранения транскриптов и opt-in на более длительное хранение. Никогда не используйте клиентское аудио для обучения моделей вендора без явного opt-in.
Наш опыт внедрения распознавания речи
Фора Софт интегрирует ASR в продукты для коммуникаций в реальном времени и в AI-продукты со времён до появления WebRTC. За 21 год мы выпустили 625+ продуктов в видео, аудио и AI; распознавание речи живёт внутри многих из них. Примеры работ:
• Translinguist — платформа перевода встреч в реальном времени, которую мы построили: стриминговый ASR, машинный перевод и TTS объединены в субсекундный мультиязычный цикл. ROI клиента удвоен за два года.
• BlaBlaPlay — обработка голоса, интегрированная с коммуникациями в реальном времени, работа с акцентированной речью в шумных пользовательских средах.
• Медицинские и клинические платформы — ASR, чувствительный к словарю, с обработкой данных уровня HIPAA и кастомными словарями произношений.
• Образовательные и e-learning системы, включая BrainCert, — живые субтитры для виртуальных аудиторий при разнообразных микрофонах и каналах связи.
• Инструменты для live-стриминга и вещания — наложение субтитров в реальном времени для событий и спорта, где шум и музыка — постоянная часть аудио.
Наши инженеры выпускали продукты на каждой крупной ASR-платформе — Deepgram, Whisper, Google Speech-to-Text, Azure Speech, AWS Transcribe, NVIDIA Riva, Vosk — и у нас есть твёрдое мнение о том, какая под какую задачу подходит. Фора Софт также держит AI/ML-специалистов в каждой команде по реальному времени, поэтому трёхслойная архитектура из этого руководства — не теория, а то, что мы реально внедряем.
Живая транскрипция держит WER выше 15% на реальном аудио?
Поговорите с нашим лидом по речи. Мы разбираем препроцессинг, VAD и выбор модели — большинство команд в одном изменении конфигурации от падения WER на 5–8 пунктов.
FAQ
Какой WER реалистичен для моего продукта?
Сопоставьте своё развёртывание с таблицей из раздела по бенчмаркам WER. Чисто и тихо: 5–10%. Офис или встреча: 8–14%. Колл-центр или в машине: 12–18%. Промышленность или клиника: 16–24%. Цифры ниже этих диапазонов обычно означают, что у вас собраны все три стратегии. Цифры выше — что не хватает хотя бы одной.
Нужно ли шумоподавление, если я использую Whisper или Nova-3?
Да, в большинстве шумных сред. Фронтирные модели устойчивы к умеренному шуму, но в по-настоящему громких условиях всё равно дают относительное улучшение WER на 20–40% при добавлении фронтенда уровня Krisp или DeepFilterNet. Фронтенд — самое выгодное по соотношению цена/результат дополнение к существующему ASR-пайплайну в 2026 году.
Что выбрать: Deepgram, Whisper или Riva?
Deepgram Nova-3 — для стримингового SaaS реального времени, где важны задержка и простота интеграции. Whisper Large v3 Turbo — для офлайн / батч / чувствительных к приватности задач или когда нужен open-source бэкбон под дообучение. NVIDIA Riva (Parakeet, Canary-Qwen) — для on-prem, регулируемых сред и развёртываний, критичных к WER на лидерборде, при наличии в стеке железа NVIDIA.
Сколько размеченных данных нужно для дообучения?
Для LoRA-адаптера на Whisper или Canary 20–100 часов размеченного доменного аудио обычно возвращают 3–8 пунктов WER. Полное дообучение выигрывает от 200–1000 часов. Меньше 10 часов — keyterm-биасинг и работа с промптом обычно обыгрывают обучение.
Можно ли запустить распознавание речи полностью на устройстве?
Да, и в 2026 году это всё более привлекательно. Whisper.cpp int4, Vosk и on-device варианты Parakeet дают WER 12–18% на mid-range смартфонах. Core ML Speech и встроенный STT в Android уверенно работают для коротких команд. On-device выигрывает по приватности и поддержке офлайн; облако пока выигрывает по точности, языкам и диаризации.
Как работать с акцентами и неносителями языка?
Выбирайте мультиязычно обученные модели (Whisper, Canary), чьи обучающие данные покрывают нужные акценты. Дополняйте дообучением под акцент, если критично. Избегайте моделей только под американский английский, если ваша аудитория глобальная.
Безопасно ли строить голосовую биометрию или идентификацию говорящего в 2026?
Биометрическая идентификация попадает под high-risk в EU AI Act и всё сильнее регулируется в США. Стройте только при явном согласии, со строгим ограничением целей и юридическим ревью. Диаризация (различение «спикера A» и «спикера B» без называния их имён) — ниже по риску и широко применима.
Сколько времени уходит на запуск шумоустойчивой ASR-фичи?
Для команды, которая уже это делала: 4–8 недель на end-to-end интеграцию облачного API с шумоподавлением, keyterm-биасингом и тестовым стендом. 3–6 месяцев на self-hosted пайплайн с кастомным дообучением. По бюджетам см. наш гайд по оценке трудозатрат в разработке.
Матрица сравнения: build, buy, гибрид или open-source для ASR в шуме
Быстрая решётка решений для четырёх типовых сценариев 2026 года. Выбирайте строку под размер команды, регуляторную поверхность и целевой time-to-value — а не ту, что звучит амбициознее всех.
| Подход | Кому подходит | Усилия на запуск | Time-to-value | Риски |
|---|---|---|---|---|
| Готовый SaaS | Команды < 10 инженеров, общий сценарий | Низкие (1–2 недели) | 1–2 недели | Привязка к вендору, ограничения по кастомизации |
| Гибрид (SaaS + кастомный слой) | Mid-market, смешанные сценарии | Средние (1–2 месяца) | 1–3 месяца | Интеграционный долг, две системы на поддержке |
| Сборка in-house (современный стек) | Энтерпрайз, уникальные данные или требования комплаенса | Высокие (3–6 месяцев) | 6–12 месяцев | Скорость разработки, удержание специалистов |
| Open-source self-hosted | Чувствительны к стоимости, есть техническая команда | Высокие (2–4 месяца) | 3–6 месяцев | Операционная нагрузка, патчинг безопасности |
Что почитать дальше
Голосовые агенты
Мультимодальные AI-агенты на LiveKit
Как ASR встраивается в продакшен-стек голосового агента с end-to-end задержкой ниже 500 мс.
Перевод
Платформы перевода встреч в реальном времени 2026
Translinguist, Interprefy, Wordly в сравнении — и слой ASR, который их кормит.
Live-стриминг
Speech-to-text для live-стриминга
Субтитры для аудио с музыкой, шумом толпы и нестабильной полосой пропускания.
Основы RTC
Гайд по приложениям для коммуникаций в реальном времени
WebRTC, Opus и транспортный слой, который доносит ваше аудио до ASR-пайплайна.
Планирование
Гайд по оценке трудозатрат в разработке
Как выглядит реалистичная оценка для продукта с ASR-интеграцией.
Вендоры
Топ AI-софта для распознавания речи в 2026: обзор вендоров
Ландшафт вендоров и матрица решений по AI-софту для распознавания речи в 2026 году.
Мобильное
Распознавание голоса на AI в мобильных приложениях: плейбук 2026
Полный гайд по построению распознавания голоса на AI в мобильных приложениях.
NLP
Как улучшить пользовательский опыт с помощью распознавания речи и NLP: плейбук 2026
Как распознавание речи встречается с NLP — взаимосвязь пользовательского опыта и инженерии.
Готовы запустить ASR, который работает в реальных условиях?
Распознавание речи в шумной среде — не задача с одной ручкой. Выбор модели получше не спасёт, если аудио испорчено ещё до того, как модель его увидит, и шумоподавитель не спасёт, если модель не обучена под ваш домен. Три стратегии — нейросетевой фронтенд, устойчивая к шуму модель, доменный биасинг — дополняют друг друга, и вместе они закрывают разрыв между WER на бенчмарке и WER в продакшене.
Если вы выбираете стек для голоса в реальном времени, стриминговых субтитров, аналитики колл-центра или голосового агента, то по умолчанию в 2026 году ответ такой: Krisp + Deepgram Nova-3 + keyterm-биасинг для облака или DeepFilterNet + Whisper Large v3 Turbo + дообучение через LoRA для self-hosted. Начните оттуда, измеряйте WER на своём аудио и итерируйте.
Если вам ближе вариант с партнёром, который выпускал этот стек десятки раз, — это наша работа. Фора Софт строит AI-интегрированные приложения реального времени для клиентов, которые не могут позволить ASR «работать на демо и разваливаться в поле».
Нужна рука помощи в оценке этого для вашего роадмапа? Позвоните или напишите нам — за 30 минут разберём задачу.
Нужна доменно-настроенная STT-модель, которая стабильно держит WER ниже 7%?
Наша NLP-команда дообучает open-source модели под клиентский словарь и акустический профиль. Свяжитесь с нами, чтобы обсудить сбор данных и тестовый стенд.
KPI, которые стоит отслеживать до и после запуска
Решения по ASR в шумных средах опираются на метрики результата — а не на тщеславные счётчики. Отслеживайте рост использования (неделя к неделе), задержку p95, дрейф точности и качества (тренд по неделям), удержание (D1, D7, D30) и атрибутируемое влияние на выручку через чистый A/B с контрольной группой. Большинство команд пропускают контрольную группу и потом не могут объяснить, реален ли прирост.

