
Главное
• Промышленный голосовой ИИ-ассистент в 2026 году — это стек из четырёх компонентов: VAD, ASR, LLM/NLU, TTS — связанных оркестрацией (LiveKit, Pipecat, Vapi или Retell). Выбирайте по бюджету задержек, языкам и требованиям к комплаенсу, а не по бренду.
• Целевая задержка от речи до речи — 700–1 200 мс для естественного диалога. Выше 1 500 мс пользователи начинают перебивать. Ниже 500 мс вы тратите вычисления впустую — разница уже неощутима.
• Word Error Rate (WER), устойчивость к акцентам, обработка перебиваний и определение конца реплики — четыре метрики качества, которые коррелируют с удержанием. Субъективную оценку наподобие VMAF имеет смысл проводить раз в квартал.
• HIPAA, PCI DSS, GDPR и EU AI Act влияют на выбор вендора сильнее, чем бенчмарки производительности. Инференс on-prem или с привязкой к региону обязателен в здравоохранении, финтехе и госсекторе.
• Практика Agent Engineering у Фора Софт позволяет запустить промышленного голосового агента за 8–12 недель командой из 2–3 человек — на 30–50% быстрее классического подхода — за счёт того, что оркестрационный код, телеметрию и тестовый каркас пишут ИИ-агенты под надзором сеньоров.
Почему этот гайд написала Фора Софт
Мы делаем продукты для коммуникации в реальном времени и видео с ИИ уже более 20 лет. Голосовые ассистенты — живые субтитры, голосовой перевод, ИИ-помощники продаж, голосовые гиды для людей с нарушениями зрения — были частью нашей работы задолго до того, как «голосовой агент» стал инвестиционной категорией.
В рамках проекта Meetric мы построили ИИ-ассистента продаж, который транскрибирует, анализирует и подсказывает по ходу звонков в Zoom, Google Meet и Teams — со структурированным выводом для CRM. В TransLinguist мы запустили перевод в реальном времени на 75+ языков в маркетплейсе, которому доверяет, в том числе, NHS в Великобритании. А в VOLO.live — браузерный переводчик с заходом по QR-коду, который выдаёт живые субтитры и закадровый перевод на офлайн-мероприятиях.
Этот гайд — то, что мы рассказываем руководителям продукта на первом созвоне: рабочий стек 2026 года, цифры, о которых спросит финансовый директор, ловушки комплаенса, которые убивают пилот ещё на этапе закупок, и последовательность запуска, которая доезжает до прода без потерь.
Планируете голосового агента для вашего продукта?
Получасовой созвон — разложим вендоров, бюджет задержек и требования по комплаенсу под ваш сценарий и подскажем, где можно урезать объём без потерь.
Четыре слоя стека голосового ассистента в 2026 году
Любой промышленный голосовой агент — это одни и те же четыре блока с разными вендорами внутри. Если правильно расставить блоки, выбор вендора превращается в задачку для таблицы.
1. Voice Activity Detection (VAD) — входной шлюз
До любой транскрипции нужно решить: говорит сейчас пользователь или нет. Silero VAD и WebRTC VAD — открытые базовые решения. LiveKit Agents добавляет сверху модель определения конца реплики, которая снижает ложные перебивания: она оценивает не только громкость, но и вероятность того, что фраза закончилась. Бюджет — 5–20 мс на одно решение.
2. Automatic Speech Recognition (ASR / STT)
Открытые модели: OpenAI Whisper, Parakeet и Canary из NVIDIA NeMo. Облачные вендоры: Deepgram Nova-3, Soniox v4, AssemblyAI Universal, Google Chirp 3, Azure Speech, Amazon Nova Sonic. Четыре оси сравнения — потоковый режим в реальном времени, временные метки на уровне слов, диаризация, переключение языков и возможность развёртывания on-prem. Бюджет: 150–400 мс до первого частичного распознавания и 500–900 мс до финальной реплики.
3. LLM / NLU / оркестрация
Это «мозг». Gemini 2.5 Flash и Pro, GPT-4.1 и GPT-4o-Realtime, Claude Sonnet 4.6 и Haiku 4.5, Llama 4, Mistral Large 3 — выбор по балансу глубины рассуждений, задержки, стоимости и территории хранения данных. Структурированный вывод и строгие JSON-схемы для вызова инструментов — фундамент предсказуемого поведения голосового агента. Бюджет — 200–800 мс до первого токена потокового ответа.
4. Text-to-Speech (TTS)
ElevenLabs Flash, Cartesia Sonic-3, Rime, OpenAI TTS, Azure Neural, Google Neural2, Amazon Polly Neural, NVIDIA Riva TTS, открытые модели вроде Kokoro и XTTS. Четыре оси — мультиязычность, контроль эмоций, клонирование голоса с согласия и задержка до первого фрагмента аудио в потоке (цель — менее 120 мс). Для здравоохранения и финтеха безопасный выбор — Cartesia с её сертификацией HIPAA/PCI Level 1 или Riva on-prem.
Якорь по задержкам: полный круговой обход «речь—речь» = VAD (~10 мс) + частичный ASR (~300 мс) + первый токен LLM (~400 мс) + первое аудио TTS (~120 мс) + сеть (~60 мс). Цель — медиана ниже 900 мс; следить нужно за P95, а не за P50.
Сравнение вендоров — кто на чём выигрывает
Упрощённая матрица по слоям, которые сильнее всего влияют на стоимость и комплаенс. У каждого вендора есть лендинг, обещающий лучшее во всём. Прежде чем подписывать контракт, прогоните своих 50 эталонных клипов через каждое решение.
| Вендор / стек | Сильная сторона | Слабая сторона | Типичный сценарий |
|---|---|---|---|
| Deepgram Nova-3 | Низкая задержка потокового ASR, 36+ языков, сильная диаризация | Облако в первую очередь; on-prem только в Enterprise-тарифе | B2B-колл-центры, ИИ для продаж, инструменты для встреч |
| Soniox v4 | 60+ языков, переключение языков, определение спикеров | Меньшая экосистема, чем у Deepgram | Мультиязычные агенты, перевод в реальном времени |
| AssemblyAI Universal | Лидирующий WER на английском, 99+ языков, встроенная суммаризация | Потоковая задержка чуть выше, чем у Deepgram | Постколл-аналитика, комплаенс-транскрипция |
| NVIDIA Riva | On-prem, ускорение на GPU, ASR + TTS + NMT в одном SDK | Нужен парк RTX / Hopper / Blackwell | Здравоохранение, оборона, изолированные контуры |
| OpenAI Realtime / GPT-4o | Единый speech-to-speech, лучшие рассуждения в классе, низкая задержка до первого аудио | Контроль над регионом хранения слабее, чем у Azure или on-prem | Потребительские агенты, профессиональные инструменты, быстрые пилоты |
| Google Gemini Live | Мультимодальность речь + видение, длинный контекст, хостинг в ЕС | Эргономика вызова инструментов всё ещё дозревает | Продукты под регулирование ЕС, мультимодальные агенты |
| ElevenLabs Flash | ~75 мс до первого аудио, 70+ языков, клонирование голоса | Только облако; стоимость растёт со знаками | Потребительские голосовые продукты, медиа, брендированные ассистенты |
| Cartesia Sonic-3 | Задержка модели менее 100 мс, HIPAA + PCI Level 1, 40+ языков | Меньшая библиотека голосов, чем у ElevenLabs | Здравоохранение, финтех, регулируемый голосовой ИИ |
| LiveKit Agents | Открытая оркестрация, зрелый WebRTC-транспорт, определение конца реплики | Эксплуатация, наблюдаемость и каркас оценки — на вашей стороне | Собственные стеки, on-prem, точная подстройка задержек |
| Vapi | 100+ языков, 40+ интеграций, управляемая телефония | Привязка к SaaS, поминутный тариф | Исходящие и входящие голосовые агенты в масштабе |
| Retell AI | ~600 мс задержки, drag-and-drop сценарии, глубокая интеграция с телефонией | Меньше гибкости в кастомных цепочках инструментов | Голосовые агенты для здравоохранения, страхования, логистики |
Бюджет задержек — что значит «звучит как человек»
Естественная пауза между репликами в человеческом телефонном разговоре — около 200–300 мс. Если попасть в это окно, в слепом тесте агента не отличить. Современные голосовые агенты в облаке туда не дотягивают, но в зону «достаточно естественно» вполне укладываются.
Менее 700 мс по медиане «речь—речь». Звучит разговорно; пользователи перестают замечать задержку. Нужны потоковый частичный ASR, потоковый вывод LLM и TTS, который начинает воспроизведение по первому токену.
700–1 200 мс. Приемлемо. Пользователи иногда перебивают, поэтому обработка перебиваний должна быть надёжной.
1 200–1 800 мс. Ощущается как старое голосовое меню. Пользователи повторяют сами себя, переходят к набору текста или просто бросают.
Выше 1 800 мс. Зона срыва. Удержание падает на 30%+.
Реальная метрика — это P95. Медианная задержка скрывает холодные старты, медленные токены LLM и джиттер очереди TTS. Алерт нужен на P95 > 1 500 мс, а не на P50.
Метрики качества, которые коррелируют с удержанием
Word Error Rate (WER). Главный показатель качества ASR. Цель — менее 5% на чистом английском, менее 10% на речи с акцентом и менее 15% на шумном телефонном аудио. Считайте отдельно по языку, кластеру акцентов и уровню сигнал/шум.
Точность смены реплик. Ложные перебивания, пропущенные реплики пользователя, преждевременное закрытие реплики. Считается на размеченном эталонном датасете из 200 диалогов; цель — менее 3% ложных перебиваний.
Естественность TTS (MOS / CMOS). Запускайте Mean Opinion Score по 5-балльной шкале с 20 слушателями каждый раз, когда меняете голосовую модель. Ниже 3,8 MOS пользователи начинают замечать. Ниже 3,5 — отключаются.
Доля решённых задач. Сквозная: пользователь дошёл до результата (записался, получил возврат, попал на нужного человека)? Прямо коррелирует с LTV; всё остальное теряет смысл, если эта метрика низкая.
Срыв до первого ответа. Если от соединения до первого аудио проходит более 2 секунд, теряется 15–25% звонящих. Считайте на уровне транспорта, а не приложения.
Правило эталонного датасета: запишите 200 реальных диалогов (с согласия), покрывающих все кластеры акцентов, языковые пары и типы задач в продукте, и прогоняйте через них любое изменение модели до выкатки. Регресс на отдельном кластере — самый частый незаметный убийца качества.
Эталонная архитектура голосового агента 2026 года
Стек, который мы по умолчанию ставим в промышленные проекты с голосовыми агентами.
Клиент и транспорт. LiveKit SDK (веб, iOS, Android, Unity) поверх WebRTC для браузера и приложений; Twilio Voice + SIP-транк в LiveKit для телефонии. Эхоподавление, автоматическая регулировка усиления и шумоподавление — на стороне захвата звука.
Оркестрация. LiveKit Agents или Pipecat на выделенных нодах с GPU. Гибрид конечного автомата и LLM: детерминированные сценарии для регулируемых шагов (аутентификация, оплата) и сценарии под управлением LLM для свободного диалога.
Линия ASR. Deepgram Nova-3 или Soniox v4 для потокового режима; Whisper-large-v3-turbo для офлайн-обработки. Резервная маршрутизация при превышении лимита или сбое в регионе.
Линия LLM. Gemini 2.5 Flash для реплик, чувствительных к задержке; Claude Sonnet 4.6 или GPT-4.1 для задач с сильными рассуждениями. Вызов инструментов через строгие JSON-схемы; каждый вызов логируется с хешем запроса и ответа.
Линия TTS. ElevenLabs Flash для потребительских продуктов, Cartesia Sonic-3 для регулируемых, Riva TTS on-prem для изолированных контуров. Кэширование голоса для частых фраз (приветствия, дисклеймеры) убирает задержку до первого аудио на этих фрагментах.
Наблюдаемость. Телеметрия по каждой реплике: решение VAD, частичный и финальный ASR, поток токенов LLM, первое аудио TTS, события перебивания, успех реплики. Трейсы OpenTelemetry в колоночное хранилище (ClickHouse или DuckDB); дашборды в Grafana.
Комплаенс — рамки, которые сами выбирают вам вендора
HIPAA (здравоохранение в США). Защищённая медицинская информация не должна покидать инфраструктуру, покрытую BAA. Короткий список: Cartesia, Deepgram Enterprise, NVIDIA Riva on-prem и Azure Speech (BAA). Облачные потребительские API без BAA — нет.
PCI DSS (оплата голосом). Не давайте сырым данным карт попадать в ASR. Реализуйте захват цифр через DTMF или паузу-возобновление записи на этапе оплаты; ASR оставляйте только для разговора вне ввода карты.
GDPR (ЕС). Действуют требования к территории хранения, журналам согласия и праву на удаление. Используйте эндпоинты в ЕС (Gemini Live EU, регионы Azure в ЕС) и держите политику хранения короткой; 30 дней для записей разговоров — разумное значение по умолчанию.
EU AI Act. Голосовые агенты обычно относятся к системам ограниченного или низкого риска; обязательно сообщать пользователю, что он общается с ИИ. Связка с биометрической классификацией или распознаванием эмоций резко повышает класс риска; держите такие функции выключенными по умолчанию.
Клонирование голоса и защита от синтетического голосового мошенничества. Перед клонированием голоса всегда получайте явное письменное согласие; добавляйте слышимые или водяные метки происхождения для синтезированной речи там, где риск мошенничества существенен. Стандарт C2PA для аудио ещё развивается, но движется быстро.
Акценты, диалекты и переключение языков — самый сложный средний слой
В большинстве лидербордов ASR публикуют одно число для английского. Реальные пользователи говорят не на «лидербордовом» английском. WER 4% на Hugging Face Open ASR Leaderboard превращается в 12% на индийском английском, 18% на ярком региональном британском и 25% на спанглише или хинглише с постоянным переключением языка.
Решение — ансамбль из нескольких моделей. Основная модель (Deepgram или Soniox) с резервной для конкретных акцентов; маршрутизация по определённой локали, профилю пользователя и уверенности на первой реплике.
Используйте подсказки по словарю. Все крупные ASR-вендоры поддерживают пользовательские словари. Подгружайте глоссарий продукта, имена собственные и доменную терминологию — WER на этих токенах падает на 30–60%.
Проектируйте с учётом переключения языков. Ставьте режим «авто» (Soniox, Google Chirp 3) и подавайте в промпт LLM примеры на нужной языковой паре. Пользователь, переключающийся между испанским и английским в одном звонке, в 2026 году — обычное требование, а не крайний случай.
Мини-кейс — сократили время обработки звонка голосового агента на 28% за 10 недель
Ситуация. Финтех среднего размера запускал исходящего агента-сборщика долгов на устаревшем стеке в духе Vapi. Медианная задержка «речь—речь» — 1 600 мс, доля решённых задач — 42%, среднее время обработки звонка — 7,2 минуты, доля передач оператору — 34%.
План на 10 недель. Недели 1–2: эталонный датасет на 200 звонков и базовая телеметрия. Недели 3–5: миграция на LiveKit Agents с потоковым Deepgram Nova-3 + Gemini 2.5 Flash + Cartesia Sonic-3; сборка каркаса оценки. Недели 6–7: настройка определения смены реплики, добавление подсказок по терминам платежей, реализация PCI-совместимого захвата DTMF. Недели 8–10: выкатка на 20% трафика, затем на 100%; наблюдение и итерации.
Результат. Медиана задержки — 720 мс (P95 — 1 350 мс). Доля решённых задач — 58%. Среднее время обработки звонка — 5,2 минуты (−28%). Доля передач оператору — 22%. Хотите такой же разбор по своему стеку? Позвоните или напишите — соберём 30-минутный обзор голосового агента под ваш сценарий.
Дотачиваете задержки и выбор вендоров?
Сравним ваш текущий стек с эталонным промышленным и за 30 минут разложим компромиссы.
Дорожная карта запуска — последовательность на 12 недель, которую мы используем чаще всего
Не меняйте все слои разом. Это план по слотам, который стабильно доезжает до прода в проектах для здравоохранения, финтеха и SaaS.
| Недели | Поток работ | Результат | Критерий выхода |
|---|---|---|---|
| 1–2 | Эталонный датасет и телеметрия | 200 записанных диалогов, базовые задержки по слоям | Измеримая стартовая точка по каждой метрике |
| 3–4 | Спайк ядра стека | Сквозной прототип LiveKit Agents + ASR + LLM + TTS | P50 задержки < 1 000 мс на 10 эталонных клипах |
| 5–6 | Сценарии и вызов инструментов | Конечный автомат, JSON-схемы инструментов, интеграции с CRM | Доля решённых задач > 80% на 50 скриптовых звонках |
| 6–8 | Комплаенс и доступность | Платёжный путь через DTMF, маскирование персональных данных, сценарии согласия, контролы WCAG | Пройденный внешний аудит безопасности |
| 8–10 | Устойчивость к акцентам и языкам | Подсказки по словарю, маршрутизация по локалям, резервные модели | Ни на одном языковом кластере WER не превышает 12% на эталонном датасете |
| 10–11 | Постепенная выкатка | Сдвиг трафика 5% → 20% → 50% с автоматическим откатом | Без P1-регрессов в течение 72 часов прогрева |
| 11–12 | GA и наблюдаемость | Дашборды, алерты, ночной регресс-прогон | Ноль незаметных регрессов качества за 14 дней |
Каркас решения — выбираем стек за пять вопросов
1. Какая рамка по комплаенсу? HIPAA / PCI / GDPR / on-prem — это отбрасывает больше вендоров, чем любой другой фактор. Отвечайте сначала на этот вопрос; всё остальное — следствие.
2. Какой бюджет задержек? Потребительский диалог — менее 900 мс; замена голосового меню — менее 1 500 мс; пакетная транскрипция нечувствительна к задержке. Выбирайте вендоров под P95, а не под P50.
3. Какие языки и акценты? Только английский — просто; 30+ языков с переключением сужают выбор до Soniox v4, Deepgram Nova-3 или потокового Google Chirp 3.
4. Свой стек или SaaS? LiveKit + ваши вендоры дают контроль, наблюдаемость и стоимость в масштабе; Vapi / Retell / Bland — самый быстрый путь до первого звонка. Граница окупаемости — примерно 20 тыс. звонков в месяц.
5. Что если вендор пропадёт? Держите Whisper, Kokoro/XTTS, Llama 4 и Riva в эвалюации; если основной вендор удвоит цены или его поглотят, у вас должен быть резервный путь, который собирается за один спринт.
Пять ловушек, которые мы видим в проектах с голосовыми ИИ-ассистентами
1. Оптимизация медианной задержки и игнорирование P95. Медиана отлично смотрится на демо; P95 — то, что реально чувствуют пользователи. Снимайте метрики и ставьте алерты на P95.
2. Привязка к одному вендору ASR или TTS. Удвоение цен, сбои в регионе, смена руководства — риск вендора реален. Держите запасной путь, который собирается за два спринта.
3. Допуск PCI-данных в ASR. Сырые номера карт в логах ASR — семизначный счёт на устранение последствий. Заложите DTMF и паузу-возобновление с первого дня.
4. Плоский набор тестов. Один корпус для английского скрывает регресс на акцентах, шуме и переключении языков. Делите по кластерам; алертите на регресс по кластеру, а не по среднему.
5. Чрезмерная ставка на рассуждения LLM. Лучшие голосовые агенты держат LLM на коротком поводке: детерминированные сценарии для регулируемых шагов и LLM только для свободного диалога. Чисто LLM-агенты на масштабе уплывают в сторону и галлюцинируют.
KPI, которые стоит отслеживать
KPI качества. WER по языковым кластерам, точность смены реплик, MOS у TTS, доля решённых задач. Дашборд раз в неделю; человеческие квартальные ревью.
KPI задержек. P50 и P95 «речь—речь», задержка до первого аудио, время до первого частичного распознавания. Алерты — по P95.
KPI бизнеса. Среднее время обработки звонка, доля передач оператору, срыв до первого ответа, стоимость одной решённой задачи, NPS / CSAT по завершённым звонкам.
KPI надёжности. Доля сквозных успешных диалогов (без сбоев транспорта или сервисов), дрейф версий моделей, ежедневная доля прохождения регрессионного прогона на эталонном датасете.
Agent Engineering — как мы сокращаем сборку голосового агента на 30–50%
Раньше 12-недельная выкатка голосового агента требовала 4–5 сеньоров. С нашей практикой Agent Engineering тот же объём закрывает команда из 2–3 человек: оркестрационный шаблон, схемы вызова инструментов, каркас эталонного датасета, тестовый каркас и дашборды наблюдаемости пишут ИИ-агенты под надзором инженеров.
Где работают агенты. Шаблоны LiveKit Agents, сборка пайплайнов Pipecat, обвязка вокруг вендорских SDK, тестовые каркасы для WER и MOS, дашборды Grafana, каталоги регулярок для маскирования персональных данных, CI/CD-пайплайны для выкатки голосовых моделей, нагрузочные тесты, 70–80% тестовых фикстур.
Что это значит коммерчески. Промышленный голосовой агент, который раньше выходил на 16–20 неделе, теперь готов к 10–12 неделе — экономия делится между календарём (более ранний запуск) и фиксированной ценой проекта.
Что не меняется. Архитектурные решения, due diligence по вендорам, ревью комплаенса, проектирование доступности и формирование эталонного датасета остаются работой сеньоров. Агенты усиливают команду, но не отменяют ключевых решений.
Проверка по цене: если подрядчик по голосовому агенту берёт оплату за неделю работы сеньора и при этом не использует Agent Engineering, вы переплачиваете 30–50% за работу, которую уже не нужно делать вручную. Спросите, какую долю стека их агенты пишут сами.
Доступность как функция первого класса
Голосовые агенты, которые работают для всех, охватывают больший рынок и проходят госзакупки. Закладывайте доступность как продуктовую работу с первой недели, а не дотягивайте на десятой.
Режим медленной речи. Пользователи со слуховыми аппаратами, иностранцы и пожилые люди часто просят агента говорить медленнее. Выведите скорость TTS как контрол первого класса; сохраняйте в профиль пользователя.
Паритет «текст ↔ голос». Дайте пользователю возможность в любой момент перейти на ввод с клавиатуры и получать текстовую расшифровку рядом с аудио. Это базовая доступность и заодно тихий буст к вовлечению в шумной обстановке.
Совместимость со скринридерами. WCAG 2.2 AA на каждом контроле; статус агента (слушает / думает / говорит) выводится через ARIA live regions, чтобы скринридер озвучивал смену состояний.
Автоопределение языка с ручным выбором. Автоопределение работает хорошо до момента, когда оно ошибается. Всегда оставляйте ручной переключатель языка; сохраняйте выбор между сессиями.
Когда не стоит делать голосового ассистента
Менее 5 000 голосовых взаимодействий в месяц. Накладные расходы на инфраструктуру, оценку и эксплуатацию не отобьются. Сделайте чат-продукт; голос подключите на втором году.
Высокие ставки решения без приемлемой подстраховки. Медицинская сортировка, юридические консультации, крупные финансовые решения — голосовые агенты годятся для приёма и маршрутизации, но не для финального решения. Спроектируйте передачу человеку, до которого всегда одна реплика.
Продукты с полным сквозным шифрованием. Облачным ASR/TTS нужен расшифрованный поток на сервере. Если вы пообещали E2EE, либо запускайте модели на устройстве и принимайте компромисс по качеству, либо не делайте голос вовсе.
Ниши с сильным предпочтением к тексту. Юриспруденция, корпоративные закупки, длинные исследования — пользователи предпочитают набор текста. Сначала проверьте спрос текстовым агентом.
Архитектура данных — что хранить, что выбрасывать
Сырое аудио. Храните только если этого требуют согласие, комплаенс или доказательства мошенничества. Срок хранения по умолчанию: 30 дней для записей, 180 дней для транскриптов.
Структурированная телеметрия по репликам. Метрики VAD / ASR / LLM / TTS по каждой реплике в колоночное хранилище. ~200 байт на реплику; многолетнее хранение стоит дёшево и закрывает все вопросы при отладке.
Эталонный датасет. 200–500 вручную отобранных диалогов по всем языковым кластерам и типам задач, в WORM-хранилище. Ночной регресс-прогон; алерты по регрессу на отдельных кластерах.
Каталог версий моделей. Каждая реплика логируется с хешем модели ASR, версией LLM, хешем модели TTS и версией шаблона промпта. Это требование EU AI Act по документации и одновременно инструмент для отладки незаметных регрессов.
Реальная картина стоимости в 2026 году
Потоковый ASR. 0,37–1,12 ₽ за минуту в зависимости от вендора, тарифа и языка. На 100 тыс. минут в месяц это 37 500–112 500 ₽.
Инференс LLM. Для голоса закладывайте 200–400 токенов на вход и 80–200 на выход на одну реплику. Gemini 2.5 Flash и Claude Haiku 4.5 обычно стоят доли копейки за реплику; уровень GPT-4.1 — примерно в 3–8 раз дороже.
TTS. ElevenLabs Flash и Cartesia Sonic-3 берут плату за знаки. Минута ответа — это примерно 1 000 знаков; в стабильном режиме закладывайте 0,75–3 ₽ за минуту.
Транспорт. WebRTC через LiveKit Cloud или self-hosted добавляет 0,07–0,37 ₽ за минуту участника. Телефония (Twilio, Vonage) добавляет регулируемую поминутную плату сверху.
Итоговый ориентир. Голосовой агент средней сложности в стабильном режиме укладывается в 4,5–13,5 ₽ за минуту разговора. Сравните с 56–135 ₽ за минуту полностью загруженного оператора-человека — окупаемость наступает быстро даже на скромных объёмах.
Якорь по стоимости: не считайте голосового агента как «стоимость инференса × минуты». Половина реального счёта — это транспорт, телефония, наблюдаемость и инфраструктура оценки. Прежде чем прогнозировать юнит-экономику, посчитайте весь стек.
Хотите фиксированную оценку голосового агента под ваш сценарий?
Соберём план на 10–12 недель с подбором вендоров, контуром комплаенса и честным прогнозом стоимости минуты разговора. 30 минут, без презентации.
FAQ
Какая реалистичная цель по задержкам у промышленного голосового агента?
Менее 900 мс по медиане «речь—речь» для потребительского диалога; порог алерта по P95 — 1 500 мс. Выше 1 800 мс удержание резко падает. Снимайте P95 на каждом звонке — медиана скрывает всё, что важно.
Брать открытый оркестратор (LiveKit, Pipecat) или управляемую платформу (Vapi, Retell)?
Граница окупаемости — около 20 000 звонков в месяц. Ниже — управляемые платформы доезжают быстрее и дешевле в сумме. Выше — поминутная плата управляемой платформы перегоняет инженерные расходы, и связка «открытый стек + прямые контракты с вендорами» начинает окупаться. Сегодня LiveKit Agents — наш открытый стек по умолчанию.
Можно ли запустить весь стек on-prem для HIPAA или изолированных контуров?
Да. NVIDIA Riva закрывает ASR + TTS on-prem; открытые LLM (Llama 4, Mistral) закрывают слой рассуждений; LiveKit self-hosted — транспорт. Ожидайте 10–50 мс к задержке относительно облака и реальные обязательства по парку GPU. Cartesia Sonic-3 — второй сильный вариант, если on-prem-развёртывание прописано в контракте.
Как закрыть акценты и переключение языков, не строя свою языковую модель?
Берите вендоров с сильной мультиязычной потоковой поддержкой (Soniox v4, Deepgram Nova-3, Google Chirp 3); включайте автоопределение языка с ручным переключателем; подгружайте список ключевых слов с глоссарием продукта; сложные кластеры акцентов маршрутизируйте на специализированную резервную модель. Реальный бенчмарк — это WER на самом тяжёлом для вас кластере, а не цифра из лидерборда.
Что с PCI DSS — может ли голосовой ИИ-агент принимать платёж?
Не через захват цифр карты в ASR. Совместимый паттерн — передавать момент ввода карты на путь DTMF или паузу-возобновление записи, чтобы номер не попадал в логи и транскрипты, а затем возвращаться к голосу для подтверждения. ASR остаётся в области применения только для разговора без ввода карты.
Нужно ли сообщать пользователям, что они общаются с ИИ?
Да — этого требует EU AI Act и аналогичные законы штатов США (Калифорния, Колорадо, Юта — список растёт). Делайте сообщение коротким и сразу в начале, фиксируйте согласие, давайте короткий путь к человеку. Скрытая ИИ-природа агента — это и юридический риск, и удар по доверию.
Как защититься от клонирования голоса и мошенничества с синтетическими голосами на платформе?
Требуйте явного письменного согласия с подтверждением живости перед клонированием любого голоса; ставьте водяные метки или теги C2PA на синтез там, где риск мошенничества существенен; запускайте антиспуфинг на входящем аудио, если в потоке есть биометрическая аутентификация по голосу. Этой связки хватает для большинства продуктовых рисков; специализированные команды по фроду накладывают дополнительные слои детекции.
Какова реальная стоимость минуты у промышленного голосового агента в 2026 году?
4,5–13,5 ₽ за минуту разговора у агента средней сложности — в зависимости от стека. Сравните с 56–135 ₽ за минуту полностью загруженного оператора-человека — и понятно, почему бюджеты в 2026 разворачиваются в эту сторону. Главный рычаг — объём: стоимость минуты падает примерно на 30–40% между 10 тыс. и 500 тыс. звонков в месяц.
Как тестировать голосового агента, чтобы незаметные регрессы не уезжали в продакшн?
Три уровня. Ночной автоматический регресс на эталонном датасете из 200–500 клипов с порогами по WER, доле решённых задач и задержкам по каждому кластеру. Еженедельный выборочный разбор 30 реальных звонков рецензентом-человеком. Раз в квартал — полная человеческая оценка (MOS, симуляция CSAT). Версии моделей зафиксированы между тестом и продом; любое поднятие версии требует обязательного полного прогона перед выкаткой.
Что почитать дальше
Видео и голос
ИИ-функции в видеоконференциях, которые имеют значение в 2026
Двенадцать ИИ-возможностей, меняющих формат встреч, — рядом с вашим голосовым агентом.
Кодеки и ИИ
Тренды ИИ в обработке видео: 9 сдвигов с реальной экономикой
Где кодирование, генеративное видео и инференс на edge экономят реальные деньги в 2026.
Качество стриминга
Улучшение качества видео с ИИ: 6 прорывных функций
Супер-разрешение, шумоподавление, HDR, интерполяция кадров — с планом выкатки на основе VMAF.
Кейс
Meetric — ИИ-ассистент продаж в Zoom, Meet и Teams
Анализ вовлечённости в реальном времени, автоматический коучинг, захват данных для CRM.
Кейс
TransLinguist — перевод в реальном времени на 75+ языках
Маркетплейс с доверием NHS, 30 000+ сертифицированных переводчиков и живой ASR.
Готовы запустить голосового агента, который реально работает в 2026?
В 2024 голосовые ассистенты перестали быть научным проектом. В 2026 это решение по стеку — четыре слоя, рамка комплаенса, бюджет задержек и план выкатки. Команды, которые подбирают вендоров под реальные тестовые наборы и идут постепенной 12-недельной выкаткой, доезжают до прода чисто; команды, которые показывают прототип и сразу отправляют его в продакшн, — нет.
Мы уже два десятилетия делаем голосовые и голос-ориентированные продукты. Если вам нужны выбор стека, эталонные 200 клипов, карта комплаенса и честный план на 10–12 недель — это получасовой созвон.
Начните с получасового плана, а не презентации
Подберём вендоров, зафиксируем бюджет задержек, очертим выкатку на 10–12 недель. Один созвон — заметки придут вам на почту.

