
Главное
• ИИ-агенты на WebRTC уже укладываются в 500 мс. Speech-to-speech модели вроде OpenAI gpt-realtime и Gemini Live дают сквозную задержку 150–300 мс; каскад STT→LLM→TTS — 500–800 мс. И то и другое в разговоре ощущается естественно.
• На рынке доминируют две архитектуры. Speech-to-speech — самая быстрая и простая, но привязывает вас к одному вендору. Каскад (Deepgram + открытая LLM + ElevenLabs/Cartesia) обходится в 3–5 раз дешевле и позволяет менять модели от звонка к звонку.
• Разрыв в стоимости огромен. OpenAI Realtime сжигает около 15 ₽ за минуту; настроенный каскад на Deepgram Nova-3 + Llama 8B + Cartesia Sonic — 3–6,7 ₽ за минуту. Выбирайте архитектуру под юнит-экономику конкретного типа звонка.
• Естественное ощущение даёт не сама задержка, а управление очерёдностью реплик. Один VAD не справляется с шумом и поддакиваниями. В продакшене агенты слоят VAD, ML-модель определения конца реплики, AEC и мгновенное прерывание TTS, чтобы отрабатывать перебивание (barge-in) за ~300 мс.
• Комплаенс — это шлагбаум. Если вы работаете с медициной, финансами или пользователями из ЕС, стек должен с первого дня поставляться с HIPAA, SOC 2 Type II и резидентностью данных по GDPR. Прикрутить это после пилота — значит удвоить бюджет.
Почему этот плейбук написала Фора Софт
Мы делаем продукты для видео и голосовой связи в реальном времени уже 21 год: за это время вышло больше 625 запусков. WebRTC — слой, с которым мы работаем каждый день: от виртуального класса BrainCert (1 млн+ учеников, 500 млн+ доставленных минут в 10 дата-центрах) до VOLO.live, нашей платформы синхронного ИИ-перевода, которая обслужила более 22 000 участников Black Hat Briefings 2025 и HIMSS.
Когда мы говорим «ИИ-агенты на WebRTC», мы имеем в виду продакшен-реальность: участник подключается к SFU как обычный участник комнаты, слушает живой RTP-поток, дёргает модель за 200 мс и стримит TTS обратно ещё до того, как пользователь успевает вдохнуть. Это сложнее, чем кажется. Этот гид — синтез того, что мы даём собственным архитекторам, когда клиент спрашивает «что мне на самом деле построить?»: авторская карта четырёх работающих архитектур, экономика каждой и подводные камни, которые тихо губят пилоты.
Читайте как CTO: переходите сразу к матрице сравнения, модели стоимости или фреймворку выбора, если вам нужно именно это. Или закажите 30-минутный архитектурный разбор — пройдёмся по вашему стеку в прямом эфире.
Выбираете между OpenAI Realtime и каскадом?
Прогоним обе архитектуры на профиле вашего трафика и подберём ту, что укладывается в ваш бюджет задержек по минимальной стоимости минуты. Без презентаций, только цифры.
Что реально изменилось в 2024–2026
Три вещи перевели связку ИИ + WebRTC из демо в продакшен. Во-первых, нативные speech-to-speech модели: OpenAI gpt-realtime и Google Gemini Live принимают аудио и отдают аудио без промежуточной транскрипции, убирая два слоя задержки и сохраняя интонацию. Во-вторых, сверхбыстрый TTS: ElevenLabs Flash v2.5 даёт первое аудио за ~75 мс, Cartesia Sonic — за ~40 мс, и сигнал «я тебя слышу» успевает прийти раньше, чем пользователь начнёт раздражаться. В-третьих, агентные фреймворки поверх SFU: LiveKit Agents, Pipecat и Daily/Vapi превратили шестинедельную интеграцию в недельный каркас.
В итоге мы получили разговорный ИИ, который заходит в WebRTC-комнату как участник, слышит аудиодорожку, ведёт 30-ходовой диалог с состоянием, передаёт диалог человеку с полным контекстом и стоит дешевле живого оператора. В 2023 это было демо. В 2026 это базовый стандарт ожиданий в поддержке клиентов, квалификации продаж, телемедицинском приёме и онлайн-репетиторстве.
WebRTC за 90 секунд — для владельцев продуктов
WebRTC — это открытый стандарт, по которому браузеры и мобильные приложения обмениваются аудио, видео и данными с задержкой меньше 200 мс. Полный гид — в нашей статье об архитектуре WebRTC; коротко это четыре составляющие:
- Медиадорожки — аудио и видео, которые идут поверх UDP/SRTP со встроенным DTLS-шифрованием.
- Сигнализация — ваш собственный сервер, через который участники обмениваются SDP-предложениями и ответами, чтобы найти друг друга.
- ICE / STUN / TURN — обход NAT, чтобы два участника за фаерволами реально соединились.
- Топология SFU или P2P — для двух участников хватит P2P; от трёх и больше почти всегда нужен Selective Forwarding Unit (LiveKit, mediasoup, Janus), который маршрутизирует медиа.
Для ИИ-агента точкой подключения служит SFU: агент заходит как обычный участник, подписывается на аудиодорожку каждого живого участника комнаты и публикует своё синтезированное аудио обратно. Никакого специального протокола — ровно тот же WebRTC, что использует браузер. Именно эта симметрия и сделала интеграцию реалистичной.
Четыре архитектуры, которые реально доходят до продакшена
Почти любая продакшен-система ИИ + WebRTC сводится к одному из четырёх паттернов. Выбирайте по бюджету задержек, готовности к вендор-локу и нужному объёму звонков.
1. Speech-to-speech (OpenAI Realtime, Gemini Live)
Одна мультимодальная модель принимает аудио на вход и отдаёт аудио на выход. Агент подключается через WebRTC (браузер) или WebSocket (сервер) напрямую к OpenAI или Google. Самая низкая сквозная задержка (150–300 мс), лучшая интонация, самый простой код — но LLM не сменить, «рассуждения» не разобрать, а минута стоит дороже всех альтернатив на рынке.
Берите speech-to-speech, когда: задержка обязана быть ниже 400 мс, разговор короткий (до ~3 минут) и вы готовы к 11–15 ₽ за минуту аудио. Sales-боты, голосовой онбординг, премиальный IVR.
2. Каскад STT → LLM → TTS
Классический стек: Deepgram или AssemblyAI стримит транскрипт; LLM (GPT-4o, Claude, Llama 3 8B/70B) генерирует ответ; ElevenLabs или Cartesia синтезирует речь обратно. Оркестрация — LiveKit Agents или Pipecat. Полная задержка 500–800 мс, зато каждый слой меняется на лету, всё видно в логах и стоит дёшево. Большая часть корпоративных внедрений живёт именно здесь.
Берите каскад, когда: нужно A/B-тестировать разные LLM, логировать каждый транскрипт под комплаенс или загнать стоимость минуты ниже 7,5 ₽ на больших объёмах. Контакт-центры, медицинский приём, поддержка клиентов.
3. Мост SIP / PSTN к WebRTC-агенту
Для входящих и исходящих телефонных звонков. SIP-транк (Twilio, Telnyx) терминируется в WebRTC SFU; сам агент работает по той же схеме, что в паттерне 2. Телефония добавляет 100–300 мс джиттера, зато даёт охват PSTN и узнаваемые регуляторные пути. Vapi и Retell AI — готовые управляемые обёртки; LiveKit, Pipecat и Plivo — маршрут «собрать самому».
Берите SIP-мост, когда: звонок начинается с телефонного номера, а не из вашего приложения. Исходящие продажи, напоминания о встречах, страховые случаи, запись в автосервис.
4. Мультимодальный визуальный агент на живой видеодорожке
Агент подписывается и на аудио, и на видео, отправляет выборочные кадры в визуальную модель (GPT-4o, Gemini 2.5, мультимодальный Claude 4), сопоставляет с речью и отвечает. Покадровый инференс добавляет 400–800 мс, поэтому частоту кадров для рассуждения сбрасывают до 1–3 fps, а аудио идёт на полной частоте. Применяется в KYC-верификации, направляемом онбординге внутри приложения, контроле качества на производстве и удалённой полевой поддержке. Производственную обвязку мы разобрали в нашем материале о мультимодальных агентах на LiveKit.
Берите мультимодальную модель, когда: агент должен видеть то же, что и пользователь — документы, повреждённый товар, экран приложения, реальное рабочее место. Телемедицинский триаж, страховые претензии с фото повреждений, AR-поддержка в полях.
Матрица сравнения — четыре архитектуры рядом
| Паттерн | Сквозная задержка | Стоимость / мин | Вендор-лок | Время запуска | Когда подходит |
|---|---|---|---|---|---|
| Speech-to-speech (OpenAI / Gemini) | 150–300 мс | 11–15 ₽ | Высокий | ~1 день | Голосовой онбординг, sales-боты |
| Каскад STT→LLM→TTS | 500–800 мс | 3–6,7 ₽ | Низкий | 2–3 недели | Контакт-центры, медицинский приём |
| SIP / PSTN-мост | 600 мс – 1,2 с | 4,5–12 ₽ | Средний | 2–4 недели | Входящие / исходящие телефонные звонки |
| Мультимодальный визуальный агент | 700 мс – 2 с | 7,5–22 ₽ | Средний | 4–6 недель | KYC, телемедицинский триаж, полевой сервис |
| Open-source on-prem (Whisper + Llama + Coqui) | 600–900 мс | ~0 ₽ маржинальной (CapEx) | Нет | 6–10 недель | Чувствительные данные, регулирование, edge |
Бюджет задержек — куда уходит каждая миллисекунда
Человек начинает замечать паузу примерно с 250–300 мс тишины. На 500 мс это ощущается как «немного запоздало», на 800 мс пользователь думает, что связь оборвалась, на 1,5 с он кладёт трубку. Чтобы держать живое ощущение разговора, путь от «пользователь замолчал» до «агент проиграл первый звук» должен укладываться в 800 мс, а лучше — в 500 мс.
В каскаде бюджет распределяется примерно так:
| Этап | Типично (мс) | Агрессивно (мс) |
|---|---|---|
| Аудио пользователя → SFU (сеть) | 40–100 | 30 |
| Определение конца реплики (VAD + endpointing) | 400–600 | 200–300 |
| Стриминговый STT (Deepgram Nova-3, P50) | 200–300 | ~150 |
| LLM до первого токена | 200–400 | 100–150 (Llama 8B / Groq) |
| TTS до первого аудио | 100–200 | 40–75 (Cartesia / EL Flash) |
| SFU → аудио пользователю | 40–100 | 30 |
Доминируют два этапа: определение конца реплики и время до первого токена LLM. Срежете endpointing слишком жёстко — агент начнёт перебивать; выберете медленную LLM — вся цепочка встанет. Искусство — передавать первое предложение LLM в TTS, как только утекает 8–15 токенов («спекулятивная речь»), чтобы аудио пошло раньше, чем модель закончит думать.
Очерёдность реплик, перебивание и почему наивный VAD ломает демо
Задержка делает агента быстрым. Управление очерёдностью реплик делает его вежливым. Большинство проваленных пилотов, которые мы аудировали, имели нормальный STT и адекватные LLM, но казались неестественными: агент наезжал на пользователя, слишком долго ждал после поддакиваний или его нельзя было перебить посередине фразы.
Продакшен-менеджер реплик нужен в четырёх слоях:
1. Непрерывный VAD — классификатор окна 30–50 мс (Silero VAD, WebRTC VAD), который отмечает наличие голоса. Дёшево, работает на CPU, срабатывает на любой звук, включая кашель и стук клавиатуры.
2. Модель конца реплики — маленькая ML-голова (есть в LiveKit, у Pipecat это SmartTurn), которая по аудио и последнему частичному транскрипту оценивает: «пользователь действительно закончил?». Срезает ~300 мс с наивного 800-миллисекундного таймаута тишины и не делает речь рваной.
3. Эхокомпенсация (AEC) — обязательна, если TTS агента воспроизводится через колонки пользователя и микрофон ловит этот звук обратно. Без AEC агент будет «слышать сам себя» и отвечать на собственный голос. У браузеров AEC уже есть; в нативных приложениях и headless-агентах его надо подключать явно.
4. Мгновенное прерывание TTS — в момент, когда детектируется реальное прерывание (не «м-м-м»), сбрасывается аудиобуфер, отменяется генерация LLM, состояние диалога откатывается до частичного ответа, а STT берёт новую реплику пользователя. Цель — ~300 мс от начала прерывания до тишины со стороны агента.
Слой инструментов — сначала фреймворк, потом провайдеры
Ниже — короткий список фреймворков, которыми наша команда реально пользуется в продакшене. Ни один не «неправильный»: они просто оптимизированы под разное.
| Фреймворк | Сильная сторона | Компромисс | Кому подходит |
|---|---|---|---|
| LiveKit Agents | Лучший SFU; нативные VoicePipelineAgent и MultimodalAgent; облако с SOC 2 + HIPAA | Базовая цена выше, чем у self-hosted | Корпоративные команды, которым нужен управляемый масштаб |
| Pipecat (Daily) | Оркестрация под лицензией MIT; модульная, провайдеров легко менять | Деплой и наблюдаемость на вас | Команды, которым важна стоимость и есть DevOps |
| Vapi / Retell AI | Сначала телефон; исходящий обзвон за дни; управляемый комплаенс | Меньше контроля; наценка к стоимости провайдеров | Исходящие продажи, напоминания о встречах |
| OpenAI Agents SDK + Realtime | Минимум подвижных частей; лучшая интонация | Один вендор; самая высокая цена за минуту | Премиальные голосовые продукты, MVP |
| mediasoup + свой оркестратор | Полный контроль над кодом; разворачивается on-prem и на edge | Месяцы разработки, а не недели | Регулируемые отрасли, on-prem, суверенное облако |
Из STT мы обычно берём Deepgram Nova-3 (минимальная задержка, около 0,32 ₽ за минуту) или AssemblyAI Universal-2 (выше точность на акцентном английском, около 0,14 ₽ за минуту). Из TTS — Cartesia Sonic, когда узкое место — задержка, и ElevenLabs Flash v2.5, когда качество голоса должно убеждать. С LLM картина текучая: Llama 3.1 8B на Groq для дешёвых сценариев, GPT-4o или Claude 4 для сложных tool-flow, и собственный fine-tune для домена, который нельзя отдавать третьему вендору.
Застряли между LiveKit, Pipecat и Vapi?
Мы поставляли продукты на всех трёх. Дайте профиль звонков и бюджет — порекомендуем фреймворк, который укладывается и в то и в другое, плюс провайдеров под него.
Эталонная архитектура, которую можно скопировать
Чистый каскад для голосового агента поддержки B2B SaaS выглядит так:
Browser / Mobile (WebRTC client)
| audio + video tracks
v
LiveKit / mediasoup SFU ────────► Recording & transcript store (S3 + Postgres)
| audio track subscribed
v
Agent worker (Python / Node)
├─ VAD (Silero)
├─ End-of-turn model
├─ Streaming STT (Deepgram Nova-3)
├─ LLM orchestrator (LangGraph / Pipecat)
│ ├─ tool calls → CRM / KB / payments
│ └─ guardrails + PII redaction
├─ Streaming TTS (Cartesia Sonic)
└─ Barge-in / pre-emption controller
| publishes synthesized audio
v
SFU → user
|
└─► Observability (OpenTelemetry → Datadog / Grafana)
Каждый блок справа в пилоте опционален, в продакшене обязателен: запись для QA, наблюдаемость для SLO по задержкам, guardrails для редакции PII, tool calls — чтобы агент реально что-то делал (бронировал встречу, оформлял возврат, лез в базу знаний). Любопытный архитектурный выбор — где живёт состояние: историю диалога мы держим в Redis с TTL 24 часа, а полные транскрипты сессий складываем в Postgres для аналитики на длинной дистанции.
Расчёт стоимости — 100 000 минут звонков в месяц
Цифры режут архитектурные споры быстрее любых диаграмм. Возьмём типичное внедрение поддержки клиентов в среднем сегменте: 100 000 пользовательских минут в месяц, средняя длина звонка 3,5 минуты, агент говорит ~40% времени. Ниже — месячный счёт по трём архитектурам, которые мы поставляем чаще всего.
| Статья расходов | OpenAI Realtime | Каскад (управляемый) | Каскад (self-hosted) |
|---|---|---|---|
| Маршрутизация медиа в SFU | 30 000 ₽ (LiveKit Cloud) | 30 000 ₽ (LiveKit Cloud) | 22 500 ₽ (кластер Hetzner AX52) |
| STT | входит в стоимость | 32 250 ₽ (Deepgram Nova-3) | 14 250 ₽ (Whisper.cpp on-prem) |
| LLM | входит в ₽/мин | 135 000 ₽ (GPT-4o-mini) | 52 500 ₽ (Llama 3.1 8B / Groq) |
| TTS | входит в стоимость | 180 000 ₽ (ElevenLabs Flash) | 90 000 ₽ (Cartesia Sonic API) |
| Аудио realtime-модели | 1 350 000 ₽ (~13,5 ₽/мин в среднем) | — | — |
| Итого / месяц (приблизительно) | ~1,3 млн ₽ | ~377 тыс. ₽ | ~179 тыс. ₽ |
Разрыв в 3,6 раза между самым простым путём и самым дешёвым каскадом достаточен, чтобы профинансировать небольшую инженерную команду. На первые 6–12 месяцев мы обычно рекомендуем управляемый каскад: он быстрее всего стартует, и команда успевает накачать операционную мускулатуру; затем, когда объём оправдывает миграцию, слои LLM и TTS переезжают в self-hosted. Цифры иллюстративные: реальный счёт зависит от структуры звонков, стоимости клонирования голосов и скидок за резерв.
Мини-кейс — как VOLO.live ведёт ИИ в реальном времени для 22 000 участников
Контекст. Продукту синхронного перевода для конференций нужны были речь-в-текст и переведённый закадровый голос в реальном времени для глобальных событий — HIMSS, Black Hat Briefings, GDC. Задержка должна была ощущаться как одновременная, аудио — синхронным со спикером на сцене, а любая техническая заминка тут же стала бы видна тысячам платных участников.
Что мы построили. WebRTC-инжест с площадки, аудио уходит в Speechmatics и Google Cloud Speech для стримингового STT, ИИ-слой перевода выдаёт и субтитры, и закадровый голос на 25+ языках, NestJS-бэкенд оркеструет переключение языка, а Next.js-приложение участника открывается по QR-коду на месте. У спикеров и организаторов — админпанели для включения и выключения языков на лету; участник выбирает язык в два касания.
Результат. Развёрнуто на Black Hat Briefings 2025 (более 22 000 участников), HIMSS, GDC и других конференциях верхнего уровня. Перевод в реальном времени с задержкой субтитров меньше секунды на ощущение, естественно звучащий закадровый голос и удобный с точки зрения лицензий мультивендорный стек STT/перевода, который заказчик может масштабировать. Хотите такой же разбор собственного стека ИИ в реальном времени?
Безопасность и комплаенс — что закладывать с первого дня
WebRTC по умолчанию шифрует медиа в транзите (DTLS-SRTP). Вся остальная работа по комплаенсу — везде вокруг: на SFU (он терминирует шифрование, чтобы маршрутизировать), у LLM-провайдера (он видит транскрипты), на хранилище (записи и транскрипты) и на слое согласия (в большинстве юрисдикций вы обязаны раскрывать, что разговаривает ИИ).
1. HIPAA (медицина в США). Подписанный BAA нужен с каждым вендором, который касается защищённой медицинской информации — SFU, STT, LLM, TTS, хранилище. LiveKit Cloud, Deepgram и OpenAI предлагают BAA на корпоративных тарифах; ElevenLabs — только на enterprise-плане. PHI в транскриптах должна быть зашифрована на хранении и иметь логирование доступа.
2. GDPR (пользователи из ЕС). Ловушка — резидентность данных: SFU и LLM должны работать в ЕС, если хоть какие-то пользовательские данные через них проходят. У OpenAI на enterprise есть резидентность в ЕС; многие open-source self-hosted стеки оказываются проще, чем оформление бумаг.
3. SOC 2 Type II. Требуется при большинстве корпоративных закупок. Аудит покрывает безопасность, доступность и конфиденциальность всего стека. Берите вендоров, у которых сертификат уже есть (LiveKit, Deepgram, AssemblyAI, OpenAI, Cartesia) — цепочка не порвётся.
4. PCI-DSS. Если агенту хоть раз надо будет принять номер карты, маршрутизируйте этот фрагмент аудио через токенизирующего вендора (Cresta, AudioCodes), чтобы LLM никогда не увидела сырой PAN. Не давайте GPT-4 транскрибировать карту — никогда.
5. Согласие и раскрытие ИИ. Калифорния, Иллинойс, Колорадо и AI Act ЕС требуют чётко раскрывать, что собеседник — ИИ. Зашейте раскрытие в первые 5 секунд каждого звонка и логируйте подтверждение пользователя.
Пять подводных камней, которые тихо хоронят продакшен-агентов
1. Холодный старт LLM. Если контейнер LLM скейлится в ноль, первый звонок после паузы ждёт загрузки модели 2–5 секунд. Держите хотя бы две тёплые реплики с синтетическим пингом раз в 30 секунд — или возьмите управляемый эндпоинт, который держит память за вас (Groq, OpenAI, Anthropic).
2. Раздувание контекста. Диалог из 30 ходов легко переваливает за 10 000 токенов; стоимость LLM растёт линейно, задержка — супер-линейно. Каждые 8–10 реплик сжимайте в скользящий объект состояния и выбрасывайте сырой транскрипт из промпта; полный транскрипт держите в хранилище для QA.
3. Многословный TTS. Поскольку TTS тарифицируется посимвольно, болтливая модель — это дорогая модель. Ограничивайте ответы ~80 словами, давайте LLM инструкцию говорить кратко и предпочитайте экстрактивные ответы («ваш последний счёт — 6 525 ₽») генеративным («отличный вопрос, давайте я объясню…»).
4. Нет пути передачи человеку. Агент будет ошибаться. Стек обязан передать звонок оператору с полным транскриптом, абзацем-резюме и открытым намерением, а не «холодным» переводом, после которого пользователь повторяет всё заново. Считайте долю успешных передач топ-уровневым KPI.
5. Отношение к SFU как к «просто трубам». География задержек определяется тем, где стоит SFU: американский SFU, обслуживающий пользователя из APAC, добавляет 200–300 мс ещё до того, как агент его услышит. Берите вендора SFU с edge-точками под вашу карту пользователей или поднимайте свои на Hetzner / OVH / Equinix в основных регионах.
KPI — что мерить, когда вы уже в продакшене
KPI качества. P50 и P95 задержки туда-обратно (цель: P50 < 600 мс, P95 < 1 с), word error rate в STT (< 8% для поддержки), доля ложных перебиваний (< 5%), частота самосрабатывания AEC (~0).
KPI бизнеса. Containment rate / отклонение звонков (доля звонков, полностью обработанных ИИ; цель 50–75% в поддержке, 80%+ в self-service), CSAT по обработанным ИИ звонкам (в пределах 0,3 от человеческой базы), стоимость одного решённого обращения (цель — меньше 25% человеческой), доля апселла или квалифицированных лидов на исходящих.
KPI надёжности. Аптайм агента (≥ 99,9%), доля разрывов звонков (< 0,5%), успешная передача оператору с полным контекстом (> 98%), доля поимки PII / небезопасного контента guardrails (precision и recall считаем отдельно).
Когда ИИ-агента на WebRTC не запускать
Три сценария, где ответ — нет или пока нет. Сильно эмоциональные звонки и звонки на грани жизни: телефоны доверия по суициду, посттравматический приём, разговоры о конце жизни. ИИ — не тот, кто должен брать трубку первым; маршрутизируйте к людям, а ИИ используйте для бэкенд-поддержки и резюме после звонка. Домены, где цена галлюцинации больше выгоды от ускорения: юридические консультации, выписка контролируемых препаратов, регулируемая финансовая консультация. Стоимость одного неверного предложения перевешивает три месяца сэкономленных минут. Объёмы ниже ~5000 минут в месяц: накладные на интеграцию, мониторинг и комплаенс не отбиваются. Используйте чат-бот или человека, пока не пересечёте порог.
Фреймворк выбора — пять вопросов до архитектуры
В1. Какой жёсткий потолок задержки? Меньше 400 мс — speech-to-speech (OpenAI Realtime, Gemini Live). 500–800 мс — управляемый каскад. Выше — подойдёт что угодно.
В2. Какой потолок стоимости одного звонка? Ниже 7,5 ₽ за минуту — только каскад на дешёвых провайдерах (Deepgram + Llama 8B + Cartesia). Бюджет от 15 ₽ за минуту открывает более простые вендорские стеки.
В3. Откуда приходят звонки? Из вашего приложения — чистый WebRTC. С телефонных номеров — SIP-мост через Vapi, Retell или LiveKit Telephony. И то и другое — собирайте каскад один раз и подключайте оба транспорта.
В4. Какой режим комплаенса? HIPAA + GDPR ЕС + PCI вместе толкают вас к LiveKit Cloud + AssemblyAI + Anthropic Claude на AWS Bedrock с резидентностью в ЕС — или к полностью self-hosted open-source.
В5. Нужно ли агенту зрение? Если да (KYC, телемедицина, полевой сервис), стройте на MultimodalAgent в LiveKit Agents или на Pipecat с визуальной моделью на 1–3 fps. Если нет — держитесь чистого аудио: зрение втрое увеличивает стоимость и задержку.
Нужно второе мнение по вашему голосовому ИИ-стеку?
30-минутный разбор с нашими архитекторами голосового ИИ: бюджет задержек, стоимость минуты, провалы в комплаенсе и план запуска в продакшен за 12 недель.
Сценарии, которые уже окупаются в 2026
Поддержка клиентов уровня tier-0. Голосовой агент закрывает сброс паролей, статус заказа, FAQ по биллингу и маршрутизирует всё остальное вместе с полным контекстом. Внедрения в индустрии показывают 50–80% containment по таким запросам; стоимость одного решённого обращения падает примерно до четверти от стоимости человека.
Discovery и квалификация в продажах. Агент проводит первый звонок, задаёт ICP-вопросы, оценивает лида и бронирует встречу в календаре менеджера по продажам. Полезно для высокого объёма входящих, когда SDR не справляются. Подробнее — в нашей статье об ИИ-ассистентах для звонков.
Приём в телемедицине и наблюдение после визита. ИИ собирает симптомы, список лекарств и согласие до того, как подключится врач, а затем ведёт рутинные follow-up. Естественно сочетается с нашей работой над платформами телемедицины — HIPAA-grade WebRTC плюс ИИ-агент с guardrails для PHI.
Онлайн-репетиторство и онбординг. Агент заходит на занятие, следит за уроком, отвечает на вопросы ученика, делает резюме для преподавателя. Сделанный аккуратно, он повышает вовлечённость, не подменяя самого преподавателя — тот же паттерн использует BrainCert на 1 млн+ учеников.
Real-time копилоты для встреч. Живая транскрипция, action items, резюме на почту через минуты. Инфраструктура та же, что у голосового агента, — WebRTC SFU + STT + LLM, минус синтез голоса. Соседнюю область мы разобрали в обзоре решений для синхронного перевода встреч.
12-недельный план от нуля до живого агента
Недели 1–2 — discovery и анализ звонков. Поднимите 200 репрезентативных записей звонков. Разметьте намерения, триггеры эскалации, паттерны PII и режимы отказа, которые агент обязан отрабатывать. По фреймворку выше выберите архитектуру.
Недели 3–6 — пилотная сборка. Соберите SFU + STT + LLM + TTS на одно намерение (например, статус заказа). Сначала катите внутренним пользователям; снимайте задержку и CSAT.
Недели 7–9 — закрытая бета. 5–10% реального трафика, A/B против человеческой базовой линии. Подключите передачу оператору с контекстом. Тюньте endpointing, AEC и промпты.
Недели 10–12 — продакшен-раскатка. Расширьте до 100% выбранного намерения, добавьте дашборды наблюдаемости, выставьте SLO, спланируйте второе намерение. К концу 12-й недели у вас должна быть защищаемая цифра стоимости решения и чистый план миграции для следующего сценария.
Что дальше — тренды, под которые стоит закладывать бюджет в 2026–2027
Нативные мультимодальные модели вытесняют каскады. Одна модель принимает аудио + видео + текст и отдаёт речь (а скоро и видео), сворачивая трёхвендорные стеки в один API-вызов. Ожидайте меньше задержки и плотнее межмодальное рассуждение — ценой ещё большей концентрации вендоров.
Edge-инференс становится нормой. Open-source LLM на 7–13 млрд параметров, работающие на NVIDIA Jetson или локальных GPU AMD, дают задержку ниже 200 мс и нулевой egress данных. Ранние адоптеры — регулируемые отрасли (оборона, медицина, госсектор); за ними подтянутся ритейл и полевой сервис.
Звонки агента к агенту. Два ИИ договариваются о возврате, согласуют встречи между календарями или закрывают онбординг поставщика. Пока экспериментально: модели предотвращения зацикливаний и распределения полномочий ещё не решены, но протокольная работа уже идёт в LiveKit, Daily и новых рабочих группах W3C по агентам.
Голосовая биометрия внутри WebRTC. Идентификация по голосу пользователя прямо во время звонка вместо отдельного шага. Снижает трение в банкинге и медицине; приносит новое регулирование приватности.
FAQ
Достаточно ли WebRTC безопасен для ИИ-агентов в чувствительных разговорах?
Медиа в WebRTC по умолчанию шифруется DTLS-SRTP, и это закрывает канал. Точки риска — SFU (он терминирует шифрование, чтобы маршрутизировать пакеты), LLM-провайдер (он видит транскрипты) и ваше хранилище. Под HIPAA, GDPR или SOC 2 вам нужны BAA / DPA с каждым вендором на этом пути плюс контроль доступа и аудитные логи на хранилище.
Нужно ли переписывать WebRTC-продукт, чтобы добавить ИИ-агента?
Почти никогда. Агент заходит в существующий SFU как обычный участник: подписывается на аудиодорожки людей в комнате и публикует своё синтезированное аудио. Если ваш SFU — LiveKit, mediasoup или Janus, интеграция занимает дни, не недели. Время уходит на дизайн промптов, guardrails, наблюдаемость и путь передачи человеку, а не на сам слой WebRTC.
Сколько на самом деле занимает развёртывание в продакшене?
Сфокусированный пилот на одно намерение запускается за 4–6 недель. Продакшен-раскатка с мониторингом, комплаенсом, передачей оператору и хотя бы двумя намерениями обычно занимает 12 недель. Мультимодальные визуальные агенты добавляют ещё 2–4 недели на тюнинг визуального пайплайна.
Какой самый дешёвый адекватный стек для продакшен-голосового агента?
Self-hosted Pipecat на Hetzner-сервере, mediasoup в роли SFU, Whisper.cpp для STT, Llama 3.1 8B на Groq или локальной GPU и Cartesia Sonic для TTS. На умеренных объёмах маржинальная стоимость минуты падает ниже 3,7 ₽. Компромисс — вы сами держите эксплуатацию, наблюдаемость и безопасность.
Заменит ли агент нашу команду живой поддержки?
Почти ни одно успешное внедрение, что мы видели, не заменяет людей оптом. Рабочий паттерн — ИИ закрывает основную массу рутинных запросов (50–80% containment), а люди концентрируются на сложных, эмоциональных и важных для выручки разговорах. Численность обычно остаётся прежней, а нагрузка на одного человека удваивается.
Как мерить успех ИИ-агента в продакшене?
Три ведра: качество (P95 задержки, WER, точность срабатывания на перебивание), бизнес (containment, CSAT относительно человеческой базы, стоимость одного решения), надёжность (аптайм, drop rate, успешность передачи оператору с полным контекстом). Выберите один основной KPI на тип звонка — обычно это containment или конверсия, — и держите остальные как guardrails.
Speech-to-speech (OpenAI Realtime) или каскад — с чего начать?
Если запуститься нужно за дни, а звонок короткий, начинайте с OpenAI Realtime: вы провалидируете продукт раньше, чем будете оптимизировать стек. Если юнит-экономика важна с первого дня или комплаенс заставляет видеть каждый слой, начинайте с каскада на LiveKit Agents или Pipecat. Многие наши клиенты прототипируют на Realtime и переносят болтливые намерения в каскад, как только объём оправдывает миграцию.
Справится ли агент с не-английскими языками и акцентами?
Да, но провайдеров надо подбирать. AssemblyAI Universal-2 и Deepgram Nova-3 покрывают 30–100 языков с измеримой точностью на акцентном английском. Cartesia и ElevenLabs поставляют мультиязычные голоса; для языков за пределами топ-30 ждите fine-tuning. И задержка, и точность вне английского несколько просаживаются — закладывайте дополнительное время на QA.
Что почитать дальше
Гид по сборке
Сборка и развёртывание голосовых ИИ-агентов на LiveKit
Пошаговый бизнес-гид по запуску агента на LiveKit.
Мультимодальность
Мультимодальные ИИ-агенты на LiveKit
Голос + зрение: продакшен-обвязка для камероориентированных агентов.
Архитектура
Гид по архитектуре WebRTC в 2026
P2P, SFU, MCU и гибридные топологии — для владельцев продуктов.
Голосовой ИИ
Разработка голосового ИИ-ассистента в 2026
Полный гид для владельцев продуктов, заказывающих голосовой ИИ.
Выбор вендора
Альтернативы Agora.io для своего WebRTC
LiveKit, mediasoup, Jitsi и Janus в продакшен-сравнении.
Готовы поставить ИИ-агента поверх своего WebRTC-стека?
За два года ИИ-агенты на WebRTC прошли путь от шоурума до продакшен-стандарта. Speech-to-speech модели дают задержку ниже 300 мс для премиальных голосовых сценариев. Каскадные пайплайны на LiveKit или Pipecat дают в 3–5 раз меньшую стоимость минуты и полную наблюдаемость. В обоих случаях слой SFU, который ваша команда уже эксплуатирует, — это и есть точка подключения: интеграция — дни кода поверх месяцев тюнинга, комплаенса и QA.
Если у вас есть продукт реального времени и вы не пилотируете хотя бы одного ИИ-агента — ваши конкуренты уже делают это. Возможность — в том, чтобы выпустить архитектуру, подходящую под вашу юнит-экономику, а не самую модную, и не сэкономить на скучных вещах (очерёдность реплик, AEC, передача оператору, комплаенс), от которых зависит, ощущается ли агент живым.
Запустить ИИ-агента в реальном времени за 12 недель?
Принесите профиль звонков, бюджет задержек и требования по комплаенсу. Со звонка вы уйдёте с рекомендованным стеком, 12-недельным планом и защищаемой цифрой стоимости одного звонка.

