ИИ-агенты на WebRTC в 2026: архитектуры, задержки, стоимость и комплаенс

Блог: ИИ + WebRTC: как умные агенты меняют коммуникацию в реальном времени

Главное

• ИИ-агенты на WebRTC уже укладываются в 500 мс. Speech-to-speech модели вроде OpenAI gpt-realtime и Gemini Live дают сквозную задержку 150–300 мс; каскад STT→LLM→TTS — 500–800 мс. И то и другое в разговоре ощущается естественно.

• На рынке доминируют две архитектуры. Speech-to-speech — самая быстрая и простая, но привязывает вас к одному вендору. Каскад (Deepgram + открытая LLM + ElevenLabs/Cartesia) обходится в 3–5 раз дешевле и позволяет менять модели от звонка к звонку.

• Разрыв в стоимости огромен. OpenAI Realtime сжигает около 15 ₽ за минуту; настроенный каскад на Deepgram Nova-3 + Llama 8B + Cartesia Sonic — 3–6,7 ₽ за минуту. Выбирайте архитектуру под юнит-экономику конкретного типа звонка.

• Естественное ощущение даёт не сама задержка, а управление очерёдностью реплик. Один VAD не справляется с шумом и поддакиваниями. В продакшене агенты слоят VAD, ML-модель определения конца реплики, AEC и мгновенное прерывание TTS, чтобы отрабатывать перебивание (barge-in) за ~300 мс.

• Комплаенс — это шлагбаум. Если вы работаете с медициной, финансами или пользователями из ЕС, стек должен с первого дня поставляться с HIPAA, SOC 2 Type II и резидентностью данных по GDPR. Прикрутить это после пилота — значит удвоить бюджет.

Почему этот плейбук написала Фора Софт

Мы делаем продукты для видео и голосовой связи в реальном времени уже 21 год: за это время вышло больше 625 запусков. WebRTC — слой, с которым мы работаем каждый день: от виртуального класса BrainCert (1 млн+ учеников, 500 млн+ доставленных минут в 10 дата-центрах) до VOLO.live, нашей платформы синхронного ИИ-перевода, которая обслужила более 22 000 участников Black Hat Briefings 2025 и HIMSS.

Когда мы говорим «ИИ-агенты на WebRTC», мы имеем в виду продакшен-реальность: участник подключается к SFU как обычный участник комнаты, слушает живой RTP-поток, дёргает модель за 200 мс и стримит TTS обратно ещё до того, как пользователь успевает вдохнуть. Это сложнее, чем кажется. Этот гид — синтез того, что мы даём собственным архитекторам, когда клиент спрашивает «что мне на самом деле построить?»: авторская карта четырёх работающих архитектур, экономика каждой и подводные камни, которые тихо губят пилоты.

Читайте как CTO: переходите сразу к матрице сравнения, модели стоимости или фреймворку выбора, если вам нужно именно это. Или закажите 30-минутный архитектурный разбор — пройдёмся по вашему стеку в прямом эфире.

Выбираете между OpenAI Realtime и каскадом?

Прогоним обе архитектуры на профиле вашего трафика и подберём ту, что укладывается в ваш бюджет задержек по минимальной стоимости минуты. Без презентаций, только цифры.

Позвоните нам → Напишите нам →

Что реально изменилось в 2024–2026

Три вещи перевели связку ИИ + WebRTC из демо в продакшен. Во-первых, нативные speech-to-speech модели: OpenAI gpt-realtime и Google Gemini Live принимают аудио и отдают аудио без промежуточной транскрипции, убирая два слоя задержки и сохраняя интонацию. Во-вторых, сверхбыстрый TTS: ElevenLabs Flash v2.5 даёт первое аудио за ~75 мс, Cartesia Sonic — за ~40 мс, и сигнал «я тебя слышу» успевает прийти раньше, чем пользователь начнёт раздражаться. В-третьих, агентные фреймворки поверх SFU: LiveKit Agents, Pipecat и Daily/Vapi превратили шестинедельную интеграцию в недельный каркас.

В итоге мы получили разговорный ИИ, который заходит в WebRTC-комнату как участник, слышит аудиодорожку, ведёт 30-ходовой диалог с состоянием, передаёт диалог человеку с полным контекстом и стоит дешевле живого оператора. В 2023 это было демо. В 2026 это базовый стандарт ожиданий в поддержке клиентов, квалификации продаж, телемедицинском приёме и онлайн-репетиторстве.

WebRTC за 90 секунд — для владельцев продуктов

WebRTC — это открытый стандарт, по которому браузеры и мобильные приложения обмениваются аудио, видео и данными с задержкой меньше 200 мс. Полный гид — в нашей статье об архитектуре WebRTC; коротко это четыре составляющие:

Медиадорожки — аудио и видео, которые идут поверх UDP/SRTP со встроенным DTLS-шифрованием.
Сигнализация — ваш собственный сервер, через который участники обмениваются SDP-предложениями и ответами, чтобы найти друг друга.
ICE / STUN / TURN — обход NAT, чтобы два участника за фаерволами реально соединились.
Топология SFU или P2P — для двух участников хватит P2P; от трёх и больше почти всегда нужен Selective Forwarding Unit (LiveKit, mediasoup, Janus), который маршрутизирует медиа.

Для ИИ-агента точкой подключения служит SFU: агент заходит как обычный участник, подписывается на аудиодорожку каждого живого участника комнаты и публикует своё синтезированное аудио обратно. Никакого специального протокола — ровно тот же WebRTC, что использует браузер. Именно эта симметрия и сделала интеграцию реалистичной.

Четыре архитектуры, которые реально доходят до продакшена

Почти любая продакшен-система ИИ + WebRTC сводится к одному из четырёх паттернов. Выбирайте по бюджету задержек, готовности к вендор-локу и нужному объёму звонков.

1. Speech-to-speech (OpenAI Realtime, Gemini Live)

Одна мультимодальная модель принимает аудио на вход и отдаёт аудио на выход. Агент подключается через WebRTC (браузер) или WebSocket (сервер) напрямую к OpenAI или Google. Самая низкая сквозная задержка (150–300 мс), лучшая интонация, самый простой код — но LLM не сменить, «рассуждения» не разобрать, а минута стоит дороже всех альтернатив на рынке.

Берите speech-to-speech, когда: задержка обязана быть ниже 400 мс, разговор короткий (до ~3 минут) и вы готовы к 11–15 ₽ за минуту аудио. Sales-боты, голосовой онбординг, премиальный IVR.

2. Каскад STT → LLM → TTS

Классический стек: Deepgram или AssemblyAI стримит транскрипт; LLM (GPT-4o, Claude, Llama 3 8B/70B) генерирует ответ; ElevenLabs или Cartesia синтезирует речь обратно. Оркестрация — LiveKit Agents или Pipecat. Полная задержка 500–800 мс, зато каждый слой меняется на лету, всё видно в логах и стоит дёшево. Большая часть корпоративных внедрений живёт именно здесь.

Берите каскад, когда: нужно A/B-тестировать разные LLM, логировать каждый транскрипт под комплаенс или загнать стоимость минуты ниже 7,5 ₽ на больших объёмах. Контакт-центры, медицинский приём, поддержка клиентов.

3. Мост SIP / PSTN к WebRTC-агенту

Для входящих и исходящих телефонных звонков. SIP-транк (Twilio, Telnyx) терминируется в WebRTC SFU; сам агент работает по той же схеме, что в паттерне 2. Телефония добавляет 100–300 мс джиттера, зато даёт охват PSTN и узнаваемые регуляторные пути. Vapi и Retell AI — готовые управляемые обёртки; LiveKit, Pipecat и Plivo — маршрут «собрать самому».

Берите SIP-мост, когда: звонок начинается с телефонного номера, а не из вашего приложения. Исходящие продажи, напоминания о встречах, страховые случаи, запись в автосервис.

4. Мультимодальный визуальный агент на живой видеодорожке

Агент подписывается и на аудио, и на видео, отправляет выборочные кадры в визуальную модель (GPT-4o, Gemini 2.5, мультимодальный Claude 4), сопоставляет с речью и отвечает. Покадровый инференс добавляет 400–800 мс, поэтому частоту кадров для рассуждения сбрасывают до 1–3 fps, а аудио идёт на полной частоте. Применяется в KYC-верификации, направляемом онбординге внутри приложения, контроле качества на производстве и удалённой полевой поддержке. Производственную обвязку мы разобрали в нашем материале о мультимодальных агентах на LiveKit.

Берите мультимодальную модель, когда: агент должен видеть то же, что и пользователь — документы, повреждённый товар, экран приложения, реальное рабочее место. Телемедицинский триаж, страховые претензии с фото повреждений, AR-поддержка в полях.

Матрица сравнения — четыре архитектуры рядом

Паттерн	Сквозная задержка	Стоимость / мин	Вендор-лок	Время запуска	Когда подходит
Speech-to-speech (OpenAI / Gemini)	150–300 мс	11–15 ₽	Высокий	~1 день	Голосовой онбординг, sales-боты
Каскад STT→LLM→TTS	500–800 мс	3–6,7 ₽	Низкий	2–3 недели	Контакт-центры, медицинский приём
SIP / PSTN-мост	600 мс – 1,2 с	4,5–12 ₽	Средний	2–4 недели	Входящие / исходящие телефонные звонки
Мультимодальный визуальный агент	700 мс – 2 с	7,5–22 ₽	Средний	4–6 недель	KYC, телемедицинский триаж, полевой сервис
Open-source on-prem (Whisper + Llama + Coqui)	600–900 мс	~0 ₽ маржинальной (CapEx)	Нет	6–10 недель	Чувствительные данные, регулирование, edge

Бюджет задержек — куда уходит каждая миллисекунда

Человек начинает замечать паузу примерно с 250–300 мс тишины. На 500 мс это ощущается как «немного запоздало», на 800 мс пользователь думает, что связь оборвалась, на 1,5 с он кладёт трубку. Чтобы держать живое ощущение разговора, путь от «пользователь замолчал» до «агент проиграл первый звук» должен укладываться в 800 мс, а лучше — в 500 мс.

В каскаде бюджет распределяется примерно так:

Этап	Типично (мс)	Агрессивно (мс)
Аудио пользователя → SFU (сеть)	40–100	30
Определение конца реплики (VAD + endpointing)	400–600	200–300
Стриминговый STT (Deepgram Nova-3, P50)	200–300	~150
LLM до первого токена	200–400	100–150 (Llama 8B / Groq)
TTS до первого аудио	100–200	40–75 (Cartesia / EL Flash)
SFU → аудио пользователю	40–100	30

Доминируют два этапа: определение конца реплики и время до первого токена LLM. Срежете endpointing слишком жёстко — агент начнёт перебивать; выберете медленную LLM — вся цепочка встанет. Искусство — передавать первое предложение LLM в TTS, как только утекает 8–15 токенов («спекулятивная речь»), чтобы аудио пошло раньше, чем модель закончит думать.

Очерёдность реплик, перебивание и почему наивный VAD ломает демо

Задержка делает агента быстрым. Управление очерёдностью реплик делает его вежливым. Большинство проваленных пилотов, которые мы аудировали, имели нормальный STT и адекватные LLM, но казались неестественными: агент наезжал на пользователя, слишком долго ждал после поддакиваний или его нельзя было перебить посередине фразы.

Продакшен-менеджер реплик нужен в четырёх слоях:

1. Непрерывный VAD — классификатор окна 30–50 мс (Silero VAD, WebRTC VAD), который отмечает наличие голоса. Дёшево, работает на CPU, срабатывает на любой звук, включая кашель и стук клавиатуры.

2. Модель конца реплики — маленькая ML-голова (есть в LiveKit, у Pipecat это SmartTurn), которая по аудио и последнему частичному транскрипту оценивает: «пользователь действительно закончил?». Срезает ~300 мс с наивного 800-миллисекундного таймаута тишины и не делает речь рваной.

3. Эхокомпенсация (AEC) — обязательна, если TTS агента воспроизводится через колонки пользователя и микрофон ловит этот звук обратно. Без AEC агент будет «слышать сам себя» и отвечать на собственный голос. У браузеров AEC уже есть; в нативных приложениях и headless-агентах его надо подключать явно.

4. Мгновенное прерывание TTS — в момент, когда детектируется реальное прерывание (не «м-м-м»), сбрасывается аудиобуфер, отменяется генерация LLM, состояние диалога откатывается до частичного ответа, а STT берёт новую реплику пользователя. Цель — ~300 мс от начала прерывания до тишины со стороны агента.

Слой инструментов — сначала фреймворк, потом провайдеры

Ниже — короткий список фреймворков, которыми наша команда реально пользуется в продакшене. Ни один не «неправильный»: они просто оптимизированы под разное.

Фреймворк	Сильная сторона	Компромисс	Кому подходит
LiveKit Agents	Лучший SFU; нативные VoicePipelineAgent и MultimodalAgent; облако с SOC 2 + HIPAA	Базовая цена выше, чем у self-hosted	Корпоративные команды, которым нужен управляемый масштаб
Pipecat (Daily)	Оркестрация под лицензией MIT; модульная, провайдеров легко менять	Деплой и наблюдаемость на вас	Команды, которым важна стоимость и есть DevOps
Vapi / Retell AI	Сначала телефон; исходящий обзвон за дни; управляемый комплаенс	Меньше контроля; наценка к стоимости провайдеров	Исходящие продажи, напоминания о встречах
OpenAI Agents SDK + Realtime	Минимум подвижных частей; лучшая интонация	Один вендор; самая высокая цена за минуту	Премиальные голосовые продукты, MVP
mediasoup + свой оркестратор	Полный контроль над кодом; разворачивается on-prem и на edge	Месяцы разработки, а не недели	Регулируемые отрасли, on-prem, суверенное облако

Из STT мы обычно берём Deepgram Nova-3 (минимальная задержка, около 0,32 ₽ за минуту) или AssemblyAI Universal-2 (выше точность на акцентном английском, около 0,14 ₽ за минуту). Из TTS — Cartesia Sonic, когда узкое место — задержка, и ElevenLabs Flash v2.5, когда качество голоса должно убеждать. С LLM картина текучая: Llama 3.1 8B на Groq для дешёвых сценариев, GPT-4o или Claude 4 для сложных tool-flow, и собственный fine-tune для домена, который нельзя отдавать третьему вендору.

Застряли между LiveKit, Pipecat и Vapi?

Мы поставляли продукты на всех трёх. Дайте профиль звонков и бюджет — порекомендуем фреймворк, который укладывается и в то и в другое, плюс провайдеров под него.

Позвоните нам → Напишите нам →

Эталонная архитектура, которую можно скопировать

Чистый каскад для голосового агента поддержки B2B SaaS выглядит так:

  Browser / Mobile (WebRTC client)
        |  audio + video tracks
        v
  LiveKit / mediasoup SFU  ────────►  Recording & transcript store (S3 + Postgres)
        |  audio track subscribed
        v
  Agent worker (Python / Node)
   ├─ VAD (Silero)
   ├─ End-of-turn model
   ├─ Streaming STT (Deepgram Nova-3)
   ├─ LLM orchestrator (LangGraph / Pipecat)
   │   ├─ tool calls → CRM / KB / payments
   │   └─ guardrails + PII redaction
   ├─ Streaming TTS (Cartesia Sonic)
   └─ Barge-in / pre-emption controller
        |  publishes synthesized audio
        v
  SFU → user
        |
        └─► Observability (OpenTelemetry → Datadog / Grafana)

Каждый блок справа в пилоте опционален, в продакшене обязателен: запись для QA, наблюдаемость для SLO по задержкам, guardrails для редакции PII, tool calls — чтобы агент реально что-то делал (бронировал встречу, оформлял возврат, лез в базу знаний). Любопытный архитектурный выбор — где живёт состояние: историю диалога мы держим в Redis с TTL 24 часа, а полные транскрипты сессий складываем в Postgres для аналитики на длинной дистанции.

Расчёт стоимости — 100 000 минут звонков в месяц

Цифры режут архитектурные споры быстрее любых диаграмм. Возьмём типичное внедрение поддержки клиентов в среднем сегменте: 100 000 пользовательских минут в месяц, средняя длина звонка 3,5 минуты, агент говорит ~40% времени. Ниже — месячный счёт по трём архитектурам, которые мы поставляем чаще всего.

Статья расходов	OpenAI Realtime	Каскад (управляемый)	Каскад (self-hosted)
Маршрутизация медиа в SFU	30 000 ₽ (LiveKit Cloud)	30 000 ₽ (LiveKit Cloud)	22 500 ₽ (кластер Hetzner AX52)
STT	входит в стоимость	32 250 ₽ (Deepgram Nova-3)	14 250 ₽ (Whisper.cpp on-prem)
LLM	входит в ₽/мин	135 000 ₽ (GPT-4o-mini)	52 500 ₽ (Llama 3.1 8B / Groq)
TTS	входит в стоимость	180 000 ₽ (ElevenLabs Flash)	90 000 ₽ (Cartesia Sonic API)
Аудио realtime-модели	1 350 000 ₽ (~13,5 ₽/мин в среднем)	—	—
Итого / месяц (приблизительно)	~1,3 млн ₽	~377 тыс. ₽	~179 тыс. ₽

Разрыв в 3,6 раза между самым простым путём и самым дешёвым каскадом достаточен, чтобы профинансировать небольшую инженерную команду. На первые 6–12 месяцев мы обычно рекомендуем управляемый каскад: он быстрее всего стартует, и команда успевает накачать операционную мускулатуру; затем, когда объём оправдывает миграцию, слои LLM и TTS переезжают в self-hosted. Цифры иллюстративные: реальный счёт зависит от структуры звонков, стоимости клонирования голосов и скидок за резерв.

Мини-кейс — как VOLO.live ведёт ИИ в реальном времени для 22 000 участников

Контекст. Продукту синхронного перевода для конференций нужны были речь-в-текст и переведённый закадровый голос в реальном времени для глобальных событий — HIMSS, Black Hat Briefings, GDC. Задержка должна была ощущаться как одновременная, аудио — синхронным со спикером на сцене, а любая техническая заминка тут же стала бы видна тысячам платных участников.

Что мы построили. WebRTC-инжест с площадки, аудио уходит в Speechmatics и Google Cloud Speech для стримингового STT, ИИ-слой перевода выдаёт и субтитры, и закадровый голос на 25+ языках, NestJS-бэкенд оркеструет переключение языка, а Next.js-приложение участника открывается по QR-коду на месте. У спикеров и организаторов — админпанели для включения и выключения языков на лету; участник выбирает язык в два касания.

Результат. Развёрнуто на Black Hat Briefings 2025 (более 22 000 участников), HIMSS, GDC и других конференциях верхнего уровня. Перевод в реальном времени с задержкой субтитров меньше секунды на ощущение, естественно звучащий закадровый голос и удобный с точки зрения лицензий мультивендорный стек STT/перевода, который заказчик может масштабировать. Хотите такой же разбор собственного стека ИИ в реальном времени?

Безопасность и комплаенс — что закладывать с первого дня

WebRTC по умолчанию шифрует медиа в транзите (DTLS-SRTP). Вся остальная работа по комплаенсу — везде вокруг: на SFU (он терминирует шифрование, чтобы маршрутизировать), у LLM-провайдера (он видит транскрипты), на хранилище (записи и транскрипты) и на слое согласия (в большинстве юрисдикций вы обязаны раскрывать, что разговаривает ИИ).

1. HIPAA (медицина в США). Подписанный BAA нужен с каждым вендором, который касается защищённой медицинской информации — SFU, STT, LLM, TTS, хранилище. LiveKit Cloud, Deepgram и OpenAI предлагают BAA на корпоративных тарифах; ElevenLabs — только на enterprise-плане. PHI в транскриптах должна быть зашифрована на хранении и иметь логирование доступа.

2. GDPR (пользователи из ЕС). Ловушка — резидентность данных: SFU и LLM должны работать в ЕС, если хоть какие-то пользовательские данные через них проходят. У OpenAI на enterprise есть резидентность в ЕС; многие open-source self-hosted стеки оказываются проще, чем оформление бумаг.

3. SOC 2 Type II. Требуется при большинстве корпоративных закупок. Аудит покрывает безопасность, доступность и конфиденциальность всего стека. Берите вендоров, у которых сертификат уже есть (LiveKit, Deepgram, AssemblyAI, OpenAI, Cartesia) — цепочка не порвётся.

4. PCI-DSS. Если агенту хоть раз надо будет принять номер карты, маршрутизируйте этот фрагмент аудио через токенизирующего вендора (Cresta, AudioCodes), чтобы LLM никогда не увидела сырой PAN. Не давайте GPT-4 транскрибировать карту — никогда.

5. Согласие и раскрытие ИИ. Калифорния, Иллинойс, Колорадо и AI Act ЕС требуют чётко раскрывать, что собеседник — ИИ. Зашейте раскрытие в первые 5 секунд каждого звонка и логируйте подтверждение пользователя.

Пять подводных камней, которые тихо хоронят продакшен-агентов

1. Холодный старт LLM. Если контейнер LLM скейлится в ноль, первый звонок после паузы ждёт загрузки модели 2–5 секунд. Держите хотя бы две тёплые реплики с синтетическим пингом раз в 30 секунд — или возьмите управляемый эндпоинт, который держит память за вас (Groq, OpenAI, Anthropic).

2. Раздувание контекста. Диалог из 30 ходов легко переваливает за 10 000 токенов; стоимость LLM растёт линейно, задержка — супер-линейно. Каждые 8–10 реплик сжимайте в скользящий объект состояния и выбрасывайте сырой транскрипт из промпта; полный транскрипт держите в хранилище для QA.

3. Многословный TTS. Поскольку TTS тарифицируется посимвольно, болтливая модель — это дорогая модель. Ограничивайте ответы ~80 словами, давайте LLM инструкцию говорить кратко и предпочитайте экстрактивные ответы («ваш последний счёт — 6 525 ₽») генеративным («отличный вопрос, давайте я объясню…»).

4. Нет пути передачи человеку. Агент будет ошибаться. Стек обязан передать звонок оператору с полным транскриптом, абзацем-резюме и открытым намерением, а не «холодным» переводом, после которого пользователь повторяет всё заново. Считайте долю успешных передач топ-уровневым KPI.

5. Отношение к SFU как к «просто трубам». География задержек определяется тем, где стоит SFU: американский SFU, обслуживающий пользователя из APAC, добавляет 200–300 мс ещё до того, как агент его услышит. Берите вендора SFU с edge-точками под вашу карту пользователей или поднимайте свои на Hetzner / OVH / Equinix в основных регионах.

KPI — что мерить, когда вы уже в продакшене

KPI качества. P50 и P95 задержки туда-обратно (цель: P50 < 600 мс, P95 < 1 с), word error rate в STT (< 8% для поддержки), доля ложных перебиваний (< 5%), частота самосрабатывания AEC (~0).

KPI бизнеса. Containment rate / отклонение звонков (доля звонков, полностью обработанных ИИ; цель 50–75% в поддержке, 80%+ в self-service), CSAT по обработанным ИИ звонкам (в пределах 0,3 от человеческой базы), стоимость одного решённого обращения (цель — меньше 25% человеческой), доля апселла или квалифицированных лидов на исходящих.

KPI надёжности. Аптайм агента (≥ 99,9%), доля разрывов звонков (< 0,5%), успешная передача оператору с полным контекстом (> 98%), доля поимки PII / небезопасного контента guardrails (precision и recall считаем отдельно).

Когда ИИ-агента на WebRTC не запускать

Три сценария, где ответ — нет или пока нет. Сильно эмоциональные звонки и звонки на грани жизни: телефоны доверия по суициду, посттравматический приём, разговоры о конце жизни. ИИ — не тот, кто должен брать трубку первым; маршрутизируйте к людям, а ИИ используйте для бэкенд-поддержки и резюме после звонка. Домены, где цена галлюцинации больше выгоды от ускорения: юридические консультации, выписка контролируемых препаратов, регулируемая финансовая консультация. Стоимость одного неверного предложения перевешивает три месяца сэкономленных минут. Объёмы ниже ~5000 минут в месяц: накладные на интеграцию, мониторинг и комплаенс не отбиваются. Используйте чат-бот или человека, пока не пересечёте порог.

Фреймворк выбора — пять вопросов до архитектуры

В1. Какой жёсткий потолок задержки? Меньше 400 мс — speech-to-speech (OpenAI Realtime, Gemini Live). 500–800 мс — управляемый каскад. Выше — подойдёт что угодно.

В2. Какой потолок стоимости одного звонка? Ниже 7,5 ₽ за минуту — только каскад на дешёвых провайдерах (Deepgram + Llama 8B + Cartesia). Бюджет от 15 ₽ за минуту открывает более простые вендорские стеки.

В3. Откуда приходят звонки? Из вашего приложения — чистый WebRTC. С телефонных номеров — SIP-мост через Vapi, Retell или LiveKit Telephony. И то и другое — собирайте каскад один раз и подключайте оба транспорта.

В4. Какой режим комплаенса? HIPAA + GDPR ЕС + PCI вместе толкают вас к LiveKit Cloud + AssemblyAI + Anthropic Claude на AWS Bedrock с резидентностью в ЕС — или к полностью self-hosted open-source.

В5. Нужно ли агенту зрение? Если да (KYC, телемедицина, полевой сервис), стройте на MultimodalAgent в LiveKit Agents или на Pipecat с визуальной моделью на 1–3 fps. Если нет — держитесь чистого аудио: зрение втрое увеличивает стоимость и задержку.

Нужно второе мнение по вашему голосовому ИИ-стеку?

30-минутный разбор с нашими архитекторами голосового ИИ: бюджет задержек, стоимость минуты, провалы в комплаенсе и план запуска в продакшен за 12 недель.

Позвоните нам → Напишите нам →

Сценарии, которые уже окупаются в 2026

Поддержка клиентов уровня tier-0. Голосовой агент закрывает сброс паролей, статус заказа, FAQ по биллингу и маршрутизирует всё остальное вместе с полным контекстом. Внедрения в индустрии показывают 50–80% containment по таким запросам; стоимость одного решённого обращения падает примерно до четверти от стоимости человека.

Discovery и квалификация в продажах. Агент проводит первый звонок, задаёт ICP-вопросы, оценивает лида и бронирует встречу в календаре менеджера по продажам. Полезно для высокого объёма входящих, когда SDR не справляются. Подробнее — в нашей статье об ИИ-ассистентах для звонков.

Приём в телемедицине и наблюдение после визита. ИИ собирает симптомы, список лекарств и согласие до того, как подключится врач, а затем ведёт рутинные follow-up. Естественно сочетается с нашей работой над платформами телемедицины — HIPAA-grade WebRTC плюс ИИ-агент с guardrails для PHI.

Онлайн-репетиторство и онбординг. Агент заходит на занятие, следит за уроком, отвечает на вопросы ученика, делает резюме для преподавателя. Сделанный аккуратно, он повышает вовлечённость, не подменяя самого преподавателя — тот же паттерн использует BrainCert на 1 млн+ учеников.

Real-time копилоты для встреч. Живая транскрипция, action items, резюме на почту через минуты. Инфраструктура та же, что у голосового агента, — WebRTC SFU + STT + LLM, минус синтез голоса. Соседнюю область мы разобрали в обзоре решений для синхронного перевода встреч.

12-недельный план от нуля до живого агента

Недели 1–2 — discovery и анализ звонков. Поднимите 200 репрезентативных записей звонков. Разметьте намерения, триггеры эскалации, паттерны PII и режимы отказа, которые агент обязан отрабатывать. По фреймворку выше выберите архитектуру.

Недели 3–6 — пилотная сборка. Соберите SFU + STT + LLM + TTS на одно намерение (например, статус заказа). Сначала катите внутренним пользователям; снимайте задержку и CSAT.

Недели 7–9 — закрытая бета. 5–10% реального трафика, A/B против человеческой базовой линии. Подключите передачу оператору с контекстом. Тюньте endpointing, AEC и промпты.

Недели 10–12 — продакшен-раскатка. Расширьте до 100% выбранного намерения, добавьте дашборды наблюдаемости, выставьте SLO, спланируйте второе намерение. К концу 12-й недели у вас должна быть защищаемая цифра стоимости решения и чистый план миграции для следующего сценария.

Что дальше — тренды, под которые стоит закладывать бюджет в 2026–2027

Нативные мультимодальные модели вытесняют каскады. Одна модель принимает аудио + видео + текст и отдаёт речь (а скоро и видео), сворачивая трёхвендорные стеки в один API-вызов. Ожидайте меньше задержки и плотнее межмодальное рассуждение — ценой ещё большей концентрации вендоров.

Edge-инференс становится нормой. Open-source LLM на 7–13 млрд параметров, работающие на NVIDIA Jetson или локальных GPU AMD, дают задержку ниже 200 мс и нулевой egress данных. Ранние адоптеры — регулируемые отрасли (оборона, медицина, госсектор); за ними подтянутся ритейл и полевой сервис.

Звонки агента к агенту. Два ИИ договариваются о возврате, согласуют встречи между календарями или закрывают онбординг поставщика. Пока экспериментально: модели предотвращения зацикливаний и распределения полномочий ещё не решены, но протокольная работа уже идёт в LiveKit, Daily и новых рабочих группах W3C по агентам.

Голосовая биометрия внутри WebRTC. Идентификация по голосу пользователя прямо во время звонка вместо отдельного шага. Снижает трение в банкинге и медицине; приносит новое регулирование приватности.

FAQ

Достаточно ли WebRTC безопасен для ИИ-агентов в чувствительных разговорах?

Медиа в WebRTC по умолчанию шифруется DTLS-SRTP, и это закрывает канал. Точки риска — SFU (он терминирует шифрование, чтобы маршрутизировать пакеты), LLM-провайдер (он видит транскрипты) и ваше хранилище. Под HIPAA, GDPR или SOC 2 вам нужны BAA / DPA с каждым вендором на этом пути плюс контроль доступа и аудитные логи на хранилище.

Нужно ли переписывать WebRTC-продукт, чтобы добавить ИИ-агента?

Почти никогда. Агент заходит в существующий SFU как обычный участник: подписывается на аудиодорожки людей в комнате и публикует своё синтезированное аудио. Если ваш SFU — LiveKit, mediasoup или Janus, интеграция занимает дни, не недели. Время уходит на дизайн промптов, guardrails, наблюдаемость и путь передачи человеку, а не на сам слой WebRTC.

Сколько на самом деле занимает развёртывание в продакшене?

Сфокусированный пилот на одно намерение запускается за 4–6 недель. Продакшен-раскатка с мониторингом, комплаенсом, передачей оператору и хотя бы двумя намерениями обычно занимает 12 недель. Мультимодальные визуальные агенты добавляют ещё 2–4 недели на тюнинг визуального пайплайна.

Какой самый дешёвый адекватный стек для продакшен-голосового агента?

Self-hosted Pipecat на Hetzner-сервере, mediasoup в роли SFU, Whisper.cpp для STT, Llama 3.1 8B на Groq или локальной GPU и Cartesia Sonic для TTS. На умеренных объёмах маржинальная стоимость минуты падает ниже 3,7 ₽. Компромисс — вы сами держите эксплуатацию, наблюдаемость и безопасность.

Заменит ли агент нашу команду живой поддержки?

Почти ни одно успешное внедрение, что мы видели, не заменяет людей оптом. Рабочий паттерн — ИИ закрывает основную массу рутинных запросов (50–80% containment), а люди концентрируются на сложных, эмоциональных и важных для выручки разговорах. Численность обычно остаётся прежней, а нагрузка на одного человека удваивается.

Как мерить успех ИИ-агента в продакшене?

Три ведра: качество (P95 задержки, WER, точность срабатывания на перебивание), бизнес (containment, CSAT относительно человеческой базы, стоимость одного решения), надёжность (аптайм, drop rate, успешность передачи оператору с полным контекстом). Выберите один основной KPI на тип звонка — обычно это containment или конверсия, — и держите остальные как guardrails.

Speech-to-speech (OpenAI Realtime) или каскад — с чего начать?

Если запуститься нужно за дни, а звонок короткий, начинайте с OpenAI Realtime: вы провалидируете продукт раньше, чем будете оптимизировать стек. Если юнит-экономика важна с первого дня или комплаенс заставляет видеть каждый слой, начинайте с каскада на LiveKit Agents или Pipecat. Многие наши клиенты прототипируют на Realtime и переносят болтливые намерения в каскад, как только объём оправдывает миграцию.

Справится ли агент с не-английскими языками и акцентами?

Да, но провайдеров надо подбирать. AssemblyAI Universal-2 и Deepgram Nova-3 покрывают 30–100 языков с измеримой точностью на акцентном английском. Cartesia и ElevenLabs поставляют мультиязычные голоса; для языков за пределами топ-30 ждите fine-tuning. И задержка, и точность вне английского несколько просаживаются — закладывайте дополнительное время на QA.

Что почитать дальше

Гид по сборке

Сборка и развёртывание голосовых ИИ-агентов на LiveKit

Пошаговый бизнес-гид по запуску агента на LiveKit.

Мультимодальность

Мультимодальные ИИ-агенты на LiveKit

Голос + зрение: продакшен-обвязка для камероориентированных агентов.

Архитектура

Гид по архитектуре WebRTC в 2026

P2P, SFU, MCU и гибридные топологии — для владельцев продуктов.

Голосовой ИИ

Разработка голосового ИИ-ассистента в 2026

Полный гид для владельцев продуктов, заказывающих голосовой ИИ.

Выбор вендора

Альтернативы Agora.io для своего WebRTC

LiveKit, mediasoup, Jitsi и Janus в продакшен-сравнении.

Готовы поставить ИИ-агента поверх своего WebRTC-стека?

За два года ИИ-агенты на WebRTC прошли путь от шоурума до продакшен-стандарта. Speech-to-speech модели дают задержку ниже 300 мс для премиальных голосовых сценариев. Каскадные пайплайны на LiveKit или Pipecat дают в 3–5 раз меньшую стоимость минуты и полную наблюдаемость. В обоих случаях слой SFU, который ваша команда уже эксплуатирует, — это и есть точка подключения: интеграция — дни кода поверх месяцев тюнинга, комплаенса и QA.

Если у вас есть продукт реального времени и вы не пилотируете хотя бы одного ИИ-агента — ваши конкуренты уже делают это. Возможность — в том, чтобы выпустить архитектуру, подходящую под вашу юнит-экономику, а не самую модную, и не сэкономить на скучных вещах (очерёдность реплик, AEC, передача оператору, комплаенс), от которых зависит, ощущается ли агент живым.

Запустить ИИ-агента в реальном времени за 12 недель?

Принесите профиль звонков, бюджет задержек и требования по комплаенсу. Со звонка вы уйдёте с рекомендованным стеком, 12-недельным планом и защищаемой цифрой стоимости одного звонка.

Позвоните нам → Напишите нам →

Разработка
Технологии

Стадия	Агрессивный бюджет	Реалистичный бюджет	Как удержать
Захват и форк	50 мс	100 мс	Медиасервер и AI-сайдкар рядом; кадры Opus по 20 мс
Streaming ASR	150 мс	300 мс	Промежуточные гипотезы, endpointing, тюнинг VAD
Streaming MT	150 мс	400 мс	Инкрементальный декодер; кэш контекста на сессию
Streaming TTS	200 мс	500 мс	Синтез чанками; буферы коротких предложений
Возврат слушателю	50 мс	150 мс	Медиа в том же регионе; микс через SFU
Итого от рта до уха	~600 мс	~1,5 с	Архитектура + вендоры + регионы

Стадия	Лучшее качество	Лучшая цена	Open-source / self-host	На что обратить внимание
Streaming ASR	Deepgram, AssemblyAI, Speechmatics	Azure, Google, Amazon Transcribe	Whisper, NVIDIA Parakeet / Canary	Качество телефонного звука сильно варьируется
MT	DeepL, GPT-4o / Claude / Gemini	Google Translate, Azure, Amazon	NLLB-200, M2M-100, MADLAD-400	Задержка LLM при росте нагрузки
TTS	ElevenLabs, Cartesia, OpenAI	Amazon Polly Neural, Azure Neural	Coqui TTS, Piper, XTTS v2	Задержка первого аудио на холодном старте
Медиасервер	LiveKit Cloud, Vonage Video, Daily	FreeSWITCH, Asterisk, Janus	Все перечисленные open-source	SIP-interop и тюнинг обхода NAT
SIP-прокси	Kamailio, OpenSIPS	Kamailio, Drachtio	Kamailio, OpenSIPS	Сложность маршрутизации растёт с числом транков

Статья	За минуту, коммерческий API	За минуту, self-hosted	Заметки
Streaming ASR	0,9–1,8 ₽	0,2–0,6 ₽	Deepgram и Google в нижней части диапазона
Машинный перевод	0,3–3 ₽	0,1–0,7 ₽	LLM-пайплайны в верхней части
Нейросетевой TTS	2,2–9 ₽	0,6–1,8 ₽	Премиум-ElevenLabs наверху
Медиасервер + egress	0,3–0,7 ₽	0,07–0,2 ₽	LiveKit Cloud vs self-hosted
Итого за минуту	3,7–15 ₽	1–3,4 ₽	Self-hosted примерно в 3–5 раз дешевле

Инструмент	Модель	Цена	Срок	Для кого	Главное ограничение
Photomatix Pro 7	Десктоп	7 425 ₽ единоразово	30–60 мин на 100 фото	Одиночный фотограф, детерминированный результат	Нет подмены неба, устаревший UI
Luminar Neo	Десктоп + кроссплатформа	7 425–11 925 ₽	5–15 мин на фото	Пресеты под недвижимость, подмена неба	Дефолтный пресет может пересатурировать
AutoHDR	Облачный AI	30–41 ₽ / кадр	20–30 мин	Агентства, объёмы MLS	Меньше контроля над стилем
Imagen AI	Облако + Lightroom	2–5 ₽ / кадр	Минуты, пакетно	Фотографы со своим стилем	Нужен каталог для обучения
Aftershoot	Облачная подписка	750–4 500 ₽ / месяц	Безлимит по объёму	Студии большого объёма, плоский тариф	Меньше пресетов под недвижимость
BoxBrownie (Pixa)	Управляемый аутсорсинг	120 ₽ / кадр	~24 часа	Агентства «всё под ключ»	Самый медленный, самая высокая цена
Кастомная разработка (SaaS)	Свой API + облако	Себестоимость 15–37 ₽ / кадр	Настраиваемый (5–30 мин)	Proptech, вертикальные обёртки	12–20 недель до MVP

ИИ-агенты на WebRTC в 2026: архитектуры, задержки, стоимость и комплаенс

Почему этот плейбук написала Фора Софт

Что реально изменилось в 2024–2026

WebRTC за 90 секунд — для владельцев продуктов

Четыре архитектуры, которые реально доходят до продакшена

1. Speech-to-speech (OpenAI Realtime, Gemini Live)

2. Каскад STT → LLM → TTS

3. Мост SIP / PSTN к WebRTC-агенту

4. Мультимодальный визуальный агент на живой видеодорожке

Матрица сравнения — четыре архитектуры рядом

Бюджет задержек — куда уходит каждая миллисекунда

Очерёдность реплик, перебивание и почему наивный VAD ломает демо

Слой инструментов — сначала фреймворк, потом провайдеры

Эталонная архитектура, которую можно скопировать

Расчёт стоимости — 100 000 минут звонков в месяц

Мини-кейс — как VOLO.live ведёт ИИ в реальном времени для 22 000 участников

Безопасность и комплаенс — что закладывать с первого дня

Пять подводных камней, которые тихо хоронят продакшен-агентов

KPI — что мерить, когда вы уже в продакшене

Когда ИИ-агента на WebRTC не запускать

Фреймворк выбора — пять вопросов до архитектуры

Сценарии, которые уже окупаются в 2026

12-недельный план от нуля до живого агента

Что дальше — тренды, под которые стоит закладывать бюджет в 2026–2027

FAQ

Что почитать дальше

Готовы поставить ИИ-агента поверх своего WebRTC-стека?

Похожие статьи

Хотите обсудить ваш проект?