Блог: ИИ + WebRTC: как умные агенты меняют коммуникацию в реальном времени

Главное

ИИ-агенты на WebRTC уже укладываются в 500 мс. Speech-to-speech модели вроде OpenAI gpt-realtime и Gemini Live дают сквозную задержку 150–300 мс; каскад STT→LLM→TTS — 500–800 мс. И то и другое в разговоре ощущается естественно.

На рынке доминируют две архитектуры. Speech-to-speech — самая быстрая и простая, но привязывает вас к одному вендору. Каскад (Deepgram + открытая LLM + ElevenLabs/Cartesia) обходится в 3–5 раз дешевле и позволяет менять модели от звонка к звонку.

Разрыв в стоимости огромен. OpenAI Realtime сжигает около 15 ₽ за минуту; настроенный каскад на Deepgram Nova-3 + Llama 8B + Cartesia Sonic — 3–6,7 ₽ за минуту. Выбирайте архитектуру под юнит-экономику конкретного типа звонка.

Естественное ощущение даёт не сама задержка, а управление очерёдностью реплик. Один VAD не справляется с шумом и поддакиваниями. В продакшене агенты слоят VAD, ML-модель определения конца реплики, AEC и мгновенное прерывание TTS, чтобы отрабатывать перебивание (barge-in) за ~300 мс.

Комплаенс — это шлагбаум. Если вы работаете с медициной, финансами или пользователями из ЕС, стек должен с первого дня поставляться с HIPAA, SOC 2 Type II и резидентностью данных по GDPR. Прикрутить это после пилота — значит удвоить бюджет.

Почему этот плейбук написала Фора Софт

Мы делаем продукты для видео и голосовой связи в реальном времени уже 21 год: за это время вышло больше 625 запусков. WebRTC — слой, с которым мы работаем каждый день: от виртуального класса BrainCert (1 млн+ учеников, 500 млн+ доставленных минут в 10 дата-центрах) до VOLO.live, нашей платформы синхронного ИИ-перевода, которая обслужила более 22 000 участников Black Hat Briefings 2025 и HIMSS.

Когда мы говорим «ИИ-агенты на WebRTC», мы имеем в виду продакшен-реальность: участник подключается к SFU как обычный участник комнаты, слушает живой RTP-поток, дёргает модель за 200 мс и стримит TTS обратно ещё до того, как пользователь успевает вдохнуть. Это сложнее, чем кажется. Этот гид — синтез того, что мы даём собственным архитекторам, когда клиент спрашивает «что мне на самом деле построить?»: авторская карта четырёх работающих архитектур, экономика каждой и подводные камни, которые тихо губят пилоты.

Читайте как CTO: переходите сразу к матрице сравнения, модели стоимости или фреймворку выбора, если вам нужно именно это. Или закажите 30-минутный архитектурный разбор — пройдёмся по вашему стеку в прямом эфире.

Выбираете между OpenAI Realtime и каскадом?

Прогоним обе архитектуры на профиле вашего трафика и подберём ту, что укладывается в ваш бюджет задержек по минимальной стоимости минуты. Без презентаций, только цифры.

Позвоните нам → Напишите нам →

Что реально изменилось в 2024–2026

Три вещи перевели связку ИИ + WebRTC из демо в продакшен. Во-первых, нативные speech-to-speech модели: OpenAI gpt-realtime и Google Gemini Live принимают аудио и отдают аудио без промежуточной транскрипции, убирая два слоя задержки и сохраняя интонацию. Во-вторых, сверхбыстрый TTS: ElevenLabs Flash v2.5 даёт первое аудио за ~75 мс, Cartesia Sonic — за ~40 мс, и сигнал «я тебя слышу» успевает прийти раньше, чем пользователь начнёт раздражаться. В-третьих, агентные фреймворки поверх SFU: LiveKit Agents, Pipecat и Daily/Vapi превратили шестинедельную интеграцию в недельный каркас.

В итоге мы получили разговорный ИИ, который заходит в WebRTC-комнату как участник, слышит аудиодорожку, ведёт 30-ходовой диалог с состоянием, передаёт диалог человеку с полным контекстом и стоит дешевле живого оператора. В 2023 это было демо. В 2026 это базовый стандарт ожиданий в поддержке клиентов, квалификации продаж, телемедицинском приёме и онлайн-репетиторстве.

WebRTC за 90 секунд — для владельцев продуктов

WebRTC — это открытый стандарт, по которому браузеры и мобильные приложения обмениваются аудио, видео и данными с задержкой меньше 200 мс. Полный гид — в нашей статье об архитектуре WebRTC; коротко это четыре составляющие:

  • Медиадорожки — аудио и видео, которые идут поверх UDP/SRTP со встроенным DTLS-шифрованием.
  • Сигнализация — ваш собственный сервер, через который участники обмениваются SDP-предложениями и ответами, чтобы найти друг друга.
  • ICE / STUN / TURN — обход NAT, чтобы два участника за фаерволами реально соединились.
  • Топология SFU или P2P — для двух участников хватит P2P; от трёх и больше почти всегда нужен Selective Forwarding Unit (LiveKit, mediasoup, Janus), который маршрутизирует медиа.

Для ИИ-агента точкой подключения служит SFU: агент заходит как обычный участник, подписывается на аудиодорожку каждого живого участника комнаты и публикует своё синтезированное аудио обратно. Никакого специального протокола — ровно тот же WebRTC, что использует браузер. Именно эта симметрия и сделала интеграцию реалистичной.

Четыре архитектуры, которые реально доходят до продакшена

Почти любая продакшен-система ИИ + WebRTC сводится к одному из четырёх паттернов. Выбирайте по бюджету задержек, готовности к вендор-локу и нужному объёму звонков.

1. Speech-to-speech (OpenAI Realtime, Gemini Live)

Одна мультимодальная модель принимает аудио на вход и отдаёт аудио на выход. Агент подключается через WebRTC (браузер) или WebSocket (сервер) напрямую к OpenAI или Google. Самая низкая сквозная задержка (150–300 мс), лучшая интонация, самый простой код — но LLM не сменить, «рассуждения» не разобрать, а минута стоит дороже всех альтернатив на рынке.

Берите speech-to-speech, когда: задержка обязана быть ниже 400 мс, разговор короткий (до ~3 минут) и вы готовы к 11–15 ₽ за минуту аудио. Sales-боты, голосовой онбординг, премиальный IVR.

2. Каскад STT → LLM → TTS

Классический стек: Deepgram или AssemblyAI стримит транскрипт; LLM (GPT-4o, Claude, Llama 3 8B/70B) генерирует ответ; ElevenLabs или Cartesia синтезирует речь обратно. Оркестрация — LiveKit Agents или Pipecat. Полная задержка 500–800 мс, зато каждый слой меняется на лету, всё видно в логах и стоит дёшево. Большая часть корпоративных внедрений живёт именно здесь.

Берите каскад, когда: нужно A/B-тестировать разные LLM, логировать каждый транскрипт под комплаенс или загнать стоимость минуты ниже 7,5 ₽ на больших объёмах. Контакт-центры, медицинский приём, поддержка клиентов.

3. Мост SIP / PSTN к WebRTC-агенту

Для входящих и исходящих телефонных звонков. SIP-транк (Twilio, Telnyx) терминируется в WebRTC SFU; сам агент работает по той же схеме, что в паттерне 2. Телефония добавляет 100–300 мс джиттера, зато даёт охват PSTN и узнаваемые регуляторные пути. Vapi и Retell AI — готовые управляемые обёртки; LiveKit, Pipecat и Plivo — маршрут «собрать самому».

Берите SIP-мост, когда: звонок начинается с телефонного номера, а не из вашего приложения. Исходящие продажи, напоминания о встречах, страховые случаи, запись в автосервис.

4. Мультимодальный визуальный агент на живой видеодорожке

Агент подписывается и на аудио, и на видео, отправляет выборочные кадры в визуальную модель (GPT-4o, Gemini 2.5, мультимодальный Claude 4), сопоставляет с речью и отвечает. Покадровый инференс добавляет 400–800 мс, поэтому частоту кадров для рассуждения сбрасывают до 1–3 fps, а аудио идёт на полной частоте. Применяется в KYC-верификации, направляемом онбординге внутри приложения, контроле качества на производстве и удалённой полевой поддержке. Производственную обвязку мы разобрали в нашем материале о мультимодальных агентах на LiveKit.

Берите мультимодальную модель, когда: агент должен видеть то же, что и пользователь — документы, повреждённый товар, экран приложения, реальное рабочее место. Телемедицинский триаж, страховые претензии с фото повреждений, AR-поддержка в полях.

Матрица сравнения — четыре архитектуры рядом

Паттерн Сквозная задержка Стоимость / мин Вендор-лок Время запуска Когда подходит
Speech-to-speech (OpenAI / Gemini) 150–300 мс 11–15 ₽ Высокий ~1 день Голосовой онбординг, sales-боты
Каскад STT→LLM→TTS 500–800 мс 3–6,7 ₽ Низкий 2–3 недели Контакт-центры, медицинский приём
SIP / PSTN-мост 600 мс – 1,2 с 4,5–12 ₽ Средний 2–4 недели Входящие / исходящие телефонные звонки
Мультимодальный визуальный агент 700 мс – 2 с 7,5–22 ₽ Средний 4–6 недель KYC, телемедицинский триаж, полевой сервис
Open-source on-prem (Whisper + Llama + Coqui) 600–900 мс ~0 ₽ маржинальной (CapEx) Нет 6–10 недель Чувствительные данные, регулирование, edge

Бюджет задержек — куда уходит каждая миллисекунда

Человек начинает замечать паузу примерно с 250–300 мс тишины. На 500 мс это ощущается как «немного запоздало», на 800 мс пользователь думает, что связь оборвалась, на 1,5 с он кладёт трубку. Чтобы держать живое ощущение разговора, путь от «пользователь замолчал» до «агент проиграл первый звук» должен укладываться в 800 мс, а лучше — в 500 мс.

В каскаде бюджет распределяется примерно так:

Этап Типично (мс) Агрессивно (мс)
Аудио пользователя → SFU (сеть) 40–100 30
Определение конца реплики (VAD + endpointing) 400–600 200–300
Стриминговый STT (Deepgram Nova-3, P50) 200–300 ~150
LLM до первого токена 200–400 100–150 (Llama 8B / Groq)
TTS до первого аудио 100–200 40–75 (Cartesia / EL Flash)
SFU → аудио пользователю 40–100 30

Доминируют два этапа: определение конца реплики и время до первого токена LLM. Срежете endpointing слишком жёстко — агент начнёт перебивать; выберете медленную LLM — вся цепочка встанет. Искусство — передавать первое предложение LLM в TTS, как только утекает 8–15 токенов («спекулятивная речь»), чтобы аудио пошло раньше, чем модель закончит думать.

Очерёдность реплик, перебивание и почему наивный VAD ломает демо

Задержка делает агента быстрым. Управление очерёдностью реплик делает его вежливым. Большинство проваленных пилотов, которые мы аудировали, имели нормальный STT и адекватные LLM, но казались неестественными: агент наезжал на пользователя, слишком долго ждал после поддакиваний или его нельзя было перебить посередине фразы.

Продакшен-менеджер реплик нужен в четырёх слоях:

1. Непрерывный VAD — классификатор окна 30–50 мс (Silero VAD, WebRTC VAD), который отмечает наличие голоса. Дёшево, работает на CPU, срабатывает на любой звук, включая кашель и стук клавиатуры.

2. Модель конца реплики — маленькая ML-голова (есть в LiveKit, у Pipecat это SmartTurn), которая по аудио и последнему частичному транскрипту оценивает: «пользователь действительно закончил?». Срезает ~300 мс с наивного 800-миллисекундного таймаута тишины и не делает речь рваной.

3. Эхокомпенсация (AEC) — обязательна, если TTS агента воспроизводится через колонки пользователя и микрофон ловит этот звук обратно. Без AEC агент будет «слышать сам себя» и отвечать на собственный голос. У браузеров AEC уже есть; в нативных приложениях и headless-агентах его надо подключать явно.

4. Мгновенное прерывание TTS — в момент, когда детектируется реальное прерывание (не «м-м-м»), сбрасывается аудиобуфер, отменяется генерация LLM, состояние диалога откатывается до частичного ответа, а STT берёт новую реплику пользователя. Цель — ~300 мс от начала прерывания до тишины со стороны агента.

Слой инструментов — сначала фреймворк, потом провайдеры

Ниже — короткий список фреймворков, которыми наша команда реально пользуется в продакшене. Ни один не «неправильный»: они просто оптимизированы под разное.

Фреймворк Сильная сторона Компромисс Кому подходит
LiveKit Agents Лучший SFU; нативные VoicePipelineAgent и MultimodalAgent; облако с SOC 2 + HIPAA Базовая цена выше, чем у self-hosted Корпоративные команды, которым нужен управляемый масштаб
Pipecat (Daily) Оркестрация под лицензией MIT; модульная, провайдеров легко менять Деплой и наблюдаемость на вас Команды, которым важна стоимость и есть DevOps
Vapi / Retell AI Сначала телефон; исходящий обзвон за дни; управляемый комплаенс Меньше контроля; наценка к стоимости провайдеров Исходящие продажи, напоминания о встречах
OpenAI Agents SDK + Realtime Минимум подвижных частей; лучшая интонация Один вендор; самая высокая цена за минуту Премиальные голосовые продукты, MVP
mediasoup + свой оркестратор Полный контроль над кодом; разворачивается on-prem и на edge Месяцы разработки, а не недели Регулируемые отрасли, on-prem, суверенное облако

Из STT мы обычно берём Deepgram Nova-3 (минимальная задержка, около 0,32 ₽ за минуту) или AssemblyAI Universal-2 (выше точность на акцентном английском, около 0,14 ₽ за минуту). Из TTS — Cartesia Sonic, когда узкое место — задержка, и ElevenLabs Flash v2.5, когда качество голоса должно убеждать. С LLM картина текучая: Llama 3.1 8B на Groq для дешёвых сценариев, GPT-4o или Claude 4 для сложных tool-flow, и собственный fine-tune для домена, который нельзя отдавать третьему вендору.

Застряли между LiveKit, Pipecat и Vapi?

Мы поставляли продукты на всех трёх. Дайте профиль звонков и бюджет — порекомендуем фреймворк, который укладывается и в то и в другое, плюс провайдеров под него.

Позвоните нам → Напишите нам →

Эталонная архитектура, которую можно скопировать

Чистый каскад для голосового агента поддержки B2B SaaS выглядит так:

  Browser / Mobile (WebRTC client)
        |  audio + video tracks
        v
  LiveKit / mediasoup SFU  ────────►  Recording & transcript store (S3 + Postgres)
        |  audio track subscribed
        v
  Agent worker (Python / Node)
   ├─ VAD (Silero)
   ├─ End-of-turn model
   ├─ Streaming STT (Deepgram Nova-3)
   ├─ LLM orchestrator (LangGraph / Pipecat)
   │   ├─ tool calls → CRM / KB / payments
   │   └─ guardrails + PII redaction
   ├─ Streaming TTS (Cartesia Sonic)
   └─ Barge-in / pre-emption controller
        |  publishes synthesized audio
        v
  SFU → user
        |
        └─► Observability (OpenTelemetry → Datadog / Grafana)

Каждый блок справа в пилоте опционален, в продакшене обязателен: запись для QA, наблюдаемость для SLO по задержкам, guardrails для редакции PII, tool calls — чтобы агент реально что-то делал (бронировал встречу, оформлял возврат, лез в базу знаний). Любопытный архитектурный выбор — где живёт состояние: историю диалога мы держим в Redis с TTL 24 часа, а полные транскрипты сессий складываем в Postgres для аналитики на длинной дистанции.

Расчёт стоимости — 100 000 минут звонков в месяц

Цифры режут архитектурные споры быстрее любых диаграмм. Возьмём типичное внедрение поддержки клиентов в среднем сегменте: 100 000 пользовательских минут в месяц, средняя длина звонка 3,5 минуты, агент говорит ~40% времени. Ниже — месячный счёт по трём архитектурам, которые мы поставляем чаще всего.

Статья расходов OpenAI Realtime Каскад (управляемый) Каскад (self-hosted)
Маршрутизация медиа в SFU 30 000 ₽ (LiveKit Cloud) 30 000 ₽ (LiveKit Cloud) 22 500 ₽ (кластер Hetzner AX52)
STT входит в стоимость 32 250 ₽ (Deepgram Nova-3) 14 250 ₽ (Whisper.cpp on-prem)
LLM входит в ₽/мин 135 000 ₽ (GPT-4o-mini) 52 500 ₽ (Llama 3.1 8B / Groq)
TTS входит в стоимость 180 000 ₽ (ElevenLabs Flash) 90 000 ₽ (Cartesia Sonic API)
Аудио realtime-модели 1 350 000 ₽ (~13,5 ₽/мин в среднем)
Итого / месяц (приблизительно) ~1,3 млн ₽ ~377 тыс. ₽ ~179 тыс. ₽

Разрыв в 3,6 раза между самым простым путём и самым дешёвым каскадом достаточен, чтобы профинансировать небольшую инженерную команду. На первые 6–12 месяцев мы обычно рекомендуем управляемый каскад: он быстрее всего стартует, и команда успевает накачать операционную мускулатуру; затем, когда объём оправдывает миграцию, слои LLM и TTS переезжают в self-hosted. Цифры иллюстративные: реальный счёт зависит от структуры звонков, стоимости клонирования голосов и скидок за резерв.

Мини-кейс — как VOLO.live ведёт ИИ в реальном времени для 22 000 участников

Контекст. Продукту синхронного перевода для конференций нужны были речь-в-текст и переведённый закадровый голос в реальном времени для глобальных событий — HIMSS, Black Hat Briefings, GDC. Задержка должна была ощущаться как одновременная, аудио — синхронным со спикером на сцене, а любая техническая заминка тут же стала бы видна тысячам платных участников.

Что мы построили. WebRTC-инжест с площадки, аудио уходит в Speechmatics и Google Cloud Speech для стримингового STT, ИИ-слой перевода выдаёт и субтитры, и закадровый голос на 25+ языках, NestJS-бэкенд оркеструет переключение языка, а Next.js-приложение участника открывается по QR-коду на месте. У спикеров и организаторов — админпанели для включения и выключения языков на лету; участник выбирает язык в два касания.

Результат. Развёрнуто на Black Hat Briefings 2025 (более 22 000 участников), HIMSS, GDC и других конференциях верхнего уровня. Перевод в реальном времени с задержкой субтитров меньше секунды на ощущение, естественно звучащий закадровый голос и удобный с точки зрения лицензий мультивендорный стек STT/перевода, который заказчик может масштабировать. Хотите такой же разбор собственного стека ИИ в реальном времени?

Безопасность и комплаенс — что закладывать с первого дня

WebRTC по умолчанию шифрует медиа в транзите (DTLS-SRTP). Вся остальная работа по комплаенсу — везде вокруг: на SFU (он терминирует шифрование, чтобы маршрутизировать), у LLM-провайдера (он видит транскрипты), на хранилище (записи и транскрипты) и на слое согласия (в большинстве юрисдикций вы обязаны раскрывать, что разговаривает ИИ).

1. HIPAA (медицина в США). Подписанный BAA нужен с каждым вендором, который касается защищённой медицинской информации — SFU, STT, LLM, TTS, хранилище. LiveKit Cloud, Deepgram и OpenAI предлагают BAA на корпоративных тарифах; ElevenLabs — только на enterprise-плане. PHI в транскриптах должна быть зашифрована на хранении и иметь логирование доступа.

2. GDPR (пользователи из ЕС). Ловушка — резидентность данных: SFU и LLM должны работать в ЕС, если хоть какие-то пользовательские данные через них проходят. У OpenAI на enterprise есть резидентность в ЕС; многие open-source self-hosted стеки оказываются проще, чем оформление бумаг.

3. SOC 2 Type II. Требуется при большинстве корпоративных закупок. Аудит покрывает безопасность, доступность и конфиденциальность всего стека. Берите вендоров, у которых сертификат уже есть (LiveKit, Deepgram, AssemblyAI, OpenAI, Cartesia) — цепочка не порвётся.

4. PCI-DSS. Если агенту хоть раз надо будет принять номер карты, маршрутизируйте этот фрагмент аудио через токенизирующего вендора (Cresta, AudioCodes), чтобы LLM никогда не увидела сырой PAN. Не давайте GPT-4 транскрибировать карту — никогда.

5. Согласие и раскрытие ИИ. Калифорния, Иллинойс, Колорадо и AI Act ЕС требуют чётко раскрывать, что собеседник — ИИ. Зашейте раскрытие в первые 5 секунд каждого звонка и логируйте подтверждение пользователя.

Пять подводных камней, которые тихо хоронят продакшен-агентов

1. Холодный старт LLM. Если контейнер LLM скейлится в ноль, первый звонок после паузы ждёт загрузки модели 2–5 секунд. Держите хотя бы две тёплые реплики с синтетическим пингом раз в 30 секунд — или возьмите управляемый эндпоинт, который держит память за вас (Groq, OpenAI, Anthropic).

2. Раздувание контекста. Диалог из 30 ходов легко переваливает за 10 000 токенов; стоимость LLM растёт линейно, задержка — супер-линейно. Каждые 8–10 реплик сжимайте в скользящий объект состояния и выбрасывайте сырой транскрипт из промпта; полный транскрипт держите в хранилище для QA.

3. Многословный TTS. Поскольку TTS тарифицируется посимвольно, болтливая модель — это дорогая модель. Ограничивайте ответы ~80 словами, давайте LLM инструкцию говорить кратко и предпочитайте экстрактивные ответы («ваш последний счёт — 6 525 ₽») генеративным («отличный вопрос, давайте я объясню…»).

4. Нет пути передачи человеку. Агент будет ошибаться. Стек обязан передать звонок оператору с полным транскриптом, абзацем-резюме и открытым намерением, а не «холодным» переводом, после которого пользователь повторяет всё заново. Считайте долю успешных передач топ-уровневым KPI.

5. Отношение к SFU как к «просто трубам». География задержек определяется тем, где стоит SFU: американский SFU, обслуживающий пользователя из APAC, добавляет 200–300 мс ещё до того, как агент его услышит. Берите вендора SFU с edge-точками под вашу карту пользователей или поднимайте свои на Hetzner / OVH / Equinix в основных регионах.

KPI — что мерить, когда вы уже в продакшене

KPI качества. P50 и P95 задержки туда-обратно (цель: P50 < 600 мс, P95 < 1 с), word error rate в STT (< 8% для поддержки), доля ложных перебиваний (< 5%), частота самосрабатывания AEC (~0).

KPI бизнеса. Containment rate / отклонение звонков (доля звонков, полностью обработанных ИИ; цель 50–75% в поддержке, 80%+ в self-service), CSAT по обработанным ИИ звонкам (в пределах 0,3 от человеческой базы), стоимость одного решённого обращения (цель — меньше 25% человеческой), доля апселла или квалифицированных лидов на исходящих.

KPI надёжности. Аптайм агента (≥ 99,9%), доля разрывов звонков (< 0,5%), успешная передача оператору с полным контекстом (> 98%), доля поимки PII / небезопасного контента guardrails (precision и recall считаем отдельно).

Когда ИИ-агента на WebRTC не запускать

Три сценария, где ответ — нет или пока нет. Сильно эмоциональные звонки и звонки на грани жизни: телефоны доверия по суициду, посттравматический приём, разговоры о конце жизни. ИИ — не тот, кто должен брать трубку первым; маршрутизируйте к людям, а ИИ используйте для бэкенд-поддержки и резюме после звонка. Домены, где цена галлюцинации больше выгоды от ускорения: юридические консультации, выписка контролируемых препаратов, регулируемая финансовая консультация. Стоимость одного неверного предложения перевешивает три месяца сэкономленных минут. Объёмы ниже ~5000 минут в месяц: накладные на интеграцию, мониторинг и комплаенс не отбиваются. Используйте чат-бот или человека, пока не пересечёте порог.

Фреймворк выбора — пять вопросов до архитектуры

В1. Какой жёсткий потолок задержки? Меньше 400 мс — speech-to-speech (OpenAI Realtime, Gemini Live). 500–800 мс — управляемый каскад. Выше — подойдёт что угодно.

В2. Какой потолок стоимости одного звонка? Ниже 7,5 ₽ за минуту — только каскад на дешёвых провайдерах (Deepgram + Llama 8B + Cartesia). Бюджет от 15 ₽ за минуту открывает более простые вендорские стеки.

В3. Откуда приходят звонки? Из вашего приложения — чистый WebRTC. С телефонных номеров — SIP-мост через Vapi, Retell или LiveKit Telephony. И то и другое — собирайте каскад один раз и подключайте оба транспорта.

В4. Какой режим комплаенса? HIPAA + GDPR ЕС + PCI вместе толкают вас к LiveKit Cloud + AssemblyAI + Anthropic Claude на AWS Bedrock с резидентностью в ЕС — или к полностью self-hosted open-source.

В5. Нужно ли агенту зрение? Если да (KYC, телемедицина, полевой сервис), стройте на MultimodalAgent в LiveKit Agents или на Pipecat с визуальной моделью на 1–3 fps. Если нет — держитесь чистого аудио: зрение втрое увеличивает стоимость и задержку.

Нужно второе мнение по вашему голосовому ИИ-стеку?

30-минутный разбор с нашими архитекторами голосового ИИ: бюджет задержек, стоимость минуты, провалы в комплаенсе и план запуска в продакшен за 12 недель.

Позвоните нам → Напишите нам →

Сценарии, которые уже окупаются в 2026

Поддержка клиентов уровня tier-0. Голосовой агент закрывает сброс паролей, статус заказа, FAQ по биллингу и маршрутизирует всё остальное вместе с полным контекстом. Внедрения в индустрии показывают 50–80% containment по таким запросам; стоимость одного решённого обращения падает примерно до четверти от стоимости человека.

Discovery и квалификация в продажах. Агент проводит первый звонок, задаёт ICP-вопросы, оценивает лида и бронирует встречу в календаре менеджера по продажам. Полезно для высокого объёма входящих, когда SDR не справляются. Подробнее — в нашей статье об ИИ-ассистентах для звонков.

Приём в телемедицине и наблюдение после визита. ИИ собирает симптомы, список лекарств и согласие до того, как подключится врач, а затем ведёт рутинные follow-up. Естественно сочетается с нашей работой над платформами телемедицины — HIPAA-grade WebRTC плюс ИИ-агент с guardrails для PHI.

Онлайн-репетиторство и онбординг. Агент заходит на занятие, следит за уроком, отвечает на вопросы ученика, делает резюме для преподавателя. Сделанный аккуратно, он повышает вовлечённость, не подменяя самого преподавателя — тот же паттерн использует BrainCert на 1 млн+ учеников.

Real-time копилоты для встреч. Живая транскрипция, action items, резюме на почту через минуты. Инфраструктура та же, что у голосового агента, — WebRTC SFU + STT + LLM, минус синтез голоса. Соседнюю область мы разобрали в обзоре решений для синхронного перевода встреч.

12-недельный план от нуля до живого агента

Недели 1–2 — discovery и анализ звонков. Поднимите 200 репрезентативных записей звонков. Разметьте намерения, триггеры эскалации, паттерны PII и режимы отказа, которые агент обязан отрабатывать. По фреймворку выше выберите архитектуру.

Недели 3–6 — пилотная сборка. Соберите SFU + STT + LLM + TTS на одно намерение (например, статус заказа). Сначала катите внутренним пользователям; снимайте задержку и CSAT.

Недели 7–9 — закрытая бета. 5–10% реального трафика, A/B против человеческой базовой линии. Подключите передачу оператору с контекстом. Тюньте endpointing, AEC и промпты.

Недели 10–12 — продакшен-раскатка. Расширьте до 100% выбранного намерения, добавьте дашборды наблюдаемости, выставьте SLO, спланируйте второе намерение. К концу 12-й недели у вас должна быть защищаемая цифра стоимости решения и чистый план миграции для следующего сценария.

Нативные мультимодальные модели вытесняют каскады. Одна модель принимает аудио + видео + текст и отдаёт речь (а скоро и видео), сворачивая трёхвендорные стеки в один API-вызов. Ожидайте меньше задержки и плотнее межмодальное рассуждение — ценой ещё большей концентрации вендоров.

Edge-инференс становится нормой. Open-source LLM на 7–13 млрд параметров, работающие на NVIDIA Jetson или локальных GPU AMD, дают задержку ниже 200 мс и нулевой egress данных. Ранние адоптеры — регулируемые отрасли (оборона, медицина, госсектор); за ними подтянутся ритейл и полевой сервис.

Звонки агента к агенту. Два ИИ договариваются о возврате, согласуют встречи между календарями или закрывают онбординг поставщика. Пока экспериментально: модели предотвращения зацикливаний и распределения полномочий ещё не решены, но протокольная работа уже идёт в LiveKit, Daily и новых рабочих группах W3C по агентам.

Голосовая биометрия внутри WebRTC. Идентификация по голосу пользователя прямо во время звонка вместо отдельного шага. Снижает трение в банкинге и медицине; приносит новое регулирование приватности.

FAQ

Достаточно ли WebRTC безопасен для ИИ-агентов в чувствительных разговорах?

Медиа в WebRTC по умолчанию шифруется DTLS-SRTP, и это закрывает канал. Точки риска — SFU (он терминирует шифрование, чтобы маршрутизировать пакеты), LLM-провайдер (он видит транскрипты) и ваше хранилище. Под HIPAA, GDPR или SOC 2 вам нужны BAA / DPA с каждым вендором на этом пути плюс контроль доступа и аудитные логи на хранилище.

Нужно ли переписывать WebRTC-продукт, чтобы добавить ИИ-агента?

Почти никогда. Агент заходит в существующий SFU как обычный участник: подписывается на аудиодорожки людей в комнате и публикует своё синтезированное аудио. Если ваш SFU — LiveKit, mediasoup или Janus, интеграция занимает дни, не недели. Время уходит на дизайн промптов, guardrails, наблюдаемость и путь передачи человеку, а не на сам слой WebRTC.

Сколько на самом деле занимает развёртывание в продакшене?

Сфокусированный пилот на одно намерение запускается за 4–6 недель. Продакшен-раскатка с мониторингом, комплаенсом, передачей оператору и хотя бы двумя намерениями обычно занимает 12 недель. Мультимодальные визуальные агенты добавляют ещё 2–4 недели на тюнинг визуального пайплайна.

Какой самый дешёвый адекватный стек для продакшен-голосового агента?

Self-hosted Pipecat на Hetzner-сервере, mediasoup в роли SFU, Whisper.cpp для STT, Llama 3.1 8B на Groq или локальной GPU и Cartesia Sonic для TTS. На умеренных объёмах маржинальная стоимость минуты падает ниже 3,7 ₽. Компромисс — вы сами держите эксплуатацию, наблюдаемость и безопасность.

Заменит ли агент нашу команду живой поддержки?

Почти ни одно успешное внедрение, что мы видели, не заменяет людей оптом. Рабочий паттерн — ИИ закрывает основную массу рутинных запросов (50–80% containment), а люди концентрируются на сложных, эмоциональных и важных для выручки разговорах. Численность обычно остаётся прежней, а нагрузка на одного человека удваивается.

Как мерить успех ИИ-агента в продакшене?

Три ведра: качество (P95 задержки, WER, точность срабатывания на перебивание), бизнес (containment, CSAT относительно человеческой базы, стоимость одного решения), надёжность (аптайм, drop rate, успешность передачи оператору с полным контекстом). Выберите один основной KPI на тип звонка — обычно это containment или конверсия, — и держите остальные как guardrails.

Speech-to-speech (OpenAI Realtime) или каскад — с чего начать?

Если запуститься нужно за дни, а звонок короткий, начинайте с OpenAI Realtime: вы провалидируете продукт раньше, чем будете оптимизировать стек. Если юнит-экономика важна с первого дня или комплаенс заставляет видеть каждый слой, начинайте с каскада на LiveKit Agents или Pipecat. Многие наши клиенты прототипируют на Realtime и переносят болтливые намерения в каскад, как только объём оправдывает миграцию.

Справится ли агент с не-английскими языками и акцентами?

Да, но провайдеров надо подбирать. AssemblyAI Universal-2 и Deepgram Nova-3 покрывают 30–100 языков с измеримой точностью на акцентном английском. Cartesia и ElevenLabs поставляют мультиязычные голоса; для языков за пределами топ-30 ждите fine-tuning. И задержка, и точность вне английского несколько просаживаются — закладывайте дополнительное время на QA.

Гид по сборке

Сборка и развёртывание голосовых ИИ-агентов на LiveKit

Пошаговый бизнес-гид по запуску агента на LiveKit.

Мультимодальность

Мультимодальные ИИ-агенты на LiveKit

Голос + зрение: продакшен-обвязка для камероориентированных агентов.

Архитектура

Гид по архитектуре WebRTC в 2026

P2P, SFU, MCU и гибридные топологии — для владельцев продуктов.

Голосовой ИИ

Разработка голосового ИИ-ассистента в 2026

Полный гид для владельцев продуктов, заказывающих голосовой ИИ.

Выбор вендора

Альтернативы Agora.io для своего WebRTC

LiveKit, mediasoup, Jitsi и Janus в продакшен-сравнении.

Готовы поставить ИИ-агента поверх своего WebRTC-стека?

За два года ИИ-агенты на WebRTC прошли путь от шоурума до продакшен-стандарта. Speech-to-speech модели дают задержку ниже 300 мс для премиальных голосовых сценариев. Каскадные пайплайны на LiveKit или Pipecat дают в 3–5 раз меньшую стоимость минуты и полную наблюдаемость. В обоих случаях слой SFU, который ваша команда уже эксплуатирует, — это и есть точка подключения: интеграция — дни кода поверх месяцев тюнинга, комплаенса и QA.

Если у вас есть продукт реального времени и вы не пилотируете хотя бы одного ИИ-агента — ваши конкуренты уже делают это. Возможность — в том, чтобы выпустить архитектуру, подходящую под вашу юнит-экономику, а не самую модную, и не сэкономить на скучных вещах (очерёдность реплик, AEC, передача оператору, комплаенс), от которых зависит, ощущается ли агент живым.

Запустить ИИ-агента в реальном времени за 12 недель?

Принесите профиль звонков, бюджет задержек и требования по комплаенсу. Со звонка вы уйдёте с рекомендованным стеком, 12-недельным планом и защищаемой цифрой стоимости одного звонка.

Позвоните нам → Напишите нам →

  • Разработка
    Технологии