Блог: разработка ИИ-агентов на LiveKit — исчерпывающий гид по архитектуре, стоимости и реализации

Главное

LiveKit Agents — это фреймворк на основе воркеров, который связывает WebRTC с STT, LLM и TTS. В 2026 году это самый гибкий по выбору провайдеров способ запустить голосового агента в реальном времени: смешивайте Deepgram, Claude или GPT, ElevenLabs или Cartesia и меняйте поставщиков одной строкой в конфиге.

Реалистичная итоговая стоимость — 4,5–11 ₽ за минуту работы агента, если собирать стек самостоятельно. При 100 000 минут в месяц основные расходы — Cartesia TTS и токены LLM; сам LiveKit Cloud занимает примерно 15–20% счёта.

Бюджет задержек: меньше 800 мс до первого звука. VAD 50 мс + STT 150 мс + время до первого токена LLM 400 мс + TTS 150 мс + сеть 50 мс. Стоит провалить любой этап — и агент кажется заторможенным.

Realtime API (OpenAI Realtime, Gemini Live) обгоняют каскадные стеки по задержке, но привязывают вас к одному провайдеру. Используйте их там, где скорость важнее свободы выбора; используйте LiveKit Agents там, где важны контроль расходов и гибкость.

Соответствие требованиям — это архитектура, а не бумажная работа. Сбор согласия по TCPA, BAA по HIPAA с каждым провайдером, маскирование DTMF по PCI, STIR/SHAKEN на исходящих звонках в США — всё это нужно закладывать с первого дня.

Зачем Фора Софт написала этот плейбук

Фора Софт выпускает голосовые и видеопродукты на WebRTC с 2005 года, а продукты на LiveKit — с того момента, как фреймворк созрел до продакшена. Наша страница про экспертизу в LiveKit и услуга интеграции AI описывают полный объём работ; этот материал — сжатая версия мнения, которое мы излагаем за 30-минутный установочный звонок.

Мы работаем по подходу Agent Engineering: senior-инженеры управляют ИИ-агентами для написания кода на этапах проектирования, диспетчеризации, prompt engineering и QA. На голосовых проектах это сжимает классический MVP с 12–16 недель до 6–8 недель и при меньшей команде. Подход обкатан на продуктах с тысячами одновременных сессий — в том числе на Scholarly, где LiveKit держит виртуальные классы на 2000 участников.

Статья отвечает на четыре вопроса, которые команды задают нам по порядку: что такое LiveKit Agents сегодня, как спроектировать решение, сколько это стоит и когда лучше выбрать что-то другое. Прочитайте её целиком — и вы перестанете спорить о брендах фреймворков и начнёте обсуждать действительно важное: задержки, стоимость и соответствие требованиям.

Планируете голосового агента на LiveKit?

Расскажите про сценарий звонков — мы подберём подходящий стек STT, LLM, TTS и телефонии без навязывания лишнего.

Позвоните нам → Напишите нам →

Что такое LiveKit Agents на самом деле

LiveKit Agents — это open-source-фреймворк на Python и Node.js для построения голосовых, видео- и мультимодальных ИИ-агентов реального времени поверх WebRTC. Он распространяется по лицензии Apache 2.0, активно развивается (линейка 1.x выходит на протяжении всего 2026 года) и построен на медиасервере LiveKit — том же SFU, который вы, возможно, уже используете для видеозвонков.

Задача фреймворка проста на словах и тяжела в реализации: взять аудиопоток WebRTC, прогнать его через подключаемый пайплайн VAD → STT → LLM (с инструментами) → TTS → воспроизведение и обработать жуткие крайние случаи — перебивания, определение конца реплики, обрывы соединения, передачу на телефонию — чтобы вам не пришлось делать это самим. LiveKit даёт транспорт WebRTC, среду исполнения воркеров и интерфейсы плагинов; бизнес-логику пишете вы.

Почему это важно: остальные платформы для голосовых агентов либо привязывают вас к одному поставщику LLM или TTS (OpenAI Realtime, Gemini Live), либо накладывают свою комиссию поверх стоимости провайдеров (Vapi, Bland, в меньшей степени Retell). LiveKit Agents оставляет стек провайдеров открытым, а инфраструктурный слой — тонким.

Эталонная архитектура: воркер, диспетчеризация, пайплайн

У любого продакшен-развёртывания LiveKit Agents четыре движущиеся части:

  • LiveKit Server или LiveKit Cloud. SFU для WebRTC. Отвечает за сигналинг, ICE/DTLS/SRTP, маршрутизацию треков и жизненный цикл комнат.
  • Воркер агента. Долгоживущий процесс (Python или Node), который регистрируется на сервере и ждёт, когда его отправят в комнату. Один воркер может вести много агентов параллельно.
  • Пайплайн агента. Конечный автомат внутри воркера: VAD ловит речь, STT расшифровывает, LLM рассуждает с возможностью вызова инструментов, TTS синтезирует — а фреймворк публикует звук обратно в комнату.
  • Провайдеры. STT (Deepgram, Whisper, Azure, Google), LLM (OpenAI, Anthropic, Google, open-source через Fireworks или Together), TTS (ElevenLabs, Cartesia, Google, Azure, Deepgram).

Диспетчеризация бывает трёх видов. Автоматическая запускает агента под каждую новую комнату — годится для продуктов формата «агент всегда рядом». Явная диспетчеризация (через метаданные токена или AgentDispatchService API) позволяет выбирать, какой агент попадает в какую комнату, и передавать ему пользовательский контекст. Entrypoint-задачи запускают логику агента вне комнаты — пакетную транскрипцию, плановые исходящие звонки, задачи очистки.

LiveKit Cloud против self-hosted LiveKit Server

Под капотом — один и тот же open-source-сервер. Разница в том, кто отвечает за эксплуатацию.

Параметр LiveKit Cloud Self-hosted
Юнит-экономика ~0,7 ₽/мин агента, 7,5–9 ₽/ГБ исходящего трафика Только инфраструктура; платы за минуту нет
Задержка Меньше 50 мс P99 в регионе, глобальная edge-сеть Зависит от вашей региональной стратегии
Эксплуатация Нулевая — управляется провайдером Kubernetes, мониторинг, отказоустойчивость, масштабирование
Запись и композиция Встроены (Egress) Сервис Egress разворачиваете сами
Точка безубыточности До ~500 000 минут агента в месяц Дешевле выше этого порога — если есть DevOps

Берите LiveKit Cloud, если: у вас меньше 500 000 минут агента в месяц, нет выделенного WebRTC-DevOps или нужно запустить пилот за несколько недель. Self-hosted имеет смысл только за этим порогом или когда регуляторика по месту хранения данных требует размещения on-premise.

Realtime API против каскадного STT→LLM→TTS

Мир голосовых агентов разделился на два архитектурных лагеря. Выбирайте осознанно.

Нативный realtime (OpenAI Realtime API, Google Gemini Live). Одна модель принимает звук на вход и отдаёт звук на выход. Время до первого звука (TTFA) опускается ниже 300 мс. Качество голоса отличное. Минус: вы привязаны к одному поставщику, одному семейству голосов и тарификации по секундам токенов, которую сложно прогнозировать на масштабе.

Каскадные пайплайны (LiveKit Agents, Pipecat). Вы сами связываете VAD, STT, LLM и TTS из лучших на рынке провайдеров. После настройки TTFA обычно укладывается в 500–800 мс, иногда меньше — со стриминговым TTS. Плюсы: смена провайдера одной правкой конфига, точечный контроль расходов, более богатые сценарии вызова инструментов и пайплайны поиска.

LiveKit Agents поддерживает оба варианта — примитив голосового ассистента работает и с каскадными провайдерами, и с OpenAI Realtime или Gemini Live как заменой одной строкой. Эта гибкость — главная причина, по которой мы по умолчанию выбираем LiveKit для мультитенантных продуктов.

Модель затрат: ₽ за минуту работы реального голосового агента

Компонент Провайдер (пример) Типичная стоимость, ₽/мин Комментарии
STT Deepgram Nova-3 0,2–0,6 ₽ Стриминг, оплата по факту
LLM Claude Sonnet / GPT-4o-mini 0,3–1,1 ₽ Из расчёта ~200 на вход / 100 на выход за реплику
TTS Cartesia / ElevenLabs 2,2–6 ₽ Главная статья расходов — оптимизируйте сначала её
LiveKit Cloud Сессия агента + аудиотрек 0,7–1,1 ₽ Плюс egress на запись
SIP / телефония Twilio, Telnyx 0,3–1,5 ₽ Серьёзные скидки на объёме от 100 000 минут
Итого, типично Смешанный стек best-of-breed 4,5–11 ₽ Полная стоимость минуты работы агента

10 000 минут агента в месяц. Deepgram + Claude Sonnet + Cartesia + LiveKit Cloud + Twilio SIP — итог около 60 000–75 000 ₽ со всеми расходами. Это типичный бюджет seed-стадии для бота поддержки или пилота исходящей кампании.

100 000 минут агента в месяц. Тот же стек со скидками за объём — около 450 000–600 000 ₽. Доминируют TTS и токены LLM; LiveKit — около 15–20% счёта. Подробное сравнение стоимости с другими стеками реального времени мы разбираем в материале про сравнение LiveKit и Agora.

LiveKit Agents против Vapi, Retell, Daily Bots, Pipecat и Nova Sonic

Платформа Модель Заявленная цена, ₽/мин Кому подходит На что обратить внимание
LiveKit Agents Фреймворк, провайдеры на ваш выбор 4,5–11 ₽ полная Кастомные пайплайны, мультивендор Нужны разработчики
Vapi Платформа + провайдеры на выбор 3,7 ₽ + провайдеры Быстрые no-code-пилоты Реальная стоимость с учётом всего — 11–18 ₽
Retell AI Платформа, прозрачное ценообразование 5,2 ₽ Аккуратный SaaS-голосовой бот Меньше провайдеров в экосистеме
Bland AI Платформа, упор на исходящие 6,7 ₽ Массовые исходящие звонки Меньше гибкости в подключении LLM
Daily Bots На базе Daily.co WebRTC ~7,5–11 ₽ оценочно Продукты на стеке Daily Менее прозрачное ценообразование
Pipecat Open-source-фреймворк Только стоимость провайдеров Self-hosted, полный контроль Эксплуатация целиком на вас
Twilio ConversationRelay Телеком-платформа 3 ₽ + провайдеры Глубокая экосистема Twilio STT/LLM/TTS всё равно собирать самим
Amazon Nova Sonic AWS speech-to-speech ~0,1–0,7 ₽ Стеки на инфраструктуре AWS Молодой продукт, мало сторонних интеграций

Чтобы шире понять выбор топологии WebRTC, на котором держатся все эти платформы, прочитайте наш гид по архитектуре WebRTC и материал про P2P vs MCU vs SFU.

Нужно второе мнение по выбору LiveKit, Vapi или Retell?

30 минут с senior-инженерами, которые довели до продакшена все три варианта — приходите со сценарием, мы вернёмся с цифрами.

Позвоните нам → Напишите нам →

Сценарии, где LiveKit Agents оправдывает место в стеке

  • Триаж входящих обращений в поддержку. Принять звонок, выяснить запрос, передать оператору вместе с контекстом.
  • Исходящие обзвоны. Напоминания о встречах, опросы, взыскание долгов — всегда с согласием по TCPA и STIR/SHAKEN на звонках в США.
  • ИИ-интервьюер. Первичный отбор кандидатов, структурированные сценарии, единая шкала оценки.
  • Голосовой ассистент внутри SaaS. Встроенное голосовое управление в веб-продукте — поддержка, аналитика, поиск.
  • Синхронный перевод и субтитры. Каскад STT + NMT + TTS для двуязычных звонков в реальном времени; похожую архитектуру мы разбираем в гиде по приложениям видеоперевода.
  • Голосовой репетитор. Связка с RAG поверх учебных материалов; см. наш материал про умные обучающие системы.
  • Приём пациентов и запись на приём в медицине. Соответствие HIPAA с BAA у каждого провайдера.

Бюджет задержек и определение конца реплики

Цель по времени до первого звука (TTFA) — меньше 800 мс. Разбейте этот бюджет по этапам и держите каждый в своих рамках.

  • VAD — ~50 мс. Silero или WebRTC VAD.
  • STT — ~150 мс при стриминговых частичных результатах.
  • Время до первого токена LLM — ~400 мс. Самый трудный для сокращения этап; беспощадно укорачивайте системные промпты и используйте модели поменьше для простых задач.
  • TTS — ~150 мс при стриминге первого фрагмента (Cartesia, ElevenLabs).
  • Сеть — ~50 мс на хороших каналах.

Определение конца реплики — это место, где голосовые боты звучат искусственно. Базовое определение по тишине через VAD оставляет хвост в 200–500 мс. Модельное определение конца реплики в LiveKit срезает хвост до ~150 мс ценой одного дополнительного инференса. Включайте его на продуктах с интенсивным диалогом; для односессионных IVR хватит и VAD.

Перебивания требуют отдельной обработки. Голый VAD слишком часто обрывает бота на полуслове. Адаптивная обработка перебиваний в LiveKit использует лёгкий классификатор, который отличает «пользователь хочет перебить» от «пользователь кашлянул». Включайте — ощутимый плюс для UX.

Телефония и интеграция SIP

Большинство голосовых продуктов запускают сначала на WebRTC, а ТфОП подключают вторым шагом. У LiveKit полноценный SIP-мост: ваш агент работает на WebRTC внутри, а одной из сторон в комнате становится SIP-участник от Twilio, Telnyx или похожего транк-провайдера.

Важных тактических моментов три. Во-первых, SIP-транк может добавить 100–300 мс задержки — выбирайте оператора с хорошо пирингованными точками в нужных регионах. Во-вторых, обработку DTMF нужно явно настроить (RFC 2833 против SIP INFO) и протестировать с каждым оператором. В-третьих, аттестация STIR/SHAKEN теперь обязательна для исходящего трафика в США — проследите, чтобы ваш транк подписывал звонки на уровне A, иначе принимающие операторы будут их отбрасывать.

Соответствие требованиям: TCPA, HIPAA, PCI, GDPR, STIR/SHAKEN

Регулирование голосового ИИ опередило остальной ИИ в 2024–2025 годах. Закладывайте всё это в архитектуру с первого дня.

  • Согласие на запись. Штаты с правилом двустороннего согласия (Калифорния, Флорида, Иллинойс и другие) требуют предупредить о записи. Фиксируйте событие согласия в журнале аудита по каждому звонку.
  • TCPA. Для маркетинговых исходящих обзвонов нужно явное письменное согласие. 112 500 ₽ за нарушение, штрафы складываются.
  • HIPAA. Соглашение BAA с каждым провайдером, который касается PHI — LLM, STT, TTS, LiveKit Cloud, телефония. Шифрование записей AES-256, RBAC на воспроизведение.
  • PCI DSS. Маскирование DTMF при вводе карты. Не давайте цифрам карты попадать в STT, в контекст промпта LLM или в записи.
  • GDPR. Согласие, регион хранения, удаление. Держите расшифровки агента в той же зоне резидентности данных, что и остальные данные пользователя.
  • STIR/SHAKEN. Обязательно на исходящих звонках в США; неподписанные звонки операторы отбрасывают.

Мини-кейс: агент LiveKit на 20 000 звонков в месяц

К нам пришёл SaaS-клиент с командой записи на 18 человек, тонувшей во входящих звонках — перенос, отмена, уточнение. Существующая IVR гнала всё на людей; среднее ожидание — 3 минуты, доля брошенных звонков — 22%. Запрос: голосовой агент, который сам обрабатывает 70% входящего трафика, полностью соответствует HIPAA и отвечает быстрее секунды.

За 7 недель мы поставили LiveKit Cloud + Deepgram Nova-3 + Claude Sonnet (с вызовами инструментов в их календарь) + Cartesia TTS за SIP-транком Twilio. Подход Agent Engineering сгенерировал около 60% схем вызова инструментов, библиотеки промптов и интеграционных тестов параллельно с senior-ревью — это удержало сроки. Со стороны соответствия требованиям мы заключили BAA с каждым провайдером, выстроили поток ввода карты с маскированием DTMF, фиксировали двустороннее согласие по каждому звонку и к концу шестой недели прошли аудит, близкий к SOC 2.

Результат: 74% входящих звонков теперь самообслуживаются. Среднее ожидание упало до 12 секунд. Доля брошенных звонков снизилась с 22% до 5%. Месячная стоимость стека агента — около 120 000 ₽ при ~20 000 обработанных звонков, что заметно дешевле штатных операторов, которых он заменил. Расскажите про похожий объём — мы предложим оценку.

Чеклист принятия решения — выберите LiveKit за пять вопросов

1. Нужна ли вам гибкость по провайдерам? Если хочется смешать Claude для рассуждений с Cartesia для голоса и менять каждый компонент независимо — LiveKit Agents выигрывает. Стеки с одним поставщиком (OpenAI Realtime, Gemini Live) такого не дадут.

2. Жёсткое требование — задержка меньше 300 мс? Если да, объедините LiveKit Agents с нативной realtime-моделью (OpenAI Realtime, Gemini Live). Каскадный стек даже при тонкой настройке садится на 500–800 мс.

3. Ожидаете ли вы больше 500 000 минут агента в месяц? До этого порога LiveKit Cloud в порядке. После — поднимайте медиасервер на Kubernetes сами и выводите тариф Cloud из счёта.

4. Насколько ваша вертикаль зарегулирована? Здравоохранение, финансы, госсектор — всегда кастомная разработка, всегда BAA, всегда детальный аудит. No-code-платформа уровня Vapi не пройдёт закупки.

5. Есть ли у вас инженеры? LiveKit — это фреймворк, а не SaaS. Без сильной бэкенд-команды честный ответ — платформа (Retell, Vapi) или партнёр по разработке.

Пять подводных камней на проектах LiveKit Agent

1. Запуск перебиваний только на VAD. Бот продолжает говорить поверх кашля и чихания. Включите модельную обработку перебиваний до первого внешнего демо.

2. Огромные системные промпты. Промпты на 4000 токенов добавляют 200–400 мс к времени до первого токена. Перенесите массивный контекст в RAG, а системный промпт держите коротким.

3. Отсутствие защиты от перерасхода. Зависшая сессия способна сжечь сотни минут аудио за час. Введите максимальную длительность сессии, настройте оповещения о всплесках расходов в минуту.

4. STIR/SHAKEN и TCPA «на потом». Неделя запуска — неподходящее время выяснять, что транк не подписывает звонки. Проверяйте на старте проекта.

5. Игнор наблюдаемости. Логируйте каждое срабатывание VAD, частичный результат STT, задержку LLM, первый чанк TTS и каждый вызов инструмента. Без этого тюнинг превращается в гадание.

KPI бэкенда голосового агента

Качественные KPI. TTFA P95 < 800 мс, точность определения конца реплики ≥ 95%, доля выполненных задач ≥ 70%, доля галлюцинаций < 1% по выборкам расшифровок, доля брошенных звонков < 10%.

Бизнес-KPI. Стоимость минуты в рамках плана (типично ≤ 7,5 ₽), доля звонков, решённых без человека, CSAT по звонкам с ИИ, конверсия на исходящих кампаниях.

KPI надёжности. Доля сбоев сессии агента < 0,1%, p95 задержки провайдера LLM < 600 мс, обрывы стрима STT < 0,5%, успешность установки SIP-вызова ≥ 99%.

Когда не стоит выбирать LiveKit Agents

  • Нужен no-code-пилот за 72 часа. Vapi или Retell быстрее доведут до результата.
  • Нет опыта с WebRTC и нет бюджета на партнёра. Эксплуатационная нагрузка тут реальная.
  • Продукт целиком живёт в AWS, и вас устраивает Amazon Nova Sonic. Нативный AWS-стек проще в эксплуатации, чем сторонний фреймворк.
  • Сценарий — чистая асинхронная транскрипция или суммаризация. Здесь нужен не агент, а Deepgram плюс пакетная задача.

FAQ

Готов ли LiveKit Agents к продакшену в 2026 году?

Да. Фреймворк находится на линейке 1.x, активно поддерживается под Apache 2.0 и работает в продакшене у клиентских поддержек, рекрутинговых сервисов и медицинских продуктов. Наша команда выбирает его по умолчанию для голосовых агентов.

Сколько стоит минута голосового агента на LiveKit?

4,5–11 ₽ полностью на массовом стеке (Deepgram + Claude Sonnet + Cartesia + LiveKit Cloud + SIP). Доминируют TTS и LLM; LiveKit Cloud — около 15–20% счёта.

Может ли LiveKit Agents совершать исходящие телефонные звонки?

Да, через SIP-транки от Twilio, Telnyx и аналогов. Убедитесь, что оператор подписывает звонки STIR/SHAKEN на уровне A для исходящих в США, и фиксируйте явное согласие по TCPA на каждую кампанию.

В чём разница между LiveKit Agents и OpenAI Realtime?

OpenAI Realtime — это нативная модель «звук на вход — звук на выход»: минимальная задержка, привязка к OpenAI. LiveKit Agents — фреймворк, оркеструющий подключаемых провайдеров STT/LLM/TTS: чуть выше задержка, полная свобода выбора. OpenAI Realtime можно подключить внутри LiveKit Agents как один из бэкендов.

Нужен ли LiveKit Cloud или можно self-hosted?

Self-hosted open-source-сервер LiveKit поддерживается и оправдывается за порогом ~500 000 минут агента в месяц или когда регуляторика по резидентности данных требует on-premise. Ниже этого объёма LiveKit Cloud дешевле с учётом операционных расходов.

Какая задержка реалистична?

P95 времени до первого звука меньше 800 мс достижим на каскадном стеке LiveKit. С OpenAI Realtime или Gemini Live можно опуститься ниже 300 мс. Всё, что выше 1 секунды, уже воспринимается на слух как заторможенность и заметно снижает долю выполненных задач.

Сколько занимает запуск голосового агента в продакшене?

С нашим подходом Agent Engineering — 6–8 недель на MVP в рамках одного сценария (триаж входящих, напоминание о встрече, ИИ-интервьюер). Классическая разработка занимает 12–16 недель на тот же объём. Зарегулированные вертикали (медицина, финансы) добавляют 2–4 недели на аудиты и BAA.

Может ли агент LiveKit работать на нескольких языках?

Да — связкой многоязычных STT (Deepgram, Whisper) и многоязычных TTS (Cartesia, ElevenLabs, Azure) при инструкции LLM отвечать на определённом языке. Мост для синхронного перевода — обычная задача.

Стоимость

Сравнение стоимости LiveKit и Agora

Поминутная экономика медиаплатформ под капотом.

WebRTC 2026

Гид по архитектуре WebRTC для бизнеса

Как выбор SFU/MCU отражается на дизайне голосового агента.

Архитектура

P2P vs MCU vs SFU для видеоприложений

Почему большинство голосовых агентов запускают на SFU, а не peer-to-peer.

ИИ-репетиторы

Умные обучающие системы для преподавателей

Голосовые репетиторы на RAG, обёрнутые вокруг ваших материалов.

Низкая задержка

Видеостриминг реального времени с низкой задержкой

Как удержать задержку медиа в рамках бюджета агента.

Готовы запустить голосового агента на LiveKit, который оправдывает свой стек

LiveKit Agents даёт ту гибкость по провайдерам и контроль над стоимостью, которых нативные realtime API дать не могут, и инженерную эргономику, до которой no-code-платформам не дотянуться. Соберите подходящие STT, LLM и TTS под ваш бюджет задержек, учтите весь периметр требований и наладьте телеметрию по всему стеку — остальное уже дело вкуса.

Если вы оцениваете запуск голосового агента или вытаскиваете застрявший проект, следующий шаг — короткий установочный звонок. Мы разложим ваш сценарий звонков, регуляторный контур и цель по задержкам в конкретный стек, сроки и бюджет — и оставим вас с планом, который можно запускать.

Давайте соберём вашего голосового агента на LiveKit

Фора Софт выпускает голосовые и AI-продукты реального времени по подходу Agent Engineering — быстрее, дешевле, готовыми к продакшену. Это подтвердят и виртуальные классы на 2000 участников.

Позвоните нам → Напишите нам →

  • Разработка
    Технологии
    Услуги