
Главное
• LiveKit Agents — это фреймворк на основе воркеров, который связывает WebRTC с STT, LLM и TTS. В 2026 году это самый гибкий по выбору провайдеров способ запустить голосового агента в реальном времени: смешивайте Deepgram, Claude или GPT, ElevenLabs или Cartesia и меняйте поставщиков одной строкой в конфиге.
• Реалистичная итоговая стоимость — 4,5–11 ₽ за минуту работы агента, если собирать стек самостоятельно. При 100 000 минут в месяц основные расходы — Cartesia TTS и токены LLM; сам LiveKit Cloud занимает примерно 15–20% счёта.
• Бюджет задержек: меньше 800 мс до первого звука. VAD 50 мс + STT 150 мс + время до первого токена LLM 400 мс + TTS 150 мс + сеть 50 мс. Стоит провалить любой этап — и агент кажется заторможенным.
• Realtime API (OpenAI Realtime, Gemini Live) обгоняют каскадные стеки по задержке, но привязывают вас к одному провайдеру. Используйте их там, где скорость важнее свободы выбора; используйте LiveKit Agents там, где важны контроль расходов и гибкость.
• Соответствие требованиям — это архитектура, а не бумажная работа. Сбор согласия по TCPA, BAA по HIPAA с каждым провайдером, маскирование DTMF по PCI, STIR/SHAKEN на исходящих звонках в США — всё это нужно закладывать с первого дня.
Зачем Фора Софт написала этот плейбук
Фора Софт выпускает голосовые и видеопродукты на WebRTC с 2005 года, а продукты на LiveKit — с того момента, как фреймворк созрел до продакшена. Наша страница про экспертизу в LiveKit и услуга интеграции AI описывают полный объём работ; этот материал — сжатая версия мнения, которое мы излагаем за 30-минутный установочный звонок.
Мы работаем по подходу Agent Engineering: senior-инженеры управляют ИИ-агентами для написания кода на этапах проектирования, диспетчеризации, prompt engineering и QA. На голосовых проектах это сжимает классический MVP с 12–16 недель до 6–8 недель и при меньшей команде. Подход обкатан на продуктах с тысячами одновременных сессий — в том числе на Scholarly, где LiveKit держит виртуальные классы на 2000 участников.
Статья отвечает на четыре вопроса, которые команды задают нам по порядку: что такое LiveKit Agents сегодня, как спроектировать решение, сколько это стоит и когда лучше выбрать что-то другое. Прочитайте её целиком — и вы перестанете спорить о брендах фреймворков и начнёте обсуждать действительно важное: задержки, стоимость и соответствие требованиям.
Планируете голосового агента на LiveKit?
Расскажите про сценарий звонков — мы подберём подходящий стек STT, LLM, TTS и телефонии без навязывания лишнего.
Что такое LiveKit Agents на самом деле
LiveKit Agents — это open-source-фреймворк на Python и Node.js для построения голосовых, видео- и мультимодальных ИИ-агентов реального времени поверх WebRTC. Он распространяется по лицензии Apache 2.0, активно развивается (линейка 1.x выходит на протяжении всего 2026 года) и построен на медиасервере LiveKit — том же SFU, который вы, возможно, уже используете для видеозвонков.
Задача фреймворка проста на словах и тяжела в реализации: взять аудиопоток WebRTC, прогнать его через подключаемый пайплайн VAD → STT → LLM (с инструментами) → TTS → воспроизведение и обработать жуткие крайние случаи — перебивания, определение конца реплики, обрывы соединения, передачу на телефонию — чтобы вам не пришлось делать это самим. LiveKit даёт транспорт WebRTC, среду исполнения воркеров и интерфейсы плагинов; бизнес-логику пишете вы.
Почему это важно: остальные платформы для голосовых агентов либо привязывают вас к одному поставщику LLM или TTS (OpenAI Realtime, Gemini Live), либо накладывают свою комиссию поверх стоимости провайдеров (Vapi, Bland, в меньшей степени Retell). LiveKit Agents оставляет стек провайдеров открытым, а инфраструктурный слой — тонким.
Эталонная архитектура: воркер, диспетчеризация, пайплайн
У любого продакшен-развёртывания LiveKit Agents четыре движущиеся части:
- LiveKit Server или LiveKit Cloud. SFU для WebRTC. Отвечает за сигналинг, ICE/DTLS/SRTP, маршрутизацию треков и жизненный цикл комнат.
- Воркер агента. Долгоживущий процесс (Python или Node), который регистрируется на сервере и ждёт, когда его отправят в комнату. Один воркер может вести много агентов параллельно.
- Пайплайн агента. Конечный автомат внутри воркера: VAD ловит речь, STT расшифровывает, LLM рассуждает с возможностью вызова инструментов, TTS синтезирует — а фреймворк публикует звук обратно в комнату.
- Провайдеры. STT (Deepgram, Whisper, Azure, Google), LLM (OpenAI, Anthropic, Google, open-source через Fireworks или Together), TTS (ElevenLabs, Cartesia, Google, Azure, Deepgram).
Диспетчеризация бывает трёх видов. Автоматическая запускает агента под каждую новую комнату — годится для продуктов формата «агент всегда рядом». Явная диспетчеризация (через метаданные токена или AgentDispatchService API) позволяет выбирать, какой агент попадает в какую комнату, и передавать ему пользовательский контекст. Entrypoint-задачи запускают логику агента вне комнаты — пакетную транскрипцию, плановые исходящие звонки, задачи очистки.
LiveKit Cloud против self-hosted LiveKit Server
Под капотом — один и тот же open-source-сервер. Разница в том, кто отвечает за эксплуатацию.
| Параметр | LiveKit Cloud | Self-hosted |
|---|---|---|
| Юнит-экономика | ~0,7 ₽/мин агента, 7,5–9 ₽/ГБ исходящего трафика | Только инфраструктура; платы за минуту нет |
| Задержка | Меньше 50 мс P99 в регионе, глобальная edge-сеть | Зависит от вашей региональной стратегии |
| Эксплуатация | Нулевая — управляется провайдером | Kubernetes, мониторинг, отказоустойчивость, масштабирование |
| Запись и композиция | Встроены (Egress) | Сервис Egress разворачиваете сами |
| Точка безубыточности | До ~500 000 минут агента в месяц | Дешевле выше этого порога — если есть DevOps |
Берите LiveKit Cloud, если: у вас меньше 500 000 минут агента в месяц, нет выделенного WebRTC-DevOps или нужно запустить пилот за несколько недель. Self-hosted имеет смысл только за этим порогом или когда регуляторика по месту хранения данных требует размещения on-premise.
Realtime API против каскадного STT→LLM→TTS
Мир голосовых агентов разделился на два архитектурных лагеря. Выбирайте осознанно.
Нативный realtime (OpenAI Realtime API, Google Gemini Live). Одна модель принимает звук на вход и отдаёт звук на выход. Время до первого звука (TTFA) опускается ниже 300 мс. Качество голоса отличное. Минус: вы привязаны к одному поставщику, одному семейству голосов и тарификации по секундам токенов, которую сложно прогнозировать на масштабе.
Каскадные пайплайны (LiveKit Agents, Pipecat). Вы сами связываете VAD, STT, LLM и TTS из лучших на рынке провайдеров. После настройки TTFA обычно укладывается в 500–800 мс, иногда меньше — со стриминговым TTS. Плюсы: смена провайдера одной правкой конфига, точечный контроль расходов, более богатые сценарии вызова инструментов и пайплайны поиска.
LiveKit Agents поддерживает оба варианта — примитив голосового ассистента работает и с каскадными провайдерами, и с OpenAI Realtime или Gemini Live как заменой одной строкой. Эта гибкость — главная причина, по которой мы по умолчанию выбираем LiveKit для мультитенантных продуктов.
Модель затрат: ₽ за минуту работы реального голосового агента
| Компонент | Провайдер (пример) | Типичная стоимость, ₽/мин | Комментарии |
|---|---|---|---|
| STT | Deepgram Nova-3 | 0,2–0,6 ₽ | Стриминг, оплата по факту |
| LLM | Claude Sonnet / GPT-4o-mini | 0,3–1,1 ₽ | Из расчёта ~200 на вход / 100 на выход за реплику |
| TTS | Cartesia / ElevenLabs | 2,2–6 ₽ | Главная статья расходов — оптимизируйте сначала её |
| LiveKit Cloud | Сессия агента + аудиотрек | 0,7–1,1 ₽ | Плюс egress на запись |
| SIP / телефония | Twilio, Telnyx | 0,3–1,5 ₽ | Серьёзные скидки на объёме от 100 000 минут |
| Итого, типично | Смешанный стек best-of-breed | 4,5–11 ₽ | Полная стоимость минуты работы агента |
10 000 минут агента в месяц. Deepgram + Claude Sonnet + Cartesia + LiveKit Cloud + Twilio SIP — итог около 60 000–75 000 ₽ со всеми расходами. Это типичный бюджет seed-стадии для бота поддержки или пилота исходящей кампании.
100 000 минут агента в месяц. Тот же стек со скидками за объём — около 450 000–600 000 ₽. Доминируют TTS и токены LLM; LiveKit — около 15–20% счёта. Подробное сравнение стоимости с другими стеками реального времени мы разбираем в материале про сравнение LiveKit и Agora.
LiveKit Agents против Vapi, Retell, Daily Bots, Pipecat и Nova Sonic
| Платформа | Модель | Заявленная цена, ₽/мин | Кому подходит | На что обратить внимание |
|---|---|---|---|---|
| LiveKit Agents | Фреймворк, провайдеры на ваш выбор | 4,5–11 ₽ полная | Кастомные пайплайны, мультивендор | Нужны разработчики |
| Vapi | Платформа + провайдеры на выбор | 3,7 ₽ + провайдеры | Быстрые no-code-пилоты | Реальная стоимость с учётом всего — 11–18 ₽ |
| Retell AI | Платформа, прозрачное ценообразование | 5,2 ₽ | Аккуратный SaaS-голосовой бот | Меньше провайдеров в экосистеме |
| Bland AI | Платформа, упор на исходящие | 6,7 ₽ | Массовые исходящие звонки | Меньше гибкости в подключении LLM |
| Daily Bots | На базе Daily.co WebRTC | ~7,5–11 ₽ оценочно | Продукты на стеке Daily | Менее прозрачное ценообразование |
| Pipecat | Open-source-фреймворк | Только стоимость провайдеров | Self-hosted, полный контроль | Эксплуатация целиком на вас |
| Twilio ConversationRelay | Телеком-платформа | 3 ₽ + провайдеры | Глубокая экосистема Twilio | STT/LLM/TTS всё равно собирать самим |
| Amazon Nova Sonic | AWS speech-to-speech | ~0,1–0,7 ₽ | Стеки на инфраструктуре AWS | Молодой продукт, мало сторонних интеграций |
Чтобы шире понять выбор топологии WebRTC, на котором держатся все эти платформы, прочитайте наш гид по архитектуре WebRTC и материал про P2P vs MCU vs SFU.
Нужно второе мнение по выбору LiveKit, Vapi или Retell?
30 минут с senior-инженерами, которые довели до продакшена все три варианта — приходите со сценарием, мы вернёмся с цифрами.
Сценарии, где LiveKit Agents оправдывает место в стеке
- Триаж входящих обращений в поддержку. Принять звонок, выяснить запрос, передать оператору вместе с контекстом.
- Исходящие обзвоны. Напоминания о встречах, опросы, взыскание долгов — всегда с согласием по TCPA и STIR/SHAKEN на звонках в США.
- ИИ-интервьюер. Первичный отбор кандидатов, структурированные сценарии, единая шкала оценки.
- Голосовой ассистент внутри SaaS. Встроенное голосовое управление в веб-продукте — поддержка, аналитика, поиск.
- Синхронный перевод и субтитры. Каскад STT + NMT + TTS для двуязычных звонков в реальном времени; похожую архитектуру мы разбираем в гиде по приложениям видеоперевода.
- Голосовой репетитор. Связка с RAG поверх учебных материалов; см. наш материал про умные обучающие системы.
- Приём пациентов и запись на приём в медицине. Соответствие HIPAA с BAA у каждого провайдера.
Бюджет задержек и определение конца реплики
Цель по времени до первого звука (TTFA) — меньше 800 мс. Разбейте этот бюджет по этапам и держите каждый в своих рамках.
- VAD — ~50 мс. Silero или WebRTC VAD.
- STT — ~150 мс при стриминговых частичных результатах.
- Время до первого токена LLM — ~400 мс. Самый трудный для сокращения этап; беспощадно укорачивайте системные промпты и используйте модели поменьше для простых задач.
- TTS — ~150 мс при стриминге первого фрагмента (Cartesia, ElevenLabs).
- Сеть — ~50 мс на хороших каналах.
Определение конца реплики — это место, где голосовые боты звучат искусственно. Базовое определение по тишине через VAD оставляет хвост в 200–500 мс. Модельное определение конца реплики в LiveKit срезает хвост до ~150 мс ценой одного дополнительного инференса. Включайте его на продуктах с интенсивным диалогом; для односессионных IVR хватит и VAD.
Перебивания требуют отдельной обработки. Голый VAD слишком часто обрывает бота на полуслове. Адаптивная обработка перебиваний в LiveKit использует лёгкий классификатор, который отличает «пользователь хочет перебить» от «пользователь кашлянул». Включайте — ощутимый плюс для UX.
Телефония и интеграция SIP
Большинство голосовых продуктов запускают сначала на WebRTC, а ТфОП подключают вторым шагом. У LiveKit полноценный SIP-мост: ваш агент работает на WebRTC внутри, а одной из сторон в комнате становится SIP-участник от Twilio, Telnyx или похожего транк-провайдера.
Важных тактических моментов три. Во-первых, SIP-транк может добавить 100–300 мс задержки — выбирайте оператора с хорошо пирингованными точками в нужных регионах. Во-вторых, обработку DTMF нужно явно настроить (RFC 2833 против SIP INFO) и протестировать с каждым оператором. В-третьих, аттестация STIR/SHAKEN теперь обязательна для исходящего трафика в США — проследите, чтобы ваш транк подписывал звонки на уровне A, иначе принимающие операторы будут их отбрасывать.
Соответствие требованиям: TCPA, HIPAA, PCI, GDPR, STIR/SHAKEN
Регулирование голосового ИИ опередило остальной ИИ в 2024–2025 годах. Закладывайте всё это в архитектуру с первого дня.
- Согласие на запись. Штаты с правилом двустороннего согласия (Калифорния, Флорида, Иллинойс и другие) требуют предупредить о записи. Фиксируйте событие согласия в журнале аудита по каждому звонку.
- TCPA. Для маркетинговых исходящих обзвонов нужно явное письменное согласие. 112 500 ₽ за нарушение, штрафы складываются.
- HIPAA. Соглашение BAA с каждым провайдером, который касается PHI — LLM, STT, TTS, LiveKit Cloud, телефония. Шифрование записей AES-256, RBAC на воспроизведение.
- PCI DSS. Маскирование DTMF при вводе карты. Не давайте цифрам карты попадать в STT, в контекст промпта LLM или в записи.
- GDPR. Согласие, регион хранения, удаление. Держите расшифровки агента в той же зоне резидентности данных, что и остальные данные пользователя.
- STIR/SHAKEN. Обязательно на исходящих звонках в США; неподписанные звонки операторы отбрасывают.
Мини-кейс: агент LiveKit на 20 000 звонков в месяц
К нам пришёл SaaS-клиент с командой записи на 18 человек, тонувшей во входящих звонках — перенос, отмена, уточнение. Существующая IVR гнала всё на людей; среднее ожидание — 3 минуты, доля брошенных звонков — 22%. Запрос: голосовой агент, который сам обрабатывает 70% входящего трафика, полностью соответствует HIPAA и отвечает быстрее секунды.
За 7 недель мы поставили LiveKit Cloud + Deepgram Nova-3 + Claude Sonnet (с вызовами инструментов в их календарь) + Cartesia TTS за SIP-транком Twilio. Подход Agent Engineering сгенерировал около 60% схем вызова инструментов, библиотеки промптов и интеграционных тестов параллельно с senior-ревью — это удержало сроки. Со стороны соответствия требованиям мы заключили BAA с каждым провайдером, выстроили поток ввода карты с маскированием DTMF, фиксировали двустороннее согласие по каждому звонку и к концу шестой недели прошли аудит, близкий к SOC 2.
Результат: 74% входящих звонков теперь самообслуживаются. Среднее ожидание упало до 12 секунд. Доля брошенных звонков снизилась с 22% до 5%. Месячная стоимость стека агента — около 120 000 ₽ при ~20 000 обработанных звонков, что заметно дешевле штатных операторов, которых он заменил. Расскажите про похожий объём — мы предложим оценку.
Чеклист принятия решения — выберите LiveKit за пять вопросов
1. Нужна ли вам гибкость по провайдерам? Если хочется смешать Claude для рассуждений с Cartesia для голоса и менять каждый компонент независимо — LiveKit Agents выигрывает. Стеки с одним поставщиком (OpenAI Realtime, Gemini Live) такого не дадут.
2. Жёсткое требование — задержка меньше 300 мс? Если да, объедините LiveKit Agents с нативной realtime-моделью (OpenAI Realtime, Gemini Live). Каскадный стек даже при тонкой настройке садится на 500–800 мс.
3. Ожидаете ли вы больше 500 000 минут агента в месяц? До этого порога LiveKit Cloud в порядке. После — поднимайте медиасервер на Kubernetes сами и выводите тариф Cloud из счёта.
4. Насколько ваша вертикаль зарегулирована? Здравоохранение, финансы, госсектор — всегда кастомная разработка, всегда BAA, всегда детальный аудит. No-code-платформа уровня Vapi не пройдёт закупки.
5. Есть ли у вас инженеры? LiveKit — это фреймворк, а не SaaS. Без сильной бэкенд-команды честный ответ — платформа (Retell, Vapi) или партнёр по разработке.
Пять подводных камней на проектах LiveKit Agent
1. Запуск перебиваний только на VAD. Бот продолжает говорить поверх кашля и чихания. Включите модельную обработку перебиваний до первого внешнего демо.
2. Огромные системные промпты. Промпты на 4000 токенов добавляют 200–400 мс к времени до первого токена. Перенесите массивный контекст в RAG, а системный промпт держите коротким.
3. Отсутствие защиты от перерасхода. Зависшая сессия способна сжечь сотни минут аудио за час. Введите максимальную длительность сессии, настройте оповещения о всплесках расходов в минуту.
4. STIR/SHAKEN и TCPA «на потом». Неделя запуска — неподходящее время выяснять, что транк не подписывает звонки. Проверяйте на старте проекта.
5. Игнор наблюдаемости. Логируйте каждое срабатывание VAD, частичный результат STT, задержку LLM, первый чанк TTS и каждый вызов инструмента. Без этого тюнинг превращается в гадание.
KPI бэкенда голосового агента
Качественные KPI. TTFA P95 < 800 мс, точность определения конца реплики ≥ 95%, доля выполненных задач ≥ 70%, доля галлюцинаций < 1% по выборкам расшифровок, доля брошенных звонков < 10%.
Бизнес-KPI. Стоимость минуты в рамках плана (типично ≤ 7,5 ₽), доля звонков, решённых без человека, CSAT по звонкам с ИИ, конверсия на исходящих кампаниях.
KPI надёжности. Доля сбоев сессии агента < 0,1%, p95 задержки провайдера LLM < 600 мс, обрывы стрима STT < 0,5%, успешность установки SIP-вызова ≥ 99%.
Когда не стоит выбирать LiveKit Agents
- Нужен no-code-пилот за 72 часа. Vapi или Retell быстрее доведут до результата.
- Нет опыта с WebRTC и нет бюджета на партнёра. Эксплуатационная нагрузка тут реальная.
- Продукт целиком живёт в AWS, и вас устраивает Amazon Nova Sonic. Нативный AWS-стек проще в эксплуатации, чем сторонний фреймворк.
- Сценарий — чистая асинхронная транскрипция или суммаризация. Здесь нужен не агент, а Deepgram плюс пакетная задача.
FAQ
Готов ли LiveKit Agents к продакшену в 2026 году?
Да. Фреймворк находится на линейке 1.x, активно поддерживается под Apache 2.0 и работает в продакшене у клиентских поддержек, рекрутинговых сервисов и медицинских продуктов. Наша команда выбирает его по умолчанию для голосовых агентов.
Сколько стоит минута голосового агента на LiveKit?
4,5–11 ₽ полностью на массовом стеке (Deepgram + Claude Sonnet + Cartesia + LiveKit Cloud + SIP). Доминируют TTS и LLM; LiveKit Cloud — около 15–20% счёта.
Может ли LiveKit Agents совершать исходящие телефонные звонки?
Да, через SIP-транки от Twilio, Telnyx и аналогов. Убедитесь, что оператор подписывает звонки STIR/SHAKEN на уровне A для исходящих в США, и фиксируйте явное согласие по TCPA на каждую кампанию.
В чём разница между LiveKit Agents и OpenAI Realtime?
OpenAI Realtime — это нативная модель «звук на вход — звук на выход»: минимальная задержка, привязка к OpenAI. LiveKit Agents — фреймворк, оркеструющий подключаемых провайдеров STT/LLM/TTS: чуть выше задержка, полная свобода выбора. OpenAI Realtime можно подключить внутри LiveKit Agents как один из бэкендов.
Нужен ли LiveKit Cloud или можно self-hosted?
Self-hosted open-source-сервер LiveKit поддерживается и оправдывается за порогом ~500 000 минут агента в месяц или когда регуляторика по резидентности данных требует on-premise. Ниже этого объёма LiveKit Cloud дешевле с учётом операционных расходов.
Какая задержка реалистична?
P95 времени до первого звука меньше 800 мс достижим на каскадном стеке LiveKit. С OpenAI Realtime или Gemini Live можно опуститься ниже 300 мс. Всё, что выше 1 секунды, уже воспринимается на слух как заторможенность и заметно снижает долю выполненных задач.
Сколько занимает запуск голосового агента в продакшене?
С нашим подходом Agent Engineering — 6–8 недель на MVP в рамках одного сценария (триаж входящих, напоминание о встрече, ИИ-интервьюер). Классическая разработка занимает 12–16 недель на тот же объём. Зарегулированные вертикали (медицина, финансы) добавляют 2–4 недели на аудиты и BAA.
Может ли агент LiveKit работать на нескольких языках?
Да — связкой многоязычных STT (Deepgram, Whisper) и многоязычных TTS (Cartesia, ElevenLabs, Azure) при инструкции LLM отвечать на определённом языке. Мост для синхронного перевода — обычная задача.
Что почитать дальше
Стоимость
Сравнение стоимости LiveKit и Agora
Поминутная экономика медиаплатформ под капотом.
WebRTC 2026
Гид по архитектуре WebRTC для бизнеса
Как выбор SFU/MCU отражается на дизайне голосового агента.
Архитектура
P2P vs MCU vs SFU для видеоприложений
Почему большинство голосовых агентов запускают на SFU, а не peer-to-peer.
ИИ-репетиторы
Умные обучающие системы для преподавателей
Голосовые репетиторы на RAG, обёрнутые вокруг ваших материалов.
Низкая задержка
Видеостриминг реального времени с низкой задержкой
Как удержать задержку медиа в рамках бюджета агента.
Готовы запустить голосового агента на LiveKit, который оправдывает свой стек
LiveKit Agents даёт ту гибкость по провайдерам и контроль над стоимостью, которых нативные realtime API дать не могут, и инженерную эргономику, до которой no-code-платформам не дотянуться. Соберите подходящие STT, LLM и TTS под ваш бюджет задержек, учтите весь периметр требований и наладьте телеметрию по всему стеку — остальное уже дело вкуса.
Если вы оцениваете запуск голосового агента или вытаскиваете застрявший проект, следующий шаг — короткий установочный звонок. Мы разложим ваш сценарий звонков, регуляторный контур и цель по задержкам в конкретный стек, сроки и бюджет — и оставим вас с планом, который можно запускать.
Давайте соберём вашего голосового агента на LiveKit
Фора Софт выпускает голосовые и AI-продукты реального времени по подходу Agent Engineering — быстрее, дешевле, готовыми к продакшену. Это подтвердят и виртуальные классы на 2000 участников.

