
Голосовой AI, который действительно звучит как человек, — это в первую очередь задача о задержке и только во вторую очередь о моделях. Уложите полный круг — от микрофона до динамика — в 800 мс на pipeline-стеке или в 300 мс на модели speech-to-speech, и разговор будет ощущаться естественно. Промахнётесь мимо этого бюджета — собеседник заметит каждую заминку. LiveKit Agents 1.x — это open-source-фреймворк, к которому чаще всего обращаются серьёзные команды, чтобы выйти на такие цифры и при этом не привязываться к одному вендору.
Этот плейбук — сжатая версия того, что Фора Софт рассказывает новым инженерам в первый день проекта по голосовому AI. Мы запускаем агентов на LiveKit для службы поддержки, исходящих продаж, медицинского приёма и встроенных в продукт ассистентов — и видели каждую ловушку с задержкой, каждый перерасход бюджета и каждый сюрприз с compliance минимум по два раза. Целевой читатель — основатель, CTO или старший инженер, которому к пятнице нужен честный ответ на вопрос «строить ли это и на чём».
Главное
- Pipeline (STT → LLM → TTS) даёт контроль и обходится в 3,7–11 ₽ за минуту со всеми расходами; speech-to-speech даёт задержку 300 мс, но привязывает к одному вендору.
- LiveKit Agents — правильный выбор, когда нужны кастомные сценарии, наблюдаемость или больше 10 000 минут в месяц. Меньше — Retell или Vapi запустятся быстрее.
- Оптимальная связка провайдеров в 2026 году: Deepgram Nova-3 для STT, Claude Haiku 4.5 для LLM, Cartesia Sonic-3 или Deepgram Aura-2 для TTS — итоговая задержка 550–700 мс.
- Шумоподавление Krisp с 1 мая 2026 тарифицируется отдельно. Закладывайте в бюджет 0,15–0,30 ₽ за минуту или отключайте для звука из тихих условий.
- Compliance — на вас, а не на платформе. TCPA, HIPAA, согласие на запись от обеих сторон и GDPR начинают действовать в момент первого исходящего звонка.
Почему команды выбирают LiveKit для голосового AI в 2026
Любая команда, занимающаяся голосовым AI, рано или поздно упирается в одну и ту же развилку. Либо вы прикручиваете агента к чужой управляемой платформе (Vapi, Retell, Bland, Synthflow) и принимаете её задержку, её шаблоны промптов и её маржу, либо строите на realtime-транспорте, которым управляете сами. LiveKit — это второй путь: realtime-стек медиа под лицензией Apache-2.0 с production-готовым фреймворком Agents сверху.
Что вы получаете из коробки: WebRTC между пользователями и агентом, HTTP/WebSocket между агентом и бэкендом, подключаемые провайдеры STT/LLM/TTS, обученную модель определения конца реплики, лицензированное шумоподавление Krisp, метрики задержки по каждому ходу, запись звонков и мост в PSTN через Telnyx или Twilio. Open source, без привязки к вендору, плагины сообщества под каждого крупного провайдера.
Что вы отдаёте взамен: пишете на Python или Node, берёте на себя операционную нагрузку, если хостите сами, и закладываете на production-агента одну-три инженерных недели вместо тех трёх часов, которые рекламирует Retell. Для всего, что серьёзнее proof of concept, эта сделка выгодна — почему именно, покажем ниже в разборе затрат.
Что на самом деле значит «звучит как человек»
В естественном разговоре люди ожидают, что собеседник ответит за 200–300 мс. Дольше 500 мс — и собеседник осознанно замечает паузу. Дольше секунды — начинает перебивать, бросать трубку или жать «ноль» для оператора. Это и есть реальная рамка производительности голосового AI — не качество модели, не реалистичность голоса и не покрытие инструментов.
«Звучит как человек» — это четыре сложенных вместе вещи:
- Быстрый первый отклик. 300–800 мс от конца реплики пользователя до начала аудио агента — в зависимости от архитектуры.
- Аккуратное прерывание. Агент замолкает за 120–200 мс, когда собеседник начинает говорить поверх, и возвращается к нужному контексту.
- Просодия, совпадающая со смыслом. Ударения на правильных словах, дыхательные группы, совпадающие со смысловой структурой, выразительные голоса для эмпатичных моментов.
- Опора на факты. Агент знает, когда сказать «давайте проверю», и действительно проверяет — через function calling, а не через галлюцинации.
Промах хотя бы в одном из четырёх пунктов — и иллюзия рассыпается. Большинство команд сосредотачиваются на третьем («нам нужен голос получше»), когда настоящая проблема — в первом. ElevenLabs не узкое место с TTFB в 75 мс; ваш LLM с 1,2 с — да.
Бюджет задержки в 800 мс — и где он утекает
Классический pipeline проходит пять стадий. Вот реалистичный лучший случай для провайдеров 2026 года, измеренный сквозным образом на деплое в регионе США:
| Стадия | Лучший случай | Типичное | Где утекает |
|---|---|---|---|
| VAD и определение конца реплики | 50 мс | 80–150 мс | Медленная или шумная речь, акценты, настройка модели VAD |
| Транскрипция STT (стриминг) | 150 мс | 200–300 мс | Без стриминга, межрегиональные хопы, батч уровня Whisper |
| TTFT у LLM | 400 мс | 600–1200 мс | Длинные промпты, большой контекст, холодный провайдер, без стриминга |
| Первый байт TTS | 75 мс | 150–250 мс | Без стриминга TTS, выразительные голоса, регионы с малым трафиком |
| Сеть и воспроизведение | 50 мс | 80–200 мс | Мобильная связь, переход в PSTN, удалённый TURN-сервер |
| Итого (pipeline) | ~725 мс | 1,1–1,7 с | |
| Speech-to-speech (Realtime / Gemini Live) | 200 мс | 300–500 мс | Длинный контекст, переход в PSTN, холодный старт |
Рисунок 1. Бюджет задержки голосового AI: pipeline против speech-to-speech (бенчмарки 2026 года, регион США).
В каждом production-деплое, который мы аудируем, две самые быстрые утечки — TTFT у LLM и межрегиональные сетевые хопы. Обе устраняются. Возьмите модель с низким TTFT, держите STT, LLM и TTS в одном облачном регионе и стримите всё. Если после этого вы всё ещё не укладываетесь в 800 мс — проблема в длине промпта, а не в инфраструктуре.
Берите pipeline, когда…
Нужен кастомный function calling, лучшая в классе точность STT, контроль затрат на больших объёмах, замена компонентов под каждую функцию или compliance, который запрещает отправлять аудио в одну модель целиком.
Pipeline или speech-to-speech: что подходит вашему продукту
Модели speech-to-speech (OpenAI Realtime, Gemini 3.1 Flash Live) полностью пропускают этап транскрипции: на вход аудио — на выход аудио. Полный круг можно уложить в 200 мс. Звучат они до жути естественно и обрабатывают перебивания без единой строчки лишнего кода. Подвох в том, что вы покупаете всё разом — рассуждение, голос, прерывание, function calling — пакетом у одного вендора.
Pipeline — это противоположный размен. Вы сшиваете трёх-четырёх провайдеров, отдаёте 500–700 мс на накладные расходы и взамен можете заменить LLM, когда Anthropic выкатит новую модель Claude, направить STT на отраслевого провайдера (Deepgram Medical, AssemblyAI для извлечения сущностей), использовать клонированный фирменный голос в TTS и независимо логировать каждую стадию для аудита.
Наше практическое правило: speech-to-speech — для потребительских ассистентов, где личность важнее точности. Pipeline — для всего, что общается с базой данных, называет цену или может довести до суда, если соврёт. LiveKit поддерживает оба варианта — pipeline просто тот, под который он изначально проектировался, и до сих пор оптимизируется лучше.
Эталонная архитектура на LiveKit Agents 1.x
У production-агента на LiveKit пять движущихся частей и одна схема трафика. Пользователь заходит в комнату LiveKit. Воркер агента берёт задачу, подписывается на аудиотрек пользователя, прогоняет его через STT, передаёт частичные транскрипты в LLM, стримит токены LLM в TTS и публикует аудио TTS обратно в комнату — всё это пока модель определения конца реплики решает, закончил ли пользователь говорить.
from livekit.agents import Agent, AgentSession, JobContext, WorkerOptions, cli
from livekit.plugins import deepgram, anthropic, cartesia, silero
async def entrypoint(ctx: JobContext):
await ctx.connect()
session = AgentSession(
vad=silero.VAD.load(),
stt=deepgram.STT(model="nova-3", language="en-US"),
llm=anthropic.LLM(model="claude-haiku-4-5"),
tts=cartesia.TTS(model="sonic-3", voice="professional-warm"),
turn_detection="livekit", # trained turn model
)
agent = Agent(
instructions="You are a polite scheduling assistant. "
"Always call check_availability before suggesting a time.",
tools=[check_availability, book_meeting],
)
await session.start(agent=agent, room=ctx.room)
if __name__ == "__main__":
cli.run_app(WorkerOptions(entrypoint_fnc=entrypoint))
Это и есть полная форма. Диспетчер LiveKit передаёт задачу свободному воркеру, AgentSession связывает плагины, а модель определения конца реплики livekit решает, когда собеседник закончил. Всё остальное — бизнес-логика: инструменты, промпты, конечные автоматы, передача оператору. Подробный разбор того же паттерна — в нашем гайде по AI-агентам на LiveKit.
Нужен запущенный голосовой агент, а не исследовательский проект?
Фора Софт строила агентов на LiveKit для EdTech, медицинского приёма, исходящих продаж и B2B-поддержки. Мы выходим на задержку меньше 700 мс и production-уровень compliance за 3–6 недель, а не за 3–6 месяцев.
STT: Deepgram, AssemblyAI, Gladia или Soniox
Распознавание речи — единственная стадия, где чистая задержка дёшева, а решает точность. Разница между 150 мс и 300 мс STT почти не влияет на ощущение разговора; разница между 5% WER и 12% WER — это разница между «работает» и «позвонил не тому клиенту».
| Провайдер | Задержка | Точность (en) | Цена | Лучше всего для |
|---|---|---|---|---|
| Deepgram Nova-3 | <300 мс | 5,26% WER | 0,32 ₽/мин | Универсально, дешевле всех |
| AssemblyAI Universal-3 Pro | P50 150 мс | 5,65% WER | 27 ₽/час | Извлечение сущностей (email, ID) |
| Gladia Solaria-1 | 103 мс на частичный результат | −29% WER на разговорах | По договору | Акценты, шум, переключение языков |
| Soniox | стриминг | Лучше всего для многоязычных | По договору | Юридическая, медицинская, многоязычная сфера |
| OpenAI Whisper | ~500 мс по чанкам | Хорошая | 1,5–4,5 ₽/час | Офлайн, батч, ограниченный бюджет |
По умолчанию мы берём Deepgram Nova-3 для англоязычного трафика в США, AssemblyAI Universal-3 Pro — когда агенту нужно повторять номера счетов или email, и Gladia — для контакт-центров с сильными акцентами и переключением языков. Whisper место в батч-задачах и выгрузках транскриптов, но не в живых звонках.
LLM: Claude Haiku, Gemini Flash или GPT-5
LLM — это место, где у большинства проектов голосового AI ломается бюджет. TTFT (время до первого токена) важнее общей пропускной способности — агент должен начать говорить быстро, а не закончить быстро. TTFT в 600 мс со стримингом по 80 токенов в секунду ощущается быстрее, чем TTFT в 300 мс, который застревает на первой фразе.
| Модель | TTFT | Токенов/сек | Цена (вход) | Лучше всего для |
|---|---|---|---|---|
| Claude Haiku 4.5 | 597 мс | 78,9 | 60 ₽ / 1M токенов | По умолчанию — самый быстрый TTFT при качестве уровня голоса |
| Gemini 2.5 Flash | ~800 мс | 146,5 | 5,6 ₽ / 1M токенов | Длинные ответы, дёшево, мультимодальность |
| GPT-5 | 0,9–1,2 с | ~60 | Премиум | Сложные рассуждения, многошаговый function calling |
| Groq (Llama 3.3 70B) | ~250 мс | ~300 | 44 ₽ / 1M токенов | Низкая задержка на скромном бюджете, OSS-модели |
Haiku 4.5 — наша модель по умолчанию для голоса. Groq остаётся в шорт-листе для всего, где задержка решает (исходящие продажи, NPC в играх) и достаточно качества рассуждения уровня Llama. К GPT-5 обращайтесь только тогда, когда агент действительно рассуждает — многоступенчатые цепочки инструментов, жёсткая политика, дорогие исходы. Для повседневной беседы он слишком медленный.
TTS: ElevenLabs, Cartesia, Aura, Rime или Grok
TTS — та часть, по которой пользователи на самом деле и судят. И та же стадия, где цены отличаются в 10× за разницу в качестве, которую большинство собеседников вообще не замечают.
| Провайдер | TTFB | Цена | Сильная сторона |
|---|---|---|---|
| ElevenLabs Flash v2.5 | 75 мс | 3,7 ₽ / 1k символов | Естественность, клонирование, 4000+ голосов |
| Cartesia Sonic-3 | 40–90 мс | 0,45 ₽ / мин | Дешевле и быстрее всех, на SSM |
| Deepgram Aura-2 | 90 мс | 2,2 ₽ / 1k символов | Лучшая цена за качество, оптимизирован под медицину и IVR |
| Rime Mist | <200 мс | 0,37 ₽ / мин | Эмоция в разговоре, американские акценты |
| Grok TTS (xAI) | стриминг | 315 ₽ / 1M символов | Переключение языков, плагин для LiveKit |
Мы берём Cartesia Sonic-3, когда важны задержка и стоимость, а фирменный голос — нет; Deepgram Aura-2 — за лучшее соотношение естественности к цене; ElevenLabs Flash — когда клиент лицензирует клонированный голос или голос знаменитости. Платите больше только там, где это меняет бизнес-кейс. На B2B-агенте для записи на встречу никто не бронирует время из-за того, что у голоса лучше вибрато.
Определение конца реплики, VAD и аккуратное прерывание
Voice activity detection отвечает на вопрос «говорит ли кто-то прямо сейчас?». Определение конца реплики отвечает на вопрос посложнее: «он закончил говорить или просто сделал паузу?». Эта разница — между разговором, который дышит, и тем, который наступает на каждую вторую фразу.
LiveKit поставляет обученную модель определения конца реплики, которая на естественной речи с большим отрывом обходит VAD с фиксированным порогом. Она смотрит на просодию, слова-паразиты и лексические подсказки — а не только на громкость — и динамически подстраивает окно ожидания от 0 до 2 секунд. В связке с Background Voice Cancellation от Krisp она справляется и со сценарием «коллега разговаривает в офисе», на котором ломается любой наивный VAD.
Прерывание (barge-in) — вторая половина истории. Когда собеседник вклинивается, агенту нужно замолчать за 150 мс, сбросить буфер TTS и передать новую реплику обратно в STT. LiveKit делает это автоматически. Единственный частый баг — агент перебивает сам себя; обычно это значит, что шумный TTS-сигнал просачивается в микрофон пользователя. Лечится акустическим эхоподавлением на клиенте или BVC на стороне агента.
Шумоподавление и Krisp: теперь отдельная статья расходов
LiveKit Cloud поставляется с лицензированными моделями Krisp под две задачи: убирать фоновый шум (вентиляторы, машины, клавиатура) и заглушать посторонние голоса (супруг по телефону, open-space). И то, и другое поднимает точность STT на 10–20% на шумных каналах и резко снижает ложные прерывания.
С 1 мая 2026 использование Krisp тарифицируется поверх базовой минуты агента. Закладывайте 0,15–0,30 ₽ за минуту дополнительно, если оставляете включённым. Для звука из тихих условий (десктопные ассистенты в приложении, студийные микрофоны) — отключайте, чтобы убрать эту строку из счёта; для PSTN и мобильного трафика оставляйте включённым: вложения окупятся за счёт точности STT.
Отключайте Krisp, когда…
Пользователи носят гарнитуры в контролируемой среде (рабочие места контакт-центра, студийные микрофоны, WebRTC из приложения с ноутбука) или подавление шума уже работает на клиенте отдельной стадией.
Function calling, который реально доезжает до production
Голосовой агент, который ничего не умеет делать, — это чат-бот, который умеет говорить. Function calling — это разница между «спасибо за звонок» и «я записал вас на вторник на 14:00». Три правила удерживают его в работоспособном виде в production:
- Повторите вслух всё, что собеседник продиктовал. «Я услышал четыре-один-пять, два-два-пять… верно?» STT слышит цифры неправильно; AssemblyAI Universal-3 Pro заметно лучше остальных на сущностях, но идеала нет.
- Вызывайте инструмент синхронно, рассказывайте об этом параллельно. Скажите «секунду, проверю», пока инструмент выполняется. Не оставляйте 2 секунды тишины — собеседник решит, что связь оборвалась.
- Ограничьте число попыток и бюджет. Одна галлюцинирующая модель и один сломанный инструмент могут перевызвать один и тот же API 40 раз за 10 секунд. Поставьте жёсткие лимиты на число вызовов инструментов за ход и на стоимость сессии.
Claude и GPT-5 поддерживают параллельный вызов инструментов, поэтому грамотно описанная схема позволяет агенту одновременно запустить «проверь календарь», «найди клиента» и «подними условия полиса» и собрать ответ за один ход. Это самый крупный недооценённый выигрыш по задержке, который мы видим у команд.
Реальная стоимость минуты: всё включено, без сюрпризов
Каждая управляемая платформа рекламирует красивую ставку — Vapi за 3,7 ₽, Retell за 5,2 ₽, Bland за 6,7 ₽ — и каждая из них считает только свою комиссию. Реальная сквозная стоимость с учётом STT, LLM, TTS и телефонии оказывается между 8 и 18 ₽ за минуту. Вот как в 2026 году выглядят три типичных стека на LiveKit:
| Стек | STT | LLM | TTS | Платформа | Итого/мин |
|---|---|---|---|---|---|
| Бюджетный | Deepgram Nova-3 | Groq Llama 3.3 | Cartesia Sonic-3 | LiveKit Cloud | ~3,7 ₽ |
| Production | Deepgram Nova-3 | Claude Haiku 4.5 | Deepgram Aura-2 | LiveKit Cloud | ~7,5 ₽ |
| Премиум | AssemblyAI Pro | GPT-5 / Claude 4.5 | ElevenLabs Flash | LiveKit Cloud | ~13–16 ₽ |
Умножьте на свой объём звонков. Исходящий дайлер на 50 000 минут в месяц на стеке Production обходится в 375 000 ₽ инфраструктуры — примерно столько же, во что компании обходится один SDR со всеми сопутствующими затратами, и при этом агент работает 24/7 на пятнадцати языках.
LiveKit против Vapi, Retell, Bland и Synthflow
На 10 000 минут в месяц (нагруженный кейс среднего бизнеса) платформы аккуратно сортируются по полной стоимости владения:
| Платформа | Полная стоимость | Время до первого звонка | Потолок |
|---|---|---|---|
| LiveKit (своя сборка) | 37 500–45 000 ₽ | 2–4 недели | Никакого, open source |
| Retell AI | ~86 000 ₽ | 3 часа | Кастомные инструменты ограничены |
| Bland AI | ~90 000 ₽ | 1 день | Ориентирован на исходящий дайлер |
| Synthflow | ~97 000 ₽ | 1–2 дня | No-code, привязка к платформе |
| Vapi | ~105 000 ₽ | 1 день | Гибкий API, самая высокая цена |
Рисунок 2. Сравнение TCO на 10 000 минут в месяц по ставкам 2026 года.
Цифры говорят очевидное: Retell или Vapi — для проверки гипотез и прототипов на меньше чем 5000 минут, LiveKit — как только кейс становится реальным. Точка перелома лежит где-то между 10 000 и 20 000 минут в месяц — выше неё маржа LiveKit окупает инженерные вложения за полгода.
LiveKit Cloud, self-hosted или Telnyx
Три варианта запустить LiveKit Agents в production, у каждого свой компромисс:
- LiveKit Cloud. 0,37 ₽/мин только за аудио, 0,75 ₽/мин с агентом. Управляемая диспетчеризация, наблюдаемость, региональные точки присутствия, SOC 2, BAA. Никакой операционной работы. Выбор по умолчанию.
- Self-hosted. Платформенная комиссия — ноль, STT/LLM/TTS платите напрямую. Окупается выше 50 000 минут в месяц, если DevOps уже выстроен; ниже — выигрывает облако. Берите этот вариант для регулируемых нагрузок, где платформа не должна касаться аудио.
- LiveKit на Telnyx (апрель 2026). Telnyx хостит инфраструктуру LiveKit и в комплекте даёт телефонию. Заявленная стоимость STT/TTS на 50% ниже, чем у LiveKit Cloud на том же стеке — стоит просчитать, если PSTN нужен в больших объёмах.
Один нюанс с февраля 2026: данные наблюдаемости LiveKit обрабатываются в США независимо от вашего медиарегиона. Если резидентность по GDPR запрещает обработку любых метаданных звонка в США — отключайте проектную наблюдаемость и логируйте в свой стек. Само медиа (аудио и видео) остаётся в выбранном вами регионе.
Compliance: HIPAA, SOC 2, TCPA, GDPR
Голос затрагивает сразу три плоскости compliance — PHI (если пользователи обсуждают здоровье), PII (любые клиентские записи) и согласие на запись (в каждом штате, во многих — со штрафами). Платформы помогают, но не закрывают это за вас.
- HIPAA. LiveKit подписывает BAA. То же делают OpenAI, Deepgram и ElevenLabs на корпоративном тарифе. Проверяйте каждого вендора в стеке и держите подписанный обеими сторонами PDF — на каждый цикл ревизии договора.
- SOC 2 Type II. Сертифицированы LiveKit, OpenAI, Deepgram, AssemblyAI, ElevenLabs, Cartesia. Запросите их отчёты для собственного аудита.
- TCPA. С решения FCC от 8 февраля 2024 года для AI-сгенерированного голоса в исходящих звонках требуется задокументированное предварительное письменное согласие. Храните его рядом с номером и предъявляйте при каждом наборе.
- Согласие обеих сторон на запись. Калифорния, Флорида, Пенсильвания, Иллинойс и ещё семь штатов требуют согласия всех участников разговора. Воспроизводите дисклеймер в начале каждого записываемого звонка — и сам этот дисклеймер тоже записывайте.
- GDPR. Согласие на запись по статье 6 должно быть явным, а не «законным интересом». Заключите договоры на обработку данных с каждым провайдером в стеке и закрепите медиа за регионом ЕС.
Наши production-настройки по умолчанию: redaction PII в логах в реальном времени (вычищаем email, телефоны и номера карт до того, как они попадут в наблюдаемость), метаданные согласия по каждому звонку, аудит-логи с минимальным сроком хранения 90 дней и ежегодная red-team-проверка границ промпта агента. Срезать углы здесь — это то, на чём заканчивается карьера.
У вас в проекте HIPAA или GDPR?
Мы запускали голосовых агентов с полным стеком BAA для медицинского приёма и телемедицины. Если в звонке есть PHI, одной галочкой у провайдера не отделаться — нужны pipeline, логи, политика хранения и red-team, которые выдержат аудит.
Сценарии, которые действительно окупаются
Четыре паттерна возвращают вложения меньше чем за полгода. Всё остальное — экспериментирование:
Поддержка первой линии
Сброс паролей, статус заказа, проверка баланса, FAQ по полису. Голосовой агент закрывает 40–60% входящего объёма по 6–11 ₽ за звонок против 150–375 ₽ у живого оператора. Для линии поддержки на 100 000 звонков в месяц это от 11 до 22 млн ₽ в месяц возвращаются в P&L.
Исходящие продажи и квалификация лидов
Перезвон по входящим лидам ускоряется со «среднего времени ответа в 4 часа» до «30 секунд». Конверсия во встречи обычно удваивается или утраивается. У одного клиента из enterprise стоимость одной забронированной встречи в исходящей квалификации упала с 3 600 ₽ до 675 ₽.
Медицинский приём и подтверждение визитов
Крупные сети клиник используют голосовых агентов для предварительного сбора анамнеза и звонков-подтверждений за сутки до визита. 70–80% подтверждений проходят полностью автоматически, освобождая ресепшн под пациентов «с улицы». Стек HIPAA обязателен — см. выше.
Голосовые тьюторы и встроенные ассистенты
Этот сценарий ближе всего к портфолио Фора Софт. Мы делали голосовые обучающие платформы, приложения для коучинга в реальном времени и агентов на WebRTC прямо в браузере для образовательных клиентов вроде Career Point, и схема одна и та же: клиентский SDK LiveKit в браузере, воркер агента со стеком Haiku + Cartesia, кастомные инструменты для состояния урока и обратная связь, которая записывает взаимодействия для педагогического разбора.
Семь сценариев отказа, которые мы видим в production
В порядке того, как часто они ломают демонстрации:
- Холодный старт. Первый звонок после деплоя — задержка 3–5 секунд. Лечится прогревочными звонками вхолостую и предварительным заполнением пула соединений на старте.
- Ложные прерывания. Агент продолжает говорить поверх собеседника или обрывает его на полуслове. Настройте VAD, включите BVC и протестируйте с 20 живыми пользователями до запуска.
- Галлюцинации фактов. Агент придумывает номер подтверждения. Заставьте опираться на function calling всё, что нужно процитировать; запретите свободные ответы на фактические вопросы.
- Ошибки извлечения сущностей. «Мой email — john.doe» превращается в «johndough». Переключайтесь на AssemblyAI Universal-3 Pro для сценариев с большим числом сущностей.
- Каскадная межрегиональная задержка. STT в us-east, LLM в us-west, TTS во Франкфурте. Прижмите всех провайдеров к одному региону; платите за egress, если придётся.
- Неконтролируемые расходы. Цикл повторов выстреливает 40 вызовами LLM за десять секунд после неудавшегося инструмента. Жёстко ограничьте число вызовов инструментов за ход и стоимость сессии в рублях.
- PII в логах. Полные транскрипты с СНИЛС оказываются в CloudWatch. Чистите их на границе, до того как что-то долетит до наблюдаемости.
KPI: что мерить с первого дня
Голосовой агент без приборной панели — это демонстрация. Снимайте эти метрики с первого production-звонка:
- Задержка хода P50 / P90 / P99. Среднее лжёт; именно хвост по P99 заставляет людей бросать трубку.
- Доля выполненных задач. Закрыл ли агент запрос звонившего без эскалации? 50–70% — реалистичный ориентир для хорошо настроенного бота поддержки.
- Доля передач оператору. Эскалации к человеку на звонок. Если растёт — сломан инструмент или дрейфует промпт.
- Стоимость одного успешного исхода. Не цена за минуту — цена за забронированную встречу, сброшенный пароль, подтверждённый визит.
- Частота прерываний. Как часто собеседник перебивает агента? Растёт — значит, голос слишком многословен.
- WER транскрипции. Размечайте вручную выборку из 100 звонков в неделю. Дрейф здесь — индикатор для всех остальных метрик.
Когда НЕ стоит строить на LiveKit
Четыре случая, где управляемая платформа честно обыгрывает LiveKit:
- Детерминированный IVR. «Нажмите 1 для отдела продаж, 2 для поддержки». Берите Twilio Studio и идите дальше.
- Proof of concept в жёсткие сроки. Retell AI запускается за 3 часа, Vapi — за день. Если демонстрация нужна завтра — не разрабатывайте, покупайте.
- Меньше 5000 минут в месяц навсегда. Срок окупаемости инженерных вложений уходит за год. Платформенная комиссия — дешёвая страховка.
- Нетехническая команда без DevOps. No-code-конструктор Synthflow обыграет сломанного Python-агента, которого некому обслуживать.
Честный вопрос звучит так: «достаточно ли это важно, чтобы владеть этим самим?». Если голосовой агент — ядро продукта или экономия становится ощутимой за пределами десяти тысяч минут в месяц, ответ — да, и LiveKit это правильная ставка. В остальных случаях стартуйте на управляемой платформе, мигрируйте позже.
FAQ
Сколько уходит у Фора Софт на запуск production-агента на LiveKit?
От трёх до шести недель на узкий сценарий (один процесс, один язык, один регуляторный режим). Наш конвейер Agent Engineering сжимает то, что раньше занимало три месяца, вдвое — поэтому итоговая стоимость, как правило, ниже рыночной даже на премиум-стеке.
LiveKit умеет в звонки PSTN или это только WebRTC?
И то, и другое. LiveKit мостит в PSTN через Twilio или Telnyx по SIP. С апреля 2026 года Telnyx предлагает родной продукт «LiveKit on Telnyx», который объединяет оба сервиса и снижает стоимость STT/TTS примерно на 50% по сравнению с одним только LiveKit Cloud.
Какая реалистичная задержка для агента менее 700 мс?
Со стримящим STT Deepgram Nova-3, стримящим LLM Claude Haiku 4.5 и стримящим TTS Cartesia Sonic-3 — все в одном регионе, с короткими системными промптами — мы регулярно фиксируем сквозные 550–700 мс по P50 на WebRTC-клиентах. Хопы PSTN добавляют 80–150 мс.
Может, лучше взять OpenAI Realtime API?
Если задержка — единственное, что важно, и вас устраивает привязка к GPT-5 в качестве LLM, то да: 200–300 мс сквозной задержки никто не обыграет. LiveKit поддерживает Realtime в виде плагина, поэтому вы можете попробовать оба варианта без переписывания агента. Если приоритет — compliance, надёжность function calling или кастомные голоса, pipeline всё равно выигрывает.
Как остановить расход денег из-за сломанных вызовов инструментов?
Три жёстких потолка на сессию: максимум вызовов инструментов, максимум токенов LLM и максимум общей длительности. При срабатывании любого из них агент говорит «давайте я переключу вас на оператора» и кладёт трубку на запасной маршрут. Плюс мы держим месячные алерты по стоимости на каждого тенанта агента, чтобы аномальное поведение замечалось через минуты, а не через дни.
Может ли агент передать звонок оператору посреди разговора?
Да. Стандартный паттерн — инструмент transfer_to_agent: LLM решает (или собеседник просит) передать звонок, в комнату LiveKit добавляется человек-оператор, AI-агент выходит. Транскрипт и контекст передаются вместе с звонком, поэтому оператор подхватывает разговор, а не начинает с нуля.
Подходит ли LiveKit для многоязычных звонков?
Очень. Gladia Solaria-1 справляется с переключением языков в одном потоке (собеседник переходит между испанским и английским посреди фразы), Soniox лидирует на 30+ языках, а Grok TTS недавно выпустил многоязычные голоса с нативной интеграцией в LiveKit. Сам pipeline остаётся прежним — меняются только плагины STT и TTS.
Как нам прогнать бенчмарк агента до запуска?
Прогоните 50–100 заскриптованных диалогов по основным типам задач, замерьте задержку хода по P99, долю выполненных задач и долю галлюцинаций. Затем добавьте 20 живых проверяющих с неподготовленными звонками. Разрыв между двумя замерами скажет, не переобучен ли агент под промпт. В Фора Софт мы прогоняем этот цикл на каждом релизе.
Что почитать дальше
Углублённый разбор фреймворка
LiveKit AI Agents: руководство инженера
Технический спутник этого плейбука — внутренности SDK, паттерны воркеров, деплой.
Видеостек
Создаём приложение для видеостриминга в 2026
VOD, прямые трансляции и видеоконференции на одном realtime-транспорте, на котором работает LiveKit.
Альтернативы вендорам
Альтернативы Agora.io для realtime-голоса и видео
Сравнение, после которого многие команды и обращают внимание на LiveKit.
Кейс
Career Point: AI-коучинг на LiveKit + Oxford
Как Фора Софт запустила голос-первую коучинг-платформу с задержкой меньше 800 мс.
Compliance
Безопасность приложений с realtime-медиа
Шифрование, согласие на запись и аудит-логи — паттерны, которые переносятся на голосовой AI.
Как мы работаем
Agent Engineering в Фора Софт
Почему сроки на проектах с упором на AI у нас короче и дешевле рынка.
Готовы запустить голосовой AI, который звучит по-человечески?
Расскажите про задачу. Мы назовём самый быстрый путь к production и честную цифру.
30-минутный созвон со старшим инженером, который уже запускал агентов на LiveKit. Без презентации, без NDA.
Последнее обновление — апрель 2026 года, актуальные данные по LiveKit Agents, моделям и ценам. Источники: документация LiveKit, бенчмарки Deepgram, ElevenLabs, Cartesia, AssemblyAI и production-деплои Фора Софт.

