Голосовой AI на LiveKit, который действительно звучит как человек: руководство 2026

Голосовой AI, который действительно звучит как человек, — это в первую очередь задача о задержке и только во вторую очередь о моделях. Уложите полный круг — от микрофона до динамика — в 800 мс на pipeline-стеке или в 300 мс на модели speech-to-speech, и разговор будет ощущаться естественно. Промахнётесь мимо этого бюджета — собеседник заметит каждую заминку. LiveKit Agents 1.x — это open-source-фреймворк, к которому чаще всего обращаются серьёзные команды, чтобы выйти на такие цифры и при этом не привязываться к одному вендору.

Этот плейбук — сжатая версия того, что Фора Софт рассказывает новым инженерам в первый день проекта по голосовому AI. Мы запускаем агентов на LiveKit для службы поддержки, исходящих продаж, медицинского приёма и встроенных в продукт ассистентов — и видели каждую ловушку с задержкой, каждый перерасход бюджета и каждый сюрприз с compliance минимум по два раза. Целевой читатель — основатель, CTO или старший инженер, которому к пятнице нужен честный ответ на вопрос «строить ли это и на чём».

Главное

  • Pipeline (STT → LLM → TTS) даёт контроль и обходится в 3,7–11 ₽ за минуту со всеми расходами; speech-to-speech даёт задержку 300 мс, но привязывает к одному вендору.
  • LiveKit Agents — правильный выбор, когда нужны кастомные сценарии, наблюдаемость или больше 10 000 минут в месяц. Меньше — Retell или Vapi запустятся быстрее.
  • Оптимальная связка провайдеров в 2026 году: Deepgram Nova-3 для STT, Claude Haiku 4.5 для LLM, Cartesia Sonic-3 или Deepgram Aura-2 для TTS — итоговая задержка 550–700 мс.
  • Шумоподавление Krisp с 1 мая 2026 тарифицируется отдельно. Закладывайте в бюджет 0,15–0,30 ₽ за минуту или отключайте для звука из тихих условий.
  • Compliance — на вас, а не на платформе. TCPA, HIPAA, согласие на запись от обеих сторон и GDPR начинают действовать в момент первого исходящего звонка.

Почему команды выбирают LiveKit для голосового AI в 2026

Любая команда, занимающаяся голосовым AI, рано или поздно упирается в одну и ту же развилку. Либо вы прикручиваете агента к чужой управляемой платформе (Vapi, Retell, Bland, Synthflow) и принимаете её задержку, её шаблоны промптов и её маржу, либо строите на realtime-транспорте, которым управляете сами. LiveKit — это второй путь: realtime-стек медиа под лицензией Apache-2.0 с production-готовым фреймворком Agents сверху.

Что вы получаете из коробки: WebRTC между пользователями и агентом, HTTP/WebSocket между агентом и бэкендом, подключаемые провайдеры STT/LLM/TTS, обученную модель определения конца реплики, лицензированное шумоподавление Krisp, метрики задержки по каждому ходу, запись звонков и мост в PSTN через Telnyx или Twilio. Open source, без привязки к вендору, плагины сообщества под каждого крупного провайдера.

Что вы отдаёте взамен: пишете на Python или Node, берёте на себя операционную нагрузку, если хостите сами, и закладываете на production-агента одну-три инженерных недели вместо тех трёх часов, которые рекламирует Retell. Для всего, что серьёзнее proof of concept, эта сделка выгодна — почему именно, покажем ниже в разборе затрат.

Что на самом деле значит «звучит как человек»

В естественном разговоре люди ожидают, что собеседник ответит за 200–300 мс. Дольше 500 мс — и собеседник осознанно замечает паузу. Дольше секунды — начинает перебивать, бросать трубку или жать «ноль» для оператора. Это и есть реальная рамка производительности голосового AI — не качество модели, не реалистичность голоса и не покрытие инструментов.

«Звучит как человек» — это четыре сложенных вместе вещи:

  • Быстрый первый отклик. 300–800 мс от конца реплики пользователя до начала аудио агента — в зависимости от архитектуры.
  • Аккуратное прерывание. Агент замолкает за 120–200 мс, когда собеседник начинает говорить поверх, и возвращается к нужному контексту.
  • Просодия, совпадающая со смыслом. Ударения на правильных словах, дыхательные группы, совпадающие со смысловой структурой, выразительные голоса для эмпатичных моментов.
  • Опора на факты. Агент знает, когда сказать «давайте проверю», и действительно проверяет — через function calling, а не через галлюцинации.

Промах хотя бы в одном из четырёх пунктов — и иллюзия рассыпается. Большинство команд сосредотачиваются на третьем («нам нужен голос получше»), когда настоящая проблема — в первом. ElevenLabs не узкое место с TTFB в 75 мс; ваш LLM с 1,2 с — да.

Бюджет задержки в 800 мс — и где он утекает

Классический pipeline проходит пять стадий. Вот реалистичный лучший случай для провайдеров 2026 года, измеренный сквозным образом на деплое в регионе США:

Стадия Лучший случай Типичное Где утекает
VAD и определение конца реплики 50 мс 80–150 мс Медленная или шумная речь, акценты, настройка модели VAD
Транскрипция STT (стриминг) 150 мс 200–300 мс Без стриминга, межрегиональные хопы, батч уровня Whisper
TTFT у LLM 400 мс 600–1200 мс Длинные промпты, большой контекст, холодный провайдер, без стриминга
Первый байт TTS 75 мс 150–250 мс Без стриминга TTS, выразительные голоса, регионы с малым трафиком
Сеть и воспроизведение 50 мс 80–200 мс Мобильная связь, переход в PSTN, удалённый TURN-сервер
Итого (pipeline) ~725 мс 1,1–1,7 с  
Speech-to-speech (Realtime / Gemini Live) 200 мс 300–500 мс Длинный контекст, переход в PSTN, холодный старт

Рисунок 1. Бюджет задержки голосового AI: pipeline против speech-to-speech (бенчмарки 2026 года, регион США).

В каждом production-деплое, который мы аудируем, две самые быстрые утечки — TTFT у LLM и межрегиональные сетевые хопы. Обе устраняются. Возьмите модель с низким TTFT, держите STT, LLM и TTS в одном облачном регионе и стримите всё. Если после этого вы всё ещё не укладываетесь в 800 мс — проблема в длине промпта, а не в инфраструктуре.

Берите pipeline, когда…

Нужен кастомный function calling, лучшая в классе точность STT, контроль затрат на больших объёмах, замена компонентов под каждую функцию или compliance, который запрещает отправлять аудио в одну модель целиком.

Pipeline или speech-to-speech: что подходит вашему продукту

Модели speech-to-speech (OpenAI Realtime, Gemini 3.1 Flash Live) полностью пропускают этап транскрипции: на вход аудио — на выход аудио. Полный круг можно уложить в 200 мс. Звучат они до жути естественно и обрабатывают перебивания без единой строчки лишнего кода. Подвох в том, что вы покупаете всё разом — рассуждение, голос, прерывание, function calling — пакетом у одного вендора.

Pipeline — это противоположный размен. Вы сшиваете трёх-четырёх провайдеров, отдаёте 500–700 мс на накладные расходы и взамен можете заменить LLM, когда Anthropic выкатит новую модель Claude, направить STT на отраслевого провайдера (Deepgram Medical, AssemblyAI для извлечения сущностей), использовать клонированный фирменный голос в TTS и независимо логировать каждую стадию для аудита.

Наше практическое правило: speech-to-speech — для потребительских ассистентов, где личность важнее точности. Pipeline — для всего, что общается с базой данных, называет цену или может довести до суда, если соврёт. LiveKit поддерживает оба варианта — pipeline просто тот, под который он изначально проектировался, и до сих пор оптимизируется лучше.

Эталонная архитектура на LiveKit Agents 1.x

У production-агента на LiveKit пять движущихся частей и одна схема трафика. Пользователь заходит в комнату LiveKit. Воркер агента берёт задачу, подписывается на аудиотрек пользователя, прогоняет его через STT, передаёт частичные транскрипты в LLM, стримит токены LLM в TTS и публикует аудио TTS обратно в комнату — всё это пока модель определения конца реплики решает, закончил ли пользователь говорить.

from livekit.agents import Agent, AgentSession, JobContext, WorkerOptions, cli
from livekit.plugins import deepgram, anthropic, cartesia, silero

async def entrypoint(ctx: JobContext):
    await ctx.connect()

    session = AgentSession(
        vad=silero.VAD.load(),
        stt=deepgram.STT(model="nova-3", language="en-US"),
        llm=anthropic.LLM(model="claude-haiku-4-5"),
        tts=cartesia.TTS(model="sonic-3", voice="professional-warm"),
        turn_detection="livekit",   # trained turn model
    )

    agent = Agent(
        instructions="You are a polite scheduling assistant. "
                     "Always call check_availability before suggesting a time.",
        tools=[check_availability, book_meeting],
    )

    await session.start(agent=agent, room=ctx.room)

if __name__ == "__main__":
    cli.run_app(WorkerOptions(entrypoint_fnc=entrypoint))

Это и есть полная форма. Диспетчер LiveKit передаёт задачу свободному воркеру, AgentSession связывает плагины, а модель определения конца реплики livekit решает, когда собеседник закончил. Всё остальное — бизнес-логика: инструменты, промпты, конечные автоматы, передача оператору. Подробный разбор того же паттерна — в нашем гайде по AI-агентам на LiveKit.

Нужен запущенный голосовой агент, а не исследовательский проект?

Фора Софт строила агентов на LiveKit для EdTech, медицинского приёма, исходящих продаж и B2B-поддержки. Мы выходим на задержку меньше 700 мс и production-уровень compliance за 3–6 недель, а не за 3–6 месяцев.

Позвоните нам → Напишите нам →

STT: Deepgram, AssemblyAI, Gladia или Soniox

Распознавание речи — единственная стадия, где чистая задержка дёшева, а решает точность. Разница между 150 мс и 300 мс STT почти не влияет на ощущение разговора; разница между 5% WER и 12% WER — это разница между «работает» и «позвонил не тому клиенту».

Провайдер Задержка Точность (en) Цена Лучше всего для
Deepgram Nova-3 <300 мс 5,26% WER 0,32 ₽/мин Универсально, дешевле всех
AssemblyAI Universal-3 Pro P50 150 мс 5,65% WER 27 ₽/час Извлечение сущностей (email, ID)
Gladia Solaria-1 103 мс на частичный результат −29% WER на разговорах По договору Акценты, шум, переключение языков
Soniox стриминг Лучше всего для многоязычных По договору Юридическая, медицинская, многоязычная сфера
OpenAI Whisper ~500 мс по чанкам Хорошая 1,5–4,5 ₽/час Офлайн, батч, ограниченный бюджет

По умолчанию мы берём Deepgram Nova-3 для англоязычного трафика в США, AssemblyAI Universal-3 Pro — когда агенту нужно повторять номера счетов или email, и Gladia — для контакт-центров с сильными акцентами и переключением языков. Whisper место в батч-задачах и выгрузках транскриптов, но не в живых звонках.

LLM: Claude Haiku, Gemini Flash или GPT-5

LLM — это место, где у большинства проектов голосового AI ломается бюджет. TTFT (время до первого токена) важнее общей пропускной способности — агент должен начать говорить быстро, а не закончить быстро. TTFT в 600 мс со стримингом по 80 токенов в секунду ощущается быстрее, чем TTFT в 300 мс, который застревает на первой фразе.

Модель TTFT Токенов/сек Цена (вход) Лучше всего для
Claude Haiku 4.5 597 мс 78,9 60 ₽ / 1M токенов По умолчанию — самый быстрый TTFT при качестве уровня голоса
Gemini 2.5 Flash ~800 мс 146,5 5,6 ₽ / 1M токенов Длинные ответы, дёшево, мультимодальность
GPT-5 0,9–1,2 с ~60 Премиум Сложные рассуждения, многошаговый function calling
Groq (Llama 3.3 70B) ~250 мс ~300 44 ₽ / 1M токенов Низкая задержка на скромном бюджете, OSS-модели

Haiku 4.5 — наша модель по умолчанию для голоса. Groq остаётся в шорт-листе для всего, где задержка решает (исходящие продажи, NPC в играх) и достаточно качества рассуждения уровня Llama. К GPT-5 обращайтесь только тогда, когда агент действительно рассуждает — многоступенчатые цепочки инструментов, жёсткая политика, дорогие исходы. Для повседневной беседы он слишком медленный.

TTS: ElevenLabs, Cartesia, Aura, Rime или Grok

TTS — та часть, по которой пользователи на самом деле и судят. И та же стадия, где цены отличаются в 10× за разницу в качестве, которую большинство собеседников вообще не замечают.

Провайдер TTFB Цена Сильная сторона
ElevenLabs Flash v2.5 75 мс 3,7 ₽ / 1k символов Естественность, клонирование, 4000+ голосов
Cartesia Sonic-3 40–90 мс 0,45 ₽ / мин Дешевле и быстрее всех, на SSM
Deepgram Aura-2 90 мс 2,2 ₽ / 1k символов Лучшая цена за качество, оптимизирован под медицину и IVR
Rime Mist <200 мс 0,37 ₽ / мин Эмоция в разговоре, американские акценты
Grok TTS (xAI) стриминг 315 ₽ / 1M символов Переключение языков, плагин для LiveKit

Мы берём Cartesia Sonic-3, когда важны задержка и стоимость, а фирменный голос — нет; Deepgram Aura-2 — за лучшее соотношение естественности к цене; ElevenLabs Flash — когда клиент лицензирует клонированный голос или голос знаменитости. Платите больше только там, где это меняет бизнес-кейс. На B2B-агенте для записи на встречу никто не бронирует время из-за того, что у голоса лучше вибрато.

Определение конца реплики, VAD и аккуратное прерывание

Voice activity detection отвечает на вопрос «говорит ли кто-то прямо сейчас?». Определение конца реплики отвечает на вопрос посложнее: «он закончил говорить или просто сделал паузу?». Эта разница — между разговором, который дышит, и тем, который наступает на каждую вторую фразу.

LiveKit поставляет обученную модель определения конца реплики, которая на естественной речи с большим отрывом обходит VAD с фиксированным порогом. Она смотрит на просодию, слова-паразиты и лексические подсказки — а не только на громкость — и динамически подстраивает окно ожидания от 0 до 2 секунд. В связке с Background Voice Cancellation от Krisp она справляется и со сценарием «коллега разговаривает в офисе», на котором ломается любой наивный VAD.

Прерывание (barge-in) — вторая половина истории. Когда собеседник вклинивается, агенту нужно замолчать за 150 мс, сбросить буфер TTS и передать новую реплику обратно в STT. LiveKit делает это автоматически. Единственный частый баг — агент перебивает сам себя; обычно это значит, что шумный TTS-сигнал просачивается в микрофон пользователя. Лечится акустическим эхоподавлением на клиенте или BVC на стороне агента.

Шумоподавление и Krisp: теперь отдельная статья расходов

LiveKit Cloud поставляется с лицензированными моделями Krisp под две задачи: убирать фоновый шум (вентиляторы, машины, клавиатура) и заглушать посторонние голоса (супруг по телефону, open-space). И то, и другое поднимает точность STT на 10–20% на шумных каналах и резко снижает ложные прерывания.

С 1 мая 2026 использование Krisp тарифицируется поверх базовой минуты агента. Закладывайте 0,15–0,30 ₽ за минуту дополнительно, если оставляете включённым. Для звука из тихих условий (десктопные ассистенты в приложении, студийные микрофоны) — отключайте, чтобы убрать эту строку из счёта; для PSTN и мобильного трафика оставляйте включённым: вложения окупятся за счёт точности STT.

Отключайте Krisp, когда…

Пользователи носят гарнитуры в контролируемой среде (рабочие места контакт-центра, студийные микрофоны, WebRTC из приложения с ноутбука) или подавление шума уже работает на клиенте отдельной стадией.

Function calling, который реально доезжает до production

Голосовой агент, который ничего не умеет делать, — это чат-бот, который умеет говорить. Function calling — это разница между «спасибо за звонок» и «я записал вас на вторник на 14:00». Три правила удерживают его в работоспособном виде в production:

  • Повторите вслух всё, что собеседник продиктовал. «Я услышал четыре-один-пять, два-два-пять… верно?» STT слышит цифры неправильно; AssemblyAI Universal-3 Pro заметно лучше остальных на сущностях, но идеала нет.
  • Вызывайте инструмент синхронно, рассказывайте об этом параллельно. Скажите «секунду, проверю», пока инструмент выполняется. Не оставляйте 2 секунды тишины — собеседник решит, что связь оборвалась.
  • Ограничьте число попыток и бюджет. Одна галлюцинирующая модель и один сломанный инструмент могут перевызвать один и тот же API 40 раз за 10 секунд. Поставьте жёсткие лимиты на число вызовов инструментов за ход и на стоимость сессии.

Claude и GPT-5 поддерживают параллельный вызов инструментов, поэтому грамотно описанная схема позволяет агенту одновременно запустить «проверь календарь», «найди клиента» и «подними условия полиса» и собрать ответ за один ход. Это самый крупный недооценённый выигрыш по задержке, который мы видим у команд.

Реальная стоимость минуты: всё включено, без сюрпризов

Каждая управляемая платформа рекламирует красивую ставку — Vapi за 3,7 ₽, Retell за 5,2 ₽, Bland за 6,7 ₽ — и каждая из них считает только свою комиссию. Реальная сквозная стоимость с учётом STT, LLM, TTS и телефонии оказывается между 8 и 18 ₽ за минуту. Вот как в 2026 году выглядят три типичных стека на LiveKit:

Стек STT LLM TTS Платформа Итого/мин
Бюджетный Deepgram Nova-3 Groq Llama 3.3 Cartesia Sonic-3 LiveKit Cloud ~3,7 ₽
Production Deepgram Nova-3 Claude Haiku 4.5 Deepgram Aura-2 LiveKit Cloud ~7,5 ₽
Премиум AssemblyAI Pro GPT-5 / Claude 4.5 ElevenLabs Flash LiveKit Cloud ~13–16 ₽

Умножьте на свой объём звонков. Исходящий дайлер на 50 000 минут в месяц на стеке Production обходится в 375 000 ₽ инфраструктуры — примерно столько же, во что компании обходится один SDR со всеми сопутствующими затратами, и при этом агент работает 24/7 на пятнадцати языках.

LiveKit против Vapi, Retell, Bland и Synthflow

На 10 000 минут в месяц (нагруженный кейс среднего бизнеса) платформы аккуратно сортируются по полной стоимости владения:

Платформа Полная стоимость Время до первого звонка Потолок
LiveKit (своя сборка) 37 500–45 000 ₽ 2–4 недели Никакого, open source
Retell AI ~86 000 ₽ 3 часа Кастомные инструменты ограничены
Bland AI ~90 000 ₽ 1 день Ориентирован на исходящий дайлер
Synthflow ~97 000 ₽ 1–2 дня No-code, привязка к платформе
Vapi ~105 000 ₽ 1 день Гибкий API, самая высокая цена

Рисунок 2. Сравнение TCO на 10 000 минут в месяц по ставкам 2026 года.

Цифры говорят очевидное: Retell или Vapi — для проверки гипотез и прототипов на меньше чем 5000 минут, LiveKit — как только кейс становится реальным. Точка перелома лежит где-то между 10 000 и 20 000 минут в месяц — выше неё маржа LiveKit окупает инженерные вложения за полгода.

LiveKit Cloud, self-hosted или Telnyx

Три варианта запустить LiveKit Agents в production, у каждого свой компромисс:

  • LiveKit Cloud. 0,37 ₽/мин только за аудио, 0,75 ₽/мин с агентом. Управляемая диспетчеризация, наблюдаемость, региональные точки присутствия, SOC 2, BAA. Никакой операционной работы. Выбор по умолчанию.
  • Self-hosted. Платформенная комиссия — ноль, STT/LLM/TTS платите напрямую. Окупается выше 50 000 минут в месяц, если DevOps уже выстроен; ниже — выигрывает облако. Берите этот вариант для регулируемых нагрузок, где платформа не должна касаться аудио.
  • LiveKit на Telnyx (апрель 2026). Telnyx хостит инфраструктуру LiveKit и в комплекте даёт телефонию. Заявленная стоимость STT/TTS на 50% ниже, чем у LiveKit Cloud на том же стеке — стоит просчитать, если PSTN нужен в больших объёмах.

Один нюанс с февраля 2026: данные наблюдаемости LiveKit обрабатываются в США независимо от вашего медиарегиона. Если резидентность по GDPR запрещает обработку любых метаданных звонка в США — отключайте проектную наблюдаемость и логируйте в свой стек. Само медиа (аудио и видео) остаётся в выбранном вами регионе.

Compliance: HIPAA, SOC 2, TCPA, GDPR

Голос затрагивает сразу три плоскости compliance — PHI (если пользователи обсуждают здоровье), PII (любые клиентские записи) и согласие на запись (в каждом штате, во многих — со штрафами). Платформы помогают, но не закрывают это за вас.

  • HIPAA. LiveKit подписывает BAA. То же делают OpenAI, Deepgram и ElevenLabs на корпоративном тарифе. Проверяйте каждого вендора в стеке и держите подписанный обеими сторонами PDF — на каждый цикл ревизии договора.
  • SOC 2 Type II. Сертифицированы LiveKit, OpenAI, Deepgram, AssemblyAI, ElevenLabs, Cartesia. Запросите их отчёты для собственного аудита.
  • TCPA. С решения FCC от 8 февраля 2024 года для AI-сгенерированного голоса в исходящих звонках требуется задокументированное предварительное письменное согласие. Храните его рядом с номером и предъявляйте при каждом наборе.
  • Согласие обеих сторон на запись. Калифорния, Флорида, Пенсильвания, Иллинойс и ещё семь штатов требуют согласия всех участников разговора. Воспроизводите дисклеймер в начале каждого записываемого звонка — и сам этот дисклеймер тоже записывайте.
  • GDPR. Согласие на запись по статье 6 должно быть явным, а не «законным интересом». Заключите договоры на обработку данных с каждым провайдером в стеке и закрепите медиа за регионом ЕС.

Наши production-настройки по умолчанию: redaction PII в логах в реальном времени (вычищаем email, телефоны и номера карт до того, как они попадут в наблюдаемость), метаданные согласия по каждому звонку, аудит-логи с минимальным сроком хранения 90 дней и ежегодная red-team-проверка границ промпта агента. Срезать углы здесь — это то, на чём заканчивается карьера.

У вас в проекте HIPAA или GDPR?

Мы запускали голосовых агентов с полным стеком BAA для медицинского приёма и телемедицины. Если в звонке есть PHI, одной галочкой у провайдера не отделаться — нужны pipeline, логи, политика хранения и red-team, которые выдержат аудит.

Позвоните нам → Напишите нам →

Сценарии, которые действительно окупаются

Четыре паттерна возвращают вложения меньше чем за полгода. Всё остальное — экспериментирование:

Поддержка первой линии

Сброс паролей, статус заказа, проверка баланса, FAQ по полису. Голосовой агент закрывает 40–60% входящего объёма по 6–11 ₽ за звонок против 150–375 ₽ у живого оператора. Для линии поддержки на 100 000 звонков в месяц это от 11 до 22 млн ₽ в месяц возвращаются в P&L.

Исходящие продажи и квалификация лидов

Перезвон по входящим лидам ускоряется со «среднего времени ответа в 4 часа» до «30 секунд». Конверсия во встречи обычно удваивается или утраивается. У одного клиента из enterprise стоимость одной забронированной встречи в исходящей квалификации упала с 3 600 ₽ до 675 ₽.

Медицинский приём и подтверждение визитов

Крупные сети клиник используют голосовых агентов для предварительного сбора анамнеза и звонков-подтверждений за сутки до визита. 70–80% подтверждений проходят полностью автоматически, освобождая ресепшн под пациентов «с улицы». Стек HIPAA обязателен — см. выше.

Голосовые тьюторы и встроенные ассистенты

Этот сценарий ближе всего к портфолио Фора Софт. Мы делали голосовые обучающие платформы, приложения для коучинга в реальном времени и агентов на WebRTC прямо в браузере для образовательных клиентов вроде Career Point, и схема одна и та же: клиентский SDK LiveKit в браузере, воркер агента со стеком Haiku + Cartesia, кастомные инструменты для состояния урока и обратная связь, которая записывает взаимодействия для педагогического разбора.

Семь сценариев отказа, которые мы видим в production

В порядке того, как часто они ломают демонстрации:

  • Холодный старт. Первый звонок после деплоя — задержка 3–5 секунд. Лечится прогревочными звонками вхолостую и предварительным заполнением пула соединений на старте.
  • Ложные прерывания. Агент продолжает говорить поверх собеседника или обрывает его на полуслове. Настройте VAD, включите BVC и протестируйте с 20 живыми пользователями до запуска.
  • Галлюцинации фактов. Агент придумывает номер подтверждения. Заставьте опираться на function calling всё, что нужно процитировать; запретите свободные ответы на фактические вопросы.
  • Ошибки извлечения сущностей. «Мой email — john.doe» превращается в «johndough». Переключайтесь на AssemblyAI Universal-3 Pro для сценариев с большим числом сущностей.
  • Каскадная межрегиональная задержка. STT в us-east, LLM в us-west, TTS во Франкфурте. Прижмите всех провайдеров к одному региону; платите за egress, если придётся.
  • Неконтролируемые расходы. Цикл повторов выстреливает 40 вызовами LLM за десять секунд после неудавшегося инструмента. Жёстко ограничьте число вызовов инструментов за ход и стоимость сессии в рублях.
  • PII в логах. Полные транскрипты с СНИЛС оказываются в CloudWatch. Чистите их на границе, до того как что-то долетит до наблюдаемости.

KPI: что мерить с первого дня

Голосовой агент без приборной панели — это демонстрация. Снимайте эти метрики с первого production-звонка:

  • Задержка хода P50 / P90 / P99. Среднее лжёт; именно хвост по P99 заставляет людей бросать трубку.
  • Доля выполненных задач. Закрыл ли агент запрос звонившего без эскалации? 50–70% — реалистичный ориентир для хорошо настроенного бота поддержки.
  • Доля передач оператору. Эскалации к человеку на звонок. Если растёт — сломан инструмент или дрейфует промпт.
  • Стоимость одного успешного исхода. Не цена за минуту — цена за забронированную встречу, сброшенный пароль, подтверждённый визит.
  • Частота прерываний. Как часто собеседник перебивает агента? Растёт — значит, голос слишком многословен.
  • WER транскрипции. Размечайте вручную выборку из 100 звонков в неделю. Дрейф здесь — индикатор для всех остальных метрик.

Когда НЕ стоит строить на LiveKit

Четыре случая, где управляемая платформа честно обыгрывает LiveKit:

  • Детерминированный IVR. «Нажмите 1 для отдела продаж, 2 для поддержки». Берите Twilio Studio и идите дальше.
  • Proof of concept в жёсткие сроки. Retell AI запускается за 3 часа, Vapi — за день. Если демонстрация нужна завтра — не разрабатывайте, покупайте.
  • Меньше 5000 минут в месяц навсегда. Срок окупаемости инженерных вложений уходит за год. Платформенная комиссия — дешёвая страховка.
  • Нетехническая команда без DevOps. No-code-конструктор Synthflow обыграет сломанного Python-агента, которого некому обслуживать.

Честный вопрос звучит так: «достаточно ли это важно, чтобы владеть этим самим?». Если голосовой агент — ядро продукта или экономия становится ощутимой за пределами десяти тысяч минут в месяц, ответ — да, и LiveKit это правильная ставка. В остальных случаях стартуйте на управляемой платформе, мигрируйте позже.

FAQ

Сколько уходит у Фора Софт на запуск production-агента на LiveKit?

От трёх до шести недель на узкий сценарий (один процесс, один язык, один регуляторный режим). Наш конвейер Agent Engineering сжимает то, что раньше занимало три месяца, вдвое — поэтому итоговая стоимость, как правило, ниже рыночной даже на премиум-стеке.

LiveKit умеет в звонки PSTN или это только WebRTC?

И то, и другое. LiveKit мостит в PSTN через Twilio или Telnyx по SIP. С апреля 2026 года Telnyx предлагает родной продукт «LiveKit on Telnyx», который объединяет оба сервиса и снижает стоимость STT/TTS примерно на 50% по сравнению с одним только LiveKit Cloud.

Какая реалистичная задержка для агента менее 700 мс?

Со стримящим STT Deepgram Nova-3, стримящим LLM Claude Haiku 4.5 и стримящим TTS Cartesia Sonic-3 — все в одном регионе, с короткими системными промптами — мы регулярно фиксируем сквозные 550–700 мс по P50 на WebRTC-клиентах. Хопы PSTN добавляют 80–150 мс.

Может, лучше взять OpenAI Realtime API?

Если задержка — единственное, что важно, и вас устраивает привязка к GPT-5 в качестве LLM, то да: 200–300 мс сквозной задержки никто не обыграет. LiveKit поддерживает Realtime в виде плагина, поэтому вы можете попробовать оба варианта без переписывания агента. Если приоритет — compliance, надёжность function calling или кастомные голоса, pipeline всё равно выигрывает.

Как остановить расход денег из-за сломанных вызовов инструментов?

Три жёстких потолка на сессию: максимум вызовов инструментов, максимум токенов LLM и максимум общей длительности. При срабатывании любого из них агент говорит «давайте я переключу вас на оператора» и кладёт трубку на запасной маршрут. Плюс мы держим месячные алерты по стоимости на каждого тенанта агента, чтобы аномальное поведение замечалось через минуты, а не через дни.

Может ли агент передать звонок оператору посреди разговора?

Да. Стандартный паттерн — инструмент transfer_to_agent: LLM решает (или собеседник просит) передать звонок, в комнату LiveKit добавляется человек-оператор, AI-агент выходит. Транскрипт и контекст передаются вместе с звонком, поэтому оператор подхватывает разговор, а не начинает с нуля.

Подходит ли LiveKit для многоязычных звонков?

Очень. Gladia Solaria-1 справляется с переключением языков в одном потоке (собеседник переходит между испанским и английским посреди фразы), Soniox лидирует на 30+ языках, а Grok TTS недавно выпустил многоязычные голоса с нативной интеграцией в LiveKit. Сам pipeline остаётся прежним — меняются только плагины STT и TTS.

Как нам прогнать бенчмарк агента до запуска?

Прогоните 50–100 заскриптованных диалогов по основным типам задач, замерьте задержку хода по P99, долю выполненных задач и долю галлюцинаций. Затем добавьте 20 живых проверяющих с неподготовленными звонками. Разрыв между двумя замерами скажет, не переобучен ли агент под промпт. В Фора Софт мы прогоняем этот цикл на каждом релизе.

Углублённый разбор фреймворка

LiveKit AI Agents: руководство инженера

Технический спутник этого плейбука — внутренности SDK, паттерны воркеров, деплой.

Видеостек

Создаём приложение для видеостриминга в 2026

VOD, прямые трансляции и видеоконференции на одном realtime-транспорте, на котором работает LiveKit.

Альтернативы вендорам

Альтернативы Agora.io для realtime-голоса и видео

Сравнение, после которого многие команды и обращают внимание на LiveKit.

Кейс

Career Point: AI-коучинг на LiveKit + Oxford

Как Фора Софт запустила голос-первую коучинг-платформу с задержкой меньше 800 мс.

Compliance

Безопасность приложений с realtime-медиа

Шифрование, согласие на запись и аудит-логи — паттерны, которые переносятся на голосовой AI.

Как мы работаем

Agent Engineering в Фора Софт

Почему сроки на проектах с упором на AI у нас короче и дешевле рынка.

Готовы запустить голосовой AI, который звучит по-человечески?

Расскажите про задачу. Мы назовём самый быстрый путь к production и честную цифру.

30-минутный созвон со старшим инженером, который уже запускал агентов на LiveKit. Без презентации, без NDA.

Позвоните нам → Напишите нам →

Последнее обновление — апрель 2026 года, актуальные данные по LiveKit Agents, моделям и ценам. Источники: документация LiveKit, бенчмарки Deepgram, ElevenLabs, Cartesia, AssemblyAI и production-деплои Фора Софт.

  • Технологии
    Разработка
    Услуги