LiveKit Voice AI в 2026: руководство для инженеров

Голосовой AI на LiveKit, который действительно звучит как человек: руководство 2026

Голосовой AI, который действительно звучит как человек, — это в первую очередь задача о задержке и только во вторую очередь о моделях. Уложите полный круг — от микрофона до динамика — в 800 мс на pipeline-стеке или в 300 мс на модели speech-to-speech, и разговор будет ощущаться естественно. Промахнётесь мимо этого бюджета — собеседник заметит каждую заминку. LiveKit Agents 1.x — это open-source-фреймворк, к которому чаще всего обращаются серьёзные команды, чтобы выйти на такие цифры и при этом не привязываться к одному вендору.

Этот плейбук — сжатая версия того, что Фора Софт рассказывает новым инженерам в первый день проекта по голосовому AI. Мы запускаем агентов на LiveKit для службы поддержки, исходящих продаж, медицинского приёма и встроенных в продукт ассистентов — и видели каждую ловушку с задержкой, каждый перерасход бюджета и каждый сюрприз с compliance минимум по два раза. Целевой читатель — основатель, CTO или старший инженер, которому к пятнице нужен честный ответ на вопрос «строить ли это и на чём».

Главное

Pipeline (STT → LLM → TTS) даёт контроль и обходится в 3,7–11 ₽ за минуту со всеми расходами; speech-to-speech даёт задержку 300 мс, но привязывает к одному вендору.
LiveKit Agents — правильный выбор, когда нужны кастомные сценарии, наблюдаемость или больше 10 000 минут в месяц. Меньше — Retell или Vapi запустятся быстрее.
Оптимальная связка провайдеров в 2026 году: Deepgram Nova-3 для STT, Claude Haiku 4.5 для LLM, Cartesia Sonic-3 или Deepgram Aura-2 для TTS — итоговая задержка 550–700 мс.
Шумоподавление Krisp с 1 мая 2026 тарифицируется отдельно. Закладывайте в бюджет 0,15–0,30 ₽ за минуту или отключайте для звука из тихих условий.
Compliance — на вас, а не на платформе. TCPA, HIPAA, согласие на запись от обеих сторон и GDPR начинают действовать в момент первого исходящего звонка.

Почему команды выбирают LiveKit для голосового AI в 2026

Любая команда, занимающаяся голосовым AI, рано или поздно упирается в одну и ту же развилку. Либо вы прикручиваете агента к чужой управляемой платформе (Vapi, Retell, Bland, Synthflow) и принимаете её задержку, её шаблоны промптов и её маржу, либо строите на realtime-транспорте, которым управляете сами. LiveKit — это второй путь: realtime-стек медиа под лицензией Apache-2.0 с production-готовым фреймворком Agents сверху.

Что вы получаете из коробки: WebRTC между пользователями и агентом, HTTP/WebSocket между агентом и бэкендом, подключаемые провайдеры STT/LLM/TTS, обученную модель определения конца реплики, лицензированное шумоподавление Krisp, метрики задержки по каждому ходу, запись звонков и мост в PSTN через Telnyx или Twilio. Open source, без привязки к вендору, плагины сообщества под каждого крупного провайдера.

Что вы отдаёте взамен: пишете на Python или Node, берёте на себя операционную нагрузку, если хостите сами, и закладываете на production-агента одну-три инженерных недели вместо тех трёх часов, которые рекламирует Retell. Для всего, что серьёзнее proof of concept, эта сделка выгодна — почему именно, покажем ниже в разборе затрат.

Что на самом деле значит «звучит как человек»

В естественном разговоре люди ожидают, что собеседник ответит за 200–300 мс. Дольше 500 мс — и собеседник осознанно замечает паузу. Дольше секунды — начинает перебивать, бросать трубку или жать «ноль» для оператора. Это и есть реальная рамка производительности голосового AI — не качество модели, не реалистичность голоса и не покрытие инструментов.

«Звучит как человек» — это четыре сложенных вместе вещи:

Быстрый первый отклик. 300–800 мс от конца реплики пользователя до начала аудио агента — в зависимости от архитектуры.
Аккуратное прерывание. Агент замолкает за 120–200 мс, когда собеседник начинает говорить поверх, и возвращается к нужному контексту.
Просодия, совпадающая со смыслом. Ударения на правильных словах, дыхательные группы, совпадающие со смысловой структурой, выразительные голоса для эмпатичных моментов.
Опора на факты. Агент знает, когда сказать «давайте проверю», и действительно проверяет — через function calling, а не через галлюцинации.

Промах хотя бы в одном из четырёх пунктов — и иллюзия рассыпается. Большинство команд сосредотачиваются на третьем («нам нужен голос получше»), когда настоящая проблема — в первом. ElevenLabs не узкое место с TTFB в 75 мс; ваш LLM с 1,2 с — да.

Бюджет задержки в 800 мс — и где он утекает

Классический pipeline проходит пять стадий. Вот реалистичный лучший случай для провайдеров 2026 года, измеренный сквозным образом на деплое в регионе США:

Стадия	Лучший случай	Типичное	Где утекает
VAD и определение конца реплики	50 мс	80–150 мс	Медленная или шумная речь, акценты, настройка модели VAD
Транскрипция STT (стриминг)	150 мс	200–300 мс	Без стриминга, межрегиональные хопы, батч уровня Whisper
TTFT у LLM	400 мс	600–1200 мс	Длинные промпты, большой контекст, холодный провайдер, без стриминга
Первый байт TTS	75 мс	150–250 мс	Без стриминга TTS, выразительные голоса, регионы с малым трафиком
Сеть и воспроизведение	50 мс	80–200 мс	Мобильная связь, переход в PSTN, удалённый TURN-сервер
Итого (pipeline)	~725 мс	1,1–1,7 с
Speech-to-speech (Realtime / Gemini Live)	200 мс	300–500 мс	Длинный контекст, переход в PSTN, холодный старт

Рисунок 1. Бюджет задержки голосового AI: pipeline против speech-to-speech (бенчмарки 2026 года, регион США).

В каждом production-деплое, который мы аудируем, две самые быстрые утечки — TTFT у LLM и межрегиональные сетевые хопы. Обе устраняются. Возьмите модель с низким TTFT, держите STT, LLM и TTS в одном облачном регионе и стримите всё. Если после этого вы всё ещё не укладываетесь в 800 мс — проблема в длине промпта, а не в инфраструктуре.

Берите pipeline, когда…

Нужен кастомный function calling, лучшая в классе точность STT, контроль затрат на больших объёмах, замена компонентов под каждую функцию или compliance, который запрещает отправлять аудио в одну модель целиком.

Pipeline или speech-to-speech: что подходит вашему продукту

Модели speech-to-speech (OpenAI Realtime, Gemini 3.1 Flash Live) полностью пропускают этап транскрипции: на вход аудио — на выход аудио. Полный круг можно уложить в 200 мс. Звучат они до жути естественно и обрабатывают перебивания без единой строчки лишнего кода. Подвох в том, что вы покупаете всё разом — рассуждение, голос, прерывание, function calling — пакетом у одного вендора.

Pipeline — это противоположный размен. Вы сшиваете трёх-четырёх провайдеров, отдаёте 500–700 мс на накладные расходы и взамен можете заменить LLM, когда Anthropic выкатит новую модель Claude, направить STT на отраслевого провайдера (Deepgram Medical, AssemblyAI для извлечения сущностей), использовать клонированный фирменный голос в TTS и независимо логировать каждую стадию для аудита.

Наше практическое правило: speech-to-speech — для потребительских ассистентов, где личность важнее точности. Pipeline — для всего, что общается с базой данных, называет цену или может довести до суда, если соврёт. LiveKit поддерживает оба варианта — pipeline просто тот, под который он изначально проектировался, и до сих пор оптимизируется лучше.

Эталонная архитектура на LiveKit Agents 1.x

У production-агента на LiveKit пять движущихся частей и одна схема трафика. Пользователь заходит в комнату LiveKit. Воркер агента берёт задачу, подписывается на аудиотрек пользователя, прогоняет его через STT, передаёт частичные транскрипты в LLM, стримит токены LLM в TTS и публикует аудио TTS обратно в комнату — всё это пока модель определения конца реплики решает, закончил ли пользователь говорить.

from livekit.agents import Agent, AgentSession, JobContext, WorkerOptions, cli
from livekit.plugins import deepgram, anthropic, cartesia, silero

async def entrypoint(ctx: JobContext):
    await ctx.connect()

    session = AgentSession(
        vad=silero.VAD.load(),
        stt=deepgram.STT(model="nova-3", language="en-US"),
        llm=anthropic.LLM(model="claude-haiku-4-5"),
        tts=cartesia.TTS(model="sonic-3", voice="professional-warm"),
        turn_detection="livekit",   # trained turn model
    )

    agent = Agent(
        instructions="You are a polite scheduling assistant. "
                     "Always call check_availability before suggesting a time.",
        tools=[check_availability, book_meeting],
    )

    await session.start(agent=agent, room=ctx.room)

if __name__ == "__main__":
    cli.run_app(WorkerOptions(entrypoint_fnc=entrypoint))

Это и есть полная форма. Диспетчер LiveKit передаёт задачу свободному воркеру, AgentSession связывает плагины, а модель определения конца реплики livekit решает, когда собеседник закончил. Всё остальное — бизнес-логика: инструменты, промпты, конечные автоматы, передача оператору. Подробный разбор того же паттерна — в нашем гайде по AI-агентам на LiveKit.

Нужен запущенный голосовой агент, а не исследовательский проект?

Фора Софт строила агентов на LiveKit для EdTech, медицинского приёма, исходящих продаж и B2B-поддержки. Мы выходим на задержку меньше 700 мс и production-уровень compliance за 3–6 недель, а не за 3–6 месяцев.

Позвоните нам → Напишите нам →

STT: Deepgram, AssemblyAI, Gladia или Soniox

Распознавание речи — единственная стадия, где чистая задержка дёшева, а решает точность. Разница между 150 мс и 300 мс STT почти не влияет на ощущение разговора; разница между 5% WER и 12% WER — это разница между «работает» и «позвонил не тому клиенту».

Провайдер	Задержка	Точность (en)	Цена	Лучше всего для
Deepgram Nova-3	<300 мс	5,26% WER	0,32 ₽/мин	Универсально, дешевле всех
AssemblyAI Universal-3 Pro	P50 150 мс	5,65% WER	27 ₽/час	Извлечение сущностей (email, ID)
Gladia Solaria-1	103 мс на частичный результат	−29% WER на разговорах	По договору	Акценты, шум, переключение языков
Soniox	стриминг	Лучше всего для многоязычных	По договору	Юридическая, медицинская, многоязычная сфера
OpenAI Whisper	~500 мс по чанкам	Хорошая	1,5–4,5 ₽/час	Офлайн, батч, ограниченный бюджет

По умолчанию мы берём Deepgram Nova-3 для англоязычного трафика в США, AssemblyAI Universal-3 Pro — когда агенту нужно повторять номера счетов или email, и Gladia — для контакт-центров с сильными акцентами и переключением языков. Whisper место в батч-задачах и выгрузках транскриптов, но не в живых звонках.

LLM: Claude Haiku, Gemini Flash или GPT-5

LLM — это место, где у большинства проектов голосового AI ломается бюджет. TTFT (время до первого токена) важнее общей пропускной способности — агент должен начать говорить быстро, а не закончить быстро. TTFT в 600 мс со стримингом по 80 токенов в секунду ощущается быстрее, чем TTFT в 300 мс, который застревает на первой фразе.

Модель	TTFT	Токенов/сек	Цена (вход)	Лучше всего для
Claude Haiku 4.5	597 мс	78,9	60 ₽ / 1M токенов	По умолчанию — самый быстрый TTFT при качестве уровня голоса
Gemini 2.5 Flash	~800 мс	146,5	5,6 ₽ / 1M токенов	Длинные ответы, дёшево, мультимодальность
GPT-5	0,9–1,2 с	~60	Премиум	Сложные рассуждения, многошаговый function calling
Groq (Llama 3.3 70B)	~250 мс	~300	44 ₽ / 1M токенов	Низкая задержка на скромном бюджете, OSS-модели

Haiku 4.5 — наша модель по умолчанию для голоса. Groq остаётся в шорт-листе для всего, где задержка решает (исходящие продажи, NPC в играх) и достаточно качества рассуждения уровня Llama. К GPT-5 обращайтесь только тогда, когда агент действительно рассуждает — многоступенчатые цепочки инструментов, жёсткая политика, дорогие исходы. Для повседневной беседы он слишком медленный.

TTS: ElevenLabs, Cartesia, Aura, Rime или Grok

TTS — та часть, по которой пользователи на самом деле и судят. И та же стадия, где цены отличаются в 10× за разницу в качестве, которую большинство собеседников вообще не замечают.

Провайдер	TTFB	Цена	Сильная сторона
ElevenLabs Flash v2.5	75 мс	3,7 ₽ / 1k символов	Естественность, клонирование, 4000+ голосов
Cartesia Sonic-3	40–90 мс	0,45 ₽ / мин	Дешевле и быстрее всех, на SSM
Deepgram Aura-2	90 мс	2,2 ₽ / 1k символов	Лучшая цена за качество, оптимизирован под медицину и IVR
Rime Mist	<200 мс	0,37 ₽ / мин	Эмоция в разговоре, американские акценты
Grok TTS (xAI)	стриминг	315 ₽ / 1M символов	Переключение языков, плагин для LiveKit

Мы берём Cartesia Sonic-3, когда важны задержка и стоимость, а фирменный голос — нет; Deepgram Aura-2 — за лучшее соотношение естественности к цене; ElevenLabs Flash — когда клиент лицензирует клонированный голос или голос знаменитости. Платите больше только там, где это меняет бизнес-кейс. На B2B-агенте для записи на встречу никто не бронирует время из-за того, что у голоса лучше вибрато.

Определение конца реплики, VAD и аккуратное прерывание

Voice activity detection отвечает на вопрос «говорит ли кто-то прямо сейчас?». Определение конца реплики отвечает на вопрос посложнее: «он закончил говорить или просто сделал паузу?». Эта разница — между разговором, который дышит, и тем, который наступает на каждую вторую фразу.

LiveKit поставляет обученную модель определения конца реплики, которая на естественной речи с большим отрывом обходит VAD с фиксированным порогом. Она смотрит на просодию, слова-паразиты и лексические подсказки — а не только на громкость — и динамически подстраивает окно ожидания от 0 до 2 секунд. В связке с Background Voice Cancellation от Krisp она справляется и со сценарием «коллега разговаривает в офисе», на котором ломается любой наивный VAD.

Прерывание (barge-in) — вторая половина истории. Когда собеседник вклинивается, агенту нужно замолчать за 150 мс, сбросить буфер TTS и передать новую реплику обратно в STT. LiveKit делает это автоматически. Единственный частый баг — агент перебивает сам себя; обычно это значит, что шумный TTS-сигнал просачивается в микрофон пользователя. Лечится акустическим эхоподавлением на клиенте или BVC на стороне агента.

Шумоподавление и Krisp: теперь отдельная статья расходов

LiveKit Cloud поставляется с лицензированными моделями Krisp под две задачи: убирать фоновый шум (вентиляторы, машины, клавиатура) и заглушать посторонние голоса (супруг по телефону, open-space). И то, и другое поднимает точность STT на 10–20% на шумных каналах и резко снижает ложные прерывания.

С 1 мая 2026 использование Krisp тарифицируется поверх базовой минуты агента. Закладывайте 0,15–0,30 ₽ за минуту дополнительно, если оставляете включённым. Для звука из тихих условий (десктопные ассистенты в приложении, студийные микрофоны) — отключайте, чтобы убрать эту строку из счёта; для PSTN и мобильного трафика оставляйте включённым: вложения окупятся за счёт точности STT.

Отключайте Krisp, когда…

Пользователи носят гарнитуры в контролируемой среде (рабочие места контакт-центра, студийные микрофоны, WebRTC из приложения с ноутбука) или подавление шума уже работает на клиенте отдельной стадией.

Function calling, который реально доезжает до production

Голосовой агент, который ничего не умеет делать, — это чат-бот, который умеет говорить. Function calling — это разница между «спасибо за звонок» и «я записал вас на вторник на 14:00». Три правила удерживают его в работоспособном виде в production:

Повторите вслух всё, что собеседник продиктовал. «Я услышал четыре-один-пять, два-два-пять… верно?» STT слышит цифры неправильно; AssemblyAI Universal-3 Pro заметно лучше остальных на сущностях, но идеала нет.
Вызывайте инструмент синхронно, рассказывайте об этом параллельно. Скажите «секунду, проверю», пока инструмент выполняется. Не оставляйте 2 секунды тишины — собеседник решит, что связь оборвалась.
Ограничьте число попыток и бюджет. Одна галлюцинирующая модель и один сломанный инструмент могут перевызвать один и тот же API 40 раз за 10 секунд. Поставьте жёсткие лимиты на число вызовов инструментов за ход и на стоимость сессии.

Claude и GPT-5 поддерживают параллельный вызов инструментов, поэтому грамотно описанная схема позволяет агенту одновременно запустить «проверь календарь», «найди клиента» и «подними условия полиса» и собрать ответ за один ход. Это самый крупный недооценённый выигрыш по задержке, который мы видим у команд.

Реальная стоимость минуты: всё включено, без сюрпризов

Каждая управляемая платформа рекламирует красивую ставку — Vapi за 3,7 ₽, Retell за 5,2 ₽, Bland за 6,7 ₽ — и каждая из них считает только свою комиссию. Реальная сквозная стоимость с учётом STT, LLM, TTS и телефонии оказывается между 8 и 18 ₽ за минуту. Вот как в 2026 году выглядят три типичных стека на LiveKit:

Стек	STT	LLM	TTS	Платформа	Итого/мин
Бюджетный	Deepgram Nova-3	Groq Llama 3.3	Cartesia Sonic-3	LiveKit Cloud	~3,7 ₽
Production	Deepgram Nova-3	Claude Haiku 4.5	Deepgram Aura-2	LiveKit Cloud	~7,5 ₽
Премиум	AssemblyAI Pro	GPT-5 / Claude 4.5	ElevenLabs Flash	LiveKit Cloud	~13–16 ₽

Умножьте на свой объём звонков. Исходящий дайлер на 50 000 минут в месяц на стеке Production обходится в 375 000 ₽ инфраструктуры — примерно столько же, во что компании обходится один SDR со всеми сопутствующими затратами, и при этом агент работает 24/7 на пятнадцати языках.

LiveKit против Vapi, Retell, Bland и Synthflow

На 10 000 минут в месяц (нагруженный кейс среднего бизнеса) платформы аккуратно сортируются по полной стоимости владения:

Платформа	Полная стоимость	Время до первого звонка	Потолок
LiveKit (своя сборка)	37 500–45 000 ₽	2–4 недели	Никакого, open source
Retell AI	~86 000 ₽	3 часа	Кастомные инструменты ограничены
Bland AI	~90 000 ₽	1 день	Ориентирован на исходящий дайлер
Synthflow	~97 000 ₽	1–2 дня	No-code, привязка к платформе
Vapi	~105 000 ₽	1 день	Гибкий API, самая высокая цена

Рисунок 2. Сравнение TCO на 10 000 минут в месяц по ставкам 2026 года.

Цифры говорят очевидное: Retell или Vapi — для проверки гипотез и прототипов на меньше чем 5000 минут, LiveKit — как только кейс становится реальным. Точка перелома лежит где-то между 10 000 и 20 000 минут в месяц — выше неё маржа LiveKit окупает инженерные вложения за полгода.

LiveKit Cloud, self-hosted или Telnyx

Три варианта запустить LiveKit Agents в production, у каждого свой компромисс:

LiveKit Cloud. 0,37 ₽/мин только за аудио, 0,75 ₽/мин с агентом. Управляемая диспетчеризация, наблюдаемость, региональные точки присутствия, SOC 2, BAA. Никакой операционной работы. Выбор по умолчанию.
Self-hosted. Платформенная комиссия — ноль, STT/LLM/TTS платите напрямую. Окупается выше 50 000 минут в месяц, если DevOps уже выстроен; ниже — выигрывает облако. Берите этот вариант для регулируемых нагрузок, где платформа не должна касаться аудио.
LiveKit на Telnyx (апрель 2026). Telnyx хостит инфраструктуру LiveKit и в комплекте даёт телефонию. Заявленная стоимость STT/TTS на 50% ниже, чем у LiveKit Cloud на том же стеке — стоит просчитать, если PSTN нужен в больших объёмах.

Один нюанс с февраля 2026: данные наблюдаемости LiveKit обрабатываются в США независимо от вашего медиарегиона. Если резидентность по GDPR запрещает обработку любых метаданных звонка в США — отключайте проектную наблюдаемость и логируйте в свой стек. Само медиа (аудио и видео) остаётся в выбранном вами регионе.

Compliance: HIPAA, SOC 2, TCPA, GDPR

Голос затрагивает сразу три плоскости compliance — PHI (если пользователи обсуждают здоровье), PII (любые клиентские записи) и согласие на запись (в каждом штате, во многих — со штрафами). Платформы помогают, но не закрывают это за вас.

HIPAA. LiveKit подписывает BAA. То же делают OpenAI, Deepgram и ElevenLabs на корпоративном тарифе. Проверяйте каждого вендора в стеке и держите подписанный обеими сторонами PDF — на каждый цикл ревизии договора.
SOC 2 Type II. Сертифицированы LiveKit, OpenAI, Deepgram, AssemblyAI, ElevenLabs, Cartesia. Запросите их отчёты для собственного аудита.
TCPA. С решения FCC от 8 февраля 2024 года для AI-сгенерированного голоса в исходящих звонках требуется задокументированное предварительное письменное согласие. Храните его рядом с номером и предъявляйте при каждом наборе.
Согласие обеих сторон на запись. Калифорния, Флорида, Пенсильвания, Иллинойс и ещё семь штатов требуют согласия всех участников разговора. Воспроизводите дисклеймер в начале каждого записываемого звонка — и сам этот дисклеймер тоже записывайте.
GDPR. Согласие на запись по статье 6 должно быть явным, а не «законным интересом». Заключите договоры на обработку данных с каждым провайдером в стеке и закрепите медиа за регионом ЕС.

Наши production-настройки по умолчанию: redaction PII в логах в реальном времени (вычищаем email, телефоны и номера карт до того, как они попадут в наблюдаемость), метаданные согласия по каждому звонку, аудит-логи с минимальным сроком хранения 90 дней и ежегодная red-team-проверка границ промпта агента. Срезать углы здесь — это то, на чём заканчивается карьера.

У вас в проекте HIPAA или GDPR?

Мы запускали голосовых агентов с полным стеком BAA для медицинского приёма и телемедицины. Если в звонке есть PHI, одной галочкой у провайдера не отделаться — нужны pipeline, логи, политика хранения и red-team, которые выдержат аудит.

Позвоните нам → Напишите нам →

Сценарии, которые действительно окупаются

Четыре паттерна возвращают вложения меньше чем за полгода. Всё остальное — экспериментирование:

Поддержка первой линии

Сброс паролей, статус заказа, проверка баланса, FAQ по полису. Голосовой агент закрывает 40–60% входящего объёма по 6–11 ₽ за звонок против 150–375 ₽ у живого оператора. Для линии поддержки на 100 000 звонков в месяц это от 11 до 22 млн ₽ в месяц возвращаются в P&L.

Исходящие продажи и квалификация лидов

Перезвон по входящим лидам ускоряется со «среднего времени ответа в 4 часа» до «30 секунд». Конверсия во встречи обычно удваивается или утраивается. У одного клиента из enterprise стоимость одной забронированной встречи в исходящей квалификации упала с 3 600 ₽ до 675 ₽.

Медицинский приём и подтверждение визитов

Крупные сети клиник используют голосовых агентов для предварительного сбора анамнеза и звонков-подтверждений за сутки до визита. 70–80% подтверждений проходят полностью автоматически, освобождая ресепшн под пациентов «с улицы». Стек HIPAA обязателен — см. выше.

Голосовые тьюторы и встроенные ассистенты

Этот сценарий ближе всего к портфолио Фора Софт. Мы делали голосовые обучающие платформы, приложения для коучинга в реальном времени и агентов на WebRTC прямо в браузере для образовательных клиентов вроде Career Point, и схема одна и та же: клиентский SDK LiveKit в браузере, воркер агента со стеком Haiku + Cartesia, кастомные инструменты для состояния урока и обратная связь, которая записывает взаимодействия для педагогического разбора.

Семь сценариев отказа, которые мы видим в production

В порядке того, как часто они ломают демонстрации:

Холодный старт. Первый звонок после деплоя — задержка 3–5 секунд. Лечится прогревочными звонками вхолостую и предварительным заполнением пула соединений на старте.
Ложные прерывания. Агент продолжает говорить поверх собеседника или обрывает его на полуслове. Настройте VAD, включите BVC и протестируйте с 20 живыми пользователями до запуска.
Галлюцинации фактов. Агент придумывает номер подтверждения. Заставьте опираться на function calling всё, что нужно процитировать; запретите свободные ответы на фактические вопросы.
Ошибки извлечения сущностей. «Мой email — john.doe» превращается в «johndough». Переключайтесь на AssemblyAI Universal-3 Pro для сценариев с большим числом сущностей.
Каскадная межрегиональная задержка. STT в us-east, LLM в us-west, TTS во Франкфурте. Прижмите всех провайдеров к одному региону; платите за egress, если придётся.
Неконтролируемые расходы. Цикл повторов выстреливает 40 вызовами LLM за десять секунд после неудавшегося инструмента. Жёстко ограничьте число вызовов инструментов за ход и стоимость сессии в рублях.
PII в логах. Полные транскрипты с СНИЛС оказываются в CloudWatch. Чистите их на границе, до того как что-то долетит до наблюдаемости.

KPI: что мерить с первого дня

Голосовой агент без приборной панели — это демонстрация. Снимайте эти метрики с первого production-звонка:

Задержка хода P50 / P90 / P99. Среднее лжёт; именно хвост по P99 заставляет людей бросать трубку.
Доля выполненных задач. Закрыл ли агент запрос звонившего без эскалации? 50–70% — реалистичный ориентир для хорошо настроенного бота поддержки.
Доля передач оператору. Эскалации к человеку на звонок. Если растёт — сломан инструмент или дрейфует промпт.
Стоимость одного успешного исхода. Не цена за минуту — цена за забронированную встречу, сброшенный пароль, подтверждённый визит.
Частота прерываний. Как часто собеседник перебивает агента? Растёт — значит, голос слишком многословен.
WER транскрипции. Размечайте вручную выборку из 100 звонков в неделю. Дрейф здесь — индикатор для всех остальных метрик.

Когда НЕ стоит строить на LiveKit

Четыре случая, где управляемая платформа честно обыгрывает LiveKit:

Детерминированный IVR. «Нажмите 1 для отдела продаж, 2 для поддержки». Берите Twilio Studio и идите дальше.
Proof of concept в жёсткие сроки. Retell AI запускается за 3 часа, Vapi — за день. Если демонстрация нужна завтра — не разрабатывайте, покупайте.
Меньше 5000 минут в месяц навсегда. Срок окупаемости инженерных вложений уходит за год. Платформенная комиссия — дешёвая страховка.
Нетехническая команда без DevOps. No-code-конструктор Synthflow обыграет сломанного Python-агента, которого некому обслуживать.

Честный вопрос звучит так: «достаточно ли это важно, чтобы владеть этим самим?». Если голосовой агент — ядро продукта или экономия становится ощутимой за пределами десяти тысяч минут в месяц, ответ — да, и LiveKit это правильная ставка. В остальных случаях стартуйте на управляемой платформе, мигрируйте позже.

FAQ

Сколько уходит у Фора Софт на запуск production-агента на LiveKit?

От трёх до шести недель на узкий сценарий (один процесс, один язык, один регуляторный режим). Наш конвейер Agent Engineering сжимает то, что раньше занимало три месяца, вдвое — поэтому итоговая стоимость, как правило, ниже рыночной даже на премиум-стеке.

LiveKit умеет в звонки PSTN или это только WebRTC?

И то, и другое. LiveKit мостит в PSTN через Twilio или Telnyx по SIP. С апреля 2026 года Telnyx предлагает родной продукт «LiveKit on Telnyx», который объединяет оба сервиса и снижает стоимость STT/TTS примерно на 50% по сравнению с одним только LiveKit Cloud.

Какая реалистичная задержка для агента менее 700 мс?

Со стримящим STT Deepgram Nova-3, стримящим LLM Claude Haiku 4.5 и стримящим TTS Cartesia Sonic-3 — все в одном регионе, с короткими системными промптами — мы регулярно фиксируем сквозные 550–700 мс по P50 на WebRTC-клиентах. Хопы PSTN добавляют 80–150 мс.

Может, лучше взять OpenAI Realtime API?

Если задержка — единственное, что важно, и вас устраивает привязка к GPT-5 в качестве LLM, то да: 200–300 мс сквозной задержки никто не обыграет. LiveKit поддерживает Realtime в виде плагина, поэтому вы можете попробовать оба варианта без переписывания агента. Если приоритет — compliance, надёжность function calling или кастомные голоса, pipeline всё равно выигрывает.

Как остановить расход денег из-за сломанных вызовов инструментов?

Три жёстких потолка на сессию: максимум вызовов инструментов, максимум токенов LLM и максимум общей длительности. При срабатывании любого из них агент говорит «давайте я переключу вас на оператора» и кладёт трубку на запасной маршрут. Плюс мы держим месячные алерты по стоимости на каждого тенанта агента, чтобы аномальное поведение замечалось через минуты, а не через дни.

Может ли агент передать звонок оператору посреди разговора?

Да. Стандартный паттерн — инструмент transfer_to_agent: LLM решает (или собеседник просит) передать звонок, в комнату LiveKit добавляется человек-оператор, AI-агент выходит. Транскрипт и контекст передаются вместе с звонком, поэтому оператор подхватывает разговор, а не начинает с нуля.

Подходит ли LiveKit для многоязычных звонков?

Очень. Gladia Solaria-1 справляется с переключением языков в одном потоке (собеседник переходит между испанским и английским посреди фразы), Soniox лидирует на 30+ языках, а Grok TTS недавно выпустил многоязычные голоса с нативной интеграцией в LiveKit. Сам pipeline остаётся прежним — меняются только плагины STT и TTS.

Как нам прогнать бенчмарк агента до запуска?

Прогоните 50–100 заскриптованных диалогов по основным типам задач, замерьте задержку хода по P99, долю выполненных задач и долю галлюцинаций. Затем добавьте 20 живых проверяющих с неподготовленными звонками. Разрыв между двумя замерами скажет, не переобучен ли агент под промпт. В Фора Софт мы прогоняем этот цикл на каждом релизе.

Что почитать дальше

Углублённый разбор фреймворка

LiveKit AI Agents: руководство инженера

Технический спутник этого плейбука — внутренности SDK, паттерны воркеров, деплой.

Видеостек

Создаём приложение для видеостриминга в 2026

VOD, прямые трансляции и видеоконференции на одном realtime-транспорте, на котором работает LiveKit.

Альтернативы вендорам

Альтернативы Agora.io для realtime-голоса и видео

Сравнение, после которого многие команды и обращают внимание на LiveKit.

Кейс

Career Point: AI-коучинг на LiveKit + Oxford

Как Фора Софт запустила голос-первую коучинг-платформу с задержкой меньше 800 мс.

Compliance

Безопасность приложений с realtime-медиа

Шифрование, согласие на запись и аудит-логи — паттерны, которые переносятся на голосовой AI.

Как мы работаем

Agent Engineering в Фора Софт

Почему сроки на проектах с упором на AI у нас короче и дешевле рынка.

Готовы запустить голосовой AI, который звучит по-человечески?

Расскажите про задачу. Мы назовём самый быстрый путь к production и честную цифру.

30-минутный созвон со старшим инженером, который уже запускал агентов на LiveKit. Без презентации, без NDA.

Позвоните нам → Напишите нам →

Последнее обновление — апрель 2026 года, актуальные данные по LiveKit Agents, моделям и ценам. Источники: документация LiveKit, бенчмарки Deepgram, ElevenLabs, Cartesia, AssemblyAI и production-деплои Фора Софт.

Технологии
Разработка
Услуги

Стадия	Агрессивный бюджет	Реалистичный бюджет	Как удержать
Захват и форк	50 мс	100 мс	Медиасервер и AI-сайдкар рядом; кадры Opus по 20 мс
Streaming ASR	150 мс	300 мс	Промежуточные гипотезы, endpointing, тюнинг VAD
Streaming MT	150 мс	400 мс	Инкрементальный декодер; кэш контекста на сессию
Streaming TTS	200 мс	500 мс	Синтез чанками; буферы коротких предложений
Возврат слушателю	50 мс	150 мс	Медиа в том же регионе; микс через SFU
Итого от рта до уха	~600 мс	~1,5 с	Архитектура + вендоры + регионы

Стадия	Лучшее качество	Лучшая цена	Open-source / self-host	На что обратить внимание
Streaming ASR	Deepgram, AssemblyAI, Speechmatics	Azure, Google, Amazon Transcribe	Whisper, NVIDIA Parakeet / Canary	Качество телефонного звука сильно варьируется
MT	DeepL, GPT-4o / Claude / Gemini	Google Translate, Azure, Amazon	NLLB-200, M2M-100, MADLAD-400	Задержка LLM при росте нагрузки
TTS	ElevenLabs, Cartesia, OpenAI	Amazon Polly Neural, Azure Neural	Coqui TTS, Piper, XTTS v2	Задержка первого аудио на холодном старте
Медиасервер	LiveKit Cloud, Vonage Video, Daily	FreeSWITCH, Asterisk, Janus	Все перечисленные open-source	SIP-interop и тюнинг обхода NAT
SIP-прокси	Kamailio, OpenSIPS	Kamailio, Drachtio	Kamailio, OpenSIPS	Сложность маршрутизации растёт с числом транков

Статья	За минуту, коммерческий API	За минуту, self-hosted	Заметки
Streaming ASR	0,9–1,8 ₽	0,2–0,6 ₽	Deepgram и Google в нижней части диапазона
Машинный перевод	0,3–3 ₽	0,1–0,7 ₽	LLM-пайплайны в верхней части
Нейросетевой TTS	2,2–9 ₽	0,6–1,8 ₽	Премиум-ElevenLabs наверху
Медиасервер + egress	0,3–0,7 ₽	0,07–0,2 ₽	LiveKit Cloud vs self-hosted
Итого за минуту	3,7–15 ₽	1–3,4 ₽	Self-hosted примерно в 3–5 раз дешевле

Инструмент	Модель	Цена	Срок	Для кого	Главное ограничение
Photomatix Pro 7	Десктоп	7 425 ₽ единоразово	30–60 мин на 100 фото	Одиночный фотограф, детерминированный результат	Нет подмены неба, устаревший UI
Luminar Neo	Десктоп + кроссплатформа	7 425–11 925 ₽	5–15 мин на фото	Пресеты под недвижимость, подмена неба	Дефолтный пресет может пересатурировать
AutoHDR	Облачный AI	30–41 ₽ / кадр	20–30 мин	Агентства, объёмы MLS	Меньше контроля над стилем
Imagen AI	Облако + Lightroom	2–5 ₽ / кадр	Минуты, пакетно	Фотографы со своим стилем	Нужен каталог для обучения
Aftershoot	Облачная подписка	750–4 500 ₽ / месяц	Безлимит по объёму	Студии большого объёма, плоский тариф	Меньше пресетов под недвижимость
BoxBrownie (Pixa)	Управляемый аутсорсинг	120 ₽ / кадр	~24 часа	Агентства «всё под ключ»	Самый медленный, самая высокая цена
Кастомная разработка (SaaS)	Свой API + облако	Себестоимость 15–37 ₽ / кадр	Настраиваемый (5–30 мин)	Proptech, вертикальные обёртки	12–20 недель до MVP

LiveKit Voice AI в 2026: руководство для инженеров

Почему команды выбирают LiveKit для голосового AI в 2026

Что на самом деле значит «звучит как человек»

Бюджет задержки в 800 мс — и где он утекает

Pipeline или speech-to-speech: что подходит вашему продукту

Эталонная архитектура на LiveKit Agents 1.x

STT: Deepgram, AssemblyAI, Gladia или Soniox

LLM: Claude Haiku, Gemini Flash или GPT-5

TTS: ElevenLabs, Cartesia, Aura, Rime или Grok

Определение конца реплики, VAD и аккуратное прерывание

Шумоподавление и Krisp: теперь отдельная статья расходов

Function calling, который реально доезжает до production

Реальная стоимость минуты: всё включено, без сюрпризов

LiveKit против Vapi, Retell, Bland и Synthflow

LiveKit Cloud, self-hosted или Telnyx

Compliance: HIPAA, SOC 2, TCPA, GDPR

Сценарии, которые действительно окупаются

Поддержка первой линии

Исходящие продажи и квалификация лидов

Медицинский приём и подтверждение визитов

Голосовые тьюторы и встроенные ассистенты

Семь сценариев отказа, которые мы видим в production

KPI: что мерить с первого дня

Когда НЕ стоит строить на LiveKit

FAQ

Что почитать дальше

Похожие статьи

Хотите обсудить ваш проект?