Мультимодальные ИИ-агенты на LiveKit в 2026: голос, зрение и продакшен

Блог: гайд 2026 по мультимодальным агентам на LiveKit

Мультимодальные агенты — голос, зрение и работа с инструментами в рамках одной realtime-сессии — в 2026 году перешли из категории демо в категорию стандарта. Рынок голосового ИИ перевалил за 1,6 трлн ₽, 67% компаний из Fortune 500 уже эксплуатируют голосовых агентов в продакшене, а Gartner ожидает, что только в этом году контакт-центры сэкономят 6 трлн ₽ благодаря разговорному ИИ. Если убрать хайп, под значительной долей этих внедрений лежит один опенсорсный фреймворк — LiveKit.

Эта статья — о том, как мы в Фора Софт (625+ сданных проектов, 100% Upwork Success Score, работаем с realtime-видео и ИИ с 2005 года) реально собираем мультимодальных агентов на LiveKit в 2026-м. Не учебный пример, а практическое руководство для продакшена: архитектура, которая укладывается в задержку до 500 мс, выбор модели, который определяет вашу юнит-экономику, путь через SIP к настоящим телефонным номерам, работа с регуляторкой, о которой никто не рассказывает на демо, и расчёт стоимости, который отделяет агента за 30 ₽ за звонок от агента за 450 ₽.

Если вы решаете, стоит ли строить продукт на LiveKit, какой бюджет закладывать и как обойти три-четыре ошибки, которые тихо губят голосовых ИИ-агентов в первые 90 дней, — это тот гайд, которого нам самим не хватало, когда мы начинали выводить агентов в продакшен.

Ключевые выводы

LiveKit Agents 1.x + WebRTC — стандарт 2026 года: сквозная задержка до 500 мс, нативный SIP, семантическая детекция реплик и плагины для OpenAI gpt-realtime и Gemini Live.
gpt-realtime обходится примерно в 30 ₽ за звонок при типичной нагрузке контакт-центра — на 90–95% дешевле живого оператора — но только если архитектура не допускает трёх типичных ошибок раздувания токенов.
Мультимодальность — это про зрение, а не только про голос: live-видео плюс грамотная привязка к VLM открывает дорогу к телемедицинскому первичному приёму, удалённому управлению и полевому сервису, где агент действительно видит происходящее.
Главный стопор — регуляторика: большинство пилотов спотыкается о неё на четвёртый месяц. Классификация high-risk по EU AI Act, BAA по HIPAA с каждым поставщиком модели, редактирование PCI в аудио и законодательство о записи звонков на уровне отдельных штатов.
Реальные сроки: 6–10 недель на ограниченный продакшен-пилот, бюджет 3,3–13 млн ₽ в зависимости от набора модальностей, телефонии и интеграций.

Почему LiveKit стал стандартом стека голосовых агентов в 2026

Три года назад собрать realtime-голосового агента означало склеить вместе Twilio Media Stream, поставщика STT, LLM, поставщика TTS, jitter-буфер и хрупкий слой WebSocket. Каждый стык добавлял задержку, каждый поставщик — счёт. В 2026-м эту работу за вас уже сделали — и сделал её именно LiveKit.

Берите LiveKit Agents, когда: в одном фреймворке нужна realtime-связка речь → LLM → речь и плюс видео. Стек 1.0 поставляет всё это вместе.

LiveKit выпустил Agents 1.0 с более низкоуровневым и гибким слоем оркестрации, SIP 1.0 для продакшен-телефонии, семантическую детекцию реплик на трансформере и шумоподавление, отстроенное под телефонный аудиотракт. Раунд Series B (анонсирован в блоге LiveKit) дал ресурсы на единую платформу: SDK, Cloud, Agent Builder для no-code прототипов, наблюдаемость и оценки. Под капотом по-прежнему опенсорсный WebRTC — вы не запираетесь у вендора и можете с первого дня развернуть всё на собственном кластере Kubernetes.

Практический результат: одно изменение конфига — и LiveKit-агент работает поверх gpt-realtime от OpenAI, Gemini Live от Google или классического конвейера STT → LLM → TTS. Вы получаете абстракцию комнаты, которая масштабируется от звонков один на один до 2 000 одновременных телемедицинских сессий, и единую модель деплоя: один и тот же код на Python или Node работает и в LiveKit Cloud, и в вашей VPC. Поэтому фреймворк и стал стандартом — не из-за маркетинга, а из-за архитектуры.

Что в 2026 году действительно считается мультимодальным агентом

Раньше под «мультимодальностью» понимали чат-бота, который умеет описать картинку. В 2026-м это агент, рассуждающий по нескольким входным потокам одновременно и в реальном времени — обычно голос, видео и структурированный вывод инструментов — и отвечающий в той модальности, которая уместна. В нашей практике доминируют четыре связки:

Голос плюс инструменты: агент клиентской поддержки или продаж говорит, слушает и вызывает внутренние API (CRM, расписание, платежи). Около 80% продакшен-внедрений.
Голос плюс live-видео: первичный приём в телемедицине, поддержка полевых сотрудников, оформление страховых случаев. Агент смотрит в камеру, опирается в ответе на то, что видит, и может рисовать или подписывать что-то на общем экране.
Голос плюс демонстрация экрана: удалённое обучение, техподдержка, онбординг. Агент читает экран пользователя как ещё один видеотрек, извлекает текст и состояние интерфейса и ведёт его шаг за шагом.
Голос плюс телеметрия: робототехника и удалённые операции. Агент принимает потоки с датчиков (LIDAR, IMU, температура, телематика), сводит их с голосом и выдаёт команды.

Сложность не в том, чтобы соединить модальности — LiveKit из коробки даёт единую комнату с аудио-, видео- и data-треками. Сложность в проектировании контекстного бюджета: что видит модель, как часто, в каком разрешении и насколько долго это хранится. Ошибётесь — и счёт за токены каждый месяц будет удваиваться.

Эталонная архитектура: LiveKit Agents 1.x плюс realtime-модели

Каждый продакшен-агент на LiveKit, который мы выпускаем в 2026-м, имеет одну и ту же пятислойную форму. Слои стоит назвать явно: 80% боли при масштабировании возникает из-за того, что между ними смешивают ответственности.

Откажитесь от наивного управления репликами, если: агент работает в клиентской поддержке или телемедицине. VAD и обработка перебиваний — обязательны.

Слой	Что делает	Что использует LiveKit
1. Транспорт	Медиа и data по WebRTC, мост SIP, токены аутентификации, запись	LiveKit Server / Cloud
2. Рантайм агента	Подключается к комнатам, маршрутизирует треки, ведёт реплики, вызывает инструменты	Agents 1.x (Python / Node)
3. Восприятие	STT, VAD, детекция реплик, кадры видео, шумоподавление	Плагины (Deepgram, Whisper, Silero VAD, LiveKit NC)
4. Рассуждение	LLM или realtime-модель, память, схемы инструментов, ограничители	Плагины OpenAI / Google / Anthropic
5. Выражение	TTS, темп речи, перебивания, аннотации на экране	Cartesia / ElevenLabs / нативное realtime-аудио

При нативной realtime-модели (gpt-realtime, Gemini Live) слои 3–5 схлопываются в одну точку модели — именно поэтому задержка падает ниже 300 мс, и именно поэтому это выбор по умолчанию для большинства проектов 2026 года. Компромисс: вы теряете возможность независимо менять поставщиков STT или TTS, а на длинных сессиях стоимость аудиотокенов может удивить.

Подробнее о выборе realtime-инфраструктуры мы рассказывали в гайде по приложениям realtime-связи и в нашем плейбуке по разработке продукта.

Выбор модели: gpt-realtime, Gemini Live или связка STT → LLM → TTS

Самое крупное проектное решение — какой слой рассуждения использовать. Мы перестали советовать «лучшую модель», потому что выбор зависит от четырёх вещей: целевой задержки (SLO), потребности в зрении, языкового покрытия и бюджета на минуту. Так мы выбираем в 2026-м:

Вариант	Задержка	Цена аудио	Когда уместно
OpenAI gpt-realtime	~250–400 мс	2 400 ₽ за 1 млн входных аудиотокенов / 4 800 ₽ за 1 млн выходных	Поддержка клиентов, продажи, естественный голос, уверенная работа с инструментами
gpt-realtime-mini	~200–350 мс	Примерно на 70% дешевле флагмана	Высокий поток FAQ-обращений, простые сценарии, чувствительные к стоимости проекты
Gemini Live	~300–500 мс	Конкурентная, в превью большой бесплатный лимит	Зрение в приоритете (лучшая привязка к live-видео), мультиязычные сценарии
STT → LLM → TTS	~500–900 мс	Оплата за каждый компонент, на больших объёмах часто дешевле	Регулируемые проекты, self-hosted, кастомные голоса
Самостоятельный хостинг открытой модели	~400–800 мс	Только инфраструктурные расходы	HIPAA, требования к резидентности данных в ЕС, суверенные внедрения

Аудиотокены тарифицируются как 1 токен на 100 мс входа и 1 на 50 мс выхода ассистента. Трёхминутный звонок на gpt-realtime с распределением реплик 60/40 между человеком и агентом и без повторов укладывается примерно в 21–31 ₽ за звонок только по модели. Прибавьте телефонию (0,3–1 ₽/мин), LiveKit Cloud и ваш RAG-стек — и получите те самые 30 ₽ за звонок против 525–900 ₽ у живого оператора.

Для регулируемых отраслей мы часто комбинируем realtime-модель в разговорном слое с классическим конвейером в качестве запасного варианта (Deepgram Aura плюс Claude плюс Cartesia), который умеет работать под HIPAA BAA или on-premises. Плагинная система LiveKit превращает такую замену в одну строчку конфига.

Бюджет задержки: как уложиться в 500 мс сквозного отклика

«Звучит естественно» в голосовом ИИ переводится в измеримое число: от конца реплики пользователя до первого слышимого токена — не более 500 мс для большинства людей и не более 300 мс для телефонии. Этот бюджет проще нарушить, чем выдержать. Вот как он раскладывается на хорошо настроенном gpt-realtime:

Приоритет в работе с инструментами: сначала календарь, CRM и поиск по базе знаний. Именно на них агент зарабатывает деньги.

Сеть на входе (WebRTC и jitter-буфер): 30–80 мс
VAD и детекция реплик: 40–120 мс (семантический детектор добавляет около 60 мс, но втрое снижает число перебиваний)
Время до первого токена модели: 180–280 мс
Первый чанк TTS или синтеза аудио: 20–60 мс (нативные аудиомодели этот шаг пропускают)
Сеть на выходе: 30–80 мс

Самая частая ошибка по задержке, которую мы находим при аудитах: регионы серверов. Если egress LiveKit стоит в us-east-1, а endpoint модели — в eu-west, вы только что добавили 80 мс на каждом круге. Размещайте рядом. Вторая ошибка — чрезмерно большое контекстное окно на каждой реплике. Используйте суммаризацию диалога и кэширование результатов вызова инструментов.

Детекция реплик, перебивания и естественный темп

Детекция реплик — то место, где демо смотрятся волшебно, а продакшен разваливается. Базовый VAD по тишине справляется с 80% звонков, но даёт ложные срабатывания на каждом «ммм», паузе посреди мысли или фоновом шуме. В релизе 1.x LiveKit предлагает семантический детектор реплик — трансформер, который смотрит не только на тишину, но и на то, что было сказано, — и в наших A/B-тестах он сокращает перебивания агентом примерно втрое.

В продакшене мы поверх него накладываем три механизма:

Списки «нельзя перебить»: отдельные реплики агента (зачитывание длинного условия, подтверждение заказа) помечаются как «не уступать слово» — чтобы пользователь не оборвал их случайным кашлем.
Шумоподавление на входе: NC-плагин LiveKit, обученный на телефонном аудио, повышает точность детекции реплик в шумной обстановке сильнее, чем любое обновление модели.
Правила перебивания под сценарий: агент продаж сразу уступает слово, агент экстренной сортировки сначала договаривает текущее предложение.

Добавляем зрение: live-видео, демонстрация экрана и привязка к VLM

Видеотрек Gemini Live и поддержка изображений в gpt-realtime подключаются к LiveKit как обычные дополнительные треки. Рабочий паттерн: агент видит один кадр раз в 500–1500 мс (а не 30 кадров в секунду — иначе счёт за токены взлетит) и по необходимости запрашивает дополнительный «взгляд в высоком разрешении», когда нужны детали. Track API LiveKit делает это просто: подписаться, выбрать кадр, понизить разрешение, отправить.

Типичная ошибка: запуск без наблюдаемости. Трассируйте каждую реплику от и до — аудио на входе, транскрипт, LLM, аудио на выходе, задержки.

Похожий паттерн мы применяли в V.A.L.T — нашей платформе видеодоказательств и опросов, развёрнутой в 770+ организациях США, с 50 000+ пользователей, 9 HD-потоками, поддержкой 22+ моделей камер и SSL/RTMPS: мультимодальные строительные блоки там сильно пересекаются с тем, что нужно агенту в 2026-м. Подробнее — в нашем гайде по разработке систем видеонаблюдения.

Телефония и SIP: подключение агентов к ТСОП

Если агент должен принимать вызов на номер 1-800, нужен SIP. Мост SIP 1.0 от LiveKit подключает входящие и исходящие вызовы к агентам как обычных участников комнаты, обрабатывает DTMF, тёплые и холодные переводы и конференц-мост. SIP-транк вы приносите свой — от Twilio, Telnyx, Plivo, Sinch или любого другого оператора, — LiveKit к провайдеру не привязан.

Три вещи, которые с первого дня надо делать правильно: включить шумоподавление (телефонный звук — 8 кГц и недружелюбен к ASR), настроить SIP-правила маршрутизации под страны (тарифы операторов отличаются в 10 раз) и поднять запись с редактированием до первого продакшен-звонка — утечки PCI-аудио в обучающих наборах не страхует ни одна компания.

Оркестрация нескольких агентов и работа с инструментами

Шаблон 2026 года — редко «один гигантский промпт». Это фронт-агент, который ведёт small talk и первичный приём, плюс специализированные агенты, на которых он переключается: агент записи, агент биллинга, агент эскалации. В Agents 1.x от LiveKit передача между ними тривиальна — роутер заменяет реализацию агента в комнате, не разрывая звонок. Для пользователя это один непрерывный диалог.

Инструменты мы подключаем на уровне агента, а не сваливаем все подряд в каждую реплику. Дисциплинированная схема инструментов (5–12 штук, строгий JSON, типизированные аргументы) экономит 20–40% токенов и резко снижает шанс, что модель придумает несуществующий вызов. Для всего, что касается денег или PHI, мы добавляем подтверждение через человека: агент предлагает, человек одобряет.

Реальная экономика 2026 года: за минуту и за звонок

Вот честная декомпозиция затрат для типичного голосового агента на gpt-realtime, обслуживающего номер 1-800: средняя длительность звонка три минуты, распределение реплик 60/40, 1 000 звонков в сутки.

Статья	За звонок	На 1 000 звонков в день
Аудиотокены gpt-realtime	22 ₽	22 500 ₽/день · 675 тыс. ₽/мес
Телефония (SIP-транк, 3 минуты)	2 ₽	67 тыс. ₽/мес
LiveKit Cloud (агент-минуты)	3 ₽	90 тыс. ₽/мес
Поиск по базе знаний / векторная БД	0,7 ₽	22 тыс. ₽/мес
Всё включено за звонок	~28 ₽	~850 тыс. ₽/мес

Эти 850 тыс. ₽/мес покрывают 30 000 звонков. Тот же объём силами живых операторов — при ставке 675 ₽ за звонок — обойдётся в 20 млн ₽/мес. Именно из-за этой юнит-экономики голосовой ИИ так быстро ушёл из пилотов в продакшен. Где проекты сходят с рельсов: раздувание токенов из-за повторной отправки всего контекста на каждой реплике (решение — скользящее резюме), неконтролируемая длина ответа модели (решение — max-response tokens плюс жёсткий системный промпт), забытое кэширование справочных данных (решение — кэшированные входные промпты по 30 ₽ за миллион).

LiveKit Cloud или self-hosted: когда что выигрывает

LiveKit Cloud — правильный ответ для 80% проектов, которые мы видим. Он экономит четыре месяца работы над инфраструктурой, даёт глобальные медиарелеи, поставляет наблюдаемость и из коробки соответствует SOC 2 и HIPAA. Self-hosted имеет смысл в трёх случаях:

Суверенная резидентность данных — госсектор ЕС, отдельный enterprise в DACH, госведомства Ближнего Востока.
Интеграция с уже работающим SFU/MCU — если у вас уже эксплуатируются Jitsi, Janus или Mediasoup, и LiveKit Agents должны жить рядом.
Сверхбольшие объёмы — начиная примерно с 10 млн агент-минут в месяц математика выделенного кластера начинает играть в пользу self-hosted, но только если у вас есть платформенная команда.

Подробнее наш подход к выбору хостинга разобран в нашем сравнении облачных провайдеров и в материале о QA на каждом этапе разработки — потому что узким местом обычно оказывается не хостинг, а оценка качества агента.

Наблюдаемость, оценки и ограничители в продакшене

Два главных вопроса, которые нам в 2026-м задают руководители разработки: «как понять, что агент действительно работает?» и «как не дать ему сойти с рельсов?». Мы отгружаем каждого продакшен-агента на LiveKit с четырьмя уровнями производственной гигиены:

Запись сессий с редактированием PII — LiveKit Egress в объектное хранилище, автоматический проход редактирования до того, как аналитик услышит аудио.
Оценка реплик — небольшая LLM-судья выставляет каждой реплике агента баллы за релевантность, безопасность и тон. По этим баллам строятся дашборды и алерты на регрессии.
Регрессии на эталонном датасете (golden dataset): 100–500 записанных звонков, которые обязаны проходить на каждом деплое. Наш конвейер деплоя автоматически проигрывает их против новой версии агента.
Ограничители — детекция выхода за тематику, фильтры PII и PCI на входе и выходе, лимит длины ответа, ограничение частоты на абонента.

Регуляторика: HIPAA, EU AI Act, PCI и право записи звонков

Регуляторика — причина номер один, по которой проекты голосового ИИ застревают за рамками пилота. Реальность 2026-го такая:

EU AI Act — большинство внедрений голосовых агентов с августа 2025 года попадает под требования о прозрачности (пользователь должен знать, что говорит с ИИ). Любая система, влияющая на кредитование, найм, страхование или жизненно важные публичные услуги, по правилам, вступающим в силу в августе 2026-го, классифицируется как high-risk и требует полного пакета документации по управлению рисками, человеческого надзора и постмаркетингового мониторинга.
HIPAA — обязательное соглашение Business Associate Agreement с каждым поставщиком, который касается PHI: LiveKit, поставщик модели, TTS, STT, хранилище записей. Цепочку BAA нужно проектировать до того, как написана первая строка кода.
PCI-DSS — если агент в принципе может услышать номер карты, нужен редактор аудио на входе, хранилище вроде Very Good Security или Skyflow, и в промпте агента карты быть не должно никогда.
Закон о записи звонков — правило двустороннего согласия меняется по штатам (строгие — Калифорния, Флорида, Иллинойс, Вашингтон, Пенсильвания); в большей части ЕС обязательно предупреждение в начале разговора. В регулируемых внедрениях мы автоматически вставляем такое предупреждение первой репликой агента.

Сценарии 2026 года, на которых мы уже видим окупаемость

Не каждый голосовой агент имеет смысл. Пять сценариев, по которым прямо сейчас видно ROI:

Первичный приём и сортировка в телемедицине — мультимодальный агент в Zoom-подобной комнате на WebRTC, голос плюс опционально видео. Время медицинского ассистента сокращается на 35%, удовлетворённость пациентов растёт на 30%.
Снятие нагрузки с первой линии поддержки — заменяет IVR-меню, закрывает 40–70% звонков целиком, остальное «тёплым» переводом с полным контекстом. Очередь в контакт-центре падает до 50%.
Исходящие напоминания о записях и подготовка к визиту — только голос, масштабирование до 100 тыс. звонков в день без новых наймов.
Удалённый эксперт + полевой техник — голос плюс видео с телефона полевого сотрудника, VLM привязывает разговор к тому, что видит агент.
Синхронный переводчик в реальном времени — двусторонний перевод поверх видеозвонка; такие сценарии мы делали для телемедицины и юридических кейсов, где живой переводчик стоит 225–375 ₽/мин.

Реалистичные сроки и бюджет

Каждое наше предложение по мультимодальным агентам на LiveKit ложится в один из трёх уровней. Это не маркетинговая лесенка, а цифры, которые мы реально называем в 2026-м:

Уровень	Что вы получаете	Сроки	Бюджет
Ограниченный пилот	Один голосовой сценарий, одна интеграция, телефония, оценки качества	6–10 недель	3,3–6,7 млн ₽
Многосценарный продакшен	Несколько агентов, CRM/тикетинг, мультиязычность, наблюдаемость	3–5 месяцев	9–18 млн ₽
Мультимодальный и регулируемый	Видео и зрение, HIPAA/PCI, человек в цикле, кастомный голос	4–8 месяцев	18–45 млн ₽

Это бюджет на саму разработку, без учёта операционных расходов (модели, телефония, инфраструктура). Подход к честным и полным оценкам мы разбираем в нашем гайде по оценке трудозатрат.

Наш опыт: realtime-ИИ в продакшене

Фора Софт занимается realtime-видео и аудио с 2005 года — это 21 год и 625+ проектов на Upwork со 100% Success Score, что входит в топ 1% агентств в мире. На счету в области realtime, в частности:

V.A.L.T — платформа видеодоказательств и опросов, развёрнутая в 770+ организациях США, с 50 000+ пользователей, 9 HD-потоками, поддержкой 22+ моделей камер и SSL/RTMPS.
Netcam Studio — многокамерная VMS, развёрнутая по всему миру, с ИИ-аналитикой движения и распознавания объектов.
Партнёрство с AXIS Communications — интеграции с одним из лидеров рынка сетевых камер.
Практика интеграции ИИ — см. наши услуги по интеграции ИИ и портфолио проектов.

FAQ

LiveKit бесплатный?

LiveKit Server и Agents SDK — опенсорс по лицензии Apache 2.0, self-hosted бесплатен. LiveKit Cloud — управляемый сервис с тарификацией по минутам соединения и агент-минутам, бесплатного лимита достаточно для прототипов. Большинство продакшен-внедрений стартует на Cloud и переходит на собственный хостинг только если этого требует объём или суверенность данных.

На какую задержку реально ориентироваться?

До 500 мс от конца реплики до первого слышимого токена — для веба и мобильных, до 300 мс — для телефонии. С gpt-realtime или Gemini Live на LiveKit Cloud в одном регионе с абонентами стабильно достижимо 250–400 мс. Выше 800 мс пользователи начинают замечать задержку, и удовлетворённость измеримо падает.

gpt-realtime или Gemini Live — что выбрать?

gpt-realtime — для голосового первого фронта в клиентской поддержке, продажах и везде, где важна работа с инструментами. Gemini Live — для сценариев с большим зрением (привязка к live-видео, длительный разбор экрана) и для мультиязычных внедрений. Плагинная система LiveKit позволяет за день собрать прототипы на обеих.

Может ли LiveKit-агент отвечать на настоящий телефонный номер?

Да. SIP 1.0 от LiveKit подключает ваш SIP-транк (Twilio, Telnyx, Plivo, Sinch и так далее) к агенту как обычного участника комнаты. Из коробки идут DTMF, тёплые и холодные переводы, конференц-мост и запись звонков. Для телефонного аудио всегда включайте шумоподавление.

Как удержать стоимость под контролем при росте объёма?

Четыре рычага: скользящее резюме вместо полного контекста на каждой реплике; кэшированный промпт для справочных данных (на 70–90% дешевле в пересчёте на токен); жёсткий лимит длины ответа и схема инструментов; gpt-realtime-mini для простых сценариев и флагман — только для сложных. Эти четыре изменения на типовом внедрении сокращают расход токенов на 40–60%.

Это HIPAA-совместимо?

Может быть. Нужны BAA с LiveKit (Cloud это поддерживает), вашим поставщиком модели, STT/TTS и хранилищем записей — цепочка из четырёх-шести подрядчиков. Self-hosted LiveKit плюс открытая модель на HIPAA-совместимой инфраструктуре эту цепочку упрощают, но требуют больше инженерной работы.

Сколько реально занимает продакшен-пилот?

6–10 недель на один сценарий с телефонией, набором оценок и продакшен-мониторингом. Первый месяц — скоупинг, проектирование промпта агента и интеграции. Второй месяц — ужесточение по результатам оценок. Если вам обещают две недели, то планируют пропустить регуляторку, оценки или наблюдаемость — и счёт за это вы получите на третьем месяце.

Нужна ли отдельная команда MLOps на фул-тайм?

Нет: для большинства внедрений LiveKit Cloud плюс управляемый API модели закрывают то, что иначе пришлось бы собирать MLOps-команде. Что действительно нужно — дисциплина голосового дизайна и небольшая группа, поддерживающая оценки, регрессии на эталонном датасете и ограничители. Двух человек на парт-тайм для среднего внедрения достаточно.

Сравнительная матрица: купить, собрать, гибрид или опенсорс

Быстрая решётка решений по четырём типичным путям 2026 года. Выбирайте строку по размеру команды, регуляторной нагрузке и желаемому сроку до результата — а не по той, что звучит наиболее амбициозно.

Подход	Когда уместно	Сложность сборки	Срок до результата	Риск
Готовый SaaS	Команды до 10 инженеров, типовой сценарий	Низкая (1–2 недели)	1–2 недели	Привязка к вендору, ограничения по кастомизации
Гибрид (SaaS плюс свой слой)	Средний бизнес, смешанные сценарии	Средняя (1–2 месяца)	1–3 месяца	Долг по интеграциям, две системы на поддержке
Своя разработка на современном стеке	Enterprise, уникальные данные или регуляторные требования	Высокая (3–6 месяцев)	6–12 месяцев	Скорость инженерной команды, удержание специалистов
Опенсорс на собственном хостинге	Чувствительные к стоимости проекты, сильная техническая команда	Высокая (2–4 месяца)	3–6 месяцев	Эксплуатационная нагрузка, патчи безопасности

Что почитать дальше

Realtime-инженерия

Гайд по приложениям realtime-связи

Основы WebRTC, на которых стоит любая архитектура голосового агента.

Оценка

Как оценить трудозатраты разработки

Как отличить профессиональную оценку от продающей — в применении к ИИ-проектам.

Бюджет

Стоимость разработки мобильных приложений в 2026

Полный плейбук затрат на запуск мобильного приложения со встроенным агентом.

Процесс

Наш процесс разработки продукта

Как ограниченный ИИ-пилот превращается в продакшен-платформу.

Услуги

Интеграция ИИ в Фора Софт

Наша полная инженерная практика по ИИ — от POC до регулируемого продакшена.

Нужен LiveKit-агент с вызовом инструментов под HIPAA / SOC 2?

Расскажем по архитектуре за 30 минут. Получите совместимый с регуляторкой стек, чек-лист согласия на клонирование голоса и реалистичный план спринта на 8–12 недель.

Позвоните нам → Напишите нам →

Готовы запустить мультимодального агента в 2026-м?

Мультимодальные агенты на LiveKit меньше чем за два года прошли путь от фронтирной технологии до стандартной продакшен-практики. Реальный ROI в 2026-м получают компании, которые перестали относиться к голосовому ИИ как к надстройке-чатботу и начали проектировать его как realtime-систему — с бюджетом задержки, оценками, путём через телефонию и регуляторной готовностью, которых он заслуживает. Мы занимаемся realtime-видео и аудио с 2005 года и выпустили 625+ проектов с ИИ-первой логикой. Если вам нужен партнёр, который запустит ограниченный пилот за 6–10 недель и сможет вырастить его в регулируемую мультирегиональную платформу, — нам стоит поговорить.

Нужна помощь, чтобы оценить это для вашей дорожной карты? Позвоните нам по номеру +7 (911) 236-51-91 или напишите на info@fora-soft.ru.

Разработка
Услуги
Технологии

Платформа	Задержка	Стоимость аватара	Лучше всего для	На что обратить внимание
Tavus CVI (Phoenix-4)	< 600 мс	37–75 ₽/мин	Продажи, медицинский триаж, консьерж	Дорого на малых объёмах
HeyGen Interactive	1–2 с	13–58 ₽/мин	Поддержка, HR, многоязычность	Lip-sync на речи с акцентом
D-ID Agents 2.0	1–2 с	Тарифы 449–3 675+ ₽/мес	Быстрый эмбед, SaaS-виджет	Lip-sync уступает HeyGen
NVIDIA ACE (self-hosted)	800 мс–1,2 с	GPU-ферма + лицензия	On-prem, регуляторика, кастом	Стартовая стоимость GPU и нагрузка на ops
Inworld AI + кастомный рендерер	700–900 мс	менее 1 ₽/мин (TTS)	Миграция с Soul Machines	Рендерер пишете сами
Synthesia / Hour One	Предрендер (батч)	2 250–75 000+ ₽/мес	Обучающие библиотеки, питч-видео	Не интерактивно — не путайте

Слой	Премиум (Tavus + ElevenLabs)	Сборка (LiveKit + ACE + Inworld)
STT	0,52 ₽/мин	0,37 ₽/мин
Реплика LLM	3 ₽/мин	1,5 ₽/мин
TTS	5,4 ₽/мин	0,6 ₽/мин
Рендеринг аватара	60 ₽/мин	9 ₽/мин (амортизированная GPU)
WebRTC-медиа	1,5 ₽/мин	1,5 ₽/мин
Итого «всё включено»	70 ₽/мин (705 000 ₽/мес)	12 ₽/мин (127 500 ₽/мес)

Слой	Рекомендуемый стек	Почему он выигрывает	Альтернативы
Приём DICOM	Orthanc + dcm4che	Open-source, соответствие IHE, надёжная деперсонализация	AWS HealthImaging, GCP Healthcare API
Деперсонализация	CTP + кастомный пиксельный OCR	Соответствие Supplement 142 плюс затирание текста, вшитого в пиксели	Presidio (пиксельный OCR), MIRC-CTP
Хранилище	S3 c SSE-KMS + Object Lock	AES-256 в покое, неизменяемое хранение, аудит-цепочка на 6 лет	Azure Blob с immutable-политиками, GCS Bucket Lock
База данных	RDS Postgres c шифрованием + pgAudit	Реляционная строгость для клинических данных, шифрование PHI на уровне полей	Azure Database for PostgreSQL, Cloud SQL
Идентификация	Cognito / Auth0 + MFA + SCIM	SSO с больничным IdP, обязательная MFA, авто-деактивация по SCIM	Okta, Azure AD B2C, Keycloak
Просмотрщик	OHIF + Cornerstone3D	Без установки, FDA-уровень, мощный API аннотирования	3D Slicer, Weasis
Аудит и логирование	CloudTrail + CloudWatch + S3 Object Lock	Хранение с защитой от подделки на 6 лет, как требует HIPAA	Azure Monitor + Immutable Blob, Loki + S3
Секреты	AWS Secrets Manager + KMS	Автоматическая ротация, происхождение ключей, журнал аудита	HashiCorp Vault, Azure Key Vault
Интеграция	HL7 v2 + FHIR R4 + DICOMweb	Те же протоколы, на которых говорят Epic, Cerner, Sectra и PACS	Rhapsody, Mirth Connect
Сеть	VPC + приватные эндпоинты + WAF	Никакого публичного egress PHI, TLS 1.3 на каждом хопе	Azure VNet, GCP VPC + Private Service Connect

Стандарт	Кто требует	Типичная стоимость	Сроки
HIPAA	Любой американский медицинский заказчик	Внутренняя аттестация — внешнего сертификата нет	Постоянно
SOC 2 Type II	Большинство больниц США, B2B SaaS	1,8–4,5 млн ₽ аудит + платформа	6 месяцев наблюдения + 1–2 месяца аудита
HITRUST i1	Крупные больницы США (250+ коек)	4,5–11 млн ₽	6–9 месяцев
HITRUST r2	Корпоративные системы здравоохранения, страховщики	11–30 млн ₽	12–18 месяцев
FedRAMP Moderate	VA, DoD, федеральные медицинские агентства	37–150 млн ₽	18–36 месяцев
ISO 27001 / 27701	Заказчики из ЕС, глобальные корпорации	2,2–9 млн ₽	6–12 месяцев
GDPR / EU MDR	Любое развёртывание в ЕС	1,5–6 млн ₽ DPIA + юристы	Постоянно

Этап	Сроки	Объём	Бюджет
HIPAA-готовый MVP	4–6 месяцев	Orthanc + OHIF + шифрованное хранение + аудит + BAA + SSO	7,5–16 млн ₽
SOC 2 Type II	6 месяцев + 1–2 месяца аудита	Политики, контроли, доказательства, аудиторские сборы	1,8–4,5 млн ₽
HITRUST i1	6–9 месяцев	180+ контролей, гонорары ассессоров, устранение замечаний	4,5–11 млн ₽
Расширение под FDA 510(k)	9–15 месяцев	QMS, клиническая валидация, подача документов	11–30 млн ₽
Opex со 2-го года	Постоянно	HIPAA-облако, пентест, аудиты, инженер по безопасности	13–37 млн ₽/год