
Главное
• Стоковый Agora SDK позволяет запустить рабочий звонок за пару дней. Кастомная разработка на Agora запускает защищённый продукт. Граница между ними — запись, ИИ-агенты, white-label и комплаенс, а не сама возможность звонить.
• Три статьи расходов Agora незаметно сжигают бюджет: запись, тарифицируемая по каждому участнику (5 хостов = 5 сервисных минут на каждую минуту), включённый, но неиспользуемый STT в тихих сессиях, и зависящая от разрешения цена видео, которая быстро растёт на HD и 4K.
• Главное открытие 2026 — Conversational AI Engine. При полной стоимости 0,99 ₽ за минуту работы агента (по курсу 75 ₽/USD) голосовые агенты на Agora конкурентоспособны, но интеграция с OpenAI Realtime, Anthropic и ElevenLabs нетривиальна, и именно здесь большинство команд хотят видеть рядом партнёра.
• Выбирайте платформу по географии и нагрузке. Agora выигрывает в Юго-Восточной Азии и Латинской Америке для чистого RTC; LiveKit — для продуктов с упором на ИИ-агентов; Daily — за самый быстрый запуск; Zoom Video SDK — официальный путь миграции с Twilio Programmable Video.
• Фора Софт выпускала видеопродукты на Agora, WebRTC, LiveKit и Twilio в телемедицине, фитнесе, e-learning и live-эвентах. Мы подскажем, какая платформа подойдёт вашему продукту и какие статьи расходов ударят по бюджету на шестом месяце.
Почему Фора Софт написала этот плейбук по Agora
Фора Софт занимается видео, аудио и продуктами с коммуникацией в реальном времени с 2005 года — более 320 видеопродуктов выпущено, проаудировано, отмасштабировано или мигрировано между провайдерами. Мы писали серверы токенов, строили кластеры записи, выдерживающие 50-кратные пики нагрузки, интегрировали Conversational AI Engine с OpenAI Realtime и ElevenLabs, а также мигрировали целые кодовые базы с Twilio Programmable Video на Zoom Video SDK после того, как Twilio закрыл этот продукт в декабре 2024.
Мы используем Agora, когда география (Юго-Восточная Азия, Латинская Америка, часть Африки) требует её edge-присутствия, когда нагрузка приходится на Interactive Live Streaming или когда требования к комплаенсу в телемедицине и образовании клиента диктуют гео-фенсинг и запись на стороне клиента. Мы не используем её, когда фреймворк агентов с открытым исходным кодом у LiveKit подходит лучше или когда готовый UI Daily.co позволяет выпустить продукт быстрее. Цель этой статьи — сделать выбор очевидным для вашего продукта, а затем объяснить, как на самом деле выглядит кастомная разработка на Agora в 2026 году: архитектура, цены, ловушки и то, какого партнёра стоит искать.
В качестве конкретного подтверждения посмотрите на наши работы Perspire.tv (стриминг живых фитнес-занятий с интерактивными сессиями и низкой задержкой), CirrusMED (телемедицина, соответствующая HIPAA), BrainCert (виртуальный класс LMS на WebRTC) и VOLO.live (синхронный перевод мероприятий в реальном времени). Каждый из них сделал свой выбор платформы — и каждый выбор выдержал нагрузку.
Нужен второй взгляд на Agora и альтернативы?
30-минутный звонок со старшим инженером, который выпускал продукты на Agora, LiveKit, Daily, Twilio и Zoom Video SDK. Расскажите о вашей нагрузке, а мы укажем на статьи расходов, которые ударят при масштабировании.
Что Agora представляет собой в 2026 году — продукты и недавние обновления
Agora.io — провайдер CPaaS (Communications-Platform-as-a-Service), который держит собственную глобальную edge-сеть SD-RTN (Software-Defined Real-Time Network) с более чем 200 дата-центрами в более чем 200 странах и регионах. По последним публичным данным платформа обрабатывала десятки миллиардов минут в месяц, а её крупнейшие вертикали — телемедицина, социальное аудио, онлайн-образование, фитнес-стриминг и live-коммерция.
В 2026 году Agora предлагает девять продуктовых линеек, которые имеют значение для кастомной разработки:
Девять продуктов Agora, которые вы реально используете
1. Voice and Video SDK. Базовый SDK для звонков один на один и в небольших группах для iOS, Android, веба и десктопа. Кодек AV1 находится в бета-версии для веба и даёт снижение битрейта на 42% относительно H.264.
2. Interactive Live Streaming. До 128 одновременных хостов в канале и неограниченная аудитория в режиме broadcast — именно это масштабирует комнаты за пределы дефолтного лимита в 17 хостов, который застаёт команды врасплох.
3. Сигнализация и RTM. Глобальная средняя задержка ниже 200 мс для presence, состояния комнаты, чата и метаданных. Этот слой большинство команд недооценивает: он несёт каждое UI-улучшение, которое делает звонок ощутимо премиальным.
4. Chat. Омниканальный API внутриаппового обмена сообщениями. Большинство кастомных проектов заменяют его Stream или Sendbird, но он работает из коробки.
5. Cloud Recording. Индивидуальный режим (исходные потоки), композитный (микширование на сервере) и режим отложенного транскодирования (только аудио, обрабатывается в течение 24 часов для экономии). Водяные знаки и модерация скриншотов идут как дополнения.
6. On-Premise Recording SDK. Поток со стороны Agora расшифровывается только на вашей собственной инфраструктуре — вариант, который позволяет реально пройти аудиты HIPAA, GDPR и SOC 2.
7. Conversational AI Engine. Версия 2.5 вышла в апреле 2026 с пересмотренными ценами. Нативная интеграция с OpenAI Realtime API, Anthropic, ElevenLabs и другими провайдерами LLM/TTS. Встроенное эхоподавление, шумоподавление и интеллектуальное распознавание пауз, которое решает проблему «агент перебивает пользователя».
8. Real-Time STT. Selective attention lock для идентификации говорящего и шумоподавления в групповых сессиях. Тарифицируется поминутно вне зависимости от того, говорит ли кто-то — это одна из статей расходов, которые мы отмечаем в разделе 5.
9. Cloud Player. Подаёт предзаписанное медиа в живой канал как ещё одного участника — строительный блок для функций «VJ», занятий с инструктором в фитнесе и демо в live-коммерции.
Обновления платформы в 2025–2026, на которые стоит обратить внимание
Conversational AI Engine v2.5 (апрель 2026). Пересмотренные поминутные цены и обновлённые комплекты TTS/LLM. Новая тарификация делает постоянно работающих голосовых агентов ощутимо дешевле кастомных цепочек STT-LLM-TTS для большинства продуктов.
Исходящие звонки для ИИ-агентов (ноябрь 2025). Агенты теперь могут инициировать звонки сами — это разблокирует напоминания о встречах, опросы, квалификацию лидов и проактивную работу с клиентами.
Поддержка мультимодальных LLM (июль 2025). Аудио, текст и изображения как входы в одном контексте агента. Полезно для агентов поддержки, которые могут увидеть скриншот ошибки.
Бета AV1 для веба (2025). Снижение битрейта на 42% относительно H.264 и кодирование на 25% быстрее x264. Критично для рынков с низкой пропускной способностью — при условии, что вы оставляете H.264 и VP8 как фолбэки для старых устройств.
Стоковый Agora SDK против кастомной разработки на Agora — в чём реальная разница
Большинство статей про Agora смешивают SDK для звонков и саму платформу в одно. Это разные вещи. SDK для звонков — коммодити: можно скопировать пример приложения, вставить свой App ID и получить рабочий двусторонний звонок в браузере за несколько часов. Продукты выигрывают или проигрывают на всём, что вокруг звонка: безопасность токенов, запись, ИИ-агенты, white-label-темизация, удержание, модерация, наблюдаемость и комплаенс.
Берите стоковый Agora SDK, если: вам нужен однотенантный звонок один на один или в малой группе, без записи, без ИИ, аудитория ≤ 17 хостов и нет требований из регулируемой отрасли. Старший разработчик выпускает такое за две-три недели.
Берите кастомную разработку на Agora, если: нужна запись с кастомными правилами хранения или редактирования, white-label или мультитенантность, голосовые ИИ-агенты, > 17 хостов, комплаенс HIPAA/GDPR/SOC 2, кастомная сигнализация, гибридный фолбэк через CDN или потенантная аналитика. Закладывайте 8–16 недель на первую продакшен-версию.
Двенадцать сценариев, которые требуют кастомной разработки на Agora
В наших проектах на Agora это конкретные моменты, когда команды понимают, что переросли стоковый SDK. Если в вашем roadmap встречаются хотя бы два пункта — вы уже на территории кастомной разработки.
1. Мультитенантный white-label. Одно приложение, N клиентских брендов, изолированные каналы, тематические токены под каждый тенант. В стоковом SDK нет понятия тенантов — этот слой строите вы.
2. Запись с кастомным сроком хранения или редактированием. 90 дней хранения для одного тенанта, семь лет для другого (HIPAA), автоматическое удаление PII в транскриптах, региональные S3-бакеты. Ничего из этого нет в стоковом UI записи.
3. Пайплайн ИИ-модерации. Проверка кадров в реальном времени плюс асинхронный разбор готовых записей, с движком политик и журналом аудита. Добавляет около 500 мс задержки на real-time-плече.
4. Транскрипция в реальном времени плюс перевод. Синхронизированные субтитры, диаризация говорящих, двухпроходный перевод. Просто STT — одна задача; вплести его в UI без поломок субтитров на слабых сетях — уже другая.
5. Интеграция разговорного ИИ-агента. Кастомная маршрутизация между OpenAI Realtime, Anthropic, ElevenLabs плюс fallback-логика и сохранение контекста разговора между сессиями. CAE упрощает это по сравнению с написанием с нуля — если вы знаете, каким стыкам можно доверять.
6. Гибридный CDN с фолбэком на RTMP/HLS. Когда аудитория переваливает за 100 тысяч одновременных зрителей, всё перестают пускать через SD-RTN и начинают зеркалить поток в CDN. Этот слой строите вы.
7. Кастомная логика сигнализации. Управление очередью, presence с лимитом ёмкости, состояния комнат («ожидание», «в процессе», «требуется модерация»), event-driven сайд-эффекты. Стоковый RTM даёт трубы; протокол ваш.
8. Серверный кластер записи с воркером модерации. Запись тяжела по fan-out. Канал с 5 хостами в композитной записи — это 5 сервисных минут на каждую минуту: оркестрация должна быть вашим кодом, а не дефолтами Agora.
9. Масштабирование за пределы 17 хостов. Interactive Live Streaming тянет до 128 хостов в канале и неограниченной аудитории — но только если правильно спроектированы роли publish/subscribe, кросс-канальная медиа-релейная схема и путь продвижения зрителя в хосты.
10. Региональный комплаенс. Гео-фенсинг для GDPR, ключи шифрования, управляемые клиентом, для HIPAA, размещение данных в конкретных регионах. Agora даёт примитивы; их связкой со своей моделью тенантов занимаетесь вы.
11. Оптимизация под низкую пропускную способность. Фолбэк с AV1 на H.264 на слабых устройствах, адаптивное разрешение и частота кадров через NQC, аудиорежим при < 100 кбит/с. Дефолты работают; для рынков-«хвостов» нужна тонкая настройка.
12. Кастомный аналитический дашборд. P95 задержки подключения, MOS, потери пакетов, предикторы оттока, стоимость минуты активного пользователя. Консоль Agora годится для SRE; это не тот дашборд, который вы покажете своему генеральному директору или операционной команде клиента.
Цены Agora в 2026 — и три статьи расходов, которые удивляют команды
Публичные поминутные цены Agora конкурентоспособны в чистом голосовом и видеозвонке. Команды получают по бюджету там, где сверху наслаивают рабочие нагрузки: запись, STT, ИИ-агенты и видео в высоком разрешении. Вот цены, которые имеют значение сегодня, плюс три статьи, которые мы регулярно проверяем на предмет неожиданных расходов.
Опубликованные цены Agora в 2026
Voice SDK, аудио: 74 ₽ за 1000 минут (0,07 ₽ за минуту). Самый дешёвый тариф на рынке для обычных голосовых звонков.
Video SDK: зависит от разрешения. SD дешевле HD; HD дешевле Full HD; 4K — отдельный тариф. Тарификация — за минуту потока, поэтому канал из 5 хостов даёт 5 минут потока на каждую минуту.
Conversational AI Engine: около 1,98 ₽ за минуту работы агента «всё включено» — Audio Basic (0,74 ₽) плюс ARES ASR (1,24 ₽) плюс RTC-аудио (0,07 ₽). Токены LLM и TTS оплачиваются вашему вендору LLM/TTS отдельно.
Real-Time STT: тарифицируется за каждую минуту, пока функция включена, а не за минуту, в которую кто-то говорит.
Cloud Recording: тарифицируется за сервисную минуту. Композитный режим (один смикшированный файл) тарифицирует микширование на сервере записи. Индивидуальный режим (один файл на хоста) тарифицирует каждый записанный поток.
Бесплатный тариф: 10 000 стандартных минут на проект в месяц (расширен в августе 2025). Хватит на полноценный пилот.
Три статьи, которые незаметно сжигают бюджет
Статья 1 — множитель записи. Композитная запись на звонке из 5 участников стоит около 5 сервисных минут на каждую реальную минуту. Индивидуальная запись на том же звонке — это 5 файл-минут плюс плата за транскодирование, если вы микшируете позже. Команды по привычке закладывают запись «один к одному»; на практике это 3–6× в зависимости от среднего размера канала. Проверьте средний размер канала до того, как взять обязательства.
Статья 2 — STT вхолостую. Если STT включён в канале, вы платите за каждую минуту независимо от того, говорит ли кто-нибудь. Мы аудировали приложения, где 60% сессионных минут были тихими (комнаты ожидания, очереди удержания, пассивное прослушивание в классе), а STT сжигал больше 75 000 ₽ в месяц впустую. Решение — включать STT поэлементно через управляющие хуки SDK, а не «всегда включён на канал».
Статья 3 — дрейф разрешения. Большинство приложений по умолчанию ставит видеопрофиль, поддерживающий HD. На телефонах в Латинской Америке это перебор — устройство и так не покажет 720p чётко. Мы регулярно экономим 25–40%, ставя ограничения разрешения на тенант или устройство и позволяя Network Quality Control адаптировать вниз. Математика: SD (480p) стоит примерно вдвое дешевле минуты HD (720p).
Сжигаете деньги на Agora и не понимаете, куда они уходят?
За две недели проведём аудит расходов на Agora: множитель записи, STT вхолостую, дрейф разрешения, наслаивание ИИ-агентов. Большинство аудитов вскрывает 20–40% управляемой экономии.
Agora против LiveKit, Daily, Twilio, Zoom Video SDK и AWS Chime
Правильная платформа зависит от микса нагрузок, географии и того, насколько вам нужен контроль над UX. Матрица ниже сжимает то, что мы обычно проговариваем с заказчиками во время скоупинг-звонка. Числа взяты с публичных страниц цен каждого вендора в 2026 году; качественные ячейки — из наших собственных продакшен-развёртываний на каждой платформе.
| Платформа | Аудио (за 1 тыс. мин) | Бесплатный тариф | Хосты / масштаб | ИИ-агенты | Кастомизация |
|---|---|---|---|---|---|
| Agora | 74 ₽ | 10 000 мин/мес | 128 хостов + миллионы зрителей | CAE + OpenAI Realtime | Средняя–высокая |
| LiveKit Cloud | ~300–1 800 ₽ за минуту трека | 5 000 мин/мес | Без лимита (с квотами) | Нативно — лучшее на рынке | Open-source, очень высокая |
| Daily.co | 300 ₽ (0,3 ₽/мин) | 10 000 мин/мес | Без лимита | Через интеграцию | Готовый UI — быстрый запуск |
| Zoom Video SDK | Цена по запросу | Не публикуется | Без лимита | Через интеграцию | Ограниченная (закрытая) |
| AWS Chime SDK | 127 ₽ (0,12 ₽/мин) | Нет | Настраивается | Через Bedrock / Polly | Enterprise / только AWS |
| Twilio Programmable Video | Не работает — закрыт в декабре 2024 | — | — | — | Мигрировать на Zoom Video SDK |
Для глубокого разбора самой частой переплавки платформ в 2026 читайте наш разбор стоимости LiveKit против Agora и сравнение архитектурных компромиссов WebRTC и Agora.
Короткий вердикт. Agora выигрывает в чистом RTC в Юго-Восточной Азии, Латинской Америке и части Африки благодаря edge-присутствию. LiveKit выигрывает на нагрузках с упором на ИИ-агентов и при потребности в open-source-контроле. Daily выигрывает, когда выпуск через две недели важнее поминутной цены. Zoom Video SDK — официальный путь миграции с Twilio Programmable Video. AWS Chime имеет смысл только если ваш стек уже нативно AWS.
Технические возможности Agora — ёмкость, задержка, кодеки, шифрование
Точное знание того, что платформа умеет и не умеет, — разница между архитектурой «по ходу разберёмся» и аккуратной. Вот цифры, которые мы держим перед глазами.
Ёмкость канала. Дефолтный лимит канала — 17 хостов. Interactive Live Streaming поднимает планку до 128 одновременных видеопубликаторов с неограниченной аудиторией в режиме broadcast. Каждый хост может одновременно подписываться максимум на 50 других хостов — ограничение, которое начинает мешать, когда вы строите большие комнаты разбивки.
Масштаб аудитории. Режим broadcast достаёт до миллионов пассивных зрителей. Кросс-канальная медиа-релейная связка (4–6 направлений) — путь для совместного хостинга и паттернов «сцена-арена».
Тиры задержки. Ultra-Low (медианно ниже 100 мс в крупных регионах), Low (100–200 мс), Standard (региональный фолбэк). Интеллектуальная маршрутизация SD-RTN держит медианную задержку ниже 200 мс глобально и ниже 100 мс в пределах региона.
Кодеки. H.264, H.265, VP8, VP9 и AV1 (бета на вебе). AV1 на 42% меньше по битрейту относительно H.264 и на 25% быстрее в кодировании, чем x264, но фолбэки H.264/VP8 нужно оставлять для старых устройств: принудительно ставить AV1 на пятилетний Android — значит не подключиться вовсе.
Шифрование. AES-128/256 при передаче по умолчанию. End-to-End-шифрование в бете с ключами под управлением клиента. On-Premise Recording SDK — вариант, чтобы расшифрованное медиа оставалось только на вашей инфраструктуре: тот самый стык, который реально проверяют на аудитах HIPAA и SOC 2.
Геопримитивы и комплаенс. Гео-фенсинг привязывает трафик к конкретным регионам для GDPR. HIPAA-совместимый сервис доступен по BAA. Доступны отчёты SOC 2 Type 2. Управляемые клиентом ключи на E2EE-каналах.
Эталонная архитектура для кастомной разработки на Agora
Большинство продакшен-развёртываний Agora сходятся к четырёхслойной архитектуре: клиенты, edge SD-RTN от Agora, ваш бэкенд (токен, аутентификация, запись, модерация, оркестрация ИИ) и слой данных (Postgres, объектное хранилище, аналитика, биллинг). Диаграмма ниже — та самая эталонная, которую мы рисуем на каждом скоупинг-проекте под Agora; правую колонку адаптируйте под вашего ИИ-вендора, а нижнюю строку — под ваше облако.
Рисунок 1. Эталонная архитектура для кастомной разработки на Agora — клиентский слой, edge SD-RTN, ваш бэкенд и слой данных с аналитикой.
Что где сидит и почему
Сервер токенов. Самая атакуемая поверхность в любом развёртывании Agora. Токены короткоживущие (срок 5–24 часа), привязаны к каналу и ограничены ролью (publisher/subscriber). Никогда не зашивайте App ID и сертификат в клиент; всегда выдавайте токены на сервере после аутентификации пользователя.
Кластер записи. Cloud Recording или On-Premise Recording SDK в зависимости от требований комплаенса. Композитный режим для сценариев «один MP4 на сессию»; индивидуальный — для пайплайнов с пост-обработкой. Оркестратор записи — ваш код: он решает, что записывать, когда стартовать и останавливаться, куда писать и какая политика хранения применяется.
Воркер модерации. Проверка кадров в реальном времени (Rekognition, Vision API, кастомные CV-модели) для живых каналов и асинхронная пакетная обработка готовых записей. Движок политик и журнал аудита живут здесь, а не в Agora.
ИИ-оркестратор. Мост между Conversational AI Engine от Agora и вашими провайдерами LLM/TTS (OpenAI Realtime, Anthropic, ElevenLabs). Владеет контекстом разговора между сессиями, fallback-логикой, шаблонами промптов и учётом стоимости.
Слой данных. Postgres для сессий и прав; S3/GCS для записей и транскриптов; ClickHouse или BigQuery для аналитики QoE; поминутный счётчик для атрибуции расходов. Именно счётчик стоимости говорит вам, что статьи 1–3 из раздела 5 вышли из-под контроля.
Разговорный ИИ на Agora — интеграция OpenAI Realtime и ElevenLabs
Conversational AI Engine — самая заметная функция Agora в 2026 году и область, в которой клиенты чаще всего просят помощи. Существует четыре продакшен-готовых паттерна интеграции. Мы поставили все четыре и имеем мнение, какой когда использовать.
Паттерн A — нативный CAE с подключёнными провайдерами
Используйте Conversational AI Engine от Agora целиком. Выбирайте из подключённых провайдеров LLM и TTS (OpenAI Realtime, Anthropic, ElevenLabs). Минимальная инженерная стоимость. Минимальный контроль. Лучше всего для агентов поддержки и сценариев в стиле FAQ, где не нужен кастомный граф промптов.
Паттерн B — кастомная цепочка STT → LLM → TTS
Захватываете аудио из Agora, прогоняете через свой STT (Deepgram, AssemblyAI, Whisper), вызываете свою LLM, прогоняете через свой TTS (ElevenLabs, Cartesia, OpenAI), публикуете обратно в канал. Максимальный контроль, максимальная инженерная стоимость. Подходит, когда нужна конкретная LLM, кастомный клон голоса или такая модель приватности, которая исключает ASR-вендоров Agora.
Паттерн C — гибрид: CAE на одно ухо, кастом на другое
CAE отвечает за входящий speech-to-text и распознавание пауз; ваш код — за LLM и TTS. Хорошая середина для продуктов, у которых уже есть свой граф промптов и пайплайн TTS, но нет желания строить шумоподавление и интеллектуальное распознавание пауз с нуля.
Паттерн D — мультимодальная оркестрация через агента
LLM-«агент» решает, какой саб-агент (голосовой, видео, текстовый) обрабатывает каждую реплику. CAE играет роль голосового канала; видео- и текстовые каналы — отдельно. Паттерн подходит для ИИ-репетиторов, видеоподдержки клиентов и помощи выездным инженерам.
Прикинутый пример стоимости пилота с голосовым агентом на 1000 минут в месяц
Допустим, у вас голосовой агент поддержки, который обрабатывает 1000 минут разговора в месяц. Agora CAE: 1 987 ₽. Токены OpenAI Realtime LLM (грубо): 2 250–4 500 ₽ в зависимости от размера промпта. ElevenLabs TTS: 1 500–3 000 ₽ в зависимости от тарифа голоса. Хранение и аналитика: около 375 ₽. Всё включено: примерно 6 000–9 750 ₽ в месяц на пилот. Та же нагрузка на кастомной цепочке STT→LLM→TTS обходится в 6 750–11 250 ₽ в месяц плюс 4–6 недель на сборку: CAE выигрывает на пилотах, кастом — когда вы переваливаете за 10 000 агент-минут в месяц и в счёте начинает доминировать стоимость токенов LLM.
Для более глубокого сравнения архитектур посмотрите наш гайд о том, как работают видео-ИИ-агенты, и плейбук по мультимодальным агентам на LiveKit для аналогичного паттерна на open-source-стороне.
Запись, транскодирование и модерация — как правильно
Запись — единственный самый крупный источник неожиданных расходов и провалов комплаенса, который мы видим в проектах на Agora. Решения здесь определяют как минимум три цифры, важные для CFO и комплаенс-офицера: стоимость хранения, множитель записи в счёте Agora и полнота журнала аудита.
Сначала режим записи, потом хранилище
Композитный режим. Серверное микширование выдаёт один MP4 на сессию. Самое дешёвое хранение, тяжелее всего редактировать (нельзя приглушить одного участника задним числом). Подходит для звонков поддержки, телемедицинских консультаций, реплеев классов.
Индивидуальный режим. Один файл на хоста. Самое дорогое хранение, проще всего редактировать (удалить один файл, заглушить один канал). Подходит для мультитенантных платформ с правилами хранения на пользователя и обязательствами по юридическому раскрытию.
Отложенное транскодирование (только аудио). Стримите сырое аудио в хранилище, транскодируете в MP3/M4A в течение 24 часов. Самый дешёвый путь для аудиосоциалок и образовательных продуктов. Экономит 30–50% на записи, если real-time-воспроизведение не нужно.
On-Premise Recording SDK. Поток со стороны Agora расшифровывается только внутри вашего VPC или дата-центра. Путь HIPAA / SOC 2. Стоимость настройки реальна, но окупается ровно в тот момент, когда аудитор спрашивает, где живёт расшифрованная PHI.
Стройте модерацию двумя пайплайнами, а не одним
Real-time-плечо. Семплируйте кадры с частотой 1–2 fps, отправляйте в AWS Rekognition, Google Vision или кастомную CV-модель. Добавляет около 500 мс задержки. Подходит для нюдитета, насилия, оружия, символов ненависти. Заглушайте канал или выкидывайте из звонка при превышении порога уверенности.
Асинхронное плечо. Прогоняйте готовые записи через более дорогую модель. Помечайте для ручной проверки. Приостанавливайте, штрафуйте или удаляйте провинившийся аккаунт. Записывайте вердикт в журнал аудита. Это плечо производит данные, важные для команды доверия и безопасности.
Три рабочих сценария на Agora, которые мы делаем чаще всего в 2026
В нашем портфолио в 2026 году доминируют три паттерна нагрузки. Если ваш продукт похож на один из них, архитектура над edge SD-RTN — это во многом проверенный шаблон, а кастомизация идёт в модели тенантов, в слое данных и в оркестрации ИИ.
Нагрузка 1 — телемедицина и регулируемое видео один на один. Один врач, один пациент, запись для комплаенса, ключи шифрования под управлением клиента, гео-фенсинг трафика и запись на стороне клиента, чтобы PHI не покидала инфраструктуру заказчика. Типичный размер канала: 2–3 хоста. Множитель записи: низкий. Слой ИИ: опциональные субтитры и live-перевод. Требования комплаенса определяют почти каждое архитектурное решение.
Нагрузка 2 — live-фитнес, образование и стриминг от авторов. Один инструктор, много зрителей, низкая задержка двусторонней связи для премиум-тарифов, запись для реплеев, монетизация через тарифы доступа. Типичный размер канала: 1 хост плюс 50–500 зрителей в группе с масштабированием до тысяч через broadcast. Множитель записи: средний. Слой ИИ: live-субтитры, нарезки лучшего после сессии на ИИ. Архитектурный перелом — на переходе от «сотен зрителей» к «10 000+ зрителей», когда вы начинаете зеркалить в CDN.
Нагрузка 3 — разговорные ИИ-агенты и поддержка с ИИ. Один человек, один ИИ-агент (или человек плюс ИИ-копилот), голос в реальном времени через CAE, маршрутизация LLM между OpenAI Realtime / Anthropic / ElevenLabs, контекст разговора сохраняется между сессиями. Типичный размер канала: 2 хоста. Множитель записи: низкий. Архитектурный перелом — в ИИ-оркестраторе: именно этот компонент чаще всего тормозит продукты на агентах.
Мини-кейс — как Фора Софт делает RTC-продукты на платформах класса Agora
Полезное доказательство паттерна, а не продажа. Два продакшен-проекта, которые показывают, как кастомная разработка RTC выглядит на практике.
Perspire.tv — стриминг живого фитнеса. Платформа, которая превращает инструкторов в стримеров с двусторонним коучингом и низкой задержкой. Мы построили архитектуру live-классов, пайплайн записи (композитный режим для реплеев, индивидуальный для разборов инструктора), внутриклассовый чат и потенантный аналитический дашборд. Продукт работает по модели «один инструктор — много участников» с низкой задержкой видео, чтобы инструктор видел и поправлял технику участников практически в реальном времени — нагрузка, под которую и был спроектирован Interactive Live Streaming.
BrainCert — виртуальный класс LMS на WebRTC. Платформа виртуального класса с доской, шарингом экрана, записью и субтитрами на ИИ. Мы спроектировали класс вокруг больших комнат разбивки (проблема лимита хостов из раздела 4 × 12 одновременных разбивок), оркестрации записи и воркера ИИ-модерации для безопасности младших учеников. Платформа сегодня обслуживает тысячи классов в сотнях учебных заведений по всему миру.
Каждый проект сделал свой выбор платформы — класс Agora для одной нагрузки, прямой WebRTC для другой. Искусство — в правильном выборе до старта и в построении окружающей архитектуры так, чтобы на шестой месяц вы не платили не за те статьи. Хотите такую же оценку для своего продукта? Свяжитесь с нами.
Как принять решение о кастомной разработке на Agora — пять вопросов
В1. Превысит ли когда-нибудь канал 17 хостов? Если да, вы на территории Interactive Live Streaming, и архитектура — кастомная. Лимит в 17 хостов — самая частая причина, по которой команды переходят со стокового SDK на кастом, обычно к четвёртому месяцу, когда организатор «эксклюзивного» мероприятия просит панель из 30 спикеров.
В2. Нужна ли запись с кастомными правилами хранения или редактирования? Если да — семь лет хранения по HIPAA, право на забвение по GDPR, специфичные сроки хранения по тарифам — вам нужен оркестратор записи, а не стоковый UI записи. Это кастомная разработка.
В3. Вы на территории HIPAA / GDPR / SOC 2? Если да, вам нужны гео-фенсинг, ключи шифрования под управлением клиента, запись на стороне клиента, журналы аудита и наблюдаемость уровня комплаенса. Стоковый SDK этого не даёт; примитивы платформы — да, и связку строит ваш код.
В4. Запускаете голосовых ИИ-агентов в ближайшие два квартала? Если да, вам нужна интеграция CAE плюс ваш стек LLM/TTS плюс ваш граф промптов плюс fallback-логика плюс счётчик стоимости. CAE сворачивает слой звонка; всё остальное собираете вы.
В5. Где сосредоточена ваша аудитория? Перевес в Юго-Восточную Азию / Латинскую Америку / Африку — edge-присутствие Agora выигрывает по времени подключения и потерям пакетов. Перевес в США/ЕС с продуктом-агентом — чаще выигрывают LiveKit или Daily. В основном enterprise с наследием Twilio Programmable Video — Zoom Video SDK — официальная миграция. В основном AWS-нативно — Chime SDK даёт минимальное сопротивление.
Застряли на В1–В5? Принесите нам ответы.
Пришлите три ваших главных ограничения по нагрузке, а мы вернёмся с рекомендацией «кастом или сток», прикидкой бюджета и 12-недельным планом запуска первой продакшен-версии.
Пять ловушек, с которыми мы чаще всего сталкиваемся в проектах на Agora
1. Распыление токенов. Токены выпускают со сроком 30 дней, без ограничения роли и привязки к каналу. Утёкший токен потом перехватывает каждый канал на месяц. Решение: срок 5–24 часа, ограничение роли (publisher/subscriber), привязка к конкретному каналу, маппинг к вашему внутреннему ID пользователя через сайдкар-таблицу.
2. STT вхолостую. STT включён на уровне канала в каждой сессии. 60% ваших минут — тихие комнаты ожидания. Вы сжигаете больше 75 000 ₽ в месяц на транскрипцию, которая не производит ни одного транскрипта. Решение: включать STT поэлементно через управляющие хуки SDK, а не на весь канал.
3. Перезапись. Композитная запись на канале из 5 хостов стоит около 5 сервисных минут на каждую минуту. Большинство команд закладывают 1×. Решение: выберите композитный или индивидуальный режим под модель редактирования, ставьте профили записи на каждый тенант и инструментируйте множитель записи в счётчике расходов.
4. AV1 включён принудительно на устаревших устройствах. AV1 хорош на рынках с современными устройствами. Если включить его принудительно на пятилетнем Android — звонок не подключится. Решение: оставляйте H.264 и VP8 в списке кодеков; пусть ACT от Agora выбирает автоматически; отключайте фолбэки только если вы это специально протестировали.
5. Нет стратегии фолбэка на слабых сетях. Дефолтное видео в высоком разрешении на 3G даёт буферизацию, замороженные кадры и всплеск оттока. Решение: включите Network Quality Control, фолбэк на аудиорежим при < 100 кбит/с, мониторьте потери пакетов через NetworkQuality API SDK и показывайте пользователю UI качества сети.
KPI, которые имеют значение — качество, бизнес, надёжность
KPI качества. P95 задержки подключения < 2,5 с. P95 потерь пакетов < 2%. Mean Opinion Score (MOS) для аудио > 4,0. Задержка субтитров < 800 мс при включённом STT. Это цифры, которые решают, останется ли пользователь после третьей минуты звонка.
Бизнес-KPI. Стоимость минуты активного пользователя (CPAUM) по тенантам. Удержание MAU 30 дней. Containment-рейт ИИ-агента (доля звонков, которые агент закрывает без эскалации на человека). Стоимость хранения записей как доля от общей инфраструктуры. Это связывает решения по платформе с выручкой и валовой маржой.
KPI надёжности. Доля успешно завершённых сессий > 99,95%. Успешная запись > 99,5%. Аптайм агента > 99,9%. Среднее время обнаружения инцидента на платформе Agora < 60 секунд (через ваш собственный QoE-пайплайн, а не консоль Agora). Слой надёжности — то, чем озабочена операционная команда заказчика в свою смену с 9 до 5.
Когда НЕ стоит выбирать Agora — и что использовать вместо
Agora — крепкий выбор по умолчанию для многих видео- и голосовых продуктов в 2026 году, но не универсальный. Вот когда мы направляем заказчиков в другую сторону.
Берите LiveKit, когда нагрузка идёт от ИИ-агентов. Open-source-фреймворк агентов у LiveKit — самый сильный на рынке, а тарификация за минуту трека выгоднее на нагрузках, где доминирует стоимость LLM. Математика разобрана в нашем сравнении стоимости LiveKit и Agora.
Берите Daily.co, когда выпуск за две недели важнее цены за минуту. Готовые React-компоненты UI, прозрачная плоская тарификация, самый быстрый запуск. Подходит для ранних продуктов, которым нужна первая версия в живую до следующего раунда инвестиций.
Берите Zoom Video SDK при миграции с Twilio Programmable Video. Twilio закрыл Programmable Video в декабре 2024 и направил клиентов на Zoom Video SDK как официальный путь миграции. Если вы на Twilio в 2026 году, путь наименьшего сопротивления — Zoom, а не Agora.
Берите AWS Chime SDK, когда стек уже AWS-нативный, а нагрузка — голосовая. 127 ₽ за 1000 минут аудио — самый дешёвый тариф на рынке. Подходит для IVR, бэкендов контакт-центров и голосовых B2B-инструментов, которые уже живут в AWS.
Берите чистый WebRTC, когда у вас одно-на-одно-связки и есть собственная сетевая экспертиза. Никакой поминутной SaaS-подписки. Огромная инженерная стоимость. Подходит только если у вас немного двусторонних звонков (1 на 1 в дейтинге, B2B-продажи), есть инженеры, чтобы держать TURN-серверы, и дисциплина мониторить потери пакетов самостоятельно. Подробный разбор компромиссов есть в нашей статье об архитектурных компромиссах WebRTC и Agora.
Что искать в партнёре по разработке на Agora
Большинство CPaaS-партнёров умеют собрать пример приложения. Куда меньше тех, кто способен поставить окружающую архитектуру. Пять вещей, на которые стоит проверять.
1. Три или больше продакшен-проектов на Agora. Не «мы оценивали Agora» и не «мы прочитали документацию». Реальные живые клиенты. Запросите кейсы и звонки с референсами.
2. Владеет инфраструктурой записи, а не только интеграцией SDK. Запись — место, где большинство проектов проваливается на масштабе. Партнёр, который интегрировал только SDK, не решил задачи хранения, редактирования, водяных знаков и комплаенса — и вы заплатите ему ещё раз, чтобы их решить.
3. Умеет проектировать под HIPAA / SOC 2 / GDPR. Гео-фенсинг, ключи под управлением клиента, запись на стороне клиента, журналы аудита, архитектура сервисов, доступная под BAA. Требования комплаенса закладываются на второй неделе, а не на 22-й — берите партнёра, который это знает.
4. Мигрировал команды между CPaaS-провайдерами. Twilio → Agora, Agora → LiveKit, Zoom → Agora. Шрамы от миграций — и есть тот опыт, который подскажет, какая платформа подходит под какую нагрузку. Команда, которая выпускала только на одной платформе, такого опыта дать не сможет.
5. Владеет интеграцией разговорного ИИ от и до. Не только CAE. Выбор LLM, граф промптов, тонкая настройка голоса TTS, счётчик стоимости, фолбэк, когда у OpenAI Realtime сбоит. Стыки между RTC и ИИ — место, где большинство агентских проектов разваливается в продакшене. Наша практика интеграции ИИ существует ровно для этого стыка.
Часто задаваемые вопросы
Сколько стоит кастомная разработка на Agora?
Для продакшен-готовой первой версии — сервер токенов, запись, интеграция ИИ-агента, кастомный UI, мультитенантная модель, базовая модерация — закладывайте 8–16 недель работы старших инженеров. Точные цифры зависят от нагрузки, но диапазон, который мы регулярно скоупим, заметно ниже исторических оценок интеграции CPaaS из 2022–2024 годов, потому что разработка с участием ИИ ускоряет сборку. Мы не публикуем плоскую цифру, потому что разница между однотенантным звонком один на один и мультитенантным разговорным ИИ-агентом по HIPAA огромна; нам проще оценить это под вашу нагрузку.
Совместима ли Agora с HIPAA?
Agora HIPAA-совместима по соглашению BAA для покрытых сервисов. Архитектура под HIPAA обычно объединяет гео-фенсинг трафика, запись на стороне клиента, чтобы PHI расшифровывалась только в вашем VPC, ключи шифрования под управлением клиента и полный журнал аудита на вашей стороне. Agora даёт примитивы; комплаенс — это архитектура, которую вы строите из них. Мы выпускали HIPAA-телемедицину на этом стеке — смотрите CirrusMED.
Может ли Agora полностью заменить WebRTC?
Agora под капотом построен на WebRTC — выбор не «Agora против WebRTC», а «управляемый CPaaS против самостоятельного peer-to-peer плюс серверы TURN/SFU». Agora меняет поминутную плату на собственную edge-сеть, наблюдаемость и запись. Чистый WebRTC меняет деньги на инженерное время. Для двусторонних связок и зрелых сетевых команд чистый WebRTC всё ещё выигрывает по стоимости. Для остальных CPaaS вроде Agora запускается раньше и дольше остаётся на ходу. Полный разбор — в нашей статье об архитектурных компромиссах WebRTC и Agora.
Сколько обычно занимает MVP на Agora?
MVP на стоковом SDK — звонки один на один, базовый UI, без записи и ИИ — выпускается за 2–4 недели старшим инженером. Кастомный MVP с сервером токенов, записью и простым ИИ-агентом — за 8–12 недель. Мультитенантный white-label, совместимый с HIPAA, с ИИ-агентом — первая версия за 12–20 недель плюс ещё 8–12 недель доводки до серьёзного запуска.
Поддерживает ли Agora end-to-end-шифрование?
Да — AES-128/256 с ключами под управлением клиента находится в бете. AES-128/256 при передаче по умолчанию. End-to-end-шифрование (когда Agora вообще не может расшифровать медиа) — опт-ин в бете; ключи поставляете и ротируете вы сами. E2EE сейчас не поддерживается в режиме записи на стороне клиента — эта деталь обычно всплывает поздно, на этапе обзора комплаенса.
Дешевле ли Agora, чем LiveKit, для голосовых ИИ-агентов?
Зависит от доли стоимости LLM. На небольших объёмах токенов LLM комплект CAE от Agora (1,98 ₽ за минуту работы агента всё включено) конкурентоспособен. На больших объёмах, где доминируют токены LLM, open-source-фреймворк агентов LiveKit плюс ваш собственный контракт с провайдером LLM часто выигрывает, потому что цена LLM напрямую согласовывается. Чисто RTC-цена — на стороне Agora; чистая оркестрация агентов — на стороне LiveKit.
Какова максимальная аудитория канала Agora?
128 одновременных видеопубликаторов на канал и неограниченная аудитория в режиме broadcast — на практике до миллионов пассивных зрителей. Дефолтный лимит в 17 хостов касается только базового Voice/Video SDK; Interactive Live Streaming поднимает планку. Каждый хост может одновременно подписываться максимум на 50 других хостов — это важно для очень больших паттернов комнат разбивки.
Как интегрировать OpenAI Realtime с Agora?
Два пути. Путь A: использовать Conversational AI Engine и выбрать OpenAI Realtime из подключённых провайдеров — минимальная инженерная стоимость, минимальный контроль. Путь B: захватывать аудио из канала Agora на сервере, отправлять в OpenAI Realtime через WebRTC или WebSocket, публиковать ответ обратно в канал как ещё одного участника — максимальный контроль, больше связки. Мы используем путь A для пилотов и простых случаев, а путь B — когда продукту нужны кастомные графы промптов, клонирование голоса или строгая привязка данных к региону на стороне провайдера LLM.
Что почитать дальше
Архитектура
WebRTC vs Agora: компромиссы архитектуры в 2026
Когда строить свой peer-to-peer плюс TURN, а когда поминутная SaaS-плата — более дешёвое инженерное решение.
Анализ стоимости
LiveKit против Agora: разбор стоимости
Постатейная математика на нагрузках с упором на ИИ-агентов и примеры, когда побеждает каждая платформа.
Гайд по сборке
Как сделать приложение для видеозвонков на Agora SDK в 2026
Архитектура, бюджет и пути миграции на LiveKit или Zoom Video SDK, если перерастёте Agora.
Масштабирование
Масштабирование видеостриминга до миллиона зрителей
Гибридный CDN, фолбэк на RTMP/HLS, кросс-канальная медиа-релейная связка — архитектура за пределами 17-хостового лимита.
Стратегия
Нанять компанию по WebRTC или строить in-house?
Прагматичный фреймворк решения для найма команды на видео и RTC-продукты в 2026 году.
Готовы заставить Agora работать на ваш продукт?
Услуги кастомной разработки на Agora существуют, потому что SDK для звонков — это лёгкая часть. Архитектура вокруг него — сервер токенов, кластер записи, воркер модерации, ИИ-оркестратор, счётчик стоимости, потенантная аналитика — и есть та часть, которая решает, будет ли продукт защищённым на масштабе, проходящим аудит и прибыльным на шестом месяце. Выбирайте платформу по географии и нагрузке (Agora выигрывает RTC в Юго-Восточной Азии и Латинской Америке; LiveKit — на агентских нагрузках; Daily — на скорости запуска; Zoom — миграция с Twilio). А затем стройте архитектуру так, чтобы три статьи расходов из раздела 5 не застали вас врасплох.
Если вы на этапе скоупинга, самый полезный следующий шаг — 30-минутный звонок с тем, кто выпускал продукты на нескольких CPaaS и подскажет, какие статьи расходов ударят на вашем масштабе. Мы скажем, правильный ли выбор Agora — даже если ответ «возьмите LiveKit». Цель — защищённый продукт, а не продажа платформы.
Заставьте Agora работать на ваш продукт
30-минутный скоупинг-звонок со старшим инженером, который выпускал в продакшен Agora, LiveKit, Daily, Twilio и Zoom Video SDK. Вернёмся с рекомендацией «кастом или сток», бюджетным коридором и 12-недельным планом запуска.

