
Главное
• Собственная система видеоконференций выигрывает за счёт рабочих процессов, данных и бренда — а не потому, что «это ещё один Zoom». Готовые сервисы утекают вашими данными, ограничивают интеграции и размывают бренд. Собственное решение снимает все три потолка.
• SFU — архитектура по умолчанию в 2026 году. P2P для 1:1, SFU для 3–50 участников, MCU — когда нужен один объединённый поток. Гибрид — для крайних случаев.
• Безопасность уровня multi-DRM: E2EE (SFrame), HIPAA, GDPR, SOC 2 — обязательный минимум. Корпоративные закупки без них не подпишут договор.
• AI-слой — ключевой дифференциатор 2026 года. Живые субтитры, перевод, саммари, анализ тональности, AI-агенты на звонках — продукты без них сейчас выглядят устаревшими.
• Фора Софт выпускает видеоконференц-продукты с 2005 года — ProVideoMeeting, BrainCert, Cloud Doctors, MyOnCallDoc, Video Interpretations, Tyxit. Каждый паттерн в этом гайде проверен в продакшене.
Почему именно Фора Софт написала этот гайд
Видеоконференции на заказ — наша родная стихия. Фора Софт выпустила более 200 real-time- и видеопродуктов с 2005 года, входит в топ мультимедийных компаний GoodFirms, имеет рейтинг 4,9 на Clutch. Среди наших конференц-продуктов — ProVideoMeeting (корпоративный WebRTC с легальной электронной подписью), BrainCert (первая в мире виртуальная аудитория на HTML5+WebRTC), Cloud Doctors и MyOnCallDoc (HIPAA-телемедицина), Video Interpretations и Tyxit (музыка и совместная работа).
Этот гайд сжимает два десятилетия инцидентов, переговоров с закупками и архитектурных ревью в один прикладной плейбук на 2026 год. Он написан для CTO, продуктовых лидов и нетехнических основателей, которым нужно прийти на встречу по скоупу с реальным планом, а не презентацией «как заменить Zoom».
Планируете собственный продукт для видеоконференций?
30-минутный звонок с архитектором, специализирующимся на видео. Выбор архитектуры, базовый функционал, реалистичная оценка объёма работ.
Что значит «собственная видеоконференция» в 2026 году
Это не «построить всё с нуля». В 2026 году собственное решение означает владеть продуктовой поверхностью — UX, бизнес-правилами, интеграциями, брендингом, данными, — используя проверенную инфраструктуру под капотом. Типовая анатомия:
- Собственный код: UX встречи, расписание, авторизация, права доступа, интеграции с вашим продуктом, аналитика, модерация.
- Управляемая или open-source инфраструктура: медиа-слой (LiveKit, mediasoup, Jitsi, Agora, Daily), транскрибация, запись.
- Слой дифференциации: то, что делает ваш рабочий процесс лучше Zoom — медицинские карты в телемедицине, юридическая электронная подпись, контекст торговой площадки, доска для виртуальной аудитории.
Именно из-за этой схемы «собственная поверхность, управляемое медиа» компетентная команда продукта для видеоконференций в 2026 году — это 5–9 инженеров, а не 25.
Когда стоит делать собственное решение (и когда нет)
Делайте собственное, когда: видеоконференция — это функция большего продукта (EHR, LMS, аукциона, брокерской платформы) или у вас есть рабочий процесс, который Zoom/Teams не могут смоделировать (юридическая подпись, прокторинг экзамена, документооборот суда).
Используйте встраиваемый/готовый SDK, когда: видеоконференция — небольшое дополнение, 1:1 или маленькие группы, менее 1000 встреч в месяц, дифференциация не нужна. Daily Prebuilt, Whereby Embedded, Twilio Video подходят хорошо.
Оставайтесь на Zoom/Teams/Meet, когда: пользователям просто нужна ссылка на встречу, вы не владеете пользовательским опытом, соответствие требованиям — забота ИТ-отдела, а не ваша.
Эталонная архитектура для собственной системы видеоконференций
Семь плоскостей, независимые SLO, развязанные деплои. Один и тот же паттерн, отгружаете вы 10 или 100 000 одновременных комнат — меняются только цифры в блоках.
- Клиентская плоскость: веб (hls.js + WebRTC), iOS, Android, React Native, Electron, smart TV и конференц-залы.
- Сигнальная плоскость: сигнализация по WebSocket/SIP, токены авторизации, состояние входа/выхода из комнаты.
- Медиа-плоскость: кластер SFU/MCU (LiveKit, mediasoup, Janus, Jitsi, Agora SD-RTN, Daily).
- Прикладная плоскость: расписание, права, биллинг, интеграции, рассылка вебхуков.
- Плоскость записи/хранения: композитная и по-пользовательская запись MP4 в S3/GCS плюс политики жизненного цикла.
- AI-плоскость: транскрибация в реальном времени, перевод, саммари, модерация, помощь агентов.
- Плоскость наблюдаемости: QoS медиа, продуктовая аналитика, инцидент-алерты — ваши собственные плюс метрики платформы.
Самая частая продакшен-ошибка, которую мы видим: сигнализация и медиа на одних и тех же серверах. Один перезапуск сигнализации убивает звонок. Разделяйте их с первого дня.
P2P vs SFU vs MCU vs гибрид — выбираем топологию
1. P2P (mesh). Каждый участник отправляет своё видео всем остальным. Нулевая стоимость серверного медиа, простейшая интеграция, ломается на 4–5 участниках, потому что исходящая полоса пропускания растёт как N-1. Подходит для приёмов 1:1 у врача, продаж, клиентской поддержки.
2. SFU (Selective Forwarding Unit). Каждый участник отправляет один поток на SFU, а SFU пересылает каждый поток без изменений всем остальным. Серверный CPU дешёвый (нет транскодирования), полоса хорошо масштабируется до ~50 участников в комнате. По умолчанию в 2026 году.
3. MCU (Multipoint Control Unit). Сервер сводит все потоки в один композитный и отправляет его обратно каждому участнику. Клиент получает равномерно низкую полосу, сервер берёт на себя тяжёлый CPU. Используйте, только когда продукту нужен один объединённый поток (вещание, SIP-интероп, унаследованные STB-устройства).
4. Гибрид SFU+MCU / каскадированный SFU. Мультирегиональный кластер SFU с межрегиональным каскадированием для глобальной аудитории, MCU-эндпоинт для SIP или унаследованных интеграций. Это то, что мы отгружаем для продуктов корпоративного масштаба (более 1000 одновременных комнат).
Полный разбор с бенчмарками и нашими рекомендуемыми стеками есть в нашем гайде по архитектуре WebRTC на 2026 год.
Сравнительная матрица архитектур
| Топология | Макс. участников | Задержка | Профиль серверных затрат | Типичное применение | Безопасность |
|---|---|---|---|---|---|
| P2P (mesh) | 2–4 | < 200 мс | Близко к нулю (только TURN) | Телемедицина 1:1, звонки продаж | E2EE по умолчанию |
| SFU | 5–50 на комнату | 150–400 мс | ~3 750–37 500 ₽/мес на 100 одноврем. | Командные встречи, учебные классы, групповая телемедицина | SFrame для E2EE |
| MCU | Масштаб вещания | 300–800 мс | Самые высокие (транскодирование) | Суд, SIP-интероп, унаследованные STB | E2EE невозможен (композитинг) |
| Гибрид / каскадированный SFU | Тысячи | < 400 мс глобально | Число регионов × парк SFU | Корпоративные сценарии, глобальные вебинары | SFrame + ключи по регионам |
Build vs buy: собственный код, встраиваемый SDK или white-label
Три пути покрывают 90% продуктов. Выбирайте тот, что соответствует вашему бюджету на дифференциацию.
1. White-label Zoom/Whereby/Pexip. Самый быстрый выход на рынок (недели), самые высокие постоянные лицензионные платежи, самая низкая дифференциация. Подходит для B2B-продуктов, где видеоконференция — галочка в списке функций.
2. Встраиваемый SDK поверх управляемого медиа. Делаете UX в своём приложении, подключаете Agora / Daily / Twilio / LiveKit Cloud в качестве медиа-плоскости. 12–20 недель до V1, средняя дифференциация, предсказуемая юнит-экономика. Золотая середина для большинства собственных конференц-продуктов в 2026 году.
3. Полностью собственное решение на self-hosted SFU. Владение всем, включая кластер SFU (self-hosted LiveKit, mediasoup, Janus). 16–28 недель до V1, наивысшая дифференциация, наивысшие требования к SRE. Оправдано выше ~10 млн медиа-минут в месяц или при ограничениях по data-residency.
См. также наш разбор разработки на Agora SDK и альтернатив Agora для выбора вендора управляемого медиа.
Базовый функционал, который пользователи ожидают в 2026 году
Меньше — и пользователи отвалятся на первом же звонке. Всё это нужно отгружать в V1:
- Ядро: вход с аудио/видео, mute, переключение камеры, список участников, режимы спикера и сетки, скриншаринг, чат, поднять руку, реакции.
- Качество: адаптивный битрейт, simulcast, шумоподавление, эхоподавление, виртуальный/размытый фон.
- Управление встречей: расписание через календарь, dial-in номер, зал ожидания, лобби, права хоста, опросы, Q&A, breakout-комнаты.
- Запись и воспроизведение: облачная запись (композитная и по-пользовательская), скачивание MP4, политика хранения.
- Мобильные: нативные iOS и Android с PiP, маршрутизация Bluetooth-аудио, интеграция CallKit/ConnectionService.
- Безопасность: пароли встреч, блокировка комнат, опция E2EE, SSO/SAML, права на основе ролей.
- Админка: дашборды использования, аудит-логи, настройки по тенантам, тарифные планы, вебхуки для интеграций с CRM/LMS.
Дифференциация строится поверх этого, а не внутри — ваш рабочий процесс, ваши интеграции, ваш AI.
AI-слой: что реально окупается
К 2026 году видеоконференц-продукт без AI выглядит недоделанным. Функции с доказанным ROI в порядке приоритета:
1. Субтитры и перевод в реальном времени. ASR уровня Whisper + NLLB на 50+ языков. Обязательный минимум для международных команд и доступности. Самый большой подъём retention, который мы измеряем.
2. Саммари встречи и action items. Сгенерированное LLM саммари приходит на почту в течение 5 минут после окончания звонка. Claude/GPT с заземлённым RAG поверх транскрипта встречи.
3. Шумо- и эхоподавление. Модели уровня RNNoise + Krisp/NVIDIA Maxine. Больше никаких звонков из кофейни, звучащих как кофейня.
4. Аналитика тональности и вовлечённости. Метрики тональности, внимания и участия в реальном времени. Полезно для продаж, обучения, customer success.
5. AI-агенты на звонках. Голосовые агенты, которые ведут заметки, отвечают на вопросы по продукту или вызывают инструменты в реальном времени. Работают и Agora Conversational AI Engine, и LiveKit Agents.
Подробные разборы: AI-функции в видеоконференциях, AI-конференц-решения, живой перевод в реальном времени и распознавание эмоций.
Безопасность и соответствие требованиям (E2EE, HIPAA, GDPR, SOC 2)
E2EE через SFrame. Медиа шифруется на прикладном уровне до попадания на SFU, поэтому SFU пересылает только шифротекст. Это отключает серверную запись и транскрибацию, если только не обрабатывать их через insertable streams на клиенте — зато даёт реальную сквозную конфиденциальность.
HIPAA. BAA с вендором медиа, BAA с хранилищем записей, аудит-логи каждой сессии, доступ к PHI по ролям, автоматические таймауты сессий. Мы выпустили HIPAA-совместимые конференции для Cloud Doctors и MyOnCallDoc — полный чеклист есть в нашем гайде по HIPAA-видеоплатформе.
GDPR. Маршрутизация медиа через регион ЕС, DPA с каждым обработчиком данных, настраиваемое хранение записей, рабочий процесс «права на удаление», который реально удаляет записи, транскрипты и метаданные.
SOC 2 Type II. Ежегодный аудит, непрерывный мониторинг, сканирование кода на каждом PR, ревью рисков вендоров. Корпоративные закупки спросят — готовьтесь заранее.
Клиенты: веб, iOS, Android, переговорные устройства
Веб. Нативный WebRTC, hls.js для воспроизведения записей, фолбэк на только аудио при просадке полосы, еженедельное тестирование в Chrome/Safari/Firefox/Edge.
iOS. Нативный Swift + CallKit, чтобы звонки выглядели нативно в системном UI, режим AVAudioSession .voiceChat, PiP для свёрнутого видео.
Android. Нативный Kotlin + ConnectionService, foreground-сервис, чтобы ОС не убивала длинные звонки, AudioManager, настроенный под маршрутизацию громкой связи/Bluetooth.
Кросс-платформа. React Native или Flutter экономят 30–40% кода для экранов каталога/чата; медиа-поверхность оставляйте нативной.
Переговорные устройства. Cisco Webex Rooms, Poly, Logitech Rally — поддержка через SIP или вендорский SDK. Беритесь, только если корпоративные клиенты явно просят.
Интероперабельность: SIP, H.323, PSTN, унаследованное оборудование
Корпоративные клиенты постоянно просят три вида интеропа: dial-in (PSTN), системы переговорных по SIP/H.323 и шлюз Microsoft Teams. Прагматичный паттерн:
- PSTN dial-in/out: Twilio Programmable Voice, Telnyx или прямой SIP-транк; небольшой инженерный объём, поминутная тарификация.
- SIP/H.323: Pexip Infinity Connect или Jigasi/SIP-to-WebRTC-шлюз перед вашим SFU. Здесь обычно нужен MCU.
- Интероп с Teams/Zoom: Pexip, Poly RealConnect, Cisco VIMT. Лицензионно, недёшево, но это та самая корпоративная галочка.
Мини-кейс: ProVideoMeeting — корпоративные видеоконференции с легальной электронной подписью
Ситуация. Корпоративный клиент хотел WebRTC-конференц-продукт, который мог бы юридически связывать участников прямо внутри встречи — ревью документа, фиксация электронной подписи, аудит-трейл. Связка Zoom + DocuSign была рабочим процессом из трёх вкладок; им нужно было встроить это нативно.
План на 12 недель. WebRTC-клиент на веб + iOS + Android, SFU как медиа-плоскость, встроенный просмотрщик документов, флоу подписи на сертификатах, аудит-трейл с временными метками, админ-дашборд, SSO.
Результат. ProVideoMeeting отгружает HD-конференции с автоматической подстройкой качества, нативной юридической подписью прямо во встрече и полным аудит-пайплайном. Ту же real-time-дисциплину мы применили к Video Interpretations (судебный устный перевод для системы правосудия США) и виртуальной аудитории BrainCert.
Нужен партнёр, который уже отгружал именно такой стек?
Мы выпускали конференции для телемедицины, судов, учебных классов, торговых площадок и корпоративных клиентов. Расскажите про сценарий — мы вернёмся с эталонной архитектурой и оценкой объёма.
Реалистичная модель затрат на 2026 год
Два столбца: разовая разработка и ежемесячный run-rate на вашем целевом масштабе. Цифры ниже отражают серверы Hetzner серии AX там, где побеждает self-hosting, и управляемых вендоров там, где побеждают они.
| Масштаб | Одновременных комнат / участников | Стек | Ежемесячный run-rate | Самая большая статья |
|---|---|---|---|---|
| MVP / пилот | < 100 / < 500 | LiveKit Cloud или Daily | 15 тыс. – 112 тыс. ₽ | Управляемые медиа-минуты |
| Средний рынок | 500 / 5 000 | Self-hosted LiveKit на Hetzner + управляемый фолбэк | 262 тыс. – 1,1 млн ₽ | Compute SFU + полоса пропускания |
| Enterprise | 5 000+ / 100 000+ | Мультирегиональный каскадированный SFU + MCU + шлюз Teams/SIP | 3 млн – 18,7 млн ₽+ | Мультирегиональный SFU + egress + лицензии на интероп |
По разработке: production-grade V1 для собственного конференц-продукта — веб + iOS + Android + админка, запись, транскрибация, SSO, готовность к HIPAA — обычно укладывается в 14–22 недели командой из 5–8 человек. Благодаря Agent Engineering это на 30–40% быстрее, чем у сопоставимой традиционной команды. Конкретную цифру можно дать, только увидев вашу матрицу функций; в публичных диапазонах мы намеренно остаёмся консервативными.
Фреймворк принятия решения — пять вопросов до старта
В1. Какой рабочий процесс вы замещаете? Если ответ — «Zoom», подумайте ещё раз. Собственное решение выигрывает только тогда, когда процесс в Zoom сломан (юридическая подпись, прокторинг экзамена, медкарта в телемедицине и т. п.).
В2. Сколько одновременных комнат на пике? До 500: управляемое медиа (Agora/Daily/LiveKit Cloud). Свыше 5 000: self-hosted SFU дешевле и даёт контроль над data-residency.
В3. Каков периметр соответствия требованиям? HIPAA BAA, EU data residency, SOC 2, FedRAMP — определяют шорт-лист вендоров ещё до архитектуры.
В4. Какие интеграции обязательны? EHR, LMS, CRM, календарь, интероп с Teams — выпишите письменно, расставьте приоритеты, безжалостно режьте вежливые «было бы хорошо».
В5. Есть ли у вас SRE-ресурс, чтобы держать собственное медиа? Если нет — оставайтесь на управляемом. Если да и объёмы оправданы — делайте self-host.
Пять граблей, на которые мы наступаем каждый квартал
1. Сигнализация и медиа на одном сервере. Один деплой кладёт звонок. Разделяйте сервисы, разделяйте SLO.
2. Игнорирование simulcast. Без simulcast медленный клиент роняет всех до 240p. Всегда отгружайте simulcast + SVC уже в V1.
3. Нет дашборда QoS. Если вы не видите jitter, потерь пакетов и rebuffer по тенантам и регионам, вы ничего не диагностируете. Снимайте метрики с первой недели.
4. Токены выдают при логине. Они истекают посреди звонка. Только короткоживущие токены с обработкой renewToken на клиенте.
5. Запуск без CallKit / ConnectionService. Мобильные звонки выглядят неродными, пользователи пропускают звонки, рейтинги падают. Для iOS/Android это не обсуждается.
KPI для видеоконференц-продукта
KPI качества. Успешность входа > 99%, доля медиа-сбоев < 0,5%, MOS аудио > 4,0, P75 сквозной задержки < 400 мс, жалобы на эхо/шум < 1 на 1000 сессий.
Бизнес-KPI. Встреч на DAU, средняя длина звонка, проникновение AI-функций (доля активаций субтитров/саммари), активация платных мест, NPS в опросе после звонка.
KPI надёжности. Доступность сигнализации 99,99%, доступность SFU 99,95% по региону, MTTR инцидентов < 20 мин, ноль внеплановых отказов токен-серверов.
Когда НЕ стоит делать собственную видеоконференцию
Не делайте собственное, если цель — «заменить Zoom для внутренних звонков» (просто купите Zoom), если число пользователей меньше 500 и расти не будет, если roadmap копирует Zoom или если у вас нет SRE-ресурса и инженерного бюджета за пределами MVP.
Делайте собственное, когда видеоконференции — часть дифференцированного рабочего процесса (телемедицина, legaltech, edtech, fintech, трейдинг, вещание). Именно там владение UX, данными и интеграционной поверхностью складывается в реальный конкурентный ров.
FAQ
Сколько времени уходит на разработку собственной видеоконференц-системы?
Сфокусированный V1 — веб + одна мобильная платформа, 1:1 и небольшие группы, запись, SSO — укладывается в 10–14 недель. Полная продакшен-версия с веб + iOS + Android + админкой + HIPAA + AI обычно занимает 14–22 недели. Благодаря Agent Engineering это, как правило, на 30–40% быстрее, чем у сопоставимой традиционной команды.
В чём разница между SFU и MCU?
SFU (Selective Forwarding Unit) пересылает поток каждого участника всем остальным без изменений — дешёвый CPU, гибкие раскладки, поддерживает E2EE через SFrame. MCU (Multipoint Control Unit) сводит все потоки в один — равномерная полоса, тяжёлый CPU, настоящий E2EE невозможен. SFU — вариант по умолчанию в 2026 году; MCU — только когда нужен один поток для SIP или вещания.
Это HIPAA-совместимо «из коробки»?
Ни один вендор не отгружает HIPAA-совместимое решение по умолчанию — совместимость это конфигурация плюс BAA. Нужны BAA с вендором медиа и хранилищем записей, аудит-логи, доступ к PHI по ролям, E2EE там, где возможно, и ежегодный аудит. Мы делали HIPAA-конференции для Cloud Doctors и MyOnCallDoc — рецепт есть в нашем гайде по HIPAA-видеоплатформе.
Использовать WebRTC или что-то другое?
В 2026 году WebRTC — вариант по умолчанию для браузерных и мобильных конференций. Все крупные вендоры либо совместимы с WebRTC, либо WebRTC-on-wire. Альтернативы (SIP, H.323) нужны для интеропа с унаследованными системами, а не для разработки с нуля.
Какого медиа-вендора выбрать?
Наше ранжирование на 2026 год: LiveKit (open-source + cloud, развитые AI-агенты), Agora (глобально низкая задержка, силён в Азии), Daily (13 мс первого хопа, React Prebuilt), Twilio (корпоративные закупки, BAA). Self-host LiveKit или mediasoup — выше ~50 млн минут в месяц или при требованиях к data-residency.
Как добавить AI-субтитры и саммари, не переписывая стек?
Подключите смикшированное аудио к сервису транскрибации (Deepgram, AssemblyAI, Whisper) через серверного подписчика, потоково отдавайте субтитры клиентам по WebSocket. После звонка прогоняйте транскрипт через LLM для саммари и отправляйте по почте или храните. Закладывайте 2–4 недели на чистый запуск обеих функций.
Можно встроить Teams/Zoom вместо собственной разработки?
Да — Microsoft Teams Embedded, Zoom Meeting SDK и Webex Embedded Apps позволяют вставить их UI в ваш продукт. Вы теряете дифференциацию, оставляете их брендинг, а лицензирование per-user становится дорогим на масштабе. Подходит, когда «встречи существуют как функция», не подходит, когда видеоконференция — ключевая дифференциация.
Работает ли Фора Софт с моей существующей внутренней командой?
Да. Около 40% наших проектов в 2026 году — усиление команды: команда Фора Софт встраивается рядом с вашими внутренними инженерами, приносит видеоэкспертизу и передаёт плейбук. Подход Agent Engineering ускоряет всех, а не только наших разработчиков.
Что почитать дальше
Архитектура
Гайд по архитектуре WebRTC для бизнеса в 2026
P2P, SFU, MCU и гибрид — более глубокий разбор за этим плейбуком.
AI
AI-функции в видеоконференциях
Субтитры, саммари, тональность, агенты — что реально двигает retention.
Соответствие требованиям
HIPAA-совместимая видеоплатформа
Чеклист конфигурации, который мы используем для каждого телемедицинского клиента.
Вендор
Как сделать видеозвонок на Agora SDK
Плейбук под Agora, если вы склоняетесь к нему для медиа.
Enterprise
Корпоративная платформа видеосвязи
Архитектура корпоративного уровня для B2B-конференц-продуктов.
Готовы запустить собственный видеоконференц-продукт?
Собственное решение побеждает, когда дифференцированы рабочий процесс, данные или бренд. И в 2026 году рецепт ясен: владейте UX и бизнес-правилами, подключайте управляемый SFU, если масштаб или требования к data-residency не вынуждают к self-hosting, отгружайте функционал, который пользователи уже ожидают, и добавляйте AI там, где он двигает retention. Безопасность и соответствие требованиям — не дополнения, а ворота закупочной процедуры.
Фора Софт отгружает именно этот паттерн с 2005 года — телемедицина, суды, учебные классы, корпоративные клиенты, музыкальное сотрудничество. За 30 минут мы скажем, подходит ли вашему продукту собственная разработка, как она выглядит и сколько реально стоит.
Обсудим скоуп вашего видеоконференц-продукта
30-минутный звонок с архитектором, специализирующимся на видео. Выбор архитектуры, базовый функционал, реалистичная оценка объёма работ.

