AI-функции в видеозвонках 2026: субтитры, перевод и краткие итоги

AI-функции в видеозвонках 2026: субтитры, перевод и саммари — обложка

По теме: читайте наш полный гид — Архитектура систем видеоконференций: P2P vs MCU vs SFU.

AI-обработка речи превращает видеозвонок из переговорной комнаты в рабочую поверхность — живые субтитры, мгновенный перевод, транскрипты для поиска, список задач и краткие итоги с указанием, кто что сказал. Всё это — прямо во время звонка. К 2026 году такие функции уже не дают конкурентного преимущества — они стали базовыми. Если ваш видеопродукт не предлагает хотя бы живые субтитры и итоговый отчёт после звонка, пользователи это замечают уже после первой сессии. Этот гид — о том, как Фора Софт внедряет AI-функции в видеозвонки: используемый стек, требования к задержкам, система соответствия нормам, модель затрат и пять инженерных практик, которые помогают держать функции в рабочем состоянии после релиза.

Ключевые выводы

01. Почему Фора Софт написала этот гид по AI-функциям для видеозвонков

Мы работаем с видеопродуктами ещё с тех пор, когда WebRTC был рабочей группой, а не стандартом. Наши команды выпускают решения на LiveKit, Twilio, Agora и собственных SFU-стеках, и каждый живой продукт, который мы поддерживаем в 2026 году, включает хотя бы одну AI-функцию для обработки речи: субтитры, перевод в реальном времени, постзвонковое резюме или аналитика с распознаванием эмоций. Мы написали этот материал, потому что публичная дискуссия об AI-функциях в видеозвонках сводится либо к маркетингу вендоров, либо к игрушечным демонстрациям. Ни то, ни другое не выдерживает нагрузки вебинара на 200 участников и нестабильного интернета.

Этот гид — инженерный плейбук, который мы реально передаём клиентам. Он охватывает: что собирать, что покупать, какие показатели задержки должен обеспечивать стек, как EU AI Act повлияет на ваш пайплайн с августа 2026 года, и как может выглядеть реалистичная сборка 2026 года — от MVP за 4,5 млн ₽ до энтерпрайз-развёртывания с поддержкой HIPAA за 45 млн ₽. Все цифры взяты из реально работающих систем, которые эксплуатируем мы или наши партнёры.

02. Что реально нового в AI-функциях для видеозвонков в 2026 году

Между 2024 и 2026 годами произошло три события, которые изменили подход к проектированию стека.

Во-первых, задержка стримингового ASR стала незаметной для пользователя. Deepgram Nova-3 удерживает P95-задержку до первого токена ниже 300 мс, а Universal-Streaming от AssemblyAI — около 400 мс. При таких показателях субтитры выглядят живыми, а не запоздалыми. До 2025 года переводчики и говорящие замечали задержку и начали переформулировать фразы. Сейчас этого больше не происходит.

Во-вторых, перевод в реальном времени стал эмоционально выразительным. Google Gemini Live и ElevenLabs Flash v2.5 сохраняют интонацию, паузы и дыхание при переводе. Перевод 2024 года звучал как объявления на вокзале. Перевод 2026 года звучит как речь самого говорящего. Это меняет то, что можно предлагать платящим клиентам.

В-третьих, пришла регуляторная гравитация. Обязательства по прозрачности в EU AI Act по статье 50 вступают в силу 2 августа 2026 года — AI-генерируемые субтитры, дубляж и саммари должны содержать машиночитаемый водяной знак и быть раскрыты пользователям. Для любого продукта с пользователями в ЕС это не остаётся на усмотрение.

Архитектурная заметка от Фора Софт

В 2025 году мы перестали рассматривать субтитры и саммари как отдельные функции. У них теперь общий поток токенов, единый вывод диаризации и общая запись согласий. Один пайплайн — несколько потребителей; только такая архитектура остаётся экономически выгодной на больших масштабах.

03. Бюджеты задержки: цифры, в которые должен укладываться ваш стек

Самый быстрый способ провалить демо — субтитр, который опаздывает на 1,2 секунды. Держите стек в этих P95-цифрах, и такой жалобы вы не услышите:

Каждую из этих метрик можно измерить, и она должна попасть на дашборд Grafana с первого дня. «Достаточно хорошо» — это не метрика.

04. Транскрипция в реальном времени: какого ASR-провайдера выбрать

В 2026 году есть три обоснованных выбора и один интересный «тёмный конь».

Deepgram Nova-3 — стандартный выбор для продуктов, чувствительных к задержке

Nova-3 откликается за менее чем 300 мс по P95 до первого токена, поддерживает 36 языков с возможностью переключения между ними и предоставляет BAA по запросу. Стоимость — около 0,32 ₽ за минуту стриминга при коммитнутом объёме. Используйте, если нельзя идти на компромисс по времени появления субтитров.

AssemblyAI Universal-Streaming — выбор по цене

Universal-Streaming показывает задержку около 400 мс по P95, а также из коробки поддерживает точную диаризацию говорящих и удаление персональных данных (PII). Батч-режим стоит 11,2 ₽ в час — это самый дешёвый вариант для создания постзвонковых резюме, если стриминг не требуется.

Whisper large- v3 + инференс на устройстве — выбор в пользу приватности

Whisper-large-v3-turbo работает в 1,5–2 раза быстрее реального времени на iPhone 15 Pro с CoreML. Ошибка распознавания слов — всего на 1,5 процентных пункта выше, чем у облачного ASR на чистом аудио. Используйте его, если юридический отдел клиента не разрешает передавать аудио за пределы устройства — такое ограничение часто встречается в здравоохранении, юридической сфере и государственных структурах.

Тёмный конь: Soniox и Speechmatics

Оба теперь публикуют сопоставимые цифры по стриминговой задержке и предлагают более точную диаризацию для трёх и более говорящих. Стоит провести нагрузочное тестирование для любого продукта, используемого на встречах с пятью и более участниками.

Выбираете ASR-стек?

Запишитесь на 30-минутный архитектурный разбор с Фора Софт. Мы сопоставим ваши требования по задержкам и комплаенсу с подходящими провайдерами — без вендорских откатов, только те решения, которые реально используем в продакшене.

05. Живые субтитры и перевод в реальном времени

Живые субтитры — самая простая AI-функция для запуска, но при этом самая придирчиво воспринимаемая пользователями: каждая ошибка на экране подрывает доверие. Здесь важны три вещи.

Endpointing. Не показывайте субтитры, пока ASR не отметит их как окончательные. Отображение промежуточного текста, который потом меняется, раздражает пользователя. Используйте промежуточные токены только для предварительной загрузки перевода, но не для отображения пользователю.

Двухпроходный перевод. Для языков с сильно отличающимся порядком слов (английский ↔ японский, английский ↔ немецкий) сначала переводите промежуточные токены во временный буфер, а затем заменяйте их на окончательный перевод, когда предложение полностью обработано. Такой подход устраняет «подёргивание слева направо», которое портило качество субтитров в продуктах 2024 года.

Шрифт, ширина и контраст. Шрифт субтитров 16 px на потоке 1080p слишком мелкий для просмотра со смартфона. Автоматически масштабируйте высоту субтитров до 3,2% от высоты экрана, ограничивайте длину строки 42 символами и используйте по умолчанию белый текст на фоне с 70% непрозрачности чёрного. Это может не выглядеть эффектно, но именно от этих параметров зависит, будет ли зритель смотреть или выключит видео.

06. Диаризация говорящих: «кто что сказал» — сложная задача

Точные метки говорящих — то, что делает саммари полезным. Без них постзвонковые заметки выглядят как один сплошной абзац без указания, кто что сказал. А с ними заметки превращаются в настоящую запись встречи.

Дефолты 2026 года:

Всегда выпускайте UI для корректировок. Пользователи исправляют метки говорящих во время воспроизведения — эти правки возвращаются в ваш датасет для дообучения. После 10–15 тысяч исправленных звонков доменная модель диаризации обходит любой готовый продукт на ваших данных.

07. Саммари встреч и список действий

Саммари — это то, где LLM действительно окупаются. Грамотно составленный промпт для GPT-4o или Claude Sonnet 4.6, применённый к диаризованной транскрипции, даёт:

Два паттерна помогают держать качество высоким. Структурированный вывод. Заставляйте LLM работать по JSON-схеме со строгой валидацией — свободный текст саммари теряет формат и ломает интеграции дальше по цепочке. Пороги уверенности для пунктов action items. Всё, что ниже 0,6, попадает в раздел «возможные дальнейшие шаги», а не в основной список. Пользователи доверяют саммари, потому что система честно признаёт, когда не уверена.

Чек-лист стабильности промпта

Пин версии модели LLM. Промпт с контролем версий. Снимок схемы. Регрессионный прогон по 50 звонкам перед каждым изменением промпта. Саммари, которые незаметно меняют формат, ломают все экспорты, интеграции и пользовательские сценарии, от них зависящие.

08. Шумоподавление и предобработка звука

Чистое аудио — самый сильный рычаг для качества всего, что идёт ниже по пайплайну. Улучшение SNR на входе на 3 дБ снижает WER в ASR примерно на треть на шумных звонках. Инструментарий 2026 года:

09. Клонирование голоса и многоязычный дубляж

Это фича 2026 года для трансграничных команд. Вместо субтитров каждый участник слышит говорящего своим клонированным голосом на родном языке. ElevenLabs, Resemble и Google Gemini Live выпускают решения для клонирования голоса в реальном времени на уровне продакшена с задержкой 300–500 мс.

Что мы говорим клиентам про клонирование голоса: это продукт согласий, а не просто функция. Каждому говорящему нужно чёткое, отзывное и переоформляемое разрешение на клонирование. Каждый выход должен содержать неслышимый водяной знак в соответствии со статьёй 50 EU AI Act. Каждой клонированной дорожке должен быть установлен срок жизни — только в рамках одной сессии. Сначала запускайте UX-согласия, а потом уже сам клон — иначе вы создаёте комплаенс-обязанность, а не полезную функцию.

10. Доступность: одних субтитров недостаточно

AI-функции — это самое большое улучшение доступности видеозвонков за всё время, если проектировать с учётом всех пользователей. В 2026 году это значит:

Функция анализа эмоций также работает на доступность, выделяя тон и намерение для участников, которые читают субтитры и не воспринимают голосовые сигналы.

11. Контур комплаенса: EU AI Act, HIPAA, SOC 2, законы о записи разговоров

Статья 50 EU AI Act. Вступает в силу 2 августа 2026 года. Вам нужно: (а) сообщать пользователям, что используется ИИ; (б) помечать субтитры, дубляж и краткие пересказы, созданные ИИ, специальным машиночитаемым водяным знаком; (в) давать людям возможность удалять свои данные и запрашивать доступ к ним. Начните подготовку заранее — закладывайте три месяца на выполнение требований до вступления закона в силу.

HIPAA. Видеосвязь в здравоохранении требует заключения соглашения Business Associate Agreement (BAA) с каждым поставщиком услуг, который работает с аудиозаписями или их текстовыми расшифровками. Deepgram, AssemblyAI, AWS Transcribe и Azure OpenAI подписывают BAA. OpenAI подписывает BAA только для API, у Anthropic — по запросу. Не используйте поставщиков, которые не готовы подписать BAA.

SOC 2 Type II. Минимум для продаж в США корпоративным клиентам. Типичный срок аудита — 9–12 месяцев; закладывайте его с самого начала, даже если в первый год не планируете получать сертификацию.

Законы штатов о записи разговоров. В Калифорнии, Иллинойсе, Пенсильвании и ещё 10 штатах США для записи разговора требуется согласие всех участников — так называемое двустороннее согласие. Ведите журнал, где фиксируйте согласие каждого участника. Если кто-то из обязанных дать согласие не согласился — прервите звонок.

Чек-лист комплаенса от Фора Софт

Баннер согласия при входе в звонок. Опт-ин для каждого участника. Предупреждение в приглашении календаря. Аудит-лог согласий, изменений и удалений. Шифрованное хранение транскриптов. Удаление персональных данных до выхода транскрипта за пределы сессии. Уведомление «AI в комнате», отображаемое на протяжении всего звонка. Эти семь пунктов — обязательные условия, без которых запуск невозможен.

12. Референсный стек 2026 года, который мы реально внедряем

Вот дефолтная архитектура, которую Фора Софт разворачивает для нового продукта видеозвонков в 2026 году:

Это хорошо сочетается с нашими практиками разработки в LiveKit и интеграции с Twilio — слой ИИ работает поверх медиастека, а не внутри него.

13. Пять инженерных привычек, которые держат AI-функции в продакшене

1. Согласие по умолчанию первично. Подтверждение участия каждого участника фиксируется, ведётся машиночитаемый журнал. Никогда не используется опт-аут. Никогда не применяется только для хоста. Никогда не теряется.

2. Рендеринг по порогу уверенности. Отбрасывайте сегменты ASR с уверенностью ниже 0,6 на живой дорожке субтитров. Сохраняйте их в записанном транскрипте для последующей правки. Пользователи спокойно воспринимают пропущенные субтитры, но не прощают ошибочные.

3. Структурированный вывод LLM с регрессионным набором. Требуйте JSON, проверяйте схему, прогоняйте эталонный набор из 50 звонков при каждом изменении промпта или модели. Фиксируйте изменения в дашборде.

4. Чистка PII до сохранения. Используйте регулярные выражения и небольшую модель NER (например, spaCy с кастомными типами сущностей). Маскируйте SSN, номера банковских карт, идентификаторы пациентов и индексы. Храните только обработанный транскрипт; исходное аудио оставляйте зашифрованным с автоматическим удалением через 7–30 дней.

5. Циклы коррекций со стороны пользователя. Транскрипты, редактируемые в течение 24 часов, интерфейс для исправления меток говорящих, кнопка «это был не я». Возвращайте правки обратно в набор данных для дообучения только с явным согласием пользователя.

14. Сколько стоит собрать видеозвонки с AI-функциями в 2026 году

Цифры ниже учитывают скидку Agent Engineering от Фора Софт — агентский инструментарий сокращает время поставки на 25–35% по сравнению с классическими оценками 2023 года. Это реальные котировки 2026 года, которые мы выдавали за последние шесть месяцев:

Наш гид по стоимости приложения для видеоконференций рассматривает полную поставку; диапазоны из этой статьи — это надбавка за слой искусственного интеллекта.

Нужна оценка по фиксированному скоупу?

Пришлите список функций и целевую дату запуска. Мы вернёмся в течение 48 часов с приоритизированным планом поставки — без ретейнера на этапе исследования.

15. Ландшафт вендоров: с кем сравнивать в 2026 году

Для AI-функций в видеозвонках шорт-лист 2026 года по категориям:

ASR и субтитры

Deepgram, AssemblyAI, Speechmatics, Soniox, Gladia. Self-hosted: Whisper-large-v3, Canary-1B.

Ассистенты встреч (если покупать, а не создавать)

Otter.ai, Fireflies.ai, Fathom, Tactiq, Read AI, Granola, Zoom AI Companion, Microsoft Teams Copilot.

Перевод в реальном времени

Google Gemini Live, DeepL, Azure Speech Translation, Interprefy, SyncWords, KUDO AI.

Клонирование голоса и дубляж

ElevenLabs Flash v2.5, Resemble.ai, PlayHT, HeyGen (ориентирован на видео), Rask AI.

Шумоподавление

Krisp, NVIDIA Broadcast, Cisco BabbleLabs, Dolby.io Noise Suppression.

Доступность и устный перевод

Ava, LanguageLine, Boostlingo, Interpretd, SignAll — пилотные проекты по распознаванию жестового языка.

16. Мини-кейс: AI-функции для мультиязычной платформы продаж

Клиент Форс Софт — энтерпрайз-платформа для коучинга продаж с 40 тысячами пользователей в Европе, Северной Америке и APAC — запросил живые субтитры, перевод на восемь языков и краткие выжимки по каждому звонку, которые автоматически попадают в их CRM. Конкуренты предлагали срок реализации 14 месяцев и стоимость 41 млн ₽. Наш план поставки:

Итого: 9 месяцев, 18 млн ₽, пять инженеров и part-time security-консультант. Живые субтитры — 740 мс по P95 на экран; переведённые субтитры — 1,1 с. Доставка саммари: 90 секунд на 30-минутный звонок. NPS клиентов по AI-функциям через шесть месяцев после запуска: +62.

17. Обработка видео в реальном времени на устройстве

Для развёртываний, чувствительных к задержке — хирургическое телеприсутствие, прямая трансляция, комплаенс-запись на торговом полу — ход 2026 года это частичный инференс на устройстве. Whisper-large-v3-turbo работает в 1,5–2× быстрее реального времени на iPhone 15 Pro и Mac на M-серии. Вы получаете нулевой сетевой round-trip для задержки до первого токена, и ваше аудио не покидает устройство на первом проходе ASR.

Гибридный паттерн: на устройстве — для промежуточных токенов и локальных субтитров, в облаке ASR — для финальных транскриптов и саммаризатора. Вы получаете и приватный нарратив, и минимальную задержку одновременно. Более широкий контекст по edge-вычислениям мы разбираем в нашем гиде по edge-вычислениям для прямых трансляций.

18. Шесть подводных камней, на которых AI-функции застревают перед запуском

1. Относиться к ASR как к решённой задаче. Это не так. Акцентированная речь, перебивания и специфическая лексика снижают точность облачного ASR на 10–25 пунктов WER. Закладывайте бюджет на дообучение.

2. Жёстко привязываться к одному провайдеру. У Deepgram бывают сбои. У AssemblyAI бывают сбои. Вашему стеку нужен второй маршрут ASR и грамотный fallback, даже если он на 100 мс медленнее.

3. Согласие только от хоста. Опт-ин нужен каждому участнику, а не только организатору. Это и юридическое требование в половине штатов США, и сигнал доверия, который пользователи замечают.

4. Игнорировать форматирование субтитров. Слишком мелкий шрифт, слишком быстрая смена текста или плохой контраст — и пользователи отключат субтитры уже в первой сессии. Обязательно проведите отдельный UX-аудит.

5. Неконтролируемая стоимость LLM на саммари. Плохо спроектированный саммаризатор может «сжечь» 150–375 ₽ за одну длинную встречу. Используйте батчинг, кэширование и ограничивайте количество входных токенов.

6. Забыть про политику хранения. «Мы храним транскрипты вечно» — это не политика, а требование GDPR. По умолчанию — 90 дней, дайте клиентам возможность продлить срок хранения, логируйте каждое удаление.

Чек-лист готовности к запуску

Если вы не можете назвать срок хранения, резервного ASR-провайдера, P95-задержку субтитров и схему журнала согласий — вы не готовы к запуску. Эти четыре ответа — гейт.

19. Тренды 2026 года, которые меняют работу ИИ в видеозвонках

Дубляж голосом для каждого участника. Каждый слушатель слышит каждого говорящего на своём языке — но голосом самого этого говорящего. Появится в превью Zoom Workplace в четвёртом квартале 2026 года; Microsoft Teams последует за ним.

Агентные ко-пилоты встреч. За пределами заметок: назначение задач на последующее взаимодействие, обновление CRM, создание тикетов, подготовка черновиков писем после звонка. Эти агенты теперь работают внутри корпоративных систем, а не просто читают транскрипты.

Саммари LLM на устройстве. Apple Intelligence и стек NPU от Qualcomm делают суммаризацию на устройстве реальной для встреч продолжительностью 45 минут. Пользователи, которым важна приватность, перейдут на обработку данных на устройстве к 2027 году.

Эмоции и тональность поверх речи. Анализ тона и определение намерений стали стандартным дополнением к транскрипту — они интегрируются с нашим решением по эмоциональному анализу.

Извлечение структурированных данных из звонков. Условия контрактов, обязательства по продажам, симптомы пациентов, нарушения SLA — LLM теперь надёжно извлекают эти данные в схемы. Именно эта функция превращает транскрипт в бизнес-актив.

Регуляторная стандартизация. Статья 50 EU AI Act вступила в силу в августе. Законопроект об ИИ в Великобритании продолжает продвигаться. Калифорнийский законопроект SB 1047 снова активен. Любому продукту, который с 2026 года будет использовать ИИ-функции для обработки речи, нужна чёткая дорожная карта по соблюдению требований — а не попытки соответствовать им задним числом.

20. KPI, которые стоит отслеживать с первого дня

Дашборд, который нужен любой AI-функции для работы со речью в день запуска:

Поговорите с инженером Форс Софт

Мы пройдёмся по стеку, карте соответствия и модели стоимости для видеозвонков с AI-функциями — за 30 сфокусированных минут.

21. FAQ

Что реально входит в «AI-функции для видеозвонков» в 2026 году?

Стандартный набор включает живые субтитры, перевод в реальном времени, определение говорящих, краткие итоги после звонков со списком задач и поисковый архив транскриптов. Премиум-наборы добавляют клонирование голоса для многоязычного дубляжа, анализ эмоций и извлечение структурированных данных в CRM или EHR.

Как быстро должны рендериться субтитры, чтобы ощущаться как живые?

Ниже 800 мс по P95 от края до края. Пользователи воспринимают задержки больше 1 секунды как лаг, а при 1,5 секунды уже начинают читать субтитры не в такт с лицом говорящего.

Что выбрать для ASR — Deepgram, AssemblyAI или Whisper?

Deepgram — если задержка критична. AssemblyAI — если важнее цена или встроенные диаризация и редактирование PII. Whisper-large-v3 на устройстве — если контекст развёртывания запрещает облачное аудио. Большинство продакшен-стеков 2026 года несут как минимум два из трёх вариантов с аккуратным fallback.

Что требует от продукта видеозвонков статья 50 EU AI Act?

С 2 августа 2026 года вы обязаны сообщать каждому участнику о использовании ИИ, маркировать субтитры, дубляж и саммари, созданные ИИ, машиночитаемым водяным знаком, а также обрабатывать запросы на удаление данных и предоставление доступа к ним. Запланируйте трёхмесячный спринт по обеспечению соответствия требованиям до вступления закона в силу.

Сколько стоит добавить AI-функции для речи в существующий видеопродукт?

MVP с субтитрами и краткими выдержками — 3,3–5,6 млн ₽ за 4–6 месяцев. Полноценный мультиязычный продукт с переводом, диаризацией и согласиями в интерфейсе — 9–15 млн ₽. Энтерпрайз-развёртывание с поддержкой HIPAA, SOC 2 и EU AI Act — 26–48 млн ₽ и 12–18 месяцев.

Нужна ли HIPAA для видеозвонков в здравоохранении?

Да, для любого продукта, который передаёт или хранит защищённую медицинскую информацию. Нужен BAA с каждым поставщиком в цепочке обработки аудио — ASR, хранение, LLM. Deepgram, AssemblyAI, AWS Transcribe, Azure OpenAI и Anthropic подписывают BAA.

Легально ли клонирование голоса в живых звонках?

Только с явного и отзывного согласия человека, чей голос клонируется. По EU AI Act результат должен содержать водяной знак. В нескольких штатах США требуется двустороннее согласие на любую запись — относитесь к клонированию голоса с такой же строгостью.

Можно ли запускать всё на устройстве ради приватности?

В основном — да. Whisper-large-v3 для ASR и LLM на 7B-параметров для суммаризации запускаются на флагманских смартфонах и Mac на M-серии. Переводу в реальном времени и клонированию голоса для качества всё ещё нужно облако. Гибридный паттерн — на устройстве для промежуточных токенов и субтитров, в облаке — для финализации и саммари — это «золотая середина» 2026 года.

22. Что почитать дальше

Edge-вычисления для прямых трансляций

Где запускать ASR и MT, когда важна задержка в 50 мс.

AI-функция

Эмоциональный анализ с машинным обучением

Тональность и интонация поверх вашего транскрипта.

Бюджетирование

Гид по стоимости приложения для видеоконференций

Полная разбивка стоимости на 2026 год, включая функции ИИ для обработки речи.

AI-инфраструктура

AI-системы рекомендаций контента

Как работают слои рекомендаций и ранжирования — полезный паттерн для поиска по транскриптам.

Медиастек

Эксперты по разработке на LiveKit

Наша практика LiveKit — это SFU-слой, на котором работает AI-пайплайн.

23. Готовы запустить видеозвонки с AI-функциями — без головной боли с комплаенсом?

Фора Софт выпускала AI-функции для распознавания речи в видеопродукты на всех крупных стеках — LiveKit, Twilio, Agora, кастомные SFU. Мы знаем, какой ASR выбрать, какие промпты останутся актуальными после обновления модели, какой процесс получения согласий пройдёт юридическую проверку и по каким KPI оценивать работу команды. Если нужна оценка по фиксированному скоупу — за 48 часов свяжемся с вами. Если нужен разбор уже готовой дорожной карты — дадим второе мнение за 30 минут.

Начните разговор

Расскажите о вашем видеопродукте и окне запуска. Мы вернёмся с приоритетным планом или вторым мнением по вашей дорожной карте — на ваш выбор.

Позвоните нам → Напишите нам →

Технологии

Показатель	Цифра за 2025	Что это значит для вас
Выручка мобильных приложений с генеративным ИИ	225 млрд ₽, +273% год к году	Самостоятельное AI-приложение теперь — полноценный продукт, а не просто функция.
Время в приложениях с генеративным ИИ	48 млрд часов (×3,6 к 2024)	Привычка у пользователей сформировалась — ассистенты теперь конкурируют с вашим приложением за время сессии.
Внедрение разработчиками	63% выпускают не менее одной AI-функции	Не выпускать ИИ в 2026 году — это уже конкурентное отставание, а не нейтральный выбор.
Прирост вовлечённости от персонализации	+62% вовлечённости, +80% конверсии	Одни только AI-рекомендации влияют на финансовый результат.
Пользователи мобильных AI-ассистентов (США)	200 млн+ (110 млн — только на мобильных)	Пользователи ожидают, что голосовой и текстовый ИИ будет работать везде.
Прогноз Gartner	Использование мобильных приложений снизится на 25% к 2027 году (из-за AI-ассистентов)	Приложения без встроенного ИИ будут терять пользователей в пользу системных ассистентов.

Фреймворк / API	Платформа	Лучше всего для	Типичная задержка	Структура затрат
Core ML	iOS, macOS, watchOS	Зрение и NLP на устройстве с Apple Neural Engine	< 100 мс	Разовая, внутри приложения
Apple Foundation Models	iOS 18+, macOS 15+	LLM на устройстве, резюмирование, инструменты письма	< 500 мс	Бесплатно (в составе ОС)
TensorFlow Lite / LiteRT	Android, iOS, Web	Кроссплатформенное ML на устройстве	< 200 мс	Разовая, внутри приложения
MediaPipe	Android, iOS, Web	Поза, руки, лицо, жесты, сегментация	< 100 мс	Разовая, внутри приложения
ML Kit (Google)	Android, iOS	Распознавание текста, штрихкоды, перевод, обнаружение лиц	50 мс–2 с	Бесплатный тариф + оплата за запрос
Gemini Nano (AICore)	Android (Pixel 9+, S26+)	LLM на устройстве, резюмирование, подсказки ответов	< 1 с	Бесплатно (в составе ОС)
ONNX Runtime Mobile	Android, iOS, Web	Переносимые модели между фреймворками	< 300 мс	Разовая, внутри приложения
OpenAI API (GPT-5)	Облако	Рассуждения, код и зрение уровня state-of-the-art	1–3 с	93,75–750 ₽ за 1 млн токенов
Anthropic Claude API	Облако	Рассуждения с длинным контекстом, анализ, код	1–3 с	75–1 875 ₽ / 1 млн токенов (скидка 50% при батч-обработке)
Google Gemini API	Облако	Мультимодальность, экономичный текст и зрение	1–2 с	6–375 ₽ / 1 млн токенов
AWS Rekognition	Облако	Анализ изображений и видео, модерация	500 мс–2 с	0,075–0,9 ₽ за изображение
Azure Cognitive Services	Облако	Корпоративное видение, стиль общения, язык	500 мс–2 с	За запрос + подписка

Объём	Пример функции	Сроки	Ориентировочная стоимость
Одна функция на устройстве	Сканирование документа + OCR	4–8 недель	2–6 млн ₽
Гибрид среднего размера	Зрение на устройстве + облачный LLM-чат	8–14 недель	6–13,5 млн ₽
Полноценный гибрид под продакшн	Оркестрация нескольких моделей, RAG, мониторинг	14–22 недели	11,2–22,5 млн ₽
Корпоративная платформа	Регулируемая отрасль (здравоохранение / финтех), несколько регионов, SLA	22+ недели	от 22,5 млн ₽

Платформа	Для чего лучше всего	Стартовая цена	Нужна гарнитура?
ClassVR	Школа (K–12), более 1 500 сценариев по учебной программе	от 75 000 ₽ за школьный комплект	Да (гарнитуры в комплекте)
Labster	Лаборатории биологии, химии, физики в вузах	5 925–8 175 ₽ за студента в год	Нет (браузер + опционально VR)
Nearpod (с VR)	Встраивание в уроки в школе	11 925–29 775 ₽ в год на преподавателя	Опционально
zSpace	AR/VR без гарнитуры; более 3 500 округов	По запросу (фирменное оборудование)	Нет (очки + дисплей с трекингом)
Prisms VR	Математика и естественные науки, 140 округов	По запросу (лицензия округа)	Да
Engage / Spatial	Совместные классы в высшем образовании	37 500–150 000 ₽ в год за помещение	Да (несколько устройств)
CoSpaces Edu	VR-проекты, которые создают сами ученики	75–225 ₽ за ученика в год	Опционально
Osso VR / FundamentalVR	Хирургическая подготовка	450 000–3 млн ₽ в год за рабочее место	Да

Статья расходов	Год 1	Год 2 и далее
30 × Meta Quest 3S (комплект за 37 500 ₽)	1 125 000 ₽	0 ₽ (обновление раз в 3–4 года)
Контент-платформа (ClassVR / Nearpod)	150 000–375 000 ₽	150 000–375 000 ₽
Обучение преподавателей (1 день)	112 500–225 000 ₽	Обновление: 37 500 ₽/год
Зарядная станция + MDM	112 500–187 500 ₽	0 ₽
Страховка / поломки (10%)	112 500 ₽	112 500 ₽
Итого	1,6–2 млн ₽	300 000–525 000 ₽