
Ключевые выводы
• Распознавание эмоций с помощью AI на видеозвонках объединяет лицевые мышечные движения, голосовую просодию и языковые сигналы в единый показатель вовлечённости в реальном времени — это не машина для чтения мыслей.
• Сегодня технология окупается в трёх областях: коучинг продающих звонков, онлайн-образование и QA клиентской поддержки. Остальные сценарии — это исследования, а не продукт.
• Мультимодальные модели превосходят любую одиночную модальность. Модели только по лицу дают около 70% на бенчмарках уровня FER; мультимодальные «голос + лицо + текст» переходят порог 85%.
• Комплаенс не подлежит обсуждению. EU AI Act запрещает анализ эмоций на работе и в учебных заведениях в большинстве случаев; BIPA и GDPR определяют, что можно фиксировать, хранить и интерпретировать в остальных контекстах.
• Кастомная разработка обычно выигрывает. Готовые API (Hume, Affectiva в наследии) дороги в масштабе и негибки в UX; мы выпускаем целевые функции с распознаванием эмоций за 8–14 недель.
По теме: прочитайте наш полный гид — Архитектура систем видеоконференций: P2P vs MCU vs SFU.
Зачем Фора Софт написала этот гид
Фора Софт разрабатывает продукты для видеоконференций и AI с 2005 года. Наша практика охватывает пайплайны WebRTC, инференс в реальном времени на стороне звонка и пользовательские интерфейсы операторов, которые превращают выходные данные ML в продуктовую ценность — от виртуальных классов до телемедицинских консультаций.
Этот материал повторяет ту самую беседу, которую мы ведём с основателями на скоупинг-звонках, когда они спрашивают: «А можно добавить распознавание эмоций в наш продукт для видеозвонков?» Ответ в 2026 году — «да, если ваш сценарий входит в три рабочих, если вы правильно проектируете архитектуру и не нарушаете EU AI Act». Цифры ниже взяты из реальных внедрений в продакшене, открытых исследований и тех же бенчмарков, которые мы используем при оценке проектов.
На каждом проекте мы применяем Agent Engineering. Это ускоряет поставку и сжимает сроки, не снижая планку сеньорной экспертизы. Если ниже приводится ценовой диапазон, это реалистичный диапазон Фора Софт, а не усреднённый агентский.
Хотите добавить функции с распознаванием эмоций в свой продукт для видеозвонков?
За 30 минут разберём ваш стек, аудиторию и ограничения по комплаенсу — и подскажем, какие функции стоит выпускать.
Краткий вердикт в одном абзаце
В 2026 году распознавание эмоций с помощью AI на видеозвонках работает, приносит пользу и уже внедрено в продакшене — но только для узких и чётко очерченных сценариев (аналитика продающих звонков, образование, QA поддержки, телемедицина). Это не замена человеческому суждению, и во многих рабочих контекстах оно прямо запрещено EU AI Act. Правильная архитектура — мультимодальная модель (лицо + голос + транскрипт), работающая на стороне звонка, с экранами согласия и журналом аудита. Стройте кастом, когда контролируете продуктовый интерфейс; арендуйте API, если вам нужен только исследовательский сигнал для некоммерческого пилота.
Что на самом деле такое распознавание эмоций с помощью AI
Современные модели распознавания эмоций не выводят чувства. Они выводят корреляты — видимые мышечные движения (улыбка, нахмуренные брови, расширенные глаза), голосовую просодию (диапазон высоты тона, скорость речи, джиттер) и языковые сигналы (тональность, категории речевых актов). Классификатор сопоставляет эти корреляты с небольшим набором меток: чаще всего это шесть базовых эмоций по Экману (радость, грусть, гнев, страх, отвращение, удивление) плюс нейтральная, иногда — размерная модель валентности-возбуждения, используемая в исследованиях, и всё чаще — метки только вовлечённости вроде «внимателен/отвлечён/растерян», которые напрямую транслируются в продуктовый UX.
Три честные оговорки. Концепция Экмана оспаривается в психологии; эмоции отчасти культурно обусловлены; и любой выход модели — это вероятность по коррелятам, а не диагноз. Хорошие продукты показывают неопределённость, а не прячут её.
Окупаемые сценарии — и те, от которых стоит отказаться
| Сценарий | Какой сигнал помогает | Вердикт |
|---|---|---|
| Коучинг продающих звонков | Кривая вовлечённости покупателя, паттерны возражений | Внедрять |
| Онлайн-образование | Обнаружение растерянности по каждому ученику | Внедрять (с согласием) |
| QA клиентской поддержки | Всплески раздражения, длительное ожидание | Внедрять |
| Скрининг в телемедицине | Признаки боли/дистресса в контексте опросов PRO | Внедрять как поддержку решения, не диагноз |
| Собеседования при найме | — | Не внедрять — запрещено в ЕС, нелегально в Нью-Йорке, научно слабо |
| Слежка за сотрудниками | — | Не внедрять — прямой запрет EU AI Act |
| Маркетинговые фокус-группы | Агрегированные кривые вовлечённости | Внедрять только для панелей с явным согласием |
Подробнее об одном из этих сценариев — в нашем гиде по видеоанализу эмоций для клиентского сервиса.
Как это работает «под капотом»
Современный пайплайн распознавания эмоций состоит из четырёх этапов. Каждый этап заменяем, поэтому мы выдерживаем чистые контракты между ними.
1. Захват и предобработка. Подключаемся к пайплайну WebRTC на уровне SFU или медиасервера. Сэмплируем кадры лица на 5–10 fps, голос — 16 кГц моно, транскрипты прокидываем через Whisper или Deepgram.
2. Кодировщики модальностей. Лицо: ViT 2024 года или EfficientNet, обученные на AffectNet, FER+ и доменном датасете. Голос: голова wav2vec2/WavLM, дообученная на RAVDESS, IEMOCAP и просодических признаках. Текст: небольшой трансформер (DistilRoBERTa, ModernBERT), выдающий скаляры валентности и возбуждения.
3. Слияние. Позднее слияние (конкатенация логитов по модальностям и обучение головы MLP) — самый простой путь к примерно 85% на мультимодальных бенчмарках. Кросс-модальные трансформеры в стиле M2FNet добавляют ещё 2–4 пункта, но тяжелее по ресурсам.
4. Агрегация и продуктовый интерфейс. Посекундные скоры сглаживаются (окна 1–5 секунд), укладываются в продуктовые метки (вовлечён/отвлечён/растерян) и выводятся в дашборды или подсказки коучу. Именно продуктовый слой — место, где валится большинство проектов, а не модель.
Почему мультимодальный подход лучше анализа только лица
Модели только по лицу резко проседают, когда видео перекрыто (маска, рука у лица), плохое освещение или культурное разнообразие. Мультимодальное слияние компенсирует эти провалы, опираясь на голос и текст. Приблизительная точность на нашем рабочем бенчмарке для конференц-связи, построенном на записях клиентской поддержки:
| Конфигурация | Top-1 accuracy (7 классов) | Примечания |
|---|---|---|
| Только лицо (ViT) | ~70% | Проседает при перекрытиях и низкой освещённости |
| Только голос (wav2vec2) | ~62% | Лучше на возбуждении, хуже на валентности |
| Только текст (DistilRoBERTa) | ~58% | Работает даже без видео |
| Лицо + голос (позднее слияние) | ~80% | Оптимальный продакшен-вариант |
| Лицо + голос + текст (кросс-модальный трансформер) | ~85% | Потолок для текущих открытых датасетов |
Больше о модельных паттернах, которые мы используем в AI для видеоконференций, — в нашем кейсе о сокращении времени разработки AI на 40% в видеопродукте на 1 млн строк кода.
Эталонная архитектура — видеозвонки с распознаванием эмоций
Продакшен-архитектура, которую мы внедряем, выглядит так. Каждый слой может работать на массовой инфраструктуре (Hetzner / DO / AWS) или на серверах заказчика — в зависимости от требований к резидентству данных.
- Клиентский SDK. Захватывает локальные кадры лица и аудио. Опционально запускает крошечный классификатор на устройстве, чтобы сырые кадры вообще не покидали клиента.
- SFU / Медиасервер. WebRTC SFU (LiveKit, Janus, mediasoup, кастомный) отводит копию каждого трека в пониженном разрешении на инференс-пайплайн.
- Инференс-воркеры. Пул GPU на ONNX Runtime или TensorRT. Обычно мы разворачиваем это на выделенных серверах с GPU в Hetzner либо на инстансах AWS g5/g6.
- Агрегатор. Сглаживает посекундные предсказания, применяет пороги по уверенности, выдаёт продуктовые события (engagement_low, frustration_spike).
- Продуктовый интерфейс. Подсказки коучу, дашборд, постзвонковое резюме, интеграции в CRM / LMS / EHR.
- Журнал аудита и согласие. Неизменяемая запись о том, что и о ком было выведено, плюс состояние согласия. Обязательно для EU AI Act и контекстов HIPAA.
Кастом vs API — сравнительная матрица
| Параметр | Готовый API | Кастомная сборка | Гибрид (open-weights + кастомная голова) |
|---|---|---|---|
| Время до PoC | Дни | 8–14 недель | 3–6 недель |
| Стоимость минуты при 1k MAU | 0,75–3,7 ₽ | 0,07–0,3 ₽ (GPU амортизирован) | 0,1–0,7 ₽ |
| Кастомизация меток | Заданы вендором | Любые, какие нужны | Любые, какие нужны |
| Резидентство данных | Контролирует вендор | Ваше | Ваше |
| Журнал аудита под EU AI Act | Часто отсутствует | Спроектирован под требования | Спроектирован под требования |
| Встраивание в ваш UX | Ограниченное (в основном постзвонок) | Подсказки и виджеты в реальном времени | Подсказки и виджеты в реальном времени |
| Лучше всего для | Пилотов, исследований | Продакшена при > 1k MAU | Продуктов средней зрелости |
Выбирайте гибрид, когда: вам нужен продакшен-сигнал за 1–2 спринта, полный контроль над UX, но изобретать новую модель эмоций не требуется. Так мы работаем на большинстве проектов: open-weights бэкбон (например, лицевой энкодер на CLIP, wav2vec2) плюс небольшая задачно-специфичная голова, обученная на ваших данных.
Пример расчёта стоимости: EdTech с 50 000 минут звонков в месяц
Представьте SaaS для онлайн-репетиторства с 50 тыс. минут звонков в месяц, которому нужны вовлечённость по каждому ученику в живых сессиях и постзвонковый коуч-дашборд для преподавателей.
| Статья (в месяц) | Через вендорский API | Кастом (GPU на Hetzner) |
|---|---|---|
| Инференс (50 тыс. минут) | ~112–187 тыс. ₽ | ~22 тыс. ₽ за аренду GPU |
| Хранение и журнал аудита | ~4 500 ₽ | ~1 500 ₽ |
| SFU / отвод медиа | ~9 000 ₽ | ~3 000 ₽ |
| Ежемесячный run-rate | ~127–202 тыс. ₽ | ~27 тыс. ₽ |
Окупаемость кастомной сборки обычно наступает между 6-м и 12-м месяцем, как только объём переходит примерно за 30 тыс. минут в месяц. Ниже этого объёма путь через API трудно превзойти по чистому run-rate.
Комплаенс — раздел, который стоит прочитать первым
1. EU AI Act. Статья 5 запрещает анализ эмоций в рабочих и образовательных учреждениях, за исключением случаев безопасности и медицины. Многие другие контексты отнесены к высокому риску — это означает обязательные оценки соответствия, регистрацию в базе ЕС по системам AI и человеческий надзор.
2. GDPR. Выводы об эмоциях относятся к данным особой категории, если связаны со здоровьем; в любом случае нужны правовое основание (обычно явное согласие), DPIA и чёткие права субъекта данных, включая право отказаться и удалить выводы.
3. BIPA / CPRA. Иллинойс относит геометрию лица к биометрическим данным; нужно письменное явное согласие до захвата. Калифорния, Техас и Вашингтон движутся в ту же сторону. Постройте поток согласия один раз и переиспользуйте везде.
4. NYC Local Law 144 и законы штатов по найму. Алгоритмический анализ эмоций при найме ограничен или запрещён в ряде юрисдикций. Не делайте.
5. HIPAA. Выводы об эмоциях в клинических сценариях — это PHI: вам нужен BAA с каждым облачным провайдером в цепочке и сквозное шифрование.
Сначала к юристу, если: ваша юрисдикция касается ЕС, Нью-Йорка, Иллинойса или здравоохранения. Объём комплаенс-работ на таких проектах больше модельной части, и притворство в обратном — это типичный путь к смерти продукта на ревью запуска.
Нужно выпустить функции с распознаванием эмоций в ЕС или здравоохранении без комплаенс-катастрофы?
Мы проектируем поток согласия, журнал аудита, on-prem инференс и UX человеческого надзора с первого дня. Пилот за 8 недель.
Датасеты и разметка — на чём обучать
Открытые датасеты дают убедительный базовый уровень; доменные данные превращают это в полезный продукт. Смесь, которую мы обычно используем:
- Лицо: AffectNet (~1 млн изображений), FER+ (~30 тыс.), RAF-DB (~30 тыс.), DFEW для видео.
- Голос: RAVDESS, IEMOCAP, MELD, MSP-Podcast.
- Текст: GoEmotions (28 меток) и EmoBank для регрессии «валентность — возбуждение».
- Мультимодальные: MELD (клипы из сериала Friends), CMU-MOSEI (~23 тыс. клипов с YouTube).
- Доменные данные: 50–200 часов согласованных продуктовых звонков, размеченных обученными аннотаторами по вовлечённости/растерянности/раздражению.
Следите за демографическим распределением — многие датасеты с лицами смещены в сторону светлокожих взрослых. Срезы по справедливости должны быть встроены в систему оценки с самого начала.
Мини-кейс: коучинг с распознаванием эмоций в SaaS для продающих звонков
Ситуация. B2B клиент в области sales-tech хотел подсказки коучу в реальном времени во время исходящих звонков («покупатель потерял интерес — задайте уточняющий вопрос») плюс постзвонковую карточку оценки. Их прежний вендор брал 3 ₽ за минуту и выдавал только постзвонковые метки, без хука реального времени.
План на 10 недель. Недели 1–2 — подключились к их SFU на LiveKit и выпустили базовый пайплайн на open-weights (лицевой ViT + wav2vec2 + DistilRoBERTa, позднее слияние). Недели 3–6 — собрали и разметили 80 часов согласованного аудио/видео со стороны покупателя, дообучили голову по вовлечённости на их семиклассовой таксономии. Недели 7–9 — построили виджет коуча, постзвонковую карточку оценки и поток согласия/аудита. Неделя 10 — раскатили на 200 продавцов.
Результат. Задержка инференса в реальном времени менее 700 мс P95. Macro-F1 в 0,81 по таксономии вовлечённости. Стоимость инференса упала с ~3 ₽ до менее 0,3 ₽ за минуту. Клиент отказался от стороннего вендора уже в первом квартале.
Хотите такую же оценку? Свяжитесь с нами.
Фреймворк решения — выберите путь за пять вопросов
В1. Разрешён ли ваш сценарий? Рабочее место в ЕС, образование или найм — стоп. Продажи, поддержка, телемедицина (как поддержка решения), образование с согласием — продолжайте.
В2. Сколько минут звонков в месяц? < 5 тыс. — арендуйте API. 5–30 тыс. — гибридная сборка. > 30 тыс. — полный кастом.
В3. Нужен коучинг в реальном времени или только постзвонок? В реальном времени — нужны отвод от SFU и инференс с задержкой меньше секунды, кастом или гибрид. Постзвонок — подойдёт API.
В4. Где живут данные? ЕС/on-prem — кастомный инференс on-prem. Только США/нерегулируемые — облако подойдёт.
В5. Кто проверяет выводы? Если человека в петле нет — ограничьтесь агрегированными метриками. Если в петле есть коуч/клиницист/преподаватель — индивидуальные скоры допустимы.
Пять подводных камней, которые мы видим каждый квартал
1. Продажа уверенности. Выводы об эмоциях — вероятностные. Показывайте неопределённость в интерфейсе, иначе доверие рушится после первой же ошибки.
2. Пропуск UX согласия. Экран согласия перед звонком в 2026 году обсуждению не подлежит — и это негромкое конкурентное преимущество в доверии.
3. Модели только по лицу. Голос и текст устраняют половину провалов. Стройте мультимодальный подход с первого дня, даже если начинаете с позднего слияния.
4. Игнор срезов по справедливости. Открытые датасеты демографически смещены. Делайте срезы оценки по тону кожи, гендеру, возрасту, языку — и публикуйте разрывы внутри команды.
5. Сначала модель, потом продукт. Модель с F1 0,85 без понятного интерфейса — это исследовательский проект, а не функция. Сначала решите, что пользователь делает с сигналом.
KPI, которые стоит отслеживать после запуска
1. KPI качества. Macro-F1 по таксономии вовлечённости, ошибка калибровки (Brier score), разрыв по справедливости между демографическими группами.
2. Продуктовые KPI. Уровень принятия подсказок коуча, дельта time-to-action к контрольной группе, итоговая бизнес-метрика (конверсия, AHT, удержание).
3. KPI надёжности. Задержка инференса в реальном времени P95 < 800 мс, утилизация GPU 50–70%, полнота журнала аудита 100%.
Куда движется поле — что закладывать в архитектуру на 2027 год
Три тренда, под которые стоит проектировать сейчас, а не доделывать потом. Первый — мультимодальные модели на устройстве. Apple Neural Engine и Snapdragon X уже запускают аудио-визуальные модели на миллиард параметров в реальном времени; ожидайте, что инференс эмоций уйдёт на клиента ради приватности и стоимости. Второй — регуляторно обусловленные карточки моделей. EU AI Act потребует структурированных раскрытий по обучающим данным, демографии и границам ошибок — собирайте артефакты уже сейчас. Третий — коуч-петли на агентах. Вместо дашбордов следующий продуктовый интерфейс — это копилот на AI, который превращает эмоциональные сигналы в подсказки по следующему действию внутри CRM и LMS — тот же паттерн, что мы внедряем в нашей работе с голосовыми ассистентами на AI.
Когда эмоциональный AI внедрять не стоит
Три сценария, где правильный ответ — «не надо». Первый — найм: запрещено во многих юрисдикциях и научно слабо. Второй — слежка за сотрудниками: запрещено в ЕС и убивает доверие везде. Третий — автономные решения о клиническом состоянии человека: эмоциональный AI — в лучшем случае поддержка решения, пусть решают лицензированные клиницисты. Мы скажем, что один из этих сценариев — ваш случай, даже если это будет стоить нам проекта.
Нужен 30-минутный разбор вашего плана по распознаванию эмоций с помощью AI?
Принесите сценарий, аудиторию и комплаенс-ограничения. Вернёмся с рекомендацией «кастом или API» и письменным ценовым диапазоном.
FAQ
Насколько точно распознавание эмоций с помощью AI?
Для грубых меток вовлечённости (вовлечён/отвлечён/растерян) macro-F1 в 0,80–0,85 достижим в продакшене. Для тонких меток по Экману в реальных условиях реалистично 0,70–0,78. Выходы стоит трактовать как вероятностные сигналы, а не как объективную правду.
Можно ли использовать распознавание эмоций на собеседованиях при найме?
Нет — это незаконно в ЕС, в Нью-Йорке по Local Law 144 и в растущем числе законов штатов США. Наука спорна, потенциальный вред реален, и мы такого не строим.
Работает ли это поверх WebRTC?
Да. Обычно мы подключаемся к SFU (LiveKit, Janus, mediasoup), забираем копию потока в пониженном разрешении, запускаем инференс в параллельном пайплайне и отправляем события обратно по WebSocket или вебхуку в продуктовый интерфейс.
Реальное время или постзвонок?
Если вы подсказываете пользователю по ходу звонка (коучинг продаж, дашборд преподавателя) — реальное время. Если нужна лишь суммаризация уровня транскрипта по итогам — постзвонок дешевле и проще для комплаенса.
Как вы реализуете согласие по GDPR?
Экран согласия перед звонком, гранулярные переключатели для инференса по лицу, голосу и тексту, простой отказ посередине звонка, видимые пользователю лимиты хранения и API для удаления. Поток согласия мы считаем частью продукта, а не всплывающим окном.
Сколько стоит пилот на 8–14 недель?
Для мультимодальной гибридной сборки с операторским UX и потоком согласия наш типовой диапазон — 3,7–10 млн ₽. Мы не фиксируем стоимость без скоупинга — на цифру сильнее всего влияют объём, размер таксономии и комплаенс-нагрузка.
Можно ли запустить это на устройстве ради приватности?
Да — небольшой энкодер лица (MobileViT, EfficientFormer) плюс квантованная голова wav2vec2 запускаются в реальном времени на телефоне 2024 года или современном ноутбуке. На облако остаётся кросс-модальное слияние и более тяжёлые постзвонковые модели.
Как вы измеряете справедливость?
Мы режем macro-F1 по самоотчётным демографическим срезам (тон кожи, гендер, возраст, язык) на отложенной выборке, задаём допустимые пороги разрыва и блокируем релиз, если он расширяет любой из разрывов. Демографические данные собираются на основе явного согласия и хранятся в агрегированном виде.
Что почитать дальше
Клиентский сервис
Видеоанализ эмоций для клиентского сервиса
Как эмоциональный AI меняет QA поддержки и живой коучинг.
Голосовой AI
Инструменты голосовых команд для встреч
Как голосовой AI дополняет живые видеоконференции.
Перевод в реальном времени
Перевод в реальном времени для телеконференций
Архитектура, задержка и целевая точность для звонков на разных языках.
Архитектура
Архитектура видеоконференций в 2026
Базовая архитектура SFU и пайплайна, к которой вы подключаетесь.
Готовы выпустить видеозвонки с распознаванием эмоций без сюрпризов?
Эмоциональный AI на видеозвонках в 2026 году достаточно зрел для выпуска — но только если вы остаётесь в разрешённых сценариях (продажи, поддержка, образование, телемедицина как поддержка решения), строите мультимодальный подход, проектируете поток согласия в продукт и инженерите журнал аудита под EU AI Act и HIPAA с первого дня.
Если хотите партнёра, который уже выпускал функции с распознаванием эмоций на продакшен-стеках WebRTC, подписывал BAA, проходил оценку соответствия EU AI Act и держал стоимость инференса меньше 0,3 ₽ за минуту — обращайтесь. За 30 минут покажем, что реально для вашего проекта.
Функции с распознаванием эмоций, которые выпускаются и остаются легальными
30 минут, ваша дорожная карта, честный план. Мультимодальный стек, поток согласия и журнал аудита — включены.

