Распознавание эмоций в аудио и видео: полное руководство 2026 года

Распознавание эмоций в аудио и видео — обложка статьи

Главное

• Распознавание эмоций в аудио и видео — это мультимодальная ML-задача, а не одна модель. Самые сильные системы объединяют лицо, голос, текст и иногда физиологические сигналы — каждый сигнал компенсирует слепые зоны остальных.

• Заявленная точность вводит в заблуждение. Бенчмарк-метрики 90–99% в продакшене падают до 60–80%, а в реальных условиях съёмки, при акцентах, окклюзии и демографическом сдвиге ошибка может превышать 70%.

• EU AI Act запретил большинство сценариев распознавания эмоций на рабочих местах и в образовательных учреждениях со 2 февраля 2025 года. Если ваш продукт затрагивает сотрудников или учащихся в ЕС — пересматривайте функционал или сворачивайте фичу: медицинские и safety-исключения сформулированы узко.

• Сначала покупайте, стройте только когда модель — это конкурентное преимущество. Готовые API (AWS, Google, Azure, Hume, MorphCast, Affectiva) подключаются за недели; собственный мультимодальный стек — это 4–9 месяцев с Agent Engineering, и он окупается только при действительно нестандартных данных, вертикали или требованиях к задержке.

• Этика — главный риск доставки. Согласия пользователей, аудиты на смещение, отчёты по точности в разрезе демографии и чёткий список «не использовать для…» — вот что удерживает фичу в продукте после запуска, а не архитектура модели.

Зачем Фора Софт написала это руководство

Распознавание эмоций в аудио и видео лежит на стыке трёх областей, в которых мы работаем уже два десятилетия: коммуникации в реальном времени, компьютерное зрение и прикладное машинное обучение. Мы строим продакшен-видеоплатформы для телемедицины, edtech, прямых трансляций, видеонаблюдения и корпоративных продаж — это ровно те вертикали, где вопрос «выглядит ли пользователь напряжённым, отстранённым или встревоженным?» превращается из исследовательской задачи в продуктовую функцию.

Наша практика AI-интеграции включает отдельную услугу Emotion Recognition Dynamics — мы встраиваем анализ лицевых аффектов в видео в реальном времени с помощью Azure Cognitive Services, OpenCV, MediaPipe, YOLO, PyTorch и TensorFlow и связываем сигналы с продуктовыми действиями. Платформа sales-интеллекта Meetric объединяет голосовые и поведенческие подсказки во время живых звонков и поднимает конверсию в сделку примерно на четверть. VocalViews, которым пользуются исследовательские команды Samsung, Google и Netflix, накладывает AI-анализ тональности на видеоинтервью на 30+ языках для более чем 800 000 верифицированных участников. Платформа видеонаблюдения V.A.L.T работает с HD-видео поведенческой аналитики на 2500+ камерах и обслуживает 50 000 ежедневных пользователей в правоохранительной сфере и медицинском образовании.

Дальше — руководство, которого нам не хватало в первый день: как такие пайплайны устроены на самом деле, какие датасеты и API имеют значение, что регулируется, что идёт не так в продакшене и какие цифры нужны покупателю, чтобы трезво принять решение build-vs-buy. Текст ориентирован на тех, кто будет выкатывать эту фичу, а не публиковать о ней статью.

Что такое распознавание эмоций в аудио и видео

«Распознавание эмоций» — общий термин для систем, которые выводят аффективное состояние (счастье, грусть, гнев, страх, удивление, отвращение, презрение, плюс непрерывные шкалы валентности и возбуждения) из видео с лицом, аудио речи, текстовых транскриптов или физиологических сигналов. В литературе это называют также аффективными вычислениями, распознаванием аффекта или мультимодальным распознаванием эмоций (multimodal emotion recognition, MER).

Коммерческая постановка задачи уже. Обычно команды выпускают одно из четырёх: классификацию лицевых выражений в видеопотоке, распознавание эмоций по речи (speech emotion recognition, SER) на микрофонном фиде, анализ тональности по транскрибированному тексту или мультимодальный классификатор со слиянием, объединяющий две-три из этих модальностей. Исследовательское поле добавляет биосигналы (ЭЭГ, пульс, кожно-гальваническая реакция), но они редко выходят из лабораторий, а EU AI Act теперь отдельно ограничивает их применение на рабочем месте.

Полезная ментальная модель: пайплайн берёт аудиовизуальный фрагмент, извлекает признаки специфично для каждой модальности, прогоняет по одной модели на модальность, а затем либо устраивает мажоритарное голосование по выходам (позднее слияние), либо обучается совместно по всем сразу (раннее или гибридное слияние). Выход — вероятностное распределение по набору меток эмоций плюс уверенность. Что вы сделаете с этим распределением — оповестите клинициста, подскажете продажнику, направите звонок в саппорт, измените рекомендацию контента — это и есть сам продукт.

Планируете фичу с распознаванием эмоций и не знаете, с чего начать?

Расскажите нам про задачу — мы подскажем, подходит ли ваш кейс, с каких модальностей начать и какой реалистичный срок с учётом Agent Engineering.

Позвоните нам → Напишите нам →

Где распознавание эмоций реально окупается в 2026

Рынок аффективных вычислений, по прогнозам, вырастет примерно с 5,7 трлн ₽ в 2025 году до около 14,4 трлн ₽ к 2030 году при CAGR 20%, причём более половины узкой emotion-AI части приходится на контакт-центры и инструменты клиентского опыта. По-честному: не каждой вертикали это нужно, но в пяти направлениях — нужно, и именно там у нас закрываются реальные сделки.

1. Телемедицина и behavioral health. Мультимодальные сигналы эмоций — вокальная просодия, лицевые микровыражения, лингвистические маркеры в транскрипте — используются для выявления риска депрессии, тревожности и тяжести ПТСР во время виртуальных консультаций и помогают клиницистам выстраивать темп сессии. Быстрее всего применение растёт на платформах, которые уже работают с видеовизитами.

2. Мониторинг водителя и салона. Регуляторы вынуждают эту тему. Покупка Affectiva компанией Smart Eye в 2021 году за 5,5 млрд ₽ была мотивирована требованиями к автомобильному мониторингу салона; камеры в салоне теперь выводят состояние водителя, когнитивную нагрузку и признаки агрессивного вождения в составе систем безопасности.

3. Контакт-центры. Коучинг операторов на лету по эмоциям в речи — Cogito, Observe.AI, Uniphore — стал стандартным инструментом корпоративной поддержки. Одномодальный SER достигает 80–90% точности на хорошо подобранных тренировочных данных, и этого хватает, чтобы подталкивать поведение оператора.

4. Корпоративный sales-интеллект. Платформы вроде Gong, Chorus и наш собственный Meetric используют сигналы вовлечённости и просодии, чтобы коучить менеджеров, оценивать звонки и автозаполнять CRM. Meetric сообщает о 25% росте конверсии в сделку и 80–100% автозаполнении CRM у тех, кто его внедрил.

5. Маркет-рисёрч, тестирование медиа и UX. Анализ тональности видеоинтервью в масштабе, панели тестирования рекламы и исследования реакций в играх — это территория браузерных SDK для анализа лица (MorphCast, Realeyes): им не нужны серверные вызовы, и они обходят значительную часть споров о биометрических данных. VocalViews использует ровно эту схему на 185 000+ бизнес-пользователях.

Как устроен современный пайплайн распознавания эмоций

Каждая продакшен-система, которую мы строили или аудировали, повторяет одну и ту же пятиэтапную структуру: захват, предобработка, извлечение признаков, классификация, действие. Рисунок 1 показывает канонический пайплайн.

Эталонный пайплайн мультимодального распознавания эмоций: захват, предобработка, извлечение признаков по модальностям, слияние, классификация, действие

Рисунок 1. Канонический пайплайн мультимодального распознавания эмоций в продакшене.

Этап 1. Захват

Видео 10–30 кадров в секунду — этого достаточно: лицевые выражения медленны относительно частоты кадров. Аудио обычно 16 кГц моно PCM, буферизуется в кадры 20–100 мс для стримингового SER. Для низкой задержки в контакт-центре или мониторинге водителя предпочтительнее захват на устройстве: отправка сырой биометрии в облако повышает риски по GDPR и AI Act.

Этап 2. Предобработка

Для лица: детекция (MTCNN, RetinaFace, YOLOv8-face), выравнивание к канонической позе, нормализация освещения. Для аудио: voice-activity detection, обрезка тишины, шумоподавление, мел-спектрограмма или MFCC. Для текста: транскрипция продакшен-ASR (Whisper, Deepgram, AssemblyAI), затем токенизация. Именно на этом этапе выигрывается или проигрывается точность в реальных условиях: слабый детектор лица при плохом освещении превращает выход классификатора в бессмыслицу.

Этап 3. Извлечение признаков

Современные системы в основном end-to-end: CNN или Vision Transformer поверх выровненных кропов лица; энкодеры Wav2Vec2, HuBERT или Whisper поверх сырого аудио; BERT-подобный энкодер поверх транскрипта. Признаки, спроектированные вручную (Action Units для лица, просодия для голоса), по-прежнему важны для интерпретируемости и для edge-развёртываний с низкой задержкой, где ViT слишком тяжёл.

Этап 4. Классификация и слияние

Каждая модальность либо выдаёт собственное распределение меток (позднее слияние с последующим взвешенным усреднением или небольшой gate-сетью), либо признаки разных модальностей конкатенируются и проходят через совместный трансформер (раннее или гибридное слияние). Выбор — не вопрос религии; подробнее в разделе «Мультимодальное слияние» ниже.

Этап 5. Действие

Именно здесь живёт 90% продуктовой ценности — и 90% инженерных команд сюда недоинвестируют. Метка — это не фича. Метке нужны калибровка, временное сглаживание (скользящее окно 3–10 секунд), логика подавления, чтобы избежать алёрт-усталости, и состояние согласия для конкретного пользователя. Без этого слоя вы выкатите демо, а не продукт.

Четыре модальности — сравнение

У каждого входного сигнала свои сильные стороны, цена и режимы отказа. В таблице ниже — компромиссы, которые мы видим в выпускаемых системах.

Модальность	Что фиксирует	Типичный бенчмарк	Реальность в проде	Хорошо подходит для
Лицо (FER)	Микро- и макровыражения, взгляд, поза головы	82–99% на AffectNet, CK+, RAF-DB	60–80% «в полях», ошибка >70% при окклюзии и смене освещения	Видеозвонки, маркет-рисёрч, мониторинг водителя
Речь (SER)	Просодия, высота, энергия, темп речи, качество голоса	84–97% на RAVDESS, EmoDB, IEMOCAP	65–80%, чувствительно к акценту и языку	Колл-центры, IVR, аудиотелемедицина
Тональность текста	Смысл, валентность, тема, намерение	85–93% на SST-2, MELD text	Самая стабильная между контекстами, но плохо ловит сарказм	Чаты, тикеты поддержки, разметка интервью
Физиология	Пульс, GSR, ЭЭГ, дыхание	70–85% на DEAP, K-EmoCon	Нужен носимый датчик; ограничено AI Act	Клинические исследования, усталость водителя, VR UX-лаборатории
Мультимодальное слияние	Любая комбинация перечисленного	+3–8 п.п. поверх лучшей одиночной модальности	Самая устойчивая к шуму реального мира	Телемедицина, решения с высокой ценой ошибки

Берите только лицо, если: у вас уже есть видеопоток, нужна задержка <200 мс и согласие пользователя получено явно (например, в платном телемедицинском визите).

Берите только речь, если: вы в колл-центре, клиенты не включают камеру или сам телефонный канал — это и есть продукт.

Берите мультимодальный подход, если: цена ложного срабатывания высока (клиническая разметка, коучинг, безопасность), а среда — неконтролируемая.

Стратегии мультимодального слияния — без жаргона

Раннее слияние конкатенирует сырые или промежуточные признаки от каждой модальности и обучает один большой классификатор. Плюсы: модель учит кросс-модальные взаимодействия end-to-end, обычно лучшие цифры на бенчмарках. Минусы: пропавшая модальность отравляет инференс, обучение хрупкое, задержка определяется самой медленной веткой.

Позднее слияние обучает отдельный классификатор на каждую модальность и затем объединяет их выходы (взвешенное усреднение, голосование или маленький MLP-gate). Плюсы: деградирует мягко, если одна модальность пропала; легко A/B-тестировать новую модальность; единственный реалистичный вариант для гибридов edge-плюс-облако. Минусы: оставляет точность «на столе» в чистых лабораторных условиях.

Гибридное (трансформерное) слияние использует cross-attention между энкодерами модальностей: текстовый декодер обращает внимание на аудиотокены, аудио — на токены лица, и так далее. Это SOTA 2025–2026 на датасетах CMU-MOSEI и MELD. Прирост точности 3–8 пунктов поверх одиночной модальности — норма; инженерная и инференс-цена крутая.

Начинайте с позднего слияния. Выпустите по классификатору на каждую модальность, объедините на уровне API и переходите к гибриду только если A/B-тест покажет, что вы реально теряете деньги.

Бенчмарк против реальности — неудобный разрыв

Вендоры обещают точность за 90%. Литература согласна — на курируемых бенчмарках. Свежие peer-reviewed FER-модели достигают 99,26% на CK+ и 82% на RAF-DB; SER-ансамбли превышают 95% на RAVDESS и 96% на IEMOCAP. Это верхняя граница.

Опубликованные in-the-wild оценки показывают рост ошибки более чем на 70% при искажениях, окклюзии, смене освещения или сдвиге распределения. На действительно невиданных пользователях и средах точность в продакшене падает в диапазон 60–80% и для лица, и для речи; сложные или социальные эмоции (смущение, презрение, сарказм) опускаются ниже 75% независимо от размера модели.

Что это значит для продуктовых решений: никогда не обещайте категорические метки эмоций. Выдавайте вероятности с откалиброванной уверенностью, выносите пороги как настраиваемые параметры и относитесь к выходу как к одному сигналу среди многих. Мы строим клиентские дашборды, в которых уверенность эмоции комбинируется с длиной сессии, очерёдностью реплик и темой — решение принимается по агрегированной метрике.

Бенчмарк показывает 90%, а в проде получается 65%?

Наша команда уже вытаскивала забуксовавшие emotion-AI-проекты — аудитом датасета, переразметкой и переобучением на гибридном слиянии. Расскажем, как помочь и вашему.

Позвоните нам → Напишите нам →

Датасеты, которые нужно знать перед обучением

Если вы строите — датасет и есть ваша фича. Если покупаете — датасет это смещение, которое вы наследуете. Каждый API-вендор обучен на каком-то подмножестве этих корпусов, и его режимы отказа отражают этот факт.

Лицо

AffectNet — более миллиона спонтанных интернет-изображений, размеченных под 8 дискретных эмоций плюс валентность и возбуждение. Рабочая лошадка индустрии — и со смещением в сторону Запада. FER-2013, 35 тыс. изображений, шумная разметка, всё ещё канонический бейзлайн. CK+ и JAFFE — постановочные лабораторные кадры, завышают метрики. RAF-DB — реальный мир. AFEW вытягивает выражения из фильмов. Aff-Wild2 — самый сильный in-the-wild корпус для непрерывной валентности и возбуждения.

Речь

IEMOCAP — 12 часов, 10 дикторов, по сценарию и импровизированно, бенчмарк для SER. RAVDESS — постановочный, сбалансирован по полу, широко используется. EmoDB (немецкий), CREMA-D (этнически сбалансированный), MELD (разговорный с ТВ). Все с перекосом в английский или немецкий.

Мультимодальные

CMU-MOSEI и MELD объединяют лицо, аудио и транскрипт — основной выбор для исследований по слиянию. DEAP и K-EmoCon добавляют физиологические каналы.

Строить или купить — матрица решений

Команды почти всегда недооценивают операционную стоимость владения моделью и переоценивают цену переключения, если стартовать с API. Ниже — общая канва, по которой мы проводим покупателей.

Критерий	Купить (API/SDK)	Построить (custom)
Срок до первого пилота	2–4 недели	3–6 месяцев с Agent Engineering
Стартовая стоимость	Низкая (интеграция + UX)	Средняя (данные, разметка, инфра)
Потолок точности	Сколько даст вендор	Выше — на вашей конкретной аудитории
Контроль смещения	Чёрный ящик, аудит редко возможен	Аудит у вас в руках
Резиденция данных	Регион вендора или on-device SDK	Где хотите хостить
Операционные расходы	Поминутная или поразовая тарификация, растёт вместе с объёмом	GPU-инфра, MLOps, циклы переобучения
Когда выигрывает	Скорость, не-ключевая фича, стандартная вертикаль	Конкурентное преимущество, нестандартная аудитория, edge и задержки, регуляторика

Берите гибридную сборку, если: готовая модель даёт вам 80% на вашей аудитории, а внутренний дообученный финальный слой плюс ваша собственная логика слияния закрывают разрыв — это, как правило, оптимальная точка.

Ландшафт API и SDK

Рынок консолидировался вокруг небольшого числа универсальных облачных API, специализированных рисёрч-вендоров по голосу и лицу, браузерных SDK для on-device-сценариев и вертикальных игроков (автопром, контакт-центры). Таблица ниже — текущее состояние для покупательского скоупинга. Цены индикативные и меняются ежеквартально, всегда уточняйте у вендора.

Вендор	Модальность	Развёртывание	Цена (ориентировочно)	Подходит для
AWS Rekognition	Эмоции по лицу	Облако	~0,07 ₽ за изображение, 7,5 ₽/мин видео	Быстрые пилоты по лицу внутри AWS-инфраструктуры
Google Video Intelligence	Лицо, детекция кадров	Облако	Поминутно, объёмные скидки	Массовая разметка видео, пользователи GCP
Azure Face + Video Indexer	Лицо + речь + тональность	Облако	За вызов / за минуту	Корпоративные Azure-стеки; учтите вывод из эксплуатации general-emotion API
Hume AI	Голос + просодия лица	Облако, стриминг по WebSocket	Поминутно, есть исследовательский тариф	Мультимодальный анализ research-уровня, выразительные голосовые UI
Affectiva / Smart Eye	Лицо, мониторинг салона	Встраиваемое решение / OEM	По лицензии, индивидуально	Автомобильный мониторинг водителя
MorphCast	Лицо	Браузерный JS SDK, on-device	Подписка, SDK <1 МБ	Маркет-рисёрч, e-learning, приватные сценарии
Realeyes	Лицо + внимание	Облако / SDK	Корпоративные лицензии	Тестирование рекламы, медиа-панели
Noldus FaceReader	Лицо, Action Units	Десктоп	Годовая лицензия	Академические и поведенческие исследования
Symbl.ai / Deepgram / AssemblyAI	Тональность речи, транскрипт	Облако, стриминг	Поминутный ASR + надстройка по тональности	Встречи, звонки, sales-интеллект-стеки

Регулирование: EU AI Act изменил рынок в феврале 2025

Самый крупный регуляторный сдвиг для распознавания эмоций произошёл тихо: 2 февраля 2025 года вступила в силу статья 5(1)(f) EU AI Act, которая запрещает размещение на рынке, ввод в эксплуатацию и использование AI-систем для вывода эмоций по биометрическим данным (лицо, голос, походка, физиологические сигналы) на рабочих местах и в образовательных учреждениях. Медицинские и safety-исключения сформулированы узко. Руководящие материалы по правоприменению опубликованы 4 февраля 2025 года.

Несколько моментов, на которых спотыкаются продуктовые команды. Запрет действует независимо от страны штаб-квартиры вендора, если система предлагается людям в ЕС. Он распространяется и на голос, не только на лицо. Реклама, клиентская аналитика и не-рабочие потребительские сценарии под статью 5 не подпадают, но всё равно регулируются GDPR и правилами high-risk-классификации в других частях акта.

За пределами ЕС: GDPR по-прежнему относит вывод по биометрии к специальной категории данных по статье 9 — то есть нужно явное согласие или другое чёткое правовое основание. В США законы об обработке биометрии в стиле BIPA (Illinois) создают реальные судебные риски (Clearview и Facebook заплатили девятизначные суммы по мировым), и несколько штатов пошли следом. Великобритания и Канада в целом сходятся с GDPR. Китай регулирует распознавание лиц отдельно; индийский DPDP Act требует согласия и ограничения цели обработки.

Практическое правило: если ваш продукт — B2B для работодателей или образовательных учреждений в ЕС, не выпускайте инференс эмоций по сотрудникам или учащимся. Точка. Рассмотрите как альтернативу метрики вовлечённости и внимания (задачно-ориентированные, не аффективные).

Смещение, справедливость и что на самом деле говорит наука

Самая важная работа в этом поле — обзор Барретт, Адольфса, Марселлы, Мартинеса и Поллака 2019 года в Psychological Science in the Public Interest. Их вывод: переход от движения мышц лица к категории эмоции — связь куда более слабая, чем предполагалось в индустрии. Люди улыбаются, не будучи счастливыми; конфигурации лица варьируются по культуре, контексту и индивиду; «универсальные базовые эмоции» — спорная модель, а не устоявшаяся наука.

В переводе на продуктовые риски: готовые API эмоций, обученные на западных, более молодых и мужчиноцентричных датасетах, ошибаются на темнокожих женщинах, носителях восточно-азиатских языков, пожилых пользователях и вообще на тех, чей выразительный идиом отличается от обучающего распределения — измеримо и воспроизводимо. Задокументированные аудиты показывают разрыв в точности 5–20 пунктов между демографическими группами на одном и том же бенчмарке. Просите у вендоров отчёты по точности в разрезе демографии — большинство их не отдадут.

Меры, которые реально работают: сбалансированные обучающие данные (CREMA-D, CAER-S для лица, подмножество MELD для текста), постфактум-калибровочный слой на каждый демографический сегмент, список «не выводить эмоции для…» (найм, оценка эффективности, поведенческая медицина без участия клинициста) и непрерывный мониторинг дрейфа. Бесплатного тут ничего нет. Зато всё это дешевле, чем коллективный иск.

Эталонная архитектура продакшен-системы

Рисунок 2 показывает архитектуру, с которой мы начинаем работу над мультимодальными emotion-aware продуктами. Мы сознательно выносим лёгкий инференс по лицу на edge и обращаемся в облако за более тяжёлыми моделями речи и текста — это правильный компромисс для телемедицины, контакт-центров и sales-интеллект-нагрузок.

Схема эталонной архитектуры: edge-инференс лица, облачные модели речи и текста, сервис слияния, feature store, слой согласия и аудита

Рисунок 2. Эталонная продакшен-архитектура мультимодального распознавания эмоций.

Неочевидные части: слой согласия и аудита, проставляемый на каждый инференс (состояние opt-in пользователя, юрисдикция, feature flag), feature store с TTL 30 дней, чтобы переобучение не требовало нового извлечения данных, и канал обратной связи, в котором операторы помечают ложные срабатывания — без этого цикла модели тихо деградируют месяцами.

Мини-кейс: чему нас научил запуск распознавания эмоций в продажах по видеосвязи

Ситуация. Скандинавская B2B-платформа sales-интеллекта хотела live-сигналы вовлечённости во время звонков в Zoom, Teams и Google Meet — не размеченные эмоции, а измеримые поведенческие подсказки (внимание, согласие, замешательство), которые можно вернуть менеджеру прямо во время разговора.

12-недельный план. Недели 1–2: поток согласий, мост кросс-платформенного захвата. Недели 3–6: пайплайн просодии речи на Whisper + лёгкая SER-голова, плюс анализ вовлечённости по лицу (взгляд, улыбка, брови) через WASM-модель на устройстве. Недели 7–9: позднее слияние в общий engagement-скор, подбор порогов на реальных клиентских звонках. Недели 10–12: UX-коучинг менеджера в звонке, постзвоночное саммари, выгрузка в CRM.

Результат. 25% рост конверсии в сделку по сравнению с подобранным базовым периодом до запуска; 80–100% полей CRM автозаполняются на основе метаданных звонка и эмоционально-смежных сигналов; качественная обратная связь, что менеджеры стали больше доверять engagement-скору, когда мы перестали подписывать его как «счастливый / грустный» и начали — как «внимательный» и «возражающий». Продукт работает как Meetric. Если вам нужна похожая оценка вашего стека — звоните или пишите.

Модель стоимости — как выглядит реальный проект

Цифры ниже исходят из нашей доставки, ускоренной Agent Engineering: наши AI-сборки идут быстрее и легче, чем классическая аутсорсинговая модель. Это диапазоны, а не коммерческое предложение; реальные суммы зависят от вашего стека, доступа к данным и периметра комплаенса.

Объём работ	Типичная длительность	Стоимость сборки	Операционные расходы
Интеграция API (лицо или речь)	3–6 недель	1,5–4,5 млн ₽	Платежи вендору API, растут с объёмом
Мультимодальный MVP на вашем видеостеке	8–14 недель	4,5–12 млн ₽	Смешанная плата за API + умеренная GPU-инфра
Custom-модель со слиянием и дообучением	4–8 месяцев	11–33 млн ₽	GPU-кластер, MLOps, абонемент на разметку
Регулируемый клинический деплой (близкий к SaMD)	6–12 месяцев	22–67 млн ₽	Аудит, ревалидация, клинические операции

Наш опыт: лучший ROI большинство покупателей получают от первых двух строк, а дообучение поверх — добавляют только когда есть реальные продакшен-данные и конкретный режим отказа, который нужно закрыть.

Фреймворк решений — выбор пути за пять вопросов

1. Кто субъект? Клиенты, пациенты, учащиеся, сотрудники, водители или широкая публика? Если «сотрудники или учащиеся» в ЕС — остановитесь и пересмотрите объём: действует статья 5.

2. Какое решение управляется сигналом? Подсказка пользователю, решение о пользователе или что-то посередине? Решения о человеке (найм, кредит, клиническая сортировка) резко поднимают регуляторную и этическую планку; подсказки и коучинг — куда менее рискованны.

3. Какая модальность у вас уже есть? Если у вас есть видеопоток (телемедицина, sales-звонок), связка «лицо + голос» — дёшево; если есть только телефонный номер, скорее всего, правильный объём — SER.

4. Насколько необычна ваша аудитория? Дети, пожилые, лица в масках, неносители языка, акцентная речь? Чем более нестандартна аудитория — тем больше нужен собственный пайплайн данных и тем меньше можно доверять заявлениям точности готовых решений.

5. Какова ваша терпимость к ложным срабатываниям? Они есть у любой emotion-системы. Если ложная пометка «в дистрессе» клиницисту допустима — продолжайте; если та же пометка триггерит автоматическое действие с последствиями, не выпускайте без человека в петле.

Ошибки, которые мы продолжаем видеть

1. Категорические метки в UI. «Пользователь зол» — это худший UX, чем «тон звонка повышается, менеджеру стоит сбавить темп». Показывайте откалиброванную уверенность и поведенческие сигналы, а не дискретные категории эмоций.

2. Пропуск слоя согласия. GDPR (статья 9) и AI Act требуют per-user opt-in на биометрический вывод — и пользователи отзывают согласие. Если ваша система не может отключить инференс по одному пользователю без релиза — это комплаенс-проблема.

3. Восприятие демографического разрыва как ошибки округления. Падение точности на 15 пунктов на одной этнической группе — не шум, а судебный иск. Аудитируйте ежеквартально, ребалансируйте обучающие данные, выпускайте внутренние accuracy cards.

4. Игнорирование временного контекста. Классификация по одному кадру или одной реплике нестабильна. Сглаживайте в окне 3–10 секунд, давайте больший вес свежим кадрам, требуйте устойчивости сигнала, чтобы он сработал.

5. Недостаточное инструментирование. Emotion AI дрейфует. Если вы не логируете предсказания, эталон (когда его можно собрать) и обратную связь пользователя — заметите проблему только когда заметит регулятор или клиент.

KPI: что измерять

KPI качества. Per-class precision и recall на отложенной продакшен-выборке (цель — F1 ≥ 0,75 для основного класса). Демографическая парность: абсолютный разрыв точности ≤ 5 пунктов по расе, полу и возрастным группам. Ошибка калибровки (ECE) ≤ 0,05.

KPI бизнеса. Attach rate фичи, доля действий на инференс (кто-то вообще пользуется подсказкой?), прирост конверсии или улучшение исхода в контролируемом раскате, доля opt-in (здоровый поток согласия даёт 40–70%).

KPI надёжности. P95-задержка инференса (цель — <250 мс для real-time UX), алёрты дрейфа модели (еженедельные проверки распределения), частота инцидентов с ложными эскалациями и время отката версии модели.

Когда НЕ использовать распознавание эмоций

Не выпускайте фичу, если выполняется хоть одно из следующего. (а) Ваш кейс — сотрудники или учащиеся в ЕС, а вы не попадаете под медицинское или safety-исключение. (б) Сигнал должен принимать решение о человеке без участия человека в петле. (в) Нет пути собрать демографически сбалансированные данные для оценки — вы выпустите смещённый инференс и не узнаете об этом. (г) Продукт уже работает; распознавание эмоций прикручивается, потому что это модно. Стоп.

В большинстве этих случаев лучше выбрать поведенческую метрику — соотношение talk time, детекция тишины, латентность ответа, извлечение ключевых слов. Это дешевле, стабильнее и значительно меньше регулируется.

Готовы оценить распознавание эмоций или сигналы вовлечённости для вашего продукта?

Проведём аудит вашего видео- и аудиостека, подскажем правильную модальность, оценим сборку с Agent Engineering и вернёмся с one-pager, который можно показать совету директоров.

Позвоните нам → Напишите нам →

FAQ

Насколько точно распознавание эмоций в аудио и видео работает на практике?

На курируемых бенчмарках современные модели по лицу достигают 82–99%, по речи — 84–97%. В продакшене ожидайте 60–80% для одиночной модальности и следите за обрывами точности более 70 пунктов при смене освещения, окклюзии, акцентах или демографическом сдвиге. Мультимодальное слияние обычно добавляет 3–8 пунктов к самой сильной одиночной модальности.

Законно ли распознавание эмоций в ЕС?

Со 2 февраля 2025 года AI-системы, выводящие эмоции по биометрическим данным на рабочих местах и в образовательных учреждениях, запрещены по статье 5(1)(f) EU AI Act. Медицинские и safety-исключения сформулированы узко. Клиентские и потребительские контексты под статью 5 не подпадают, но остаются под GDPR и другими обязательствами AI Act.

Строить свою модель или использовать API?

Начинайте с API или SDK. Стройте или дообучайте, только если готовая производительность на вашей аудитории явно недостаточна, у вас есть дифференцирующие обучающие данные или требования по резиденции данных и задержке исключают сторонние эндпойнты. Большинство развёртываний у нас стартуют как интеграция API и переходят в гибрид (дообученная голова + собственное слияние) только после замеров реального бейзлайна.

Сколько стоит добавить распознавание эмоций в видеопродукт?

Интеграция API для одной модальности обычно — 1,5–4,5 млн ₽ и 3–6 недель. Мультимодальный MVP на существующем видеостеке — обычно 4,5–12 млн ₽ за 8–14 недель. Custom-модель со слиянием и дообучением — 11–33 млн ₽ за 4–8 месяцев. Диапазоны предполагают нашу доставку, ускоренную Agent Engineering.

На каких датасетах обучать?

Для лица: AffectNet и RAF-DB как рабочие лошадки, Aff-Wild2 для непрерывной валентности/возбуждения в реальных условиях, CREMA-D — для демографически более сбалансированной аудио-видео-разметки. Для речи: IEMOCAP и RAVDESS для бенчмаркинга, MELD — для разговорного. Для мультимодального слияния: CMU-MOSEI и MELD. Смешивайте с собственными размеченными продакшен-данными — ни один публичный набор не репрезентативен глобально.

Как работать со смещением и справедливостью?

Запрашивайте у вендоров разбивку точности по демографии; настаивайте на сбалансированном обучении или постфактум-калибровке per-segment; аудитируйте ежеквартально на реальных продакшен-данных; ограничивайте абсолютный разрыв точности по расе, полу и возрасту 5 пунктами; выпускайте внутренние accuracy cards. Готовьтесь переразмечать и переобучать минимум раз в год.

Можно ли запускать распознавание эмоций на устройстве ради приватности?

Да, всё больше. Браузерные SDK вроде MorphCast запускают анализ лица полностью в браузере (WASM/WebGL) с моделью меньше 1 МБ, не отправляя биометрию на сервер. Мобильные фреймворки (Core ML, TensorFlow Lite, ONNX) позволяют выпустить квантизованную модель лица или речи прямо на устройстве. Точность на 5–10 пунктов ниже облачных моделей, но выигрыш в приватности и задержке обычно это оправдывает.

Сколько занимает реальное внедрение?

API-пилот — 2–4 недели; продакшен-готовая мультимодальная фича со слоем согласия, мониторингом и калибровкой — 10–16 недель; регулируемый клинический или safety-деплой — 6–12 месяцев, включая аудиты и ревалидацию. Agent Engineering ощутимо сжимает каждый из этих этапов по сравнению с классическим аутсорсингом.

Что почитать дальше

Распознавание эмоций в реальном времени

Real-Time AI Emotion Software

Подробнее о live-сигналах аффекта в видеозвонках и контакт-центрах.

Эмоции в речи

Audio Emotion Detection System Using AI

Как SER-пайплайны строятся end-to-end и какие признаки выбирают.

Эмоции по лицу

Machine Learning for Video Emotion Analysis

Сфокусированный обзор лицевой части пайплайна: модели, датасеты, развёртывание.

Видеоконференции

AI Emotion Detection in Video Conferences

Продуктовые шаблоны для интеграции аффект-сигналов в Zoom, Teams и Meet.

Услуги

Услуги Фора Софт по AI-интеграции

Наш стек, кейсы и быстрый путь к оценке AI-проекта вместе с нами.

Готовы запустить распознавание эмоций, которое держит удар в продакшене?

Короткий ответ на «стоит ли добавлять распознавание эмоций в аудио и видео?» — только если сигнал делает решение дешевле, безопаснее или лучше, и только после того, как вы определились с модальностью, вендором или моделью и применимым комплаенс-режимом. Режимы отказа предсказуемы — переоценка по бенчмаркам, демографическое смещение, пробелы в согласиях, мёртвые метки вместо живых сигналов — и каждый из них чинится инженерией, а не уклонением.

Фора Софт выпускала emotion-смежные AI в sales-видео, видеомаркет-рисёрче, телемед-смежных платформах и поведенческом видеонаблюдении. Мы знаем, где обрывы, что именно Agent Engineering даёт по срокам, и скажем вам прямо, когда правильный ответ — «не строить эту фичу». Если вам нужен такой разговор — звоните или пишите.

Получите второе мнение по распознаванию эмоций в аудио и видео

Кратко обсудим задачу, дадим чёткий объём и диапазон стоимости и честный совет — строить, покупать или отложить фичу.

Позвоните нам → Напишите нам →

Технологии

Стадия	Агрессивный бюджет	Реалистичный бюджет	Как удержать
Захват и форк	50 мс	100 мс	Медиасервер и AI-сайдкар рядом; кадры Opus по 20 мс
Streaming ASR	150 мс	300 мс	Промежуточные гипотезы, endpointing, тюнинг VAD
Streaming MT	150 мс	400 мс	Инкрементальный декодер; кэш контекста на сессию
Streaming TTS	200 мс	500 мс	Синтез чанками; буферы коротких предложений
Возврат слушателю	50 мс	150 мс	Медиа в том же регионе; микс через SFU
Итого от рта до уха	~600 мс	~1,5 с	Архитектура + вендоры + регионы

Стадия	Лучшее качество	Лучшая цена	Open-source / self-host	На что обратить внимание
Streaming ASR	Deepgram, AssemblyAI, Speechmatics	Azure, Google, Amazon Transcribe	Whisper, NVIDIA Parakeet / Canary	Качество телефонного звука сильно варьируется
MT	DeepL, GPT-4o / Claude / Gemini	Google Translate, Azure, Amazon	NLLB-200, M2M-100, MADLAD-400	Задержка LLM при росте нагрузки
TTS	ElevenLabs, Cartesia, OpenAI	Amazon Polly Neural, Azure Neural	Coqui TTS, Piper, XTTS v2	Задержка первого аудио на холодном старте
Медиасервер	LiveKit Cloud, Vonage Video, Daily	FreeSWITCH, Asterisk, Janus	Все перечисленные open-source	SIP-interop и тюнинг обхода NAT
SIP-прокси	Kamailio, OpenSIPS	Kamailio, Drachtio	Kamailio, OpenSIPS	Сложность маршрутизации растёт с числом транков

Статья	За минуту, коммерческий API	За минуту, self-hosted	Заметки
Streaming ASR	0,9–1,8 ₽	0,2–0,6 ₽	Deepgram и Google в нижней части диапазона
Машинный перевод	0,3–3 ₽	0,1–0,7 ₽	LLM-пайплайны в верхней части
Нейросетевой TTS	2,2–9 ₽	0,6–1,8 ₽	Премиум-ElevenLabs наверху
Медиасервер + egress	0,3–0,7 ₽	0,07–0,2 ₽	LiveKit Cloud vs self-hosted
Итого за минуту	3,7–15 ₽	1–3,4 ₽	Self-hosted примерно в 3–5 раз дешевле

Инструмент	Модель	Цена	Срок	Для кого	Главное ограничение
Photomatix Pro 7	Десктоп	7 425 ₽ единоразово	30–60 мин на 100 фото	Одиночный фотограф, детерминированный результат	Нет подмены неба, устаревший UI
Luminar Neo	Десктоп + кроссплатформа	7 425–11 925 ₽	5–15 мин на фото	Пресеты под недвижимость, подмена неба	Дефолтный пресет может пересатурировать
AutoHDR	Облачный AI	30–41 ₽ / кадр	20–30 мин	Агентства, объёмы MLS	Меньше контроля над стилем
Imagen AI	Облако + Lightroom	2–5 ₽ / кадр	Минуты, пакетно	Фотографы со своим стилем	Нужен каталог для обучения
Aftershoot	Облачная подписка	750–4 500 ₽ / месяц	Безлимит по объёму	Студии большого объёма, плоский тариф	Меньше пресетов под недвижимость
BoxBrownie (Pixa)	Управляемый аутсорсинг	120 ₽ / кадр	~24 часа	Агентства «всё под ключ»	Самый медленный, самая высокая цена
Кастомная разработка (SaaS)	Свой API + облако	Себестоимость 15–37 ₽ / кадр	Настраиваемый (5–30 мин)	Proptech, вертикальные обёртки	12–20 недель до MVP

Распознавание эмоций в аудио и видео: полное руководство 2026 года

Зачем Фора Софт написала это руководство

Что такое распознавание эмоций в аудио и видео

Где распознавание эмоций реально окупается в 2026

Как устроен современный пайплайн распознавания эмоций

Этап 1. Захват

Этап 2. Предобработка

Этап 3. Извлечение признаков

Этап 4. Классификация и слияние

Этап 5. Действие

Четыре модальности — сравнение

Стратегии мультимодального слияния — без жаргона

Бенчмарк против реальности — неудобный разрыв

Датасеты, которые нужно знать перед обучением

Лицо

Речь

Мультимодальные

Строить или купить — матрица решений

Ландшафт API и SDK

Регулирование: EU AI Act изменил рынок в феврале 2025

Смещение, справедливость и что на самом деле говорит наука

Эталонная архитектура продакшен-системы

Мини-кейс: чему нас научил запуск распознавания эмоций в продажах по видеосвязи

Модель стоимости — как выглядит реальный проект

Фреймворк решений — выбор пути за пять вопросов

Ошибки, которые мы продолжаем видеть

KPI: что измерять

Когда НЕ использовать распознавание эмоций

FAQ

Что почитать дальше

Готовы запустить распознавание эмоций, которое держит удар в продакшене?

Похожие статьи

Хотите обсудить ваш проект?