
Распознавание эмоций в реальном времени — это не одна модель, а задача слияния сенсоров. В продакшене система считывает лицо, слышит голос и сверяет оба сигнала с контекстом: кто пользователь, что он делает, что только что произошло на экране. В 2026 разница в точности между вендорами невелика. По-настоящему важны другие параметры: задержка ниже 300 мс, приватность благодаря инференсу на устройстве и честные калибровочные данные.
Ландшафт emotion-AI в 2026: Hume AI, Affectiva (Smart Eye), MorphCast, Realeyes и open-source DeepFace. Текущий уровень — точность 75–82% на классификации семи дискретных эмоций и 0,65–0,72 CCC по непрерывным шкалам валентности и возбуждения. Этого достаточно для UX-исследований и контроля качества в колл-центрах, но всё ещё мало для клинических решений.
Фора Софт с 2017 года внедряет функции распознавания эмоций в видеоплатформы, телемедицину, обучение и edtech-продукты. В этом гиде мы ранжируем семь инструментов реального времени, которые наши продуктовые команды реально используют в 2026, с расчётами для отдела закупок и подводными камнями, за которые мы уже заплатили.
Главные выводы для 2026
- Точность в 2026 стала массовым продуктом (88–94% на эталонных датасетах). Настоящие отличия — задержка ниже 300 мс, инференс на устройстве и соответствие GDPR/HIPAA.
- Только лицо — устаревший подход. Мультимодальность (лицо + голос + контекст) уменьшает число ошибок классификации на 35–50% по нашим внутренним замерам.
- В мультимодальности лидируют Hume AI и Affectiva (Smart Eye). Microsoft Azure уходит со сцены (Face API объявил эмоции устаревшими). iMotions ведёт в research-grade сегменте, Noldus — в академическом и поведенческом.
- Порог build vs buy: до ~50 тыс. сессий в месяц лучше API. Выше — дообученная open-source модель на NVIDIA Jetson начинает выигрывать по стоимости и задержке.
- Замените «эмоции» на «аффективные состояния». Современные системы выдают возбуждение/валентность и вовлечённость, а не шесть категорий Экмана, потому что они не работают межкультурно.
Почему Фора Софт в задачах распознавания эмоций в реальном времени
Мы разрабатываем видео- и конференц-продукты с AI с 2017 года. За это время мы успели заменить в продакшене каждый emotion SDK из этого списка минимум один раз. Мы подключали Affectiva к системе отслеживания внимания в школе, за две недели после уведомления об устаревании сняли Microsoft Face с телемедицинского продукта и мигрировали приложение для live-commerce с аудиторией 40 тыс. MAU с облачных emotion-API на on-device инференс, когда стоимость одной сессии вышла за точку безубыточности.
Когда нужна мультимодальность: когда точность одной модальности упирается в потолок около 70%. Совмещение лица, голоса и текста обычно даёт 85–90%.
На выходе — playbook закупки, а не очередная подборка. Мы прямо говорим, какой инструмент брать под вашу нагрузку, ваш регуляторный режим, зрелость вашей ML-команды и — главное — что сломается на четвёртом месяце эксплуатации.
Рынок распознавания эмоций в 2026 — за две минуты
В 2024 рынок оценивался в ~232 млрд ₽. В 2026 он составляет ~435 млрд ₽ и, по прогнозам, к 2030 преодолеет отметку в 1 трлн ₽ при среднегодовом росте 24%. За последние 18 месяцев изменилось три вещи:
- Microsoft признал эмоции устаревшими в Azure Face API. Клиенты мигрировали на Hume, Affectiva или open-source (MediaPipe + собственный классификатор). Microsoft оставил анализ лица, но убрал публичные метки эмоций из соображений справедливости.
- Affectiva стала Smart Eye. Поглощение в индустрии мониторинга водителя расширило SDK и добавило внутрисалонные сенсоры, но условия лицензирования изменились: некоторые старые клиенты столкнулись с ростом цены в 2–3 раза.
- Hume AI стала лидером мультимодальности. Её Expression Measurement API обрабатывает 48 мимических выражений, 28 голосовых всплесков и 27 признаков речевой просодии за один вызов с задержкой меньше 300 мс на прогретом соединении.
Регуляторы тоже подтягиваются. EU AI Act с 2026 относит распознавание эмоций на рабочих местах и в образовании к категории «высокого риска» и запрещает его в этих контекстах за исключением медицинских и связанных с безопасностью случаев. Если вы строите продукт для европейского образования или HR — прочитайте этот пункт до первой строчки кода.
1. Hume AI — Expression Measurement + EVI
В 2023–2025 Hume AI переосмыслила категорию вокруг «аффективных состояний», а не базовых эмоций. Её Expression Measurement API возвращает непрерывные оценки по 48 мимическим выражениям, 28 голосовым всплескам (смех, вздохи, всхлипы) и 27 признакам речевой просодии. Empathic Voice Interface (EVI-2) поточно передаёт речь с учётом эмоций в обе стороны за 300–500 мс — поэтому к 2026 Hume стал стандартом для AI-компаньонов и продуктов на стыке с терапией.
Когда от emotion AI лучше отказаться: когда у вас жёсткие требования к приватности или аудитория — несовершеннолетние. Юридические и репутационные риски здесь реальные.
Цены (2026): 0,54 ₽ за минуту анализа видео, 0,76 ₽ за минуту голосовой просодии, 7,6 ₽ за минуту стриминга EVI-2. Бесплатный тариф — 10 000 API-секунд в месяц. Интерфейсы WebSocket и HTTP, SDK для JS, Python и iOS/Android.
2. Affectiva (Smart Eye) — Affdex SDK
Пионер. Вырос из MIT Media Lab в 2009, был приобретён Smart Eye в 2021 за 5,5 млрд ₽. Affdex — самый распространённый в мире SDK для распознавания эмоций по лицу: установлен в 90+ миллионах автомобильных салонов, в каждой крупной маркетинговой панели и в тысячах потребительских приложений. Датасет — более 10 млн лиц из 90 стран, крупнейший в индустрии. Это важно, потому что модели, обученные только на западных лицах, межкультурно проваливаются.
Цены (2026): коммерческая лицензия от ~375 тыс. ₽/год за SDK (одна платформа), цена масштабируется от MAU. Автомобильные и enterprise-тарифы — индивидуальные, рассчитывайте на 3,7–11 млн ₽/год. Старый Affectiva JavaScript SDK по-прежнему доступен для тестирования медиа. В 2025 Smart Eye включила Affdex в платформу Cabin Intelligence вместе с мониторингом водителя.
3. iMotions — research-grade платформа биометрии
iMotions — это не SDK для продукта, а исследовательская платформа. Она объединяет Affdex (через OEM), Realeyes, айтрекинг (Tobii, Gazepoint, Smart Eye), кожно-гальваническую реакцию, ЭКГ, ЭЭГ и опросные данные в одной временной шкале. Университетские исследователи, UX-агентства и команды HMI в автопроме живут внутри iMotions, потому что это единственный инструмент, позволяющий сопоставить «пользователь нахмурился» с «у него подскочил пульс, а взгляд зафиксировался в правом нижнем квадранте».
Edge vs cloud: лицо — на устройстве (Apple Vision, MediaPipe), голос — в облаке (стеки на базе Whisper). Передавайте только выводимые метки, а не сырые аудио и видео.
Цены (2026): академический тариф от ~562 тыс. ₽/год; коммерческий — от ~1,8 млн ₽/год на одного пользователя; enterprise — индивидуально. Софт работает только на Windows, что исключает кроссплатформенные продукты.
4. Noldus FaceReader
FaceReader для академической психологии — то же, что iMotions для UX-исследований: эталонная реализация. Он классифицирует шесть «базовых» эмоций Экмана плюс презрение, нейтральность, валентность и возбуждение. С версии FaceReader 9 (2024) добавлены модели для младенцев и детей — такой глубины цитирования в этом сегменте нет ни у одного конкурента. Широко применяется в потребительских исследованиях, детской психологии и сенсорных исследованиях продуктов питания.
Цены (2026): базовый FaceReader — ~600–900 тыс. ₽/год за одно рабочее место; FaceReader Online (браузерный, для удалённых панелей) — от 11 ₽/мин. Консалтинговые услуги продаются отдельно. Десктоп-версия — только Windows.
5. Realeyes — измерение эмоций в видеорекламе
Realeyes специализируется на одном — измерении отклика аудитории на видеоконтент в масштабе. В её панели более 12 млн опт-ин респондентов, а платформа выдаёт метрики внимания и эмоций по ролику за 24–48 часов. Её используют Mars, Coca-Cola, Publicis и команда Google по YouTube Ads. В 2025 Realeyes запустила Brand Lift Measurement и API для тестирования креативов в ad-tech платформах.
Типичный сбой: обучение на демографически узких данных. Искажение отбора (selection bias) проявляется быстро, а исправить его сложно — ребалансируйте выборку заранее.
Цены (2026): managed service (375 тыс.–3,7 млн ₽ за исследование); enterprise-доступ к API — по запросу. Не продаётся как SDK для разработчиков — вы покупаете инсайты, а не пиксели.
6. Kairos — распознавание лиц + эмоции для identity-сценариев
Kairos — прежде всего вендор распознавания и верификации лиц, который включает распознавание эмоций в свой SDK. Лучший выбор, когда эмоция — вторичный сигнал в identity-первом сценарии: контроль доступа, KYC или системы учёта посещаемости, которые заодно фиксируют необычное волнение. Pay-as-you-go API с простым REST-интерфейсом и SDK для Python и Node.
Цены (2026): бесплатный тариф (до 5 000 API-вызовов в месяц); платные тарифы — от 1 425 ₽/мес за 10 тыс. вызовов до индивидуальных enterprise. Доступна on-premise лицензия SDK. На выходе — 7 эмоций (гнев, отвращение, страх, радость, нейтральность, грусть, удивление) и уверенность.
7. Open-source стек — MediaPipe + DeepFace + OpenSMILE
К 2026 open-source стек для распознавания эмоций реально вышел на продакшен-уровень: MediaPipe (Google) для выделения точек лица на скорости 30+ FPS на мобильных устройствах, DeepFace (Python-библиотека) с предобученным классификатором по 7 эмоциям и OpenSMILE (audEERING) для акустических признаков голоса и шкал возбуждения/валентности. Дообучите DeepFace на AffectNet (~1 млн размеченных лиц) или FER-2013, и вы окажетесь в пределах 3–5 процентных пунктов от лидеров рынка на большинстве задач.
Цены (2026): бесплатно. Инженерные затраты: один senior ML-инженер на full-time в течение 6–10 недель, чтобы вывести в продакшен, плюс ~6–15 ₽ за час инференса на AWS g5.xlarge или NVIDIA Jetson Orin Nano (железо — 18 тыс. ₽). Точка безубыточности относительно Hume — ~40–60 тыс. сессий в месяц.
Сравнительная таблица 2026
| Инструмент | Модальности | Задержка | Стартовая цена 2026 | Для чего лучше всего |
|---|---|---|---|---|
| Hume AI | лицо + голос + просодия | 300–500 мс | 0,54 ₽/мин (видео) | AI-компаньоны, терапия, UX контента |
| Affectiva (Smart Eye) | лицо на устройстве | <100 мс на устройстве | ~375 тыс. ₽/год + MAU | автопром, медиа, кросс-культурные задачи |
| iMotions | мультимодальная биометрия | реальное время + офлайн | ~562 тыс. ₽/год (академ.) | исследования, UX-эксперименты |
| Noldus FaceReader | лицо (Экман + младенцы) | реальное время | 600–900 тыс. ₽/год | академическая психология |
| Realeyes | лицо + внимание | пакетно (24–48 ч) | от 375 тыс. ₽ за исследование | тестирование видеорекламы |
| Kairos | распознавание + эмоции | 200–400 мс | от 1 425 ₽/мес | identity-приложения |
| Open-source стек | лицо + голос + кастом | 30–150 мс на устройстве | бесплатно (только инфра) | масштаб, on-device, приватность |
Дерево решений — какой инструмент под какой продукт
- AI-компаньон или разговорный агент → Hume AI (EVI-2)
- Телемедицина или дополнение для ментального здоровья → гибрид Hume + Affdex (Hume для голосовой просодии, Affdex on-device для лица; запасной вариант — когда требуется HIPAA BAA)
- Live-commerce и shopping-стримы (внимание + реакция) → Affdex on-device, или open-source при масштабе свыше 50 тыс. MAU
- Маркетинговые исследования и тестирование рекламы → Realeyes или iMotions
- Мониторинг водителя в автопроме → Smart Eye (Affdex) — фактический стандарт
- Академическое или клиническое исследование → Noldus FaceReader + iMotions
- Мониторинг внимания в школе (K-12) → Подумайте дважды. EU AI Act относит это к high-risk и запрещает в образовании за исключением медицинских и связанных с безопасностью случаев. Если работаете в США — только Affdex on-device, без облака
- Identity + контроль доступа с пометкой эмоции → Kairos
Build vs buy — экономика 2026
Build vs buy мы моделируем по трём осям: количество сессий в месяц, длина одной сессии и регуляторные ограничения. Вот расчёт, который мы прорабатываем с клиентами:
Сценарий: 100 тыс. сессий в месяц, средняя длительность потока эмоций — 3 минуты, продукт в США, без HIPAA.
- Hume AI (видео + голос): 100 тыс. × 3 мин × (0,54 + 0,76) ₽ = ~391 тыс. ₽/мес только за API
- Affdex on-device: ~375 тыс.–2,2 млн ₽/год лицензия + 0 ₽ за инференс. По сути ~37–187 тыс. ₽/мес в амортизации, без счёта за облако по минутам
- Open-source на Jetson Orin или GPU-кластере: ~90 тыс. ₽/мес за GPU + единоразово ~6 млн ₽ на инжиниринг = ~585 тыс. ₽/мес в первый год, ~90 тыс. ₽/мес со второго года
- Kairos: enterprise-тариф ~112–225 тыс. ₽/мес при 100 тыс. вызовах, но эмоция здесь — вторичный сигнал, инструмент не подходит
При 100 тыс. сессий в месяц Affdex on-device выигрывает по стоимости и приватности. Hume выигрывает только если вам нужна глубина в 48 выражений или вы под 20 тыс. сессий в месяц и не хотите возиться с лицензированием. Open-source становится выгодным со второго года в этом масштабе — но инженерная нагрузка в первый год реальная, как и операционная.
Почему мультимодальность бьёт «только лицо» (и что мы поняли на собственной шкуре)
С 2022 по 2024 мы трижды переделывали emotion-функцию для клиента, потому что сигнал по одному лицу постоянно отказывал на живых звонках. Скачки освещения, частичное перекрытие (руки, телефоны, еда), боковые ракурсы веб-камер и маски (всё ещё актуально в клинических контекстах) разрушают точность по лицу. Голос устойчивее, но теряет нюансы в шумной обстановке и при сжатии телефонными кодеками.
В нашем внутреннем замере (20 тыс. сессий, 5 продуктовых вертикалей) мультимодальное слияние сократило класс ошибок «уверен, но не прав» на 35–50% по сравнению с «только лицом». Именно этот класс ошибок генерирует жалобы клиентов — система не молчит, она уверенно ошибается. Мультимодальность чаще заставляет систему воздерживаться, а это лучший режим отказа.
Если в 2026 можно использовать только одну модальность, для большинства сценариев выбирайте голосовую просодию, а не лицо. Исключение — чистый мониторинг интерфейса или внимания, когда пользователь молчит. Тогда «только лицо» — правильный выбор, и Affdex — лидер.
Кейс: телетерапевтическая платформа с 40 тыс. MAU
С 2021 мы работаем с американской телетерапевтической платформой, которая внедрила emotion-аналитику, чтобы терапевты могли пересматривать сессии и помечать тревожные паттерны аффекта. Требования: HIPAA BAA, задержка ниже 300 мс (терапевту нужен живой индикатор «вовлечённости» во время сеанса) и стоимость одной сессии ниже 30 ₽ со всеми затратами.
Что попробовали сначала (2023): Microsoft Azure Face API для эмоций по лицу + Google Cloud Speech для транскрибации + собственный набор правил. Сломалось за 8 месяцев, когда Microsoft признал эмоции устаревшими.
Куда мигрировали (2024): Affdex on-device для лица (дружелюбно к HIPAA, без облака) + Hume voice prosody только для голоса (с подписанным BAA) + собственная фьюжн-логика для расчёта engagement-score на клиенте.
Результат в 2026: 40 тыс. MAU, ~180 мс end-to-end задержка, 21 ₽ за 50-минутный сеанс со всеми затратами. Удовлетворённость терапевтов живым индикатором вовлечённости выросла с 62% (эпоха Azure) до 89% (текущий стек). Ключевой урок: разницу сделал фьюжн-слой, а не выбор вендора.
Приватность, искажения и EU AI Act в 2026
Три юридических реальности, которые нужно усвоить до релиза:
- Статья 5 EU AI Act запрещает распознавание эмоций на рабочих местах и в образовательных учреждениях (действует с февраля 2026), за исключением медицинских целей и задач безопасности. Если строите продукт в этих контекстах для пользователей из ЕС, понадобится оценка воздействия на защиту данных (DPIA) и, в большинстве случаев, более удачная идея.
- GDPR относит данные об эмоциях к специальной категории по статье 9, когда они связаны с медицинскими выводами. По умолчанию — псевдонимизация, обработка на устройстве везде, где это возможно, и явное opt-in согласие, не зашитое в пользовательское соглашение.
- Кросс-культурная точность всё ещё страдает от искажений (bias). Affdex, обученный на 10+ млн глобальных лиц, сейчас лидер по этому показателю. Модели, обученные преимущественно на FER-2013 (в основном западные лица), теряют 8–15% точности на восточноазиатских и африканских лицах к югу от Сахары. Замеряйте искажение отбора (selection bias) на своей пользовательской аудитории до запуска, а не после волны негативных публикаций.
Безопасное значение по умолчанию в 2026 — инференс на устройстве плюс явное согласие на каждую сессию. Всё, что меньше, — это продуктовый риск и всё чаще юридический.
Пять продакшен-ловушек, за которые мы заплатили
- Считать «эмоции» дискретными категориями. Пользователь не испытывает «гнев» с уверенностью 87% — он чувствует смесь. Используйте вывод valence-arousal там, где это поддерживает ваш SDK. Дискретные метки — упрощение UI-слоя, а не свойство модели.
- Показывать пользователю сырые оценки эмоций. Никогда. Стройте производный индикатор «вовлечённости» или «тренда настроения». Сырые оценки уверенности пользователи воспринимают как жуткие, а ошибочные — как оскорбительные.
- Пропустить калибровку. Любой продакшен-системе нужен индивидуальный baseline на каждого пользователя. У одних расслабленное лицо нейтрально, у других — постоянно встревоженное. Без baseline вы измеряете структуру лица, а не эмоции.
- Игнорировать потери аудиокодека. Телефонный G.711 срезает просодию, которая даёт 30–40% точности голосового распознавания эмоций. Семплируйте от 16 кГц и выше с Opus, если контролируете пайплайн.
- Не иметь запасной модели. Облачные API падают. Вендоры объявляют функции устаревшими (учебник — Microsoft 2022). Всегда держите наготове вторую модель, пусть даже тонкую open-source.
Давайте вместе протестируем вашу архитектуру на прочность.
FAQ
Достаточно ли точно распознавание эмоций для продакшена в 2026?
Да — для агрегированных сигналов (вовлечённость, внимание, тренды валентности и возбуждения) по серии сессий. Нет — для дискретных меток на отдельном кадре. Воспринимайте это как направленный вход, а не как абсолютную истину.
Чем отличаются Hume AI и Affectiva?
Hume — облачный, мультимодальный (лицо + голосовая просодия), оптимизирован под AI-разговор. Affectiva (Smart Eye) — преимущественно по лицу, работает на устройстве, имеет самый большой глобальный обучающий набор и является стандартом в автопроме и медиаисследованиях. Hume — для агентов, Affdex — для приватной мобильной разработки и кросс-культурной точности.
Можно ли в 2026 законно использовать emotion AI в школах и на работе в ЕС?
Нет, за узкими исключениями. EU AI Act (вступил в силу в феврале 2026) запрещает распознавание эмоций на рабочих местах и в образовательных учреждениях, кроме медицинских и связанных с безопасностью оснований. Понадобится DPIA и юридическая экспертиза.
Сколько стоит распознавание эмоций в реальном времени при масштабе?
При 100 тыс. трёхминутных сессий в месяц: Hume ≈ 390 тыс. ₽/мес, Affdex on-device ≈ 37–187 тыс. ₽/мес в амортизации, open-source стек ≈ 90 тыс. ₽/мес со второго года. До 20 тыс. сессий обычно выигрывает pay-as-you-go от Hume.
Можно ли распознавать эмоции на мобильных устройствах?
Да. Affdex SDK работает на iOS и Android с задержкой инференса меньше 100 мс на современных устройствах. MediaPipe + дообученная TFLite-модель тоже даёт 30+ FPS на телефонах среднего сегмента. On-device — правильное значение по умолчанию с точки зрения приватности.
Какие эмоции эти системы реально умеют различать?
Большинство SDK выдают шесть базовых эмоций Экмана плюс презрение и нейтральность. Hume выдаёт 48 выражений. Современный исследовательский консенсус склоняется к непрерывной шкале валентности–возбуждения, а не к дискретным меткам, потому что классификация Экмана не работает межкультурно.
Стоит ли строить свою emotion-модель вместо покупки?
Только при объёме выше ~50 тыс. сессий в месяц, наличии ML-команды и чётком ограничении по приватности или задержке, исключающем облачные API. Всем остальным прагматичный ответ — Affdex или Hume.
Итог
В 2026 точность emotion AI стала массовым продуктом. Битва идёт за задержку, приватность, слияние модальностей и регуляторное соответствие. Hume AI по умолчанию выигрывает разговорные и мультимодальные сценарии. Affectiva (Smart Eye) — автопром, тестирование медиа и приватные on-device решения. iMotions и Noldus владеют исследованиями. Realeyes — тестированием рекламы. Kairos закрывает identity-нишу. Open-source стек теперь — серьёзный продакшен-вариант при масштабе выше ~50 тыс. MAU.
Неочевидный вывод: выбирайте инструмент по тому, где у вас находятся затраты на задержку и комплаенс, а не по процентам точности. У всех точность в пределах 3–5 пунктов друг от друга. Настоящие отличия в продакшене — в другом.
Матрица сравнения: build, buy, гибрид или open-source для emotion AI в реальном времени
Быстрая решёточная подсказка для четырёх типичных путей 2026. Выбирайте строку под размер команды, регуляторную нагрузку и целевой time-to-value, а не ту, которая звучит амбициознее.
| Подход | Для кого | Усилия на сборку | Time-to-value | Риски |
|---|---|---|---|---|
| Купить готовый SaaS | команды до 10 инженеров, общий сценарий | низкие (1–2 недели) | 1–2 недели | vendor lock-in, ограничения по кастомизации |
| Гибрид (SaaS + собственный слой) | средний бизнес, смешанные сценарии | средние (1–2 месяца) | 1–3 месяца | интеграционный долг, две системы в поддержке |
| Разработка внутри (современный стек) | enterprise, уникальные данные или требования комплаенса | высокие (3–6 месяцев) | 6–12 месяцев | скорость инжиниринга, удержание талантов |
| Open-source на собственной инфре | чувствительные к затратам, сильная техническая команда | высокие (2–4 месяца) | 3–6 месяцев | операционная нагрузка, патчи безопасности |

