Как ИИ обнаруживает аномалии в видеонаблюдении: руководство на 2026 год

Обнаружение аномалий в видеонаблюдении на базе ИИ: гид по 2026 году — обложка

Главное

Объём мирового рынка видеонаблюдения в 2025 году — 4–6 трлн ₽; сегмент ИИ внутри него — 450–600 млрд ₽ с темпом роста 20–30% в год до 2030 года. Обе эти кривые используют одну и ту же инфраструктуру.
Стек обнаружения аномалий 2026 года построен на четырёх ключевых компонентах: детекция объектов на edge (YOLOv11 / YOLO26 / RT-DETR v2), self- supervised слой без разметки (VideoMAE v2, memory networks), reasoning на foundation-моделях (Qwen2.5-VL, Gemini 2.5 Pro), мост ONVIF Profile M в ваш VMS. Удалите любой — и точность в продакшене резко упадёт.
Доля ложных срабатываний — ключевой показатель эффективности, из-за которого проваливаются большинство внедрений. Системы первого поколения выдают 30–60% ложных тревог; лучшие решения 2026 года удерживают этот показатель ниже 10% благодаря временному окну, ансамблям моделей и участию человека в процессе.
Комплаенс теперь на входе, а не как дополнение. Статья 5 EU AI Act (полное вступление в силу — август 2026) запрещает распознавание лиц в реальном времени в общественных местах и биометрическую категоризацию. Закон Иллинойса BIPA даёт право на индивидуальный иск на сумму от 75 000 до 375 000 ₽ за нарушение. По умолчанию отправляйте только метаданные.
Экономика железа в 2025 году окончательно сместилась к edge. NVIDIA Jetson Orin Nano — 67 TOPS за 14 925 ₽, AGX Thor — 2 070 TOPS за 262 тыс. ₽, Hailo-8/10 — меньше 1 Вт. Облачный инференс по 3–22 ₽ за стрим-час теперь резерв, а не дефолт.
Фора Софт осуществляет сквозную интеграцию ИИ-видеонаблюдения за 10–14 недель: диагностика системы, подбор моделей, edge-облачная архитектура, подключение ONVIF Profile M к VMS заказчика, пилотный запуск на 50–100 камерах, развёртывание в продакшене.

Зачем Фора Софт написала этот гид

Большую часть инженерного времени мы тратим на две области: видеоинфраструктуру и ИИ-модели, работающие поверх неё. Видеонаблюдение — самое сложное пересечение этих двух сфер: задержка критична, ложные срабатывания портят продукт, ограничения по производительности оборудования на краю сети реальны, а требования по соответствию нормативам всё шире и строже. Этот гид — наш внутренний бриф для старта проекта. Он помогает архитекторам выбрать подходящие модели, определить протоколы взаимодействия, контролировать допустимый уровень ложных срабатываний и понимать, где в 2026 году проходят правовые границы.

Честная цель — помочь избежать двух типичных ошибок при внедрении. Первая: команда демонстрирует демо с точностью 90% в лаборатории, а потом видит, как она падает до 55% под дождём. Вторая: из-за особенностей обработки биометрии охранный продукт становится мишенью для судебных исков. Оба сценария можно предотвратить, правильно выбрав стек технологий уже на первой неделе.

Пара слов о скорости: наша практика agent engineering — внутренний тулинг и ИИ-усиленный процесс разработки, который мы применяем на каждом проекте, — обычно сокращает интеграцию ИИ-видеонаблюдения на 30–40% по сравнению с базовыми показателями 2024 года. Edge-облачная оркестрация, парсеры ONVIF Profile M, пайплайны сжатия моделей под Jetson / Hailo — всё это у нас реализовано как переиспользуемые модули, а не создаётся с нуля каждый раз.

Планируете внедрить ИИ-видеонаблюдение?

Мы проведём аудит парка камер, системы видеонаблюдения и комплаенс-политики и подготовим архитектурные рекомендации. Бесплатно.

Позвоните нам → Напишите нам →

Что в 2026 году реально значит «обнаружение аномалий»

За одной фразой стоят три разных класса задач, для которых нужны отдельные модели и отдельные пайплайны оценки.

Поведенческие аномалии. Праздное шатание, скопления людей, движение навстречу друг другу, выход за пределы разрешённой зоны, проявления агрессии, падения, обнаружение оружия, оставленные предметы. Наиболее востребованы в умных городах и розничной торговле.
Аномалии внешнего вида. Маски там, где их не должно быть (банки), отсутствие СИЗ там, где они обязательны (заводы, стройплощадки), нарушения дресс-кода в защищённых зонах.
Временные аномалии. Активность после рабочего времени, резкий рост посещаемости, необычная продолжительность пребывания в зоне. Легко обнаруживаются, но без настройки параметров сцены вызывают больше всего ложных срабатываний.

Современные платформы Video Content Analytics (VCA) объединяют это с детекцией объектов в реальном времени, реидентификацией между камерами, корреляцией событий и экспортом метаданных по ONVIF Profile M. Продукт-победитель в 2026 году не просто распознаёт — он анализирует. Он отвечает на запросы вроде «покажи все случаи, когда этот человек входил в запрещённую зону без бейджа» на естественном языке — благодаря видео-языковым foundation-моделям.

Рынок: две кривые с эффектом сложения

Рынок видеонаблюдения растёт. Сегмент с искусственным интеллектом растёт в 3–4 раза быстрее. Картинка 2025–2026 годов:

Сегмент	Размер в 2025	Рост	Что двигает
Мировое видеонаблюдение (всё)	4–6 трлн ₽	7,8–13,5% в год	Миграция на IP, умные города, замещение труда
ИИ в видеонаблюдении	450–600 млрд ₽	20,7–30,6% в год до 2030	Foundation-модели, edge-устройства, паритет функций VCA
Инвестиции в умные города (накопительно до 2030)	61 трлн ₽	Накапливаются	Трафик, общественная безопасность, управление толпой
ИИ против потерь в ритейле	90 млрд ₽	~24% в год	Организованная кража, риски касс самообслуживания
Детекция оружия (школы, площадки)	45 млрд ₽	~35% в год	Мандаты штатов США, безопасность мероприятий

Две вещи стоит подчеркнуть. Во-первых, результаты внедрения ИИ-решений в умных городах уже ощутимы: время реакции экстренных служб сократилось на 28%, точность выявления дорожных инцидентов выросла на 34%, а уровень преступности в муниципалитетах, где ИИ-аналитика внедрена в масштабах города, снизился на 22%. Во-вторых, темпы внедрения различаются. Крупные компании и государственные структуры действуют быстро, а малый и средний бизнес ждёт, пока облачные решения (например, Verkada, Eagle Eye) станут доступнее по цене.

Референсный стек из четырёх столпов

Каждая система обнаружения аномалий, которую мы поставляем, опирается на четыре ключевых принципа. Удалите один — и точность сразу снизится.

Столп	Что делает	Дефолтный инструментарий на 2026
1. Обнаружение объектов на edge	Bounding box, метки классов и confidence в реальном времени — на камере или NVR	YOLO26 / YOLOv11, RT-DETR v2, Grounding DINO на NVIDIA Jetson или Hailo-10
2. Unsupervised / self-supervised	Помечает новые поведения без размеченных обучающих данных	VideoMAE v2, memory networks MNAD, предсказание FutureFrame, диффузионные подходы
3. Логический анализ и семантический поиск	Запросы на естественном языке для записи; алерты с учётом контекста	Qwen2.5-VL, InternVL 3.5, Gemini 2.5 Pro video, Twelve Labs Marengo 3.0
4. Мост между VMS и SIEM	Транспорт метаданных, маршрутизация алертов, интерфейс оператора, аудит-трек	ONVIF Profile M, MQTT / AMQP, Milestone XProtect, Genetec Security Center, Splunk

Наше мнение. Третий столп команды часто недооценивают. Детекция объектов сама по себе создаёт много шума; unsupervised-обучение — необъяснимые алерты. Reasoning на основе foundation-модели поверх первых двух компонентов — именно то, что позволяет оператору спросить: «Покажи все случаи, когда пешеход пересекал рельсы после 23:00» — и получить осмысленный ответ. Про ONVIF Profile M мы подробно рассказываем в нашем гиде по интеграции ONVIF Profile M.

Ландшафт моделей: кто что поставляет в 2026

Четыре семейства моделей реально справляются с нагрузкой в видеонаблюдении 2026 года. Выбирайте их исходя из ограничений внедрения, а не из-за хайпа.

Семейство моделей	Сильная сторона	Где применяем
YOLO26 / YOLOv11	Без NMS, на 43% быстрее CPU-инференс, чем у v11; блоки C3k2 + пространственное внимание	Дефолт на edge; камеры и NVR на Jetson / Hailo
RT-DETR v2	На трансформерах, AP 55%+, обучение end-to-end	Уровень повышенной точности на NVR; ансамбль с YOLO для критических алертов
Grounding DINO	Открытый словарь детекции по текстовым промптам («человек с телефоном», «оставленная сумка»)	Быстрый старт новых классов аномалий без переобучения
VideoMAE v2	Masked autoencoder для видео; self-supervised обучение на неразмеченных данных	Unsupervised-скоринг аномалий; адаптация к новым сценариям
Qwen2.5-VL / InternVL 3.5	Опенсорсный мультимодальный reasoning; edge-варианты на 3B, серверные — 72B	Криминалистический поиск на естественном языке; триаж алертов
Gemini 2.5 Pro video	Контекст 2M; нативный видеорежим; дешёвый вход	Криминалистический анализ в облаке; запросы по длинным паттернам
Twelve Labs Marengo 3.0 / Pegasus 1.2	Заточены под видеопоиск и понимание	Ретроспективный поиск по месяцам записи

Реидентификация людей (TransReID, ReID-MGN, ReID-NFormer) и multi-object tracking (ByteTrack, BoT-SORT) закрывают разрыв между детекцией и reasoning: они связывают bounding box между камерами и во времени. Pose estimation (YOLOv8-Pose, RTMPose) — дешёвый способ детектировать падения, драки и необычные позы, не сохраняя данные о лицах.

Бенчмарки: на чём проверять

Если вендор не может назвать цифры по этим датасетам, заявления о точности — маркетинг.

Датасет	Область	SOTA на 2025 (AUC)
UCF-Crime	~1 900 видео, 13 классов (драка, ограбление, поджог и др.)	80,86%
ShanghaiTech Campus	~330 видео, аномалии в толпе	97,89%
Avenue	~47 видео, траектории пешеходов	95,97%
UCSD Ped1 / Ped2	Траектории в плотных сценах	97,38% (Ped2)
XD-Violence	1 000+ видео, драки и давка	94,02%
NWPU Campus, UBnormal, MSAD, Street Scene	Исследовательские бенчмарки; тесты на обобщение	Зависит

Метрики важны не меньше, чем сами цифры: AUC скрывает результаты по отдельным классам, EER сводит все границы принятия решений к одной точке, а mAP оценивает точность локализации. Просите полную PR-кривую по целевым классам аномалий, а не только общее число.

Edge-железо: где работает инференс

Экономика 2025–2026 годов делает edge выбором по умолчанию. Облачный инференс по 3–22 ₽ за стрим-час обходится в 32–197 тыс. ₽ на камеру в год при круглосуточной работе. Edge-ускоритель — разовая покупка, которая обходится дешевле.

Ускоритель	Производительность ИИ	Питание	Типичная цена	Куда подходит
Google Coral Edge TPU	4 TOPS	<1 Вт	4 500 ₽	Инференс на микрокамерах
Hailo-8	13 TOPS	<1 Вт	6 000–11 250 ₽	Низкопотребляющие смарт-камеры
Hailo-10	26 TOPS	~2 Вт	11 250–22 500 ₽	Плагины для камер, PoE-шлюзы
NVIDIA Jetson Orin Nano	67 TOPS	7–25 Вт	14 925 ₽	Однокамерный интеллектуальный NVR
NVIDIA Jetson Orin NX	157 TOPS	10–40 Вт	30 000–45 000 ₽	NVR на 4–8 камер
NVIDIA AGX Orin (64 ГБ)	275 TOPS	15–60 Вт	149 тыс. ₽	Шлюз на 10+ камер
NVIDIA AGX Thor (T5000)	2 070 TOPS (FP4)	40–70 Вт	262 тыс. ₽	Корпоративный edge с логикой на устройстве
Ambarella CV3 / CV5 / CV72	До 32 TOPS	~3 Вт	OEM	Встроены в смарт-камеры (ISP + ИИ)

Как мы выбираем по умолчанию. Hailo-8 в самих камерах для распознавания объектов; Jetson Orin NX или AGX Orin на уровне NVR для отслеживания, реидентификации и сбора данных; облако (Gemini 2.5 Pro, Twelve Labs) — для криминалистического поиска и анализа между камерами. AGX Thor устанавливаем на площадке, только когда нужен LLM-анализ на устройстве без обращения в облако — обычно это высокозащищённые или чувствительные к задержкам системы, например, железнодорожные платформы и аэропорты.

Ложные срабатывания: метрика, которая действительно работает

AUC на бенчмарке — базовая ставка. Продукт убивает оператор, который отключил алерты после десятой ложной пожарной тревоги. Вот техники 2026 года, которые повышают эту цифру.

Временное окно. Требуется N последовательных кадров с уверенностью выше порога для срабатывания. Пять кадров при 10 fps — это 0,5 с стабильной детекции. Просто и очень эффективно.
Ансамбли нескольких моделей. YOLOv11 + RT-DETR v2 + reasoning Qwen2.5-VL; голосуют по bounding box. Падение ниже «2 из 3» согласия в наших замерах сокращает ложные срабатывания примерно вдвое.
Фильтрация по оптическому потоку. Разделяем движение объектов и движение камеры / фона с помощью методов Lucas-Canade или FlowNet. Устраняет большинство ложных срабатываний из-за ветра и погодных условий.
Пороги под каждую сцену. Настройте параметры для каждой камеры с учётом её освещения, фона и типичной активности. Не используйте один и тот же порог уверенности и для открытого стадиона, и для дата-центра без окон.
Active learning. Оператор помечает ложный срабатывание → кадр попадает в обучающий набор → модель дообучается за ночь. Петля замыкается — и система сама себя корректирует.
Проверка человеком в петле. Для критичных алертов (оружие, насилие) человек подтверждает сигнал до эскалации. Канонический пример — круглосуточный обзор бывшими сотрудниками силовых структур у ZeroEyes.

Базовое ожидание: системы первого поколения дают 30–60% ложных срабатываний. Лучшие решения 2026 года — ниже 10%. Меньше 3% случаев требует участия человека в пайплайне.

Интеграция с VMS: ONVIF Profile M и пайплайн алертов

ИИ-слой — простая часть. Сделку закрывает то, что он легко интегрируется с уже установленными у заказчика системами: Milestone XProtect, Genetec Security Center или Avigilon Control Center.

ONVIF Profile S. Базовый стандарт для видеонаблюдения. Обнаружение устройств и передача видеопотока по RTSP. Устаревший, но до сих пор остаётся общепринятым форматом.
ONVIF Profile T. Продвинутое IP-видео: H.264 / H.265 / AV1, управление изображением, простая детекция движения.
ONVIF Profile M. Именно он важен для ИИ. Стандартизированный экспорт метаданных: bounding box детекции, уровень уверенности (confidence), публикация по MQTT, геолокация, атрибуты транспорта, лиц или тел, фильтрация и запросы событий. Наш гид по Profile M подробно разбирает схему.
RTSP. Транспорт видео. Универсальный.
MQTT. Лёгкий протокол pub/sub. Алерты в IoT и облачные дашборды — самый дешёвый способ передачи событий.
AMQP. Advanced Message Queuing Protocol. Гарантированная доставка сообщений для корпоративных процессов (Rabbit, Azure Service Bus, AWS MQ).

Стандартный паттерн интеграции: камера или NVR запускает модель детекции, передаёт метаданные по ONVIF Profile M, VMS применяет правило («человек + праздное шатание > 60 с»), MQTT передаёт данные в SIEM (Splunk, ELK) для аудита и корреляции. По необходимости — отправка в облако для тяжёлых моделей (reasoning-запросы Gemini 2.5 Pro, криминалистический поиск Twelve Labs).

Комплаенс-шорткат. По умолчанию — только метаданные. Отправляйте класс объекта, bounding box и confidence; никогда не передавайте по MQTT кропы лиц, идентификационные метки или биометрические эмбеддинги, если работа с ними не согласована и не имеет правового обоснования. Как только биометрические данные попадают в вашу шину событий, вы берёте на себя ответственность по BIPA / GDPR / EU AI Act за всех потребителей ниже по цепочке. Мы видели, как это проваливает аудиты уровня FERPA прямо перед продлением контракта.

Платформы: кто что продаёт

Сжатая матрица VCA-платформ, которые чаще всего используются в продакшене.

Платформа	Сильная сторона	Типичный заказчик
BriefCam (Milestone)	Криминалистический поиск, LPR, аналитика поведения	Силовые структуры, транспорт, ритейл-сети
Avigilon Alta (Motorola)	Вертикально интегрированные камеры и программное обеспечение, тепловая аналитика	Корпорации, аэропорты, госсектор
Verkada	Облако «из коробки», мультисайт-операции, простота устройств	SMB / средний бизнес, ритейл-сети
Eagle Eye Networks	Облачный VMS, независимый от оборудования, по подписке	SMB, сети с несколькими локациями
Cisco Meraki MV	ML на камере, аналитика присутствия, дружелюбное к ИТ-отделу внедрение	Корпоративные кампусы под управлением ИТ
Axis Communications ACAP	SDK для приложений прямо на камере; открытая экосистема	Интеграторы, кастомные внедрения
Hanwha Wisenet	Deep learning на edge, соотношение цена/производительность	Корпорации, международный ритейл
Hikvision HikCentral AI	Масштабируемый ИИ на edge, крупные внедрения в энергетике / транспорте	Энергетика, транспорт, рынки за пределами США
Dahua DSS	Распределённое хранение, мобильный фокус операций	Муниципальное видеонаблюдение, крупные предприятия
Pelco VideoXpert	Оркестрация между сайтами, широкая поддержка камер	Госсектор, критическая инфраструктура
Genetec Security Center	IP-центричная VMS, единый контроль доступа и видео	Корпоративная безопасность, аэропорты, кампусы
Milestone XProtect	Открытая экосистема ONVIF, большой масштаб	Крупные предприятия, глобальные внедрения
Ipsotek (Eviden/Atos)	Поведенческая аналитика, детекция толпы	Аэропорты, общественный транспорт
iOmniscient	Безопасность толпы, обработка без PII	Ритейл, публичные площадки

Детекция оружия: самая критичная подкатегория

Детекция оружия заслуживает отдельного раздела — здесь режимы отказа имеют экзистенциальные последствия. Пропустите реальное оружие — рискуете получить иск о возмещении ущерба. Поднимите слишком много ложных срабатываний — продукт могут закрыть. Ландшафт 2026 года:

ZeroEyes. Круглосуточный мониторинг с участием бывших военных и сотрудников силовых структур. Лицензия действует на год на одну камеру. Модель с участием человека (HITL) — их главный защитный механизм.
Omnilert. Мультимодальная система распознавания, обученная на реальных видеозаписях с камер наблюдения. Специализируется на школах и детских площадках.
Evolv Express. ИИ-сканирование на входах, оценка угроз в объёме. Находится под пристальным вниманием FTC (2025) из-за заявлений о точности. Используйте с осторожностью и проводите независимый аудит.
Scylla AI, Actuate AI. Новые участники рынка с заявленной точностью 95%+. Перед покупкой просите результаты независимых тестов.

Наша позиция по этой категории: внедряйте детекцию оружия только с HITL-слоем проверки и защищённым плейбуком реакции на инциденты. Алерт — не конец пайплайна, а начало процедуры, которую нужно отрепетировать.

Комплаенс: правовая плоскость в 2026

ИИ-видеонаблюдение живёт на пересечении приватности, биометрии и регулирования безопасности ИИ. Снимок на 2026 год:

Режим	Область	Практическое требование
EU AI Act, статья 5 (полное вступление — авг. 2026)	Все внедрения в ЕС	Распознавание лиц в реальном времени в общественных местах запрещено (с узкими исключениями для правоохранительных органов). Запрещена биометрическая категоризация. Запрещён сбор данных с камер видеонаблюдения для создания баз лиц. Штраф: €35 млн или 7% мировой выручки.
EU AI Act — распознавание эмоций	Школы и рабочие места	Запрещено с февраля 2025 года. Даже в качестве опции отгрузка не допускается.
GDPR, статья 22	Автоматизированные решения в ЕС	Существенные автоматизированные решения (баны, сигналы в полицию) требуют проверки человеком и права на оспаривание.
Illinois BIPA	Биометрия в Иллинойсе	Письменное согласие (электронная подпись подходит с поправками 2024 года). Одно нарушение на человека. Право на частный иск — от 75 000 до 375 000 ₽ за случай.
Texas CUBI	Техас	Сбор биометрии требует согласия; право на частный иск отсутствует, но предусмотрены санкции со стороны генпрокурора.
Washington My Health My Data	Жители Вашингтона	Ограничивает продажу и целевое использование данных о здоровье (включая биометрию).
California SB 1047 + CCPA/CPRA	Калифорния	Прозрачность в области безопасности ИИ, обязанности по аудиту для крупных моделей; правила CPRA для чувствительных персональных данных, включая биометрию.
Мораторий на распознавание лиц	Сан-Франциско, Портленд, Бостон, Балтимор и другие	Городские запреты на распознавание лиц правоохранителями.
UK Surveillance Camera Code	Госсектор Великобритании	Пропорциональность, прозрачность, ограничения по срокам хранения.

Модель стоимости: сколько реально стоят 100 камер

Конкретное внедрение на 100 камер, смешанное помещение / улица, цены 2026 года.

Статья	Цена за единицу	Итого (100 камер)
IP-камеры (1080p, IP66, ИК)	22 500–60 000 ₽	2,2–6 млн ₽
Edge NVR (Jetson Orin NX, на 10 камер)	37 500 ₽	375 000 ₽ (10 NVR)
Лицензии VMS (Milestone / Genetec)	15 000 ₽ / канал / год	1,5 млн ₽ / год
Облачный инференс (опционально, 24/7)	7 ₽ / стрим-час	6,5 млн ₽ в год
Облачное хранилище (срок хранения — 30 дней)	3 750–15 000 ₽ / камера / год	375 тыс. – 1,5 млн ₽ в год
Поддержка и мониторинг	—	375 тыс. – 1,1 млн ₽ в год
TCO первого года (edge-первичный)	—	4,8–9 млн ₽
TCO первого года (облако-тяжёлый)	—	11–15 млн ₽

Типичный срок окупаемости — 1–3 года. Экономия достигается за счёт сокращения времени на ручной мониторинг, более быстрой реакции на инциденты, предотвращения краж в рознице, снижения рисков в здравоохранении и на производстве. Для обоснования закупки требуется специализированная модель расчёта ROI под каждую отрасль.

Наша эвристика бюджета

Для внедрения среднего масштаба (50–200 камер) закладывайте 60–90 тыс. ₽ на камеру в первый год при edge-архитектуре или 112–165 тыс. ₽ на камеру при «облако-тяжёлой» схеме. Если предложение вендора значительно ниже — скорее всего, модель недообучена или отсутствует комплаенс-слой; если значительно выше — вы платите за лицензии на места, которые не будете использовать. Напишите или позвоните нам — и мы сравним ваше предложение с рыночными ценами.

Мини-кейс: ритейлер внедряет обнаружение аномалий в 250 магазинах

Североамериканский специализированный ритейлер с 250 магазинами пришёл к нам с уже установленным парком камер Avigilon и VMS Milestone XProtect. Организованная розничная преступность за 18 месяцев подняла их потери от усушки с 1,2% до 2,8% выручки. Корпоративное подразделение по работе с потерями хотело внедрить ИИ-обнаружение аномалий по всей сети за один квартал.

Мы строили поверх их существующей инфраструктуры:

Инференс на edge. Jetson Orin NX в каждом магазине (один на 8–10 камер) с YOLOv11 для распознавания людей и объектов, а также ByteTrack для отслеживания нескольких целей.
Классы аномалий. Бездельничанье у дорогих витрин, «схватил и побежал» (разогнул руку — и товара нет), одновременный выход нескольких человек через неохраняемые двери, несканирование на самообслуживании (товар в пакете, а сигнализации нет). Всего шесть классов, обученных на записях заказчика.
Мост в VMS. Метаданные ONVIF Profile M с edge NVR → плагин XProtect → оповещения в консоль управляющего магазином с клипом продолжительностью 5 секунд.
Облачный криминалистический слой. Еженедельная пакетная обработка через Twelve Labs Marengo 3.0 — чтобы команда LP могла задавать вопросы на естественном языке по полному архиву из 250 магазинов.
HITL. Проверка управляющим магазином перед эскалацией в компанию; разбор LP-аналитиком — для случаев, которые доходят до суда.

Результаты пилота за 90 дней на 40 магазинах. Доля ложных срабатываний снизилась с 47% на первой неделе до 11% к третьему месяцу благодаря переобучению с использованием активного обучения. Усушка в пилотных магазинах уменьшилась на 0,9 процентных пункта по сравнению с контрольной группой. Уровень освоения менеджерами (заходы в консоль хотя бы раз в неделю) достиг 78%. Раскатали систему на оставшиеся 210 магазинов в следующем квартале.

5 ловушек, которые хоронят проекты по ИИ-видеонаблюдению

1. Перекос данных по регионам. Модели, обученные на западных съёмках, плохо работают с людьми из других регионов — с другой внешностью, одеждой и поведением. Заложите подрыночный fine-tuning ещё до запуска: иначе внедрение в Токио пропустит половину аномалий.
2. Ложные срабатывания от среды. Погода, тени, птицы, мигающие LED. Временное окно, фильтрация по оптическому потоку и калибровка под сцену — три решения. Заложите бюджет на них с первой недели.
3. Иски за хранение биометрии. Даже при добросовестном использовании баз данных лиц возникают претензии по BIPA, EU AI Act и California CPRA. По умолчанию храните только метаданные. Биометрические эмбеддинги сохраняйте только при наличии законного основания и реальной операционной необходимости, а также при наличии проверенных процедур получения согласия.
4. Расположение камер и свет. Мусор на входе — мусор на выходе, какой бы хорошей ни была модель. Настаивайте на обследовании площадки, разрешении не ниже 1080p, нормальной ИК- или дополнительной подсветке, частоте кадров 5–15 fps. Камера под неправильным углом гарантирует провал проекта.
5. Нет петли с человеком. Полностью автономное оповещение берёт на себя ответственность (упущенный контекст, риск ошибочного задержания). Проверка оператором с аудиторским следом — минимальный защищённый стандарт. Институциональные заказчики без этого продлевать контракт не будут.

Паттерн нашего 60-дневного пилота. Никогда не запускайте всю сеть сразу. Выберите 40–100 камер на типовой площадке (сочетание помещений и улицы, разное освещение), протестируйте в течение 60 дней, еженедельно отслеживайте долю ложных срабатываний, переобучайте модель на основе отзывов операторов и только потом расширяйтесь. Команды, которые пропускают этот этап, тратят вдвое больше денег на исправление угла обзора и настроек в продакшене.

KPI: что измерять

Доля ложных срабатываний. Цель — <10% в течение 90 дней с момента внедрения; <3% с HITL.
Полнота истинных срабатываний. По каждому классу — на размеченном тестовом наборе записей от заказчика, а не на демо-ролике от вендора.
Среднее время до алерта. От захвата кадра до отображения в консоли оператора — end-to-end. Цель — менее 2 секунд для real-time-классов (оружие, насилие, периметр).
Скорость реакции оператора. Доля алертов, подтверждённых в срок по SLA. Если показатель опускается ниже 70%, значит, алерты слишком шумные или консоль работает медленно.
Дрейф модели. Ежемесячный бенчмарк по отложенному тестовому набору; фиксируем любую регрессию AUC более чем на 5%.
Бизнес-результат. Снижение потерь от усушки в ритейле, сокращение времени реагирования на инциденты в сфере общественной безопасности, снижение уровня травматизма на производстве. Каждый квартал сопоставляйте с первоначальным обоснованием закупки.

Когда НЕ браться

Сигналы, по которым мы отказываемся от проектов:

Заказчик хочет использовать распознавание лиц в реальном времени для наблюдения за публичными пространствами в юрисдикции ЕС — это запрещено статьёй 5 AI Act.
Разрешение камер ниже 720p или частота кадров меньше 5. Качество модели не может быть выше «плохо» ещё до обработки потока софтом.
Нет аппетита к 60-дневному пилоту с тюнингом порогов. Внедрение провалится из-за ложных срабатываний уже в первый месяц.
Нет слоя оператора или HITL. Проекты по детекции оружия без чёткого плана действий при инцидентах и этапа проверки мы не реализуем.
Юрисдикция без чёткого правового основания для обработки биометрических данных. Мы не поставляем продукты, которые провоцируют судебные разбирательства.

Решающая рамка: выбираем стек за шесть вопросов

Какие аномалии важны? Только поведенческие → YOLOv11 + ByteTrack. Поведенческие + запросы с логикой → добавляем Qwen2.5-VL или Gemini 2.5 Pro. Оружие / насилие → добавляем HITL.
Edge или облако? Круглосуточный мониторинг — edge. Криминалистические / батч-запросы — облако. Большинству внедрений нужно и то, и другое.
Какой VMS уже стоит? Milestone / Genetec / Avigilon → интегрируем через ONVIF Profile M. Greenfield → выбираем по операционным предпочтениям заказчика.
Какая юрисдикция? ЕС → по умолчанию без распознавания лиц; оценка соответствия AI Act. США → учитываем BIPA; муниципальные запреты важны. Азия → правила зависят от региона.
Сколько камер? <50 → справляется один AGX Orin. 50–500 → распределённые Jetson Orin NX на каждой площадке + центральная агрегация. 500+ → Hailo-10 на камерах + AGX Thor в региональных хабах.
Кто оператор? Подготовленный SOC — сырые алерты ок. Управляющий магазином / первая линия — только отфильтрованные и проверенные алерты с видеоклипами.

Хотите пройти эту рамку вместе с нами?

Пришлите инвентаризацию камер, VMS, классы аномалий и юрисдикцию. Мы вернёмся с архитектурной рекомендацией и планом на 14 недель.

Позвоните нам → Напишите нам →

Интеграционный плейбук: путь за 10–14 недель

Недели	Этап	Результат
1–2	Дискавери + аудит парка камер	Инвентаризация, базовая оценка VMS, проверка соответствия требованиям, список типов аномалий
3–4	Выбор моделей	Шорт-лист: YOLOv11 / RT-DETR v2 / Qwen2.5-VL; бенчмарк на записях заказчика
5–6	Обучение / дообучение	Калибровка под сцены, пользовательские классы аномалий, экспорт в ONNX для Jetson / Hailo
7–8	Edge-облачная архитектура	План развёртывания Jetson, правила облачной эскалации, схема событий MQTT
9–10	Интеграция с VMS	Мост ONVIF Profile M, плагин для XProtect / Security Center, интерфейс уведомлений
11–12	Пилот (50–100 камер)	Боевое внедрение, настройка порогов, петля обратной связи с активным обучением
13–14	Раскатка в продакшен	Перевод всего парка, обучение операторов, плейбук, SLA

Смежные вопросы стриминга мы рассматривали в наших плейбуках по ИИ-видеоаналитике для безопасности и по ИИ-видеоаналитике для стриминга.

Куда идёт ИИ-видеонаблюдение в 2026–2027

Видео-языковой reasoning на устройстве становится стандартом. Кремний класса AGX Thor обеспечивает reasoning масштаба Qwen2.5-VL на краю сети. Больше не нужно отправлять запросы в облако, чтобы, например, найти всех, у кого за последний час была красная сумка.

Сертификация по EU AI Act становится ключом к госзакупкам. С августа 2026 года госсектор ЕС будет требовать оценки соответствия. Вендоров без неё не пустят на рынок.

Метод детекции с открытым словарём вытесняет системы с фиксированным набором классов. Grounding DINO и его последующие версии позволяют оператору задать новую аномалию — например, «ребёнок приближается к бассейну» — с помощью текстового запроса, не требуя переобучения модели. К 2027 году такой подход становится стандартным интерфейсным решением.

Зреет обучение на синтетических данных. Физическая симуляция помогает моделировать редкие аномалии — например, падение на платформу или столкновение с погрузчиком на складе. Это закрывает разрыв в «длинном хвосте»: реальные съёмки таких ситуаций либо слишком дороги, либо невозможны по юридическим причинам.

Спайковые нейросети одерживают первые победы в продакшене. UCF-Crime-DSV (event-ased датасет, 2025) показывает, что нейроморфные чипы, потребляющие менее ватта, приближаются к показателям мейнстримных решений по AUC на низкопотребляющих always-on камерах. Первые коммерческие внедрения ожидают в 2027 году.

FAQ

Может ли ИИ заменить человека-оператора охраны?

Для триажа, фильтрации и рутинных алертов — да. Для реакции на инциденты, принятия решений и юридически значимых действий — нет. Планируйте гибрид ИИ + человек с чётко прописанными правилами эскалации.

Нужно ли менять существующие камеры?

Обычно нет. Любая ONVIF Profile S камера с разрешением 1080p и выше может работать с edge NVR, оснащённым ИИ-обработкой. Замена имеет смысл, только если разрешение ниже 720p или частота кадров меньше 5.

В чём разница между детекцией движения и детекцией аномалий?

Детекция движения срабатывает на любое изменение пикселей; доля ложных тревог — 30–90%. Детекция аномалий определяет, что за объект движется — человек, машина или лист, — и оценивает его поведение по сравнению с ожидаемым. Доля ложных тревог снижается до 10–30% при использовании современного ИИ и опускается ниже 3% при HITL.

Законно ли распознавание лиц в нашем внедрении?

Зависит от юрисдикции и сценария. ЕС: распознавание лиц в реальном времени в общественных местах запрещено; криминалистический анализ разрешён при наличии узкого правового основания. США: применяются BIPA (Иллинойс), CUBI (Техас), CCPA/CPRA (Калифорния). Несколько городов США (Сан-Франциско, Портленд, Бостон, Балтимор) ввели запреты на использование распознавания лиц правоохранительными органами на уровне муниципалитета. Перед внедрением получите юридическое подтверждение.

Как это интегрируется с Milestone XProtect / Genetec Security Center?

Через экспорт метаданных ONVIF Profile M и нативные плагины платформ. Мост создаём на 9–10 неделе стандартного проекта.

Насколько на самом деле точна детекция оружия?

Заявления вендоров о точности 95% и выше — обычное дело, но они редко проверены в реальных условиях (скрытое оружие, перекрытие объектов, слабый свет). На практике стабильная работа достигается только при ручной проверке результатов (подход ZeroEyes). Перед покупкой требуйте независимый аудит.

Какое минимальное разрешение камер нужно для надёжного ИИ-обнаружения аномалий?

1080p при 5–15 fps — базовый уровень. 4K — для широкоугольного уличного охвата. Ниже 720p или ниже 5 fps точность распознавания аномалий по всем классам заметно снижается.

Сколько занимает внедрение?

Типичный проект запускает пилот на 50–100 камер за 10–14 недель. Раскатка на всю сеть требует ещё одного квартала на каждые 200–300 новых площадок.

Что почитать дальше

Протоколы

Гид по интеграции ONVIF Profile M

Схема метаданных, паттерны MQTT, интеграция с VMS.

Безопасность

ИИ-видеоаналитика для безопасности

Сценарии физической безопасности и паттерны внедрения.

Стриминг

ИИ-видеоаналитика для стриминга

Более широкий слой аналитики поверх стриминговых платформ.

Инфраструктура

ИИ-стриминговые платформы: гид по 2026

Пятислойный стек стриминга под капотом.

Итог

ИИ-обнаружение аномалий в видеонаблюдении — уже зрелая технология: рынки исчисляются триллионами рублей, доступны edge-решения уровня 2026 года, готовые к использованию открытые модели и формирующиеся нормативные требования. Успешная реализация строится на четырёх компонентах: детекция объектов на edge-устройствах, оценка аномалий без обучения на размеченных данных, логический анализ на базе foundation-моделей и интеграция с системами видеонаблюдения через ONVIF Profile M. Весь цикл — от старта до внедрения — занимает 10–14 недель, включая пилотный проект продолжительностью 60 дней.

Три решения, определяющих успех: выбираем edge-подход ради экономии и снижения задержек; по умолчанию обрабатываем только метаданные ради соответствия требованиям; включаем человека в цикл для алертов, которые действительно важны. Сделайте это правильно — и инженерия становится управляемой. Сделайте неправильно — и внедрение тихо превращается в дорогую, бесполезную сигнализацию.

Готовы оценить внедрение ИИ-видеонаблюдения?

20 лет в видео + 8 лет в ИИ + опыт сдачи ONVIF-интеграций. Пришлите парк камер и комплаенс-план — вернёмся с архитектурной рекомендацией.

Позвоните нам → Напишите нам →

Технологии

Показатель	Цифра за 2025	Что это значит для вас
Выручка мобильных приложений с генеративным ИИ	225 млрд ₽, +273% год к году	Самостоятельное AI-приложение теперь — полноценный продукт, а не просто функция.
Время в приложениях с генеративным ИИ	48 млрд часов (×3,6 к 2024)	Привычка у пользователей сформировалась — ассистенты теперь конкурируют с вашим приложением за время сессии.
Внедрение разработчиками	63% выпускают не менее одной AI-функции	Не выпускать ИИ в 2026 году — это уже конкурентное отставание, а не нейтральный выбор.
Прирост вовлечённости от персонализации	+62% вовлечённости, +80% конверсии	Одни только AI-рекомендации влияют на финансовый результат.
Пользователи мобильных AI-ассистентов (США)	200 млн+ (110 млн — только на мобильных)	Пользователи ожидают, что голосовой и текстовый ИИ будет работать везде.
Прогноз Gartner	Использование мобильных приложений снизится на 25% к 2027 году (из-за AI-ассистентов)	Приложения без встроенного ИИ будут терять пользователей в пользу системных ассистентов.

Фреймворк / API	Платформа	Лучше всего для	Типичная задержка	Структура затрат
Core ML	iOS, macOS, watchOS	Зрение и NLP на устройстве с Apple Neural Engine	< 100 мс	Разовая, внутри приложения
Apple Foundation Models	iOS 18+, macOS 15+	LLM на устройстве, резюмирование, инструменты письма	< 500 мс	Бесплатно (в составе ОС)
TensorFlow Lite / LiteRT	Android, iOS, Web	Кроссплатформенное ML на устройстве	< 200 мс	Разовая, внутри приложения
MediaPipe	Android, iOS, Web	Поза, руки, лицо, жесты, сегментация	< 100 мс	Разовая, внутри приложения
ML Kit (Google)	Android, iOS	Распознавание текста, штрихкоды, перевод, обнаружение лиц	50 мс–2 с	Бесплатный тариф + оплата за запрос
Gemini Nano (AICore)	Android (Pixel 9+, S26+)	LLM на устройстве, резюмирование, подсказки ответов	< 1 с	Бесплатно (в составе ОС)
ONNX Runtime Mobile	Android, iOS, Web	Переносимые модели между фреймворками	< 300 мс	Разовая, внутри приложения
OpenAI API (GPT-5)	Облако	Рассуждения, код и зрение уровня state-of-the-art	1–3 с	93,75–750 ₽ за 1 млн токенов
Anthropic Claude API	Облако	Рассуждения с длинным контекстом, анализ, код	1–3 с	75–1 875 ₽ / 1 млн токенов (скидка 50% при батч-обработке)
Google Gemini API	Облако	Мультимодальность, экономичный текст и зрение	1–2 с	6–375 ₽ / 1 млн токенов
AWS Rekognition	Облако	Анализ изображений и видео, модерация	500 мс–2 с	0,075–0,9 ₽ за изображение
Azure Cognitive Services	Облако	Корпоративное видение, стиль общения, язык	500 мс–2 с	За запрос + подписка

Объём	Пример функции	Сроки	Ориентировочная стоимость
Одна функция на устройстве	Сканирование документа + OCR	4–8 недель	2–6 млн ₽
Гибрид среднего размера	Зрение на устройстве + облачный LLM-чат	8–14 недель	6–13,5 млн ₽
Полноценный гибрид под продакшн	Оркестрация нескольких моделей, RAG, мониторинг	14–22 недели	11,2–22,5 млн ₽
Корпоративная платформа	Регулируемая отрасль (здравоохранение / финтех), несколько регионов, SLA	22+ недели	от 22,5 млн ₽

Платформа	Для чего лучше всего	Стартовая цена	Нужна гарнитура?
ClassVR	Школа (K–12), более 1 500 сценариев по учебной программе	от 75 000 ₽ за школьный комплект	Да (гарнитуры в комплекте)
Labster	Лаборатории биологии, химии, физики в вузах	5 925–8 175 ₽ за студента в год	Нет (браузер + опционально VR)
Nearpod (с VR)	Встраивание в уроки в школе	11 925–29 775 ₽ в год на преподавателя	Опционально
zSpace	AR/VR без гарнитуры; более 3 500 округов	По запросу (фирменное оборудование)	Нет (очки + дисплей с трекингом)
Prisms VR	Математика и естественные науки, 140 округов	По запросу (лицензия округа)	Да
Engage / Spatial	Совместные классы в высшем образовании	37 500–150 000 ₽ в год за помещение	Да (несколько устройств)
CoSpaces Edu	VR-проекты, которые создают сами ученики	75–225 ₽ за ученика в год	Опционально
Osso VR / FundamentalVR	Хирургическая подготовка	450 000–3 млн ₽ в год за рабочее место	Да

Статья расходов	Год 1	Год 2 и далее
30 × Meta Quest 3S (комплект за 37 500 ₽)	1 125 000 ₽	0 ₽ (обновление раз в 3–4 года)
Контент-платформа (ClassVR / Nearpod)	150 000–375 000 ₽	150 000–375 000 ₽
Обучение преподавателей (1 день)	112 500–225 000 ₽	Обновление: 37 500 ₽/год
Зарядная станция + MDM	112 500–187 500 ₽	0 ₽
Страховка / поломки (10%)	112 500 ₽	112 500 ₽
Итого	1,6–2 млн ₽	300 000–525 000 ₽

Как ИИ обнаруживает аномалии в видеонаблюдении: руководство на 2026 год

Зачем Фора Софт написала этот гид

Что в 2026 году реально значит «обнаружение аномалий»

Рынок: две кривые с эффектом сложения

Референсный стек из четырёх столпов

Ландшафт моделей: кто что поставляет в 2026

Бенчмарки: на чём проверять

Edge-железо: где работает инференс

Ложные срабатывания: метрика, которая действительно работает

Интеграция с VMS: ONVIF Profile M и пайплайн алертов

Платформы: кто что продаёт

Детекция оружия: самая критичная подкатегория

Комплаенс: правовая плоскость в 2026

Модель стоимости: сколько реально стоят 100 камер

Мини-кейс: ритейлер внедряет обнаружение аномалий в 250 магазинах

5 ловушек, которые хоронят проекты по ИИ-видеонаблюдению

KPI: что измерять

Когда НЕ браться

Решающая рамка: выбираем стек за шесть вопросов

Интеграционный плейбук: путь за 10–14 недель

Куда идёт ИИ-видеонаблюдение в 2026–2027

FAQ

Что почитать дальше

Итог

Похожие статьи

Хотите обсудить ваш проект?