ИИ анализирует видео с камер наблюдения для обнаружения аномалий в реальном времени

Главное

  • Объём мирового рынка видеонаблюдения в 2025 году — 4–6 трлн ₽; сегмент ИИ внутри него — 450–600 млрд ₽ с темпом 20–30% в год до 2030‑го. Обе кривые наращивают одну и ту же инфраструктуру.
  • Стек обнаружения аномалий 2026 года стоит на четырёх столпах: детекция объектов на edge (YOLOv11 / YOLO26 / RT-DETR v2), self-supervised слой без разметки (VideoMAE v2, memory networks), reasoning на foundation-моделях (Qwen2.5-VL, Gemini 2.5 Pro), мост ONVIF Profile M в ваш VMS. Уберите любой — и точность в продакшене обвалится.
  • Доля ложных срабатываний — ключевой KPI, который и хоронит большинство внедрений. Системы первого поколения дают 30–60% ложных тревог; лучшие решения 2026 года держатся ниже 10% за счёт временного окна, ансамблей моделей и проверки человеком в петле.
  • Комплаенс теперь стоит на входе, а не довеском. Статья 5 EU AI Act (полное вступление в силу — август 2026) запрещает распознавание лиц в реальном времени в публичных местах и биометрическую категоризацию. Закон Иллинойса BIPA даёт право частного иска на 75 000–375 000 ₽ за нарушение. По умолчанию отгружайте только метаданные.
  • Экономика железа в 2025 году окончательно сместилась к edge. NVIDIA Jetson Orin Nano — 67 TOPS за 14 925 ₽, AGX Thor — 2 070 TOPS за 262 тыс. ₽, Hailo-8/10 — меньше 1 Вт. Облачный инференс по 3–22 ₽ за стрим-час теперь резерв, а не дефолт.
  • Фора Софт делает сквозную интеграцию ИИ-видеонаблюдения за 10–14 недель: дискавери, выбор моделей, edge-облачная архитектура, мост ONVIF Profile M в VMS заказчика, пилот на 50–100 камерах, продакшен-раскатка.

Зачем Фора Софт написала этот гид

Большую часть инженерного времени мы проводим в двух областях: видеоинфраструктура и ИИ-модели поверх неё. Видеонаблюдение — самое жёсткое пересечение этих двух миров: задержка имеет значение, ложные тревоги убивают продукт, ограничения edge-железа реальны, а комплаенс-плоскость широка и расширяется дальше. Этот гид — наш внутренний бриф на старте проекта. Он говорит архитекторам, какие модели выбирать, по каким протоколам общаться, как удерживать защитимую долю ложных срабатываний и где именно в 2026 году проходят правовые границы.

Честная цель — помочь обойти два типичных способа провалить такое внедрение. Первый: команда показывает демо с 90% точности в лаборатории, а потом наблюдает, как точность падает до 55% под дождём. Второй: обработка биометрии устроена так, что охранный продукт превращается в магнит для исков. Оба сценария предотвращаются правильным выбором стека на первой неделе.

Пара слов о скорости: наша практика agent engineering — внутренний тулинг и ИИ-усиленный процесс разработки, который мы выкатываем на каждом проекте — обычно сжимает интеграцию ИИ-видеонаблюдения на 30–40% по сравнению с нашими базовыми показателями 2024 года. Edge-облачная оркестрация, парсеры ONVIF Profile M, пайплайны сжатия моделей под Jetson / Hailo — всё это у нас существует как переиспользуемые модули, а не как новая работа каждый раз.

Планируете внедрение ИИ-видеонаблюдения?

Мы проведём аудит парка камер, VMS и комплаенс-плоскости и вернёмся с архитектурной рекомендацией. Бесплатно.

Позвоните нам → Напишите нам →

Что в 2026 году реально значит «обнаружение аномалий»

За одной фразой стоят три разных класса задач, которым нужны разные модели и разные пайплайны оценки.

  • Поведенческие аномалии. Праздное шатание, скопления, встречное движение, нарушение периметра, насилие, падения, видимое оружие, оставленные предметы. Доминируют в умных городах и ритейле.
  • Аномалии внешнего вида. Маски там, где их быть не должно (банки), отсутствие СИЗ там, где они обязательны (заводы, стройплощадки), нарушения дресс-кода в защищённых зонах.
  • Временные аномалии. Активность после рабочих часов, всплеск посещаемости, необычное время пребывания в зоне. Дёшево детектируются, но без калибровки сцены дают больше всего ложных срабатываний.

Современные платформы Video Content Analytics (VCA) объединяют это с детекцией объектов в реальном времени, реидентификацией между камерами, корреляцией событий и экспортом метаданных по ONVIF Profile M. Продукт-победитель в 2026 году не просто детектирует — он рассуждает. Он отвечает на запросы вроде «покажи все случаи, когда этот человек заходил в запретную зону без бейджа» на естественном языке — за счёт видео-языковых foundation-моделей.

Рынок: две кривые с эффектом сложения

Рынок видеонаблюдения растёт. ИИ-сегмент внутри него растёт в 3–4× быстрее. Картинка 2025–2026 годов:

Сегмент Размер в 2025 Рост Что двигает
Мировое видеонаблюдение (всё) 4–6 трлн ₽ 7,8–13,5% в год Миграция на IP, умные города, замещение труда
ИИ в видеонаблюдении 450–600 млрд ₽ 20,7–30,6% в год до 2030 Foundation-модели, edge-железо, паритет функций VCA
Инвестиции в умные города (накопительно до 2030) 61 трлн ₽ Накапливаются Трафик, общественная безопасность, управление толпой
ИИ против потерь в ритейле 90 млрд ₽ ~24% в год Организованная кража, риски касс самообслуживания
Детекция оружия (школы, площадки) 45 млрд ₽ ~35% в год Мандаты штатов США, безопасность мероприятий

Две вещи стоит подсветить. Первое: задокументированные результаты в умных городах уже конкретны — на 28% быстрее время реакции экстренных служб, на 34% лучше детекция дорожных инцидентов, на 22% ниже уровень городской преступности в муниципалитетах, где ИИ-VCA внедрена в масштабе. Второе: внедрения раздваиваются. Крупные предприятия и правительства движутся быстро; малый и средний бизнес ждёт, когда облачные пакеты (Verkada, Eagle Eye) уронят ценник.

Референсный стек из четырёх столпов

Каждая система обнаружения аномалий, которую мы отгружаем, ложится на эти четыре столпа. Уберите один — точность рухнет.

Столп Что делает Дефолтный инструментарий на 2026
1. Детекция объектов на edge Bounding box, метки классов и confidence в реальном времени — на камере или NVR YOLO26 / YOLOv11, RT-DETR v2, Grounding DINO на NVIDIA Jetson или Hailo-10
2. Unsupervised / self-supervised Помечает новые поведения без размеченных обучающих данных VideoMAE v2, memory networks MNAD, предсказание FutureFrame, диффузионные подходы
3. Reasoning и семантический поиск Запросы по записи на естественном языке; контекст-осознанные алерты Qwen2.5-VL, InternVL 3.5, Gemini 2.5 Pro video, Twelve Labs Marengo 3.0
4. Мост в VMS + SIEM Транспорт метаданных, маршрутизация алертов, UI оператора, аудит-трейл ONVIF Profile M, MQTT / AMQP, Milestone XProtect, Genetec Security Center, Splunk

Наше мнение. Третий столп команды чаще всего недооценивают. Детекция объектов в одиночку порождает шум; unsupervised в одиночку даёт необъяснимые алерты. Reasoning на foundation-модели поверх первых двух столпов — именно то, что позволяет оператору спросить «покажи все случаи, когда пешеход пересекал рельсы после 23:00» и получить полезный ответ. Сторону ONVIF Profile M в этом мы разбираем в нашем гиде по интеграции ONVIF Profile M.

Ландшафт моделей: кто что отгружает в 2026

Четыре семейства моделей реально тянут нагрузку в видеонаблюдении 2026 года. Выбирайте по ограничениям внедрения, а не по хайпу.

Семейство моделей Сильная сторона Где применяем
YOLO26 / YOLOv11 Без NMS, на 43% быстрее CPU-инференс, чем у v11; блоки C3k2 + пространственное внимание Дефолт на edge; камеры и NVR на Jetson / Hailo
RT-DETR v2 На трансформерах, AP 55%+, end-to-end обучение Уровень повышенной точности на NVR; ансамбль с YOLO для критичных алертов
Grounding DINO Открытый словарь детекции по текстовым промптам («человек с телефоном», «оставленная сумка») Быстрый старт новых классов аномалий без переобучения
VideoMAE v2 Masked autoencoder для видео; self-supervised на неразмеченной записи Unsupervised-скоринг аномалий; адаптация к новым сценам
Qwen2.5-VL / InternVL 3.5 Опенсорсный мультимодальный reasoning; edge-варианты на 3B, серверные — 72B Криминалистический поиск на естественном языке; триаж алертов
Gemini 2.5 Pro video Контекст 2M; нативный видеорежим; дешёвый вход Криминалистический анализ в облаке; запросы по длинным паттернам
Twelve Labs Marengo 3.0 / Pegasus 1.2 Заточены под видеопоиск и понимание Ретроспективный поиск по месяцам записи

Реидентификация людей (TransReID, ReID-MGN, ReID-NFormer) и multi-object tracking (ByteTrack, BoT-SORT) закрывают разрыв между детекцией и reasoning: они связывают bounding box между камерами и во времени. Pose estimation (YOLOv8-Pose, RTMPose) — дешёвый способ детектировать падения, драки и необычные позы, не сохраняя данные о лицах.

Бенчмарки: на чём проверять

Если вендор не может назвать цифры по этим датасетам, заявления о точности — маркетинг.

Датасет Область SOTA на 2025 (AUC)
UCF-Crime ~1 900 видео, 13 классов (драка, ограбление, поджог и т.д.) 80,86%
ShanghaiTech Campus ~330 видео, аномалии в толпе 97,89%
Avenue ~47 видео, пешеходные траектории 95,97%
UCSD Ped1 / Ped2 Траектории в плотных сценах 97,38% (Ped2)
XD-Violence 1 000+ видео, драки и давка 94,02%
NWPU Campus, UBnormal, MSAD, Street Scene Исследовательские бенчмарки; тесты на обобщение Зависит

Метрики важны не меньше, чем сами цифры: AUC скрывает результат по отдельным классам, EER сворачивает решающие границы в одну точку, а mAP смотрит на точность локализации. Просите полную PR-кривую по вашим целевым классам аномалий, а не только заголовочное число.

Edge-железо: где крутится инференс

Экономика 2025–2026 годов делает edge выбором по умолчанию. Облачный инференс по 3–22 ₽ за стрим-час означает 32 тыс.–197 тыс. ₽ на камеру в год при круглосуточном покрытии. Edge-ускоритель — разовая покупка, которая выходит дешевле.

Ускоритель Производительность ИИ Питание Типичная цена Куда подходит
Google Coral Edge TPU 4 TOPS <1 Вт 4 500 ₽ Инференс на микрокамерах
Hailo-8 13 TOPS <1 Вт 6 000–11 250 ₽ Низкопотребные смарт-камеры
Hailo-10 26 TOPS ~2 Вт 11 250–22 500 ₽ Плагины для камер, PoE-шлюзы
NVIDIA Jetson Orin Nano 67 TOPS 7–25 Вт 14 925 ₽ Одно-камерный интеллектуальный NVR
NVIDIA Jetson Orin NX 157 TOPS 10–40 Вт 30 000–45 000 ₽ NVR на 4–8 камер
NVIDIA AGX Orin (64 ГБ) 275 TOPS 15–60 Вт 149 тыс. ₽ Шлюз на 10+ камер
NVIDIA AGX Thor (T5000) 2 070 TOPS (FP4) 40–70 Вт 262 тыс. ₽ Корпоративный edge с reasoning на устройстве
Ambarella CV3 / CV5 / CV72 До 32 TOPS ~3 Вт OEM Встроены в смарт-камеры (ISP + ИИ)

Как мы выбираем по умолчанию. Hailo-8 в самих камерах для детекции объектов; Jetson Orin NX или AGX Orin на уровне NVR для трекинга, реидентификации и агрегации; облако (Gemini 2.5 Pro, Twelve Labs) — для криминалистического поиска и reasoning между камерами. AGX Thor ставим на площадке, только когда нужен LLM-reasoning на устройстве без облачных round-trip — обычно это высокобезопасные или критичные к задержке внедрения вроде железнодорожных платформ и аэропортов.

Ложные срабатывания: метрика, которая реально решает

AUC на бенчмарке — базовая ставка. Продукты убивает оператор, который выключил алерты после десятой ложной пожарной тревоги. Вот техники 2026 года, которые двигают эту цифру.

  • Временное окно. Требуем N последовательных кадров выше порога уверенности до срабатывания. Пять кадров на 10 fps = 0,5 с устойчивой детекции. Просто и сокрушительно эффективно.
  • Ансамбли нескольких моделей. YOLOv11 + RT-DETR v2 + reasoning Qwen2.5-VL; голосуют по bounding box. Падение ниже «2 из 3» согласия в наших замерах режет ложные срабатывания примерно вдвое.
  • Фильтрация по оптическому потоку. Отделяем движение объектов от движения камеры / фона через Lucas-Kanade или FlowNet. Снимает большую часть тревог от ветра и погоды.
  • Пороги под каждую сцену. Калибруем на конкретную камеру под её свет, фон, типичную активность. Не используйте один глобальный порог уверенности и на открытый стадион, и на дата-центр без окон.
  • Active learning. Оператор помечает ложный алерт → кадр уходит в обучающий набор → модель дообучается за ночь. Замыкаем петлю — и система сама себя корректирует.
  • Проверка человеком в петле. Для критичных алертов (оружие, насилие) человек подтверждает до эскалации. Канонический пример — круглосуточный обзор бывшими сотрудниками силовых структур у ZeroEyes.

Базовое ожидание: системы первого поколения дают 30–60% ложных тревог. Лучшие решения 2026 года — ниже 10%. Меньше 3% требует HITL в пайплайне.

Интеграция с VMS: ONVIF Profile M и пайплайн алертов

ИИ-слой — простая часть. Закрывает сделку то, что он бегло общается с уже стоящими у заказчика Milestone XProtect, Genetec Security Center или Avigilon Control Center.

  • ONVIF Profile S. Базовый транспорт видеонаблюдения. Обнаружение устройств, видеопоток по RTSP. Унаследованный, но всё ещё лингва франка.
  • ONVIF Profile T. Продвинутое IP-видео: H.264 / H.265 / AV1, контроль изображения, простая детекция движения.
  • ONVIF Profile M. Тот, который и важен для ИИ. Стандартизированный экспорт метаданных: bounding box детекции, confidence, публикация по MQTT, геолокация, атрибуты транспорта / лиц / тел, фильтрация и запросы событий. Наш гид по Profile M подробно разбирает схему.
  • RTSP. Транспорт видео. Универсальный.
  • MQTT. Лёгкий pub-sub. Алерты в IoT / облачные дашборды; самый дешёвый транспорт событий.
  • AMQP. Advanced Message Queuing Protocol. Гарантированная доставка для корпоративных воркфлоу (Rabbit, Azure Service Bus, AWS MQ).

Стандартный паттерн интеграции: камера или NVR крутит модель детекции, отдаёт метаданные ONVIF Profile M, VMS применяет правило («человек + праздное шатание > 60 с»), MQTT мостит в SIEM (Splunk, ELK) для аудита и корреляции. Опционально — эскалация в облако для тяжёлых моделей (reasoning-запросы Gemini 2.5 Pro, криминалистический поиск Twelve Labs).

Комплаенс-шорткат. По умолчанию — только метаданные. Отгружайте класс объекта, bounding box и confidence; никогда не пускайте по MQTT кропы лиц, метки идентичности или биометрические эмбеддинги, если внедрение явно не очерчено и не имеет правового основания работать с ними. Как только биометрия касается вашей шины событий, вы наследуете ответственность по BIPA / GDPR / EU AI Act за каждого нижестоящего потребителя. Мы видели, как это валит аудиты FERPA-типа ровно в тот момент, когда заказчик собирается продлевать контракт.

Платформы: кто что продаёт

Сжатая матрица VCA-платформ, которые мы чаще всего видим в продакшен-внедрениях.

Платформа Сильная сторона Типичный заказчик
BriefCam (Milestone) Криминалистический поиск, LPR, аналитика поведения Силовые структуры, транспорт, ритейл-сети
Avigilon Alta (Motorola) Вертикально интегрированные камеры и софт, тепловая аналитика Корпорации, аэропорты, госсектор
Verkada Облако из коробки, мульти-сайт операции, простота устройств SMB / средний бизнес, ритейл-сети
Eagle Eye Networks Облачный VMS, агностично к железу, подписочная модель SMB, сети с многими локациями
Cisco Meraki MV ML на камере, аналитика присутствия, дружелюбное к ИТ-отделу внедрение Корпоративные кампусы под управлением ИТ
Axis Communications ACAP SDK для приложений прямо на камере; открытая экосистема Интеграторы, кастомные внедрения
Hanwha Wisenet Deep learning на edge, соотношение цена/производительность Корпорации, международный ритейл
Hikvision HikCentral AI Масштабируемый ИИ на edge, крупные внедрения в энергетике / транспорте Энергетика, транспорт, рынки вне США
Dahua DSS Распределённое хранение, мобильный фокус операций Муниципальное видеонаблюдение, крупные предприятия
Pelco VideoXpert Оркестрация между сайтами, широкая поддержка камер Госсектор, критическая инфраструктура
Genetec Security Center IP-центричный VMS, единый контроль доступа и видео Корпоративная безопасность, аэропорты, кампусы
Milestone XProtect Открытая экосистема ONVIF, огромный масштаб Крупные предприятия, глобальные внедрения
Ipsotek (Eviden/Atos) Поведенческая аналитика, детекция толпы Аэропорты, общественный транспорт
iOmniscient Безопасность толпы, обработка без PII Ритейл, публичные площадки

Детекция оружия: самая критичная подкатегория

Детекция оружия заслуживает отдельного раздела — режимы отказа здесь экзистенциальные. Пропустите реальное оружие — купите иск об ответственности. Поднимете слишком много ложных — продукт замьютят. Ландшафт 2026 года:

  • ZeroEyes. Живой круглосуточный обзор бывшими военными / сотрудниками силовых структур. Годовое лицензирование по камерам. HITL-модель — их защитный ров.
  • Omnilert. Мультимодальная детекция, обученная на реальных съёмках наблюдения. Фокус — школы и площадки.
  • Evolv Express. ИИ-скрининг на входах, объёмная оценка угроз. Под пристальным вниманием FTC (2025) по поводу заявлений о точности. Использовать с осторожностью и независимым аудитом.
  • Scylla AI, Actuate AI. Новые игроки с заявлениями о точности 95%+. Перед закупкой требуйте результаты сторонних бенчмарков.

Наша позиция по этой категории: внедряйте детекцию оружия только с HITL-слоем проверки и защитимым плейбуком реакции на инциденты. Алерт — не конец пайплайна, а начало процедуры, которую нужно отрепетировать.

Комплаенс: правовая плоскость в 2026

ИИ-видеонаблюдение живёт на пересечении приватности, биометрии и регулирования безопасности ИИ. Снимок на 2026 год:

Режим Область Практическое требование
EU AI Act, статья 5 (полное вступление — авг. 2026) Все внедрения в ЕС Распознавание лиц в реальном времени в публичных местах запрещено (узкие исключения для правоохраны). Запрещена биометрическая категоризация. Запрещён скрапинг CCTV под базы лиц. Штраф: €35 млн или 7% мировой выручки.
EU AI Act — распознавание эмоций Школы и рабочие места Запрещено с февраля 2025. Не отгружайте даже как опциональную функцию.
GDPR, статья 22 Автоматизированные решения в ЕС Существенные автоматизированные решения (баны, сигналы в полицию) требуют проверки человеком и права на оспаривание.
Illinois BIPA Биометрия в Иллинойсе Письменное согласие (e-подпись ок с поправки 2024). Одно нарушение на человека. Право частного иска 75 000–375 000 ₽ за случай.
Texas CUBI Техас Сбор биометрии требует согласия; права частного иска нет, но есть санкции от генпрокурора.
Washington My Health My Data Жители Вашингтона Ограничивает продажу и таргетированное использование данных, связанных со здоровьем (включая биометрию).
California SB 1047 + CCPA/CPRA Калифорния Прозрачность безопасности ИИ, обязанности аудита для крупных моделей; правила CPRA для чувствительных PI, включая биометрию.
Мораторий на распознавание лиц Сан-Франциско, Портленд, Бостон, Балтимор и др. Городские запреты на распознавание лиц правоохранителями.
UK Surveillance Camera Code Госсектор Великобритании Пропорциональность, прозрачность, ограничения по срокам хранения.

Модель стоимости: сколько реально стоят 100 камер

Конкретное внедрение на 100 камер, смешанное помещение / улица, цены 2026 года.

Статья Цена за единицу Итого (100 камер)
IP-камеры (1080p, IP66, ИК) 22 500–60 000 ₽ 2,2–6 млн ₽
Edge NVR (Jetson Orin NX, на 10 камер) 37 500 ₽ 375 000 ₽ (10 NVR)
Лицензии VMS (Milestone / Genetec) 15 000 ₽ / канал / год 1,5 млн ₽ / год
Облачный инференс (опционально, 24/7) 7 ₽ / стрим-час 6,5 млн ₽ / год
Облачное хранилище (срок хранения 30 дней) 3 750–15 000 ₽ / камера / год 375 тыс.–1,5 млн ₽ / год
Поддержка и мониторинг 375 тыс.–1,1 млн ₽ / год
TCO первого года (edge-первичный) 4,8–9 млн ₽
TCO первого года (облако-тяжёлый) 11–15 млн ₽

Типичный срок окупаемости — 1–3 года. Экономия идёт от сокращённых часов ручного мониторинга, более быстрой реакции на инциденты, предотвращения краж в ритейле, снижения ответственности в здравоохранении и на производстве. Для обоснования закупки необходима специализированная ROI-модель под каждую вертикаль.

Наша эвристика бюджета

Для внедрения среднего масштаба (50–200 камер) закладывайте 60–90 тыс. ₽ на камеру на первый год при edge-первичной архитектуре или 112–165 тыс. ₽ на камеру при облако-тяжёлой. Если предложение вендора резко ниже — обычно модель недообучена или отсутствует комплаенс-слой; если резко выше — платите за лицензии на места, которые не будете использовать. Напишите или позвоните нам — и мы сверим ваше предложение с рынком.

Мини-кейс: ритейлер раскатывает обнаружение аномалий в 250 магазинов

Североамериканский специализированный ритейлер с 250 магазинами пришёл к нам с уже стоящим парком камер Avigilon и VMS Milestone XProtect. Организованная розничная преступность за 18 месяцев подняла их потери от усушки с 1,2% до 2,8% выручки. Корпоративное подразделение по потерям хотело раскатать ИИ-обнаружение аномалий по всей сети за один квартал.

Мы строили поверх их существующей инфраструктуры:

  • Инференс на edge. Jetson Orin NX в каждом магазине (один на 8–10 камер) с YOLOv11 для людей и объектов плюс ByteTrack для multi-target трекинга.
  • Классы аномалий. Праздное шатание у дорогих витрин, «схватил и побежал» (разгибание руки + исчезновение предмета), одновременный выход нескольких людей через неохраняемые двери, несканирование на самообслуживании (товар в пакете без писка). Всего шесть классов, обученных на записях заказчика.
  • Мост в VMS. Метаданные ONVIF Profile M с edge NVR → плагин XProtect → алерты в консоль управляющего магазином с пятисекундным клипом.
  • Облачный криминалистический слой. Еженедельная пакетная прогонка через Twelve Labs Marengo 3.0 — чтобы корпоративная LP-команда могла делать запросы на естественном языке по полному архиву 250 магазинов.
  • HITL. Проверка управляющим магазином перед корпоративной эскалацией; разбор LP-аналитиком для случаев, идущих в суд.

Результаты пилота за 90 дней на 40 магазинах. Доля ложных срабатываний упала с 47% на первой неделе до 11% к третьему месяцу за счёт active-learning переобучения. Усушка в пилотных магазинах снизилась на 0,9 процентных пункта против контрольной выборки. Освоение менеджерами (заходы в консоль раз в неделю) дошло до 78%. Раскатили на оставшиеся 210 магазинов за следующий квартал.

5 ловушек, которые хоронят проекты по ИИ-видеонаблюдению

  • 1. Перекос данных по регионам. Модели, обученные на западных съёмках, проваливаются на не-западном свете, одежде, паттернах движения. Закладывайте под-рыночный fine-tuning до запуска; иначе ваше внедрение в Токио пропустит половину аномалий.
  • 2. Ложные срабатывания от среды. Погода, тени, птицы, мигающие LED. Временное окно, фильтрация по оптическому потоку и калибровка под сцену — три фикса. Заложите бюджет на них с первой недели.
  • 3. Иски за хранение биометрии. Даже благонамеренные внедрения с базой лиц приглашают претензии по BIPA, EU AI Act и California CPRA. По умолчанию — только метаданные. Биометрические эмбеддинги храните только при наличии правового основания и операционной необходимости, с проверенными процессами получения согласия.
  • 4. Расположение камер и свет. Мусор на входе = мусор на выходе, какой бы хорошей модель ни была. Настаивайте на обследовании площадки, разрешении не ниже 1080p, нормальной ИК / дополнительной подсветке, базовом 5–15 fps. Камера под неправильным углом гарантирует провал проекта.
  • 5. Нет петли с человеком. Полностью автономное оповещение приглашает ответственность (упущенный контекст, риск ошибочного задержания). Проверка оператором с аудит-трейлом — минимальный защитимый стандарт. Институциональные заказчики без этого продлевать контракт не будут.

Паттерн нашего 60-дневного пилота. Никогда не разворачивайте всю сеть в первый же день. Возьмите 40–100 камер на репрезентативной площадке (смесь помещения / улицы / освещения), прогоните 60 дней, отслеживайте долю ложных срабатываний еженедельно, переобучайте на обратной связи операторов и только потом расширяйтесь. Команды, пропускающие этот этап, тратят вдвое больше денег на починку угла обзора и порогов в продакшене.

KPI: что измерять

  • Доля ложных срабатываний. Цель — <10% в течение 90 дней с момента внедрения; <3% с HITL.
  • Полнота истинных срабатываний. По каждому классу на размеченном тестовом наборе из записей заказчика, а не из демо-ролика вендора.
  • Среднее время до алерта. От захвата кадра до консоли оператора, end-to-end. Цель — <2 секунд для real-time-классов (оружие, насилие, периметр).
  • Скорость реакции оператора. Доля алертов, подтверждённых в рамках SLA. Если падает ниже 70%, алерты слишком шумные или консоль слишком медленная.
  • Дрейф модели. Ежемесячный бенчмарк против отложенного тестового набора; флагуем любую регрессию AUC более чем на 5%.
  • Бизнес-результат. Усушка для ритейла, время реакции на инциденты для общественной безопасности, уровень травматизма для производства. Каждый квартал привязывайте к исходному обоснованию закупки.

Когда НЕ браться

Сигналы, по которым мы отказываемся от проектов:

  • Заказчик ждёт распознавания лиц в реальном времени для общего наблюдения за публичными пространствами в юрисдикции ЕС — это запрещено статьёй 5 AI Act.
  • Разрешение камер ниже 720p или fps меньше 5. Качество модели потолком упирается в «плохо» ещё до того, как софт коснётся потока.
  • Нет аппетита к 60-дневному пилоту с тюнингом порогов. Внедрение провалится по ложным срабатываниям в первый же месяц.
  • Нет слоя оператора или HITL. Проекты по детекции оружия без определённого плейбука реакции на инциденты и шага верификации мы не берём.
  • Юрисдикция без чёткого правового основания для предлагаемой обработки биометрии. Мы не отгружаем продукты, которые приглашают суды.

Решающая рамка: выбираем стек за шесть вопросов

  1. Какие аномалии важны? Только поведенческие → YOLOv11 + ByteTrack. Поведенческие + reasoning-запросы → добавляем Qwen2.5-VL или Gemini 2.5 Pro. Оружие / насилие → добавляем HITL.
  2. Edge или облако? Круглосуточный мониторинг → edge. Криминалистические / батч-запросы → облако. Большинству внедрений нужно и то, и другое.
  3. Какой VMS уже стоит? Milestone / Genetec / Avigilon → интегрируем через ONVIF Profile M. Greenfield → выбираем по операционным предпочтениям заказчика.
  4. Какая юрисдикция? ЕС → по умолчанию без распознавания лиц; оценка соответствия AI Act. США → учитываем BIPA; муниципальные запреты важны. Азия → правила под регион.
  5. Сколько камер? <50 → справляется один AGX Orin. 50–500 → распределённые Jetson Orin NX на каждой площадке + центральная агрегация. 500+ → Hailo-10 на камерах + AGX Thor в региональных хабах.
  6. Кто оператор? Подготовленный SOC → сырые алерты ок. Управляющий магазином / первая линия → отфильтрованные и проверенные алерты только с видеоклипами.

Хотите пройти эту рамку вместе с нами?

Пришлите инвентаризацию камер, VMS, классы аномалий и юрисдикцию. Мы вернёмся с архитектурной рекомендацией и планом на 14 недель.

Позвоните нам → Напишите нам →

Интеграционный плейбук: путь за 10–14 недель

Недели Этап Результат
1–2 Дискавери + аудит парка камер Инвентаризация, базовая оценка VMS, оценка комплаенса, шорт-лист классов аномалий
3–4 Выбор моделей Шорт-лист YOLOv11 / RT-DETR v2 / Qwen2.5-VL; бенчмарк на записях заказчика
5–6 Обучение / fine-tuning Калибровка под сцены, кастомные классы аномалий, экспорт в ONNX под Jetson / Hailo
7–8 Edge-облачная архитектура План развёртывания Jetson, правила облачной эскалации, схема событий MQTT
9–10 Интеграция с VMS Мост ONVIF Profile M, плагин для XProtect / Security Center, UI алертов
11–12 Пилот (50–100 камер) Боевое внедрение, тюнинг порогов, петля обратной связи с active learning
13–14 Раскатка в продакшен Перевод всего парка, обучение операторов, плейбук, SLA

Смежные стриминговые вопросы мы разбирали в наших плейбуках по ИИ-видеоаналитике для безопасности и по ИИ-видеоаналитике для стриминга.

Куда идёт ИИ-видеонаблюдение в 2026–2027

Видео-языковой reasoning на устройстве становится дефолтом. Кремний класса AGX Thor приводит reasoning масштаба Qwen2.5-VL на edge. Никаких round-trip в облако ради «покажи всех, у кого за последний час была красная сумка».

Сертификация по EU AI Act становится воротами закупок. С августа 2026 года госсектор ЕС будет требовать оценок соответствия. Вендоров без неё запрут на пороге.

Детекция с открытым словарём вытесняет пайплайны с фиксированными классами. Grounding DINO и его наследники позволяют оператору задать новую аномалию («ребёнок приближается к бассейну») текстовым промптом, а не переобучением. К 2027 году это становится дефолтным UI-паттерном.

Зреет обучение на синтетических данных. Физическая симуляция для редких аномалий (падение на платформу, столкновение с погрузчиком на складе) закрывает разрыв «длинного хвоста», где реальные съёмки дороги или невозможны юридически.

Спайковые нейросети получают первые продакшен-победы. UCF-Crime-DVS (event-based датасет, 2025) показывает, что нейроморфные чипы менее ватта подбираются к мейнстримному AUC на низкопотребных always-on камерах. Первых коммерческих внедрений ждём в 2027.

FAQ

Может ли ИИ заменить человека-оператора охраны?

Для триажа, фильтрации и рутинных алертов — да. Для реакции на инциденты, оценочных решений и юридически значимых действий — нет. Планируйте гибрид ИИ + человек с чётко описанными правилами эскалации.

Нужно ли менять существующие камеры?

Обычно нет. Любая ONVIF Profile S камера от 1080p может кормить edge NVR с ИИ-пайплайном. Замена оправдана, только если разрешение ниже 720p или fps меньше 5.

В чём разница между детекцией движения и детекцией аномалий?

Детекция движения срабатывает на любое изменение пикселей; доля ложных тревог 30–90%. Детекция аномалий классифицирует движение — это человек, машина, лист? — и оценивает его на фоне ожидаемого поведения. Доля ложных тревог падает до 10–30% с современным ИИ и ниже 3% с HITL.

Законно ли распознавание лиц в нашем внедрении?

Зависит от юрисдикции и сценария. ЕС: распознавание лиц в реальном времени в публичных местах запрещено; криминалистический анализ разрешён при наличии узкого правового основания. США: применяются BIPA (Иллинойс), CUBI (Техас), CCPA/CPRA (Калифорния). Несколько городов США (Сан-Франциско, Портленд, Бостон, Балтимор) ввели муниципальные запреты на использование распознавания лиц правоохранителями. Перед внедрением получите юридическое подтверждение.

Как это интегрируется с Milestone XProtect / Genetec Security Center?

Через экспорт метаданных ONVIF Profile M и нативные плагины платформ. Мост строим на 9–10 неделе стандартного проекта.

Насколько на самом деле точна детекция оружия?

Заявления вендоров о точности 95%+ типичны, но часто не проверены в боевых условиях (скрытое оружие, перекрытие, слабый свет). В реальных внедрениях устойчивая работа достигается только с HITL-верификацией (паттерн ZeroEyes). Перед закупкой требуйте независимый аудит.

Какое минимальное разрешение камер для устойчивого ИИ-обнаружения аномалий?

1080p при 5–15 fps — базовый уровень. 4K — для широкоугольного уличного покрытия. Ниже 720p или ниже 5 fps ждите заметной деградации точности по всем классам аномалий.

Сколько занимает внедрение?

Типичный проект отгружает пилот на 50–100 камер за 10–14 недель. Раскатка на всю сеть добавляет квартал на каждые 200–300 дополнительных площадок.

Протоколы

Гид по интеграции ONVIF Profile M

Схема метаданных, паттерны MQTT, интеграция с VMS.

Безопасность

ИИ-видеоаналитика для безопасности

Сценарии физической безопасности и паттерны внедрения.

Стриминг

ИИ-видеоаналитика для стриминга

Более широкий слой аналитики поверх стриминговых платформ.

Инфраструктура

ИИ-стриминговые платформы: гид по 2026

Пятислойный стек стриминга под капотом.

Итог

ИИ-обнаружение аномалий в видеонаблюдении — уже зрелая категория: рынки в триллионы рублей, edge-кремний уровня 2026, продакшен-готовые опенсорсные модели и кристаллизующийся комплаенс-режим. Победный контур — стек из четырёх столпов: детекция объектов на edge, unsupervised-скоринг аномалий, reasoning на foundation-модели, мост в VMS через ONVIF Profile M — за 10–14 недель интеграции с 60-дневным пилотом посередине.

Три решения, определяющих успех: выбираем edge-первый подход ради экономики и задержек; по умолчанию работаем только с метаданными ради комплаенса; ставим человека в петлю для алертов, которые имеют значение. Сделайте это правильно — и инженерия становится посильной. Сделайте неправильно — и внедрение тихо вырождается в дорогую замьюченную сигнализацию.

Готовы оценить ваше внедрение ИИ-видеонаблюдения?

20 лет в видео + 8 лет в ИИ + опыт сдачи ONVIF-интеграций. Пришлите парк камер и комплаенс-плоскость — вернёмся с архитектурной рекомендацией.

Позвоните нам → Напишите нам →

  • Технологии