Автоматическая детекция аномалий в камерах видеонаблюдения выявляет необычное

Главное

Настоящий враг — ложные срабатывания. Лабораторный AUC 95% превращается в 85% на реальном объекте, а 10+ ложных тревог на камеру в день убивают доверие оператора уже за неделю.

Реально работают три стратегии. Подобрать правильный ML-стек, считать на edge-устройствах и определять «норму» под каждую камеру — всё остальное косметика.

VLM готовы к production в 2026 году. Методы на базе CLIP вроде AnomalyCLIP дают 90,32% AUC на UCF-Crime и обобщаются на новые объекты без переобучения — планка поднялась.

Edge выигрывает по стоимости после 80 камер. Jetson Orin Nano Super за 18 000 ₽ амортизируется в 500 ₽/мес; cloud-only VMS обходится в среднем 3 700–11 000 ₽ за камеру в месяц.

Compliance стал жёстким ограничением. EU AI Act (август 2026) относит биометрическое видеонаблюдение к категории высокого риска. Для большинства SaaS-продуктов безопаснее идти по пути небиометрической детекции поведения.

Зачем компания Фора Софт написала этот playbook

Мы делаем продукты для видеостриминга и AI-видеонаблюдения с 2005 года. Детекция аномалий для нас не побочный квест — это самая сложная часть почти каждого проекта для залов суда, больниц и учебных центров, который мы берём в работу.

Наша платформа V.A.L.T. транслирует поток с нескольких HD-камер с идеальной синхронизацией звука и видео для допросов в правоохранительных органах и медицинского обучения. Она работает с шифрованными RTMPS-потоками, поддерживает ролевую модель прав доступа и неограниченное число «комнат» — а слой детекции аномалий должен работать в том же кадре, который потом просматривают в суде. Мы также построили AI-видеоаналитику для врачей, преподавателей и операторов, которые не могут позволить себе alert fatigue, и держим 100% project-success rating на Upwork.

Этот playbook — сжатая версия того, что мы рассказываем продуктовым командам на первой встрече по скоупу: три действия, которые реально меняют кривую, действия, на которые сливают бюджет, и как принять решение build vs buy. Если хотите увидеть, как это выглядит в production, посмотрите наше портфолио видео- и AI-проектов.

Нужно второе мнение по вашей стратегии детекции аномалий?

30 минут с senior-инженером, который запускал такие системы в залах суда и больницах — без слайдов, только ваша архитектура.

Позвоните нам → Напишите нам →

Главное узкое место 2026 года — ложные срабатывания, а не сама детекция

Каждый вендор показывает 95–98% AUC на UCF-Crime или ShanghaiTech. На реальном объекте та же модель обычно проседает до 80–88%, как только сталкивается с дождём, ИК-режимом, поворотом PTZ, полосами тени и особым ритмом конкретного здания. Этот разрыв называется доменным разрывом — и именно на нём почти каждый проект автоматической детекции аномалий в камерах видеонаблюдения либо зарабатывает себе следующие полгода жизни, либо теряет их.

Операционные последствия предсказуемо жёсткие: если система выдаёт больше двух ложных тревог на камеру в день, операторы перестают читать алерты к концу первой недели. Объект на 100 камер, генерирующий 15–30 ложных срабатываний в сутки, сжигает порядка 3,7 млн ₽ в год рабочего времени охраны — и теряет ещё больше, когда реальное событие проходит мимо внимания.

Поэтому, когда мы проектируем автоматическую детекцию аномалий для продукта на базе камер видеонаблюдения, мы не оптимизируем модель под максимальный AUC. Мы оптимизируем под минимальное соотношение алертов к истинным срабатываниям при приемлемом recall. Всё остальное — выбор модели, edge или cloud, как определять «норму» — служит этому одному числу.

Бенчмарки, которым реально стоит доверять в 2026 году

Читайте цифры по датасетам как бюджет, а не как турнирную таблицу. Вот пять бенчмарков, которые всё ещё имеют значение, и методы, которые сейчас на вершине.

Датасет Охват Лучший результат (2024–2026) О чём говорит
UCF-Crime 13 типов преступлений, 128 часов AnomalyCLIP ≈ 90,3% AUC Универсальная детекция со слабой разметкой
ShanghaiTech 13 кампусных сценариев, покадровая разметка BERT+RTFM ≈ 98,5% AUC Временная локализация на уровне кадра
XD-Violence Только насилие, аудио + видео VadCLIP++ ≈ 90,5% AP Мультимодальные детекторы
Avenue Слоняющиеся пешеходы и движение против потока ≈ 88–90% AUC Поведение в малолюдных сценах
MSAD (2024) 14 различных сцен, тест на обобщаемость UR-DMU / VadCLIP ≈ 88% AUC Устойчивость при переносе на новый объект

Две оговорки, прежде чем доверять любому рейтингу. Во-первых, AUC на уровне видео может маскировать плохую временную локализацию — модель, отметившая правильный клип, но не ту секунду, всё равно бесполезна для диспетчера. Покадровые precision/recall и более новая метрика LaAP честнее. Во-вторых, та же модель редко удерживает свой AUC, когда её перемещают за пределы родного датасета: MSAD как раз создан, чтобы это вскрывать.

Три стратегии, которые реально меняют картину

Не обращайте внимания на длинный список трюков в вендорских презентациях. После десятка запущенных продуктов в области видеонаблюдения именно эти три действия стабильно меняют результат. Всё остальное в этом playbook так или иначе работает на одно из них.

1. Подберите ML-стек под свой тип аномалий. Unsupervised-автоэнкодеры — для неизвестных аномалий, weakly-supervised I3D/RTFM — если есть разметка на уровне видео, методы на базе VLM (AnomalyCLIP, LAVAD, VadCLIP) — если нужна zero-shot обобщаемость между разными объектами.

2. Перенесите инференс на edge. Задержка камера→алерт меньше 200 мс, экономия 95% трафика и более чистый путь к соответствию GDPR и EU AI Act. Cloud-only — это архитектура 2018 года.

3. Определяйте «норму» под каждую камеру, а не под всю компанию. Один и тот же коридор пустой в 2 часа ночи и забит людьми в 8 утра. Без сценоспецифичного baseline вы помечаете дневную смену как аномалию.

Стратегия 1 — выстройте правильный machine learning стек

«Используйте машинное обучение» — это не совет. Сегодня в production-системах автоматической детекции аномалий в камерах видеонаблюдения доминирует четыре семейства моделей, и у каждого своя зона применимости.

Свёрточные автоэнкодеры — ваш unsupervised-baseline

Свёрточный автоэнкодер учится восстанавливать «нормальные» кадры; аномалии дают высокую ошибку реконструкции. Разметка не нужна, модель крошечная, инференс ~15–30 мс на Jetson Nano. Это по-прежнему самый быстрый способ поднять сценоспецифичный детектор для нового объекта — обучаете на двух неделях непрерывной «нормальной» съёмки и помечаете всё, что плохо реконструируется.

Берите свёрточный автоэнкодер, когда: у вас нет разметки, одна камера и нужно поднять baseline уже на этой неделе.

3D-CNN и weakly-supervised MIL (I3D, RTFM, S3R)

Если у данных есть разметка на уровне видео («в этом клипе была драка»), но нет покадровой, multiple-instance learning поверх I3D-бэкбона остаётся золотым стандартом. RTFM показывает 97,2% AUC на ShanghaiTech и 84,3% на UCF-Crime; BERT-вариант доводит ShanghaiTech до 98,5%. Цена: нужен приличный backbone, предобученный на Kinetics, и 6–8 ГБ VRAM.

Берите RTFM/I3D, когда: у вас минимум 500 нормальных и 100 аномальных клипов с разметкой на уровне видео, а сами аномалии похожи на действия (драка, бег, проникновение).

Vision-language модели — сдвиг 2025–2026 годов

Методы на базе CLIP за 18 месяцев перешли из академической экзотики в боевой вариант. AnomalyCLIP даёт 90,32% AUC на UCF-Crime и 93,5% на ShanghaiTech, имея только разметку на уровне клипа. LAVAD делает то же полностью в zero-shot. VadCLIP++ возглавляет XD-Violence с 90,5% AP. Главный сдвиг — аномалию можно описать естественным языком («человек несёт лестницу ночью», «кто-то лежит на полу»), и модель обобщает без переобучения. Более свежие работы вроде Holmes-VAD и VERA даже генерируют текстовое объяснение для каждой тревоги, и это ощутимо помогает при compliance-аудитах.

Берите VLM-подход, когда: нужна обобщаемость между объектами, объяснимые тревоги или пользовательские запросы аномалий — и есть GPU, тянущая среднюю vision-language модель на 80–150 мс на кадр.

Аналитика на уровне объектов (YOLO + трекинг + правила)

Для аномалий, определяемых тем, что в кадре — несанкционированный автомобиль, человек в запретной зоне, оставленный рюкзак — попиксельная реконструкция не тот инструмент. Детектор класса YOLO с трекингом DeepSORT и правилами по зонам и времени работает быстрее, понятнее и проще отлаживается. Типичный стек: YOLOv8-n за 15–20 мс на Jetson Orin Nano плюс движок поведенческих правил. Оператор читает тревогу простым языком («человек в зоне A в течение 5 минут») — только это вдвое сокращает время разбора ложных тревог в нашем опыте.

Берите YOLO+правила, когда: аномалии определяются объектами, зонами и временными окнами, а не паттернами движения — и тревоги будут читать аудиторы.

Реальные деплои используют все четыре одновременно. На системах класса V.A.L.T. мы обычно совмещаем слой YOLO с объектами и зонами (для объяснимых тревог, которые сможет прочитать прокурор), лёгкий автоэнкодер (для новых аномалий), а для cross-venue SaaS — ещё и VLM-слой поверх. Ансамбль из двух таких моделей с правилом «оба согласны» примерно вдвое режет ложные срабатывания ценой ~30–80 мс дополнительной задержки.

Стратегия 2 — считайте на edge, а не в облаке

У каждой cloud-only архитектуры, которую мы аудировали, одна и та же история: демо выглядело нормально, потом задержки, трафик и compliance-аудиты её похоронили. В 2026 году по умолчанию инференс должен идти на edge, а облако — использоваться для асинхронного архива, переанализа и дашбордов.

Цифры, которые вынуждают выбор

Задержка. Edge-only (Jetson Orin NX + I3D) выдаёт 40–80 мс от камеры до тревоги. Cloud-only (RTSP→энкодер→инференс) обычно укладывается в 500–2000 мс, если честно считать сетевой RTT. Полицейский диспетчер и автоматические триггеры дверей и замков требуют меньше 200 мс — облако такой SLA не вытягивает.

Трафик. 1080p H.264 поток — это 4–8 Мбит/с. Обработанные на edge метаданные плюс низкоразрешённый превью — 50–200 Кбит/с. Это 95% экономия, и она определяет, поедет ли вообще деплой на 200 камер на том аплинке, который у вас есть.

Приватность. Кадры никогда не покидают устройство. Только это переводит разговор по GDPR и EU AI Act с «объясните, как у вас текут данные» на «мы не передаём биометрические данные».

Edge-железо, которое имеет значение в 2026 году

Устройство TOPS Цена YOLOv8 на 1080p, FPS Для чего подходит
Jetson Orin Nano Super 67 18 000 ₽ 35–45 1–3 камеры, SaaS, чувствительный к цене
Jetson Orin NX 100 44 000 ₽ 50–70 3–5 камер + VLM-слой
Jetson AGX Orin 275 149 000 ₽ 120–150 Кластер 10+ камер, on-prem VMS
Hailo-8 (M.2) 26 11 000–14 000 ₽ 60–80 Безвентиляторная smart-камера, массовая раскатка
Google Coral M.2 (dual TPU) 8 3 000 ₽ 30–40 (720p) Бюджетный IoT, сборки на Raspberry Pi

Для большинства SaaS-продуктов видеонаблюдения, рассчитанных на 1–3 камеры на объект, Jetson Orin Nano Super — оптимум. На объёме больше 10 камер на объект один AGX Orin обходит стойки из Nano и по цене, и по операционной сложности.

Эталонный edge-пайплайн

Пайплайн, который мы разворачиваем на наших проектах видеонаблюдения, выглядит так: камера→RTSP-ингест→аппаратное NVDEC-декодирование→буфер кадров→детектор YOLO (20 мс)→трекер (5 мс)→классификатор поведения/аномалий (40–80 мс)→временной сглаживатель (EMA на 2–3 с)→роутер тревог. Низкоразрешённое превью и метаданные уходят в облако через MQTT; полный кадр остаётся локально, пока оператор не запросит просмотр.

Стратегия 3 — определяйте «норму» под каждую камеру и время суток

Система детекции аномалий, которая относится ко всем камерам одинаково, будет будить операторов каждое утро рабочего дня, когда офис наполняется людьми. Самый большой прирост точности, который мы фиксируем на объекте, даёт сценоспецифичный baseline, а не выбор модели.

Постройте baseline из 14 дней реальной съёмки

Двух непрерывных недель неразмеченной съёмки на камеру обычно хватает, чтобы обучить сценоспецифичный автоэнкодер и поймать основные поведенческие паттерны (утренний поток, обеденный пик, уборщики в 18:00, рабочие часы подрядчиков). Меньше недели — теряете недельный цикл; больше месяца — сезонный дрейф начинает мутить сигнал.

Пороги, зависящие от времени, а не глобальные

Вместо единого порога по «оценке аномалии» храните распределения по часам и дням недели. Человек в холле в 3 часа ночи — не то же событие, что в 10 утра, и система, которая это понимает, режет ложные срабатывания на треть без всяких изменений модели.

Переобучайте по дрейфу, а не по календарю

Concept drift — стройка рядом, сезонная смена освещения, локдаун, новая мебель — за полгода ухудшает точность на 10–20%, если ничего не делать. Мониторьте AUROC на отложенной выборке еженедельно; запускайте переобучение, когда он падает больше чем на ~5 процентных пункта. Календарное переобучение («квартальный refresh») сжигает вычисления и всё равно пропускает реальные события дрейфа.

Уже в production и тонете в ложных срабатываниях?

Делаем двухнедельные аудиты, которые находят пять основных источников шума в вашем существующем пайплайне — обычно это срез ложных тревог на 40%+ без правки модели.

Позвоните нам → Напишите нам →

Тактики снижения ложных срабатываний, которые реально работают

Эти пять тактик — разница между оператором, который читает каждый алерт, и тем, который отключает канал.

1. Временное сглаживание. Сглаживайте оценку аномалии по окну 3–5 секунд через EMA или медианный фильтр до триггера. Капли дождя, тряска камеры, отражения и одиночные глитчи исчезают. Типичный эффект: снижение ложных срабатываний на 30–50% ценой задержки в 50–100 мс.

2. Маскирование ROI. Замаскируйте зоны постоянного шума — дерево, видимое через окно, отражающий пол, экран digital signage. Пять минут на камеру один раз при установке — и в проблемных сценах режется 40–60% ложных тревог.

3. Голосование консенсусом нескольких моделей. Требуйте согласия двух моделей из трёх (например, автоэнкодер + YOLO + VLM) до выдачи алерта. Это примерно вдвое режет ложные срабатывания ценой 3-кратного роста вычислений на инференс. Стоит того для банков, аэропортов и любого места, где алерт запускает физическую реакцию.

4. Пороги, настраиваемые оператором. Выведите слайдер чувствительности под смену в UI. Ночные операторы почти всегда ставят его выше дневных, и давать им явный контроль работает лучше любого захардкоженного глобального значения, какие мы тестировали.

5. Маршрутизация по классу сцены. Разные модели для парковок, коридоров, торговых залов и наружных периметров. Универсальная модель всегда проигрывает трёхветочному сценоспецифичному роутингу на 5–10% AUC.

Сравнение инструментов и вендоров

Прежде чем строить своё, полезно понимать, с чем команде предстоит конкурировать или интегрироваться. Вот платформы, которые всплывают почти в каждом RFP по автоматической детекции аномалий в камерах видеонаблюдения.

Вендор Тип развёртывания Подход Сильная сторона На что обратить внимание
Verkada Облако + собственные камеры Трансформер, инференс в камере Готовое решение для корпоративных кампусов Привязка к железу, непрозрачные цены при росте
Avigilon (Motorola) On-prem + опциональное облако Вариант I3D (UMD/UAD) в камере Корпоративные службы безопасности Собственные камеры, высокая стоимость лицензий
Eagle Eye Networks Облачная VMS Ансамбль моделей, не привязан к камерам Отрасли с жёстким compliance (CJIS, HIPAA) Задержка для диспетчерских сценариев
Bosch IVA On-prem, в камере Классический MIL + 3D-CNN + трекинг Критическая инфраструктура, промышленность Дорогие лицензии на камеру
Axis Object Analytics В камере (только Axis) Объектная детекция вроде YOLO + поведенческие правила Развёртывание в ЕС, чувствительность к GDPR Ограниченные кастомные поведения, только Axis
Кастомная сборка (в стиле Фора Софт) Edge + гибрид YOLO + CAE + опционально VLM Логика аномалий, дифференцирующая продукт Инженерное время; окупается после ~80 камер

Чаще всего мы наблюдаем такую схему: программный продукт использует вендорскую VMS для общей детекции движения и пересечения линий, а сверху добавляет кастомный слой аномалий для тех трёх-четырёх типов событий, которые отличают сам продукт. Именно там услуги Фора Софт по интеграции AI проводят большую часть времени.

Мини-кейс — чему мы научились, запуская V.A.L.T.

V.A.L.T. работает в комнатах для допросов правоохранительных органов, в центрах медицинской подготовки и в судебных залах. Ограничения реальные: неограниченное число одновременных HD-потоков на объект, идеальная синхронизация звука и видео (детектива могут вызвать повторно из-за полусекундного рассинхрона по губам в суде), шифрование SSL+RTMPS, ролевая модель доступа и длительные записи, экспортируемые с соблюдением правил chain of custody.

Наш 12-недельный план по слою детекции аномалий: 1–2-я недели — сценоспецифичный автоэнкодер под каждую камеру; 3–6-я недели — поверх него правила по объектам и зонам на YOLO для интерпретируемых тревог; 7–9-я недели — временное сглаживание и ROI-маскирование под конкретные режимы отказа, которые мы наблюдали (мерцание люминесцентных ламп, тени от вентиляции, часы на стене); 10–12-я недели — операторский UI с настраиваемыми порогами, включением и отключением по камере и кнопкой «ложная тревога» в один клик, которая возвращается в подстройку порогов.

Итог, важный для клиента: ложные тревоги упали с 10–15 на камеру в день до меньше двух, при этом детекция тех событий, которые их реально интересовали (потеря сознания, несанкционированный вход, физическое столкновение), осталась выше 90%. Второй итог: проект выдержал compliance- и аудит-проверки, которые обязательно прилетают всему, что попадает в суд.

Хотите такую же оценку для вашего стека? Свяжитесь с нами по телефону +7 (911) 236-51-91 или напишите на info@fora-soft.ru — пройдём по тому, куда сейчас уходит ваш бюджет на ложные срабатывания.

Модель стоимости — edge против облака на камеру в месяц

Реальные цифры, посчитанные консервативно, с учётом Agent Engineering в наших оценках разработки.

Статья Только облако (VMS) Только edge Гибрид
Железо (амортизация) 0 ₽ ~500 ₽ ~500 ₽
Облачное хранилище и вычисления 2 200–7 500 ₽ 0–150 ₽ 200–450 ₽
Лицензия на аналитику / SaaS 1 500–3 700 ₽ 0 ₽ 750–1 500 ₽
Эксплуатация, обновления, поддержка Включено 375–750 ₽ 375–750 ₽
Итого на камеру в месяц 3 700–11 000 ₽ 900–1 500 ₽ 1 500–2 200 ₽

Точка безубыточности между «купить SaaS VMS» и «построить edge» обычно лежит на 80–100 камерах суммарно по клиентской базе. Ниже — лицензии дешевле инженерии. Выше — разрыв быстро растёт: к камере № 500 edge-сборка экономит больше 1,8 млн ₽ в месяц и уже соответствует требованиям compliance.

Фреймворк решения — build или buy за пять вопросов

Задавайте их по порядку. Любой ответ «купить» на верхних уровнях обычно закрывает спор.

1. Нужно ли выкатиться меньше чем за три месяца? Если да — покупайте. Кастомная детекция аномалий с надёжной историей по ложным срабатываниям занимает минимум квартал даже с ускорением core-модулей через Agent Engineering.

2. Ваше определение аномалии — отраслевой стандарт? Слоняющиеся люди, давка, драка, движение в запретной зоне — это вендоры уже делают хорошо. Кастомное поведение (изъятие инструмента, контроль позы, доменно-специфичные жесты) — там, где кастомная разработка окупается.

3. Задержка камера→тревога меньше 200 мс — обязательное условие? Если да — вы строите на edge. Ни один cloud-first вендор честно эту SLA не вытянет.

4. Превысите ли вы 80–100 камер по клиентам за 18 месяцев? На таком масштабе лицензионные сборы обычно обгоняют стоимость инженерной команды.

5. Развёртывание в юрисдикции со строгими биометрическими правилами (EU AI Act high-risk, Illinois BIPA, Washington MHMD)? Если да — кастомная небиометрическая детекция в долгосрочной перспективе и безопаснее, и дешевле.

Compliance в 2026 году — EU AI Act, BIPA, GDPR

Регулирование перестало быть «тем, что юристы посмотрят в конце». Теперь это архитектурное ограничение.

EU AI Act. Запреты действуют с февраля 2025 года; обязанности по системам высокого риска включаются в августе 2026 года. Любая детекция аномалий на биометрических признаках (распознавание лиц, походки, поза) относится к категории высокого риска и должна сопровождаться задокументированной системой управления рисками, governance обучающих данных, технической документацией, полным журналированием событий и уведомлениями для затрагиваемых лиц. Штрафы — до €35 млн или 7% мировой выручки.

Illinois BIPA. По-прежнему самый строгий биометрический закон в США. 75 000 ₽ за нарушение (375 000 ₽ при грубой неосторожности), на каждого человека, с возможностью коллективных исков. Если ваша детекция аномалий хотя бы может обрабатывать биометрические данные жителей Иллинойса, вам либо нужно явное письменное согласие, либо нужно отключать биометрический слой в этой юрисдикции. Мы по умолчанию ставим юрисдикционно-зависимый ML-роутинг, который тихо отключает анализ лица, позы и походки за пределами поддерживаемых регионов.

GDPR. Обработка на edge помогает сильнее всего — если кадры никогда не покидают локальную сеть, ваш data protection impact assessment становится драматически проще. Храните метаданные аномалий меньше 30 дней по умолчанию, фиксируйте основание законного интереса и поддерживайте процессы «права на забвение».

Практический вывод: небиометрическая детекция поведения (слоняние, плотность толпы, вторжение в зону, необычное движение) — безопасный путь для большинства SaaS-продуктов; она забирает примерно 80% ценности биометрических методов, не таща за собой категорию высокого риска.

Чек-лист privacy-by-design для детекции аномалий

Воспринимайте это как минимальную планку. Всё, что слабее, выскочит как блокер при закупке позже.

  • Запускайте инференс на edge везде, где это возможно — видеокадры не должны покидать локальную сеть.
  • Храните метаданные аномалий меньше 30 дней, если только нет задокументированной причины с точки зрения безопасности продлить срок.
  • Прячьте биометрические возможности (лицо, походка, поза) за слоем юрисдикционно-зависимого роутинга, который выключает их в штатах с BIPA и категориях высокого риска ЕС.
  • Шифруйте превью и метаданные аномалий в транзите (TLS 1.3) и at-rest (AES-256).
  • Ведите неизменяемые журналы аудита по каждой тревоге, override и просмотру оператором — это прямое требование EU AI Act.
  • Опубликуйте понятный DPIA (data protection impact assessment), который клиенты смогут передать своей собственной compliance-команде.
  • Поддержите процесс удаления данных по одному клику для запросов «права на забвение» по GDPR по каждому субъекту камеры.

Пять ловушек, которые убивают проекты по детекции аномалий

1. Обучение только на академических датасетах. ShanghaiTech и UCF-Crime — это исследовательские артефакты; ни один из них не похож ни на торговый зал, ни на парковку в 3 часа ночи. Если пропустить обучение под конкретный объект, ждите потери 20–40 процентных пункта точности и закладывайте две недели baseline под каждый тип объекта.

2. Игнорирование concept drift. Сезоны, освещение, новая стройка, перестановка мебели, графики смен — всё это ухудшает точность на 10–20% за полгода, если ничего не делать. Мониторинг дрейфа — не опция, а календарное переобучение — неправильный ответ.

3. Запуск детектора аномалий на PTZ-камере. Движущиеся камеры ломают оптический поток и любые методы с попиксельной ошибкой реконструкции. Используйте детекцию объектов + трекинг или примите, что PTZ-потоки будут работать на 15–30% хуже ваших фиксированных камер.

4. Квантизация без валидации. Edge-деплои вынуждают использовать INT8-квантизацию; без quantization-aware training вы теряете 2–5% AP — этого хватает, чтобы утопить частоту ложных срабатываний. Всегда валидируйте квантизованную модель на целевом железе на той же тестовой выборке, что и FP32-baseline.

5. Отправка сырых кадров во внешние VLM API. В момент, когда кадр покидает вашу инфраструктуру ради внешнего LLM/VLM-провайдера, в игру вступают GDPR и отраслевые требования (HIPAA, CJIS). Либо самостоятельно хостите VLM, либо ограничивайте внешние вызовы анонимизированными метаданными.

KPI, которые стоит измерять — и пороги, которые имеют значение

KPI качества. Уровень детекции выше 85% на аномалиях, репрезентативных для объекта. Ложные тревоги меньше 2 на камеру в день. Precision выше 80%. Покадровый F1 выше 0,85 на вашей собственной валидационной выборке (а не на вендорском бенчмарке).

Бизнес-KPI. Стоимость одной истинной тревоги меньше 37 ₽. Время до тревоги меньше 200 мс для диспетчерских сценариев и меньше 500 мс для ретейла и операторских. Экономия трафика 90%+ против сырого стриминга. Уровень подтверждения тревог оператором выше 80% — это реальный опережающий индикатор того, что система ещё в доверии.

KPI надёжности. MTBF железа выше 2 000 часов. Дрейф AUROC модели меньше 5 процентных пункта за 30 дней. Uptime edge-устройства выше 99,5%. Время восстановления после отказа edge-устройства меньше 15 минут (хватает запасного узла и одного скрипта provisioning).

Когда НЕ стоит строить кастомную детекцию аномалий

Кастом — не всегда ответ. Пропустите разработку и возьмите готовую VMS вроде Verkada, Eagle Eye Networks или Avigilon, когда у вас меньше примерно 80 камер суммарно, ваши аномалии — отраслевой стандарт (слоняние, общее движение, въезд транспорта), вы можете терпеть задержку 500–1000 мс и вам не нужно глубоко интегрировать тревоги аномалий в собственный UI продукта.

Стройте кастом, когда детекция аномалий — часть value proposition вашего продукта, когда нужна задержка меньше 200 мс или приватность на устройстве, когда определения аномалий доменно-специфичны или когда compliance исключает облачную обработку. Чаще всего работает гибрид: купить VMS под общую детекцию и собрать кастомный edge-слой поверх для тех трёх-четырёх аномалий, которые и есть ваш реальный дифференциатор.

FAQ

Сколько обучающих данных нужно для автоматической детекции аномалий на моих камерах?

Для unsupervised-подхода с автоэнкодером обычно достаточно двух непрерывных недель «нормальной» съёмки на камеру. Для weakly-supervised методов вроде RTFM нужно примерно 500 нормальных и 100 аномальных клипов с разметкой на уровне видео. Для полностью supervised пайплайнов — 1 000+ покадровых аннотаций; именно поэтому большинство команд в 2026 году сразу прыгает к unsupervised или VLM-подходам.

Может ли детекция аномалий ловить то, чего раньше не видела?

Да, при правильной архитектуре. Unsupervised-автоэнкодеры помечают всё, что плохо реконструируется относительно выученной «нормы». Современные VLM-методы (AnomalyCLIP, LAVAD, AnyAnomaly) идут дальше — вы описываете новую аномалию естественным языком («человек лежит на полу»), и модель её детектирует без переобучения. Точность обычно 70–80% в zero-shot, растёт до 85–92% при 100 размеченных примерах.

Работает ли автоматическая детекция аномалий в условиях низкой освещённости и ИК?

Стандартные модели, обученные на RGB, теряют 30–50% точности ночью. Надёжное решение — отдельная ночная и ИК-модель в связке с low-light улучшением изображения на этапе препроцессинга. Тепловизионные камеры окупаются в задачах охраны периметра с высокой ценой ошибки. Никогда не запускайте одну модель в расчёте, что она вытянет и день, и ночь — не вытянет.

Соответствует ли автоматическая детекция аномалий GDPR и EU AI Act?

Зависит исключительно от того, использует ли ваш детектор биометрические данные. Небиометрическая детекция поведения (слоняние, плотность толпы, вторжение в зону) в целом совместима с требованиями прозрачности и законного интереса. Любое биометрическое — распознавание лиц, походки, поза — с августа 2026 года относится к категории высокого риска по EU AI Act и должно идти с управлением рисками, аудитом обучающих данных, документацией и журналированием событий. Большинство SaaS-продуктов сознательно остаются небиометрическими.

Как сократить ложные тревоги, не пропуская реальные события?

Четыре тактики, реально работающие в production: временное сглаживание (EMA по покадровым оценкам на окне 3–5 секунд), ROI-маскирование известных шумных зон, голосование консенсусом нескольких моделей (2 из 3 согласны) и пороги, настраиваемые оператором под каждую камеру. В комбинации они обычно режут ложные срабатывания на 60–80%, при этом recall падает всего на пару пунктов.

На какую задержку «камера-тревога» ориентироваться?

Меньше 200 мс для диспетчерских и сценариев автоматической реакции (полиция, охраняемый объект, триггер дрона). Меньше 500 мс для операторских процессов (ретейл, охрана кампуса). Cloud-only архитектуры стабильно работают на 500–2 000 мс end-to-end и в категорию «меньше 200 мс» честно не попадают. Edge-инференс на Jetson Orin NX обычно даёт 40–80 мс на кадр.

Можно ли запустить детекцию аномалий на моих существующих IP-камерах?

Да, при условии что они отдают RTSP-поток и держат минимум 15 fps на 720p или выше. Большинство крупных брендов — Axis, Hikvision, Dahua, Bosch, Uniview — этот порог берут. Сложнее вопрос, где будет крутиться инференс: если у камер нет встроенного нейроускорителя, ставьте рядом Jetson или Hailo и подавайте на него RTSP-поток. Мы делали обе схемы много раз на проектах кастомного видеонаблюдения.

Как обосновать вложение перед CFO?

Опирайтесь на расчёт по экономии человеко-часов охраны, стоимости пропущенного события и compliance-риску. Один охранник 24/7 стоит 3,7–6 млн ₽ в год. AI-слой на 100 камер обходится в 3,7–7,5 млн ₽ на старте и ~750 тыс. ₽ в год на работу edge-железа, при этом на 30–40% меньше пропущенных тревог и чистый аудит-трейл под EU AI Act. Окупаемость обычно 12–24 месяца; в регулируемых отраслях один пункт compliance окупает проект быстрее.

Гид

AI-детекция аномалий в системах видеонаблюдения

Как AI-детекция аномалий держится вместе end-to-end в боевых сборках видеонаблюдения.

Подробный разбор

Топ-7 моделей детекции аномалий для видеонаблюдения

Поэлементное сравнение архитектур детекции, работающих в production сегодня.

Real-time

Детекция аномалий в реальном времени в видеонаблюдении

Как edge-пайплайны достигают задержки меньше 200 мс без потери точности.

Алгоритмы

Топ-алгоритмы для детекции аномалий в видеонаблюдении

Семейства алгоритмов и то, в чём они действительно сильны.

Готовы запустить детекцию аномалий, которой операторы реально доверяют?

Автоматическая детекция аномалий в камерах видеонаблюдения — задача, решённая в лаборатории и открытая в поле. Побеждают команды, которые держат ложные срабатывания главной метрикой, переносят инференс на edge, строят сценоспецифичные baselines и проектируют под compliance с первого дня — а не те, кто гонится за ещё одним пунктом AUC.

Если вы скопируете архитектуру, мигрируете с облачной VMS или застряли в чистилище ложных тревог, мы делали это достаточно раз, чтобы пропустить фазу исследований и сразу перейти к разговору об архитектуре.

Давайте проверим ваш план детекции аномалий на прочность

30 минут, один senior-инженер, ноль продажной воды. Приходите с диаграммой архитектуры или вендорской КП — расскажем, что собрали бы вместо.

Позвоните нам → Напишите нам →

  • Технологии