Алгоритмы детекции аномалий в видеонаблюдении автоматически выявляют необычные действия

Главное

Выбирайте по данным, а не по хайпу. Слабоконтролируемое MIL (RTFM, BN-WVAD) выигрывает, когда у вас 500–1500 размеченных клипов; визуально-языковые модели (VadCLIP, AA-CLIP) — когда меток почти нет; Isolation Forest, автоэнкодеры и DBSCAN остаются самыми дешёвыми базовыми решениями на edge-устройствах.

AUC 97% на UCF-Crime ≠ продакшен. Реальные внедрения дают долю ложных срабатываний 0,9–5% и падение AUC на 10–20% на новых объектах. Закладывайте кросс-сценную валидацию (MSAD, SmartHome-Bench) и ежеквартальное дообучение с первого дня.

Edge-инференс обязателен для алертов. Jetson Orin Nano выполняет полноценную детекцию аномалий на ~47 FPS (~21 мс); облачный round-trip на той же модели — 500–1500 мс. Это разница между «поймали событие» и «посмотрели запись».

Соответствие требованиям — это статья бюджета, а не сноска. По EU AI Act небиометрическая детекция видеоаномалий относится к категории высокого риска с августа 2026 года; закладывайте 10–20% от стоимости проекта на оценку рисков, журналы человеческого надзора и DPIA.

Реалистичные бюджеты для кастомного пайплайна. Сфокусированный PoC с Agent Engineering начинается от 450 тыс.–1,1 млн ₽; продакшен-развёртывание на 50 камер с дообучением и аудитом — 11–30 млн ₽ в первый год и примерно 2,2–4,5 млн ₽ в год после.

Зачем Фора Софт написала этот плейбук

Фора Софт делает продукты для видео в реальном времени и AI с 2005 года: за плечами 625+ выпущенных программных продуктов и оценка 100% job-success на Upwork. Видеонаблюдение и детекция аномалий находятся на пересечении двух направлений, в которых мы работаем уже два десятилетия: надёжной потоковой передачи десятков живых RTSP/WebRTC-потоков и интеграции моделей компьютерного зрения в эти потоки без превышения бюджета по задержкам.

Наш собственный SaaS V.A.L.T. работает в полицейских комнатах допроса, судах, больницах и центрах медицинского обучения, обрабатывая до девяти одновременных потоков с IP-камер на сессию в режиме реального времени. Уроки из этого плейбука получены в реальных внедрениях — включая запуск в судах Казахстана и мультисайтовое внедрение для заказчика из сферы медицинского образования, — а не в таблицах лидеров на бенчмарках. Мы также строим продукты вне V.A.L.T.: системы видеонаблюдения на дронах вместе с DSI Drones и мобильные приложения для IP-камер вроде NETCAM.

В этой статье мы ранжируем алгоритмы, к которым обращаемся в реальной работе, с компромиссами, которые встречали на настоящих камерах — а не на тех, что лучше всего смотрятся на UCF-Crime. Если вы оцениваете проект, переходите сразу к фреймворку принятия решения или свяжитесь с нами напрямую.

Прорабатываете пайплайн детекции аномалий?

Позвоните или напишите нашему техническому лиду по видео-AI — вы получите шорт-лист алгоритмов, план по железу и реалистичную оценку. Без слайдов, без обязательств.

Позвоните нам → Напишите нам →

Вердикт в одном абзаце

Если у вас много нормальных записей, но мало размеченных инцидентов, начинайте со слабоконтролируемой MIL-модели (RTFM или BN-WVAD) поверх предобученного бэкбона I3D/ViViT — это текущий SOTA на UCF-Crime (AUC ~97,5%) и XD-Violence (AP 84,93%). Если меток почти нет и нужно разворачиваться на многих объектах, используйте визуально-языковую модель (VadCLIP, AA-CLIP) для zero-shot-детекции (AUC 80–87%). Если работаете на Jetson Nano и нужно отмечать только очевидные выбросы, базовый Isolation Forest или автоэнкодер по-прежнему оправдывают своё место. Дальше в статье разбираем, где каждый из них ломается, какие реальные цифры получаются и как их комбинировать, чтобы удержать долю ложных срабатываний ниже 1,5%.

Как читать этот список

Каждый алгоритм ниже отвечает на свой вопрос внедрения. Мы ранжируем их по количеству реальных проектов видеонаблюдения, где они показали успех, — а не по голым бенчмаркам из статей. У каждой позиции одинаковая структура: как работает, зачем выбирать, где ломается и однострочное правило для принятия решения.

Список разделён на два уровня. Уровень 1 (алгоритмы 1–3) — это то, что мы разворачиваем в продакшене сегодня на размеченных или слабо размеченных данных. Уровень 2 (алгоритмы 4–7) — это уровень дешёвых и быстрых базовых решений: их часто запускают внутри гибридного стека рядом с глубокой моделью.

Алгоритм 1 — Слабоконтролируемое MIL (RTFM, BN-WVAD, PE-MIL)

Это современная рабочая лошадка. Multiple-Instance Learning (MIL) рассматривает каждое видео как мешок клипов и учится присваивать высокие оценки самым аномальным клипам внутри «аномальных» мешков. RTFM (Robust Temporal Feature Magnitude) добавил функцию потерь по top-k магнитуде признаков; BN-WVAD (CVPR 2024) заменил её критерием на основе BatchNorm; PE-MIL (CVPR 2024) добавил текстовые промпты как побочную информацию.

Зачем выбирать

Нужны только метки на уровне видео («в этом клипе есть событие») — без покадровой разметки. С 500–1500 клипами инцидентов плюс нормальной записью BN-WVAD достигает AUC 87,24% на UCF-Crime и AP 84,93% на XD-Violence — текущий публичный state of the art. Инференс — 30–50 мс на RTX 4090 или Jetson Orin AGX.

Где ломается

Короткие аномалии (удар, выхватывание, падение) часто проседают ниже AUC 60%, потому что мешок MIL «размазывает» сигнал. Кросс-сценная генерализация тоже слабая: перенос модели, обученной на одной камере, на другую без дообучения может стоить 10–15 пунктов AUC. Митигация: обучайтесь на данных с нескольких объектов, сглаживайте предсказания на окне 5–10 кадров и объединяйте в ансамбль со вторым бэкбоном.

Берите слабоконтролируемое MIL, когда: у вас есть минимум 500 видеоклипов с прошлыми инцидентами, нужна продакшен-точность на стационарных камерах и в бюджет помещается один Jetson Orin на объект.

Алгоритм 2 — Визуально-языковые модели (VadCLIP, AA-CLIP, AnomalyCLIP)

Детекторы на основе VLM замораживают энкодер в стиле CLIP и оценивают кадры по текстовым промптам («дерётся человек», «пожар», «упавшее тело»). VadCLIP (AAAI 2024), AA-CLIP (CVPR 2025) и AnomalyCLIP сделали этот подход применимым для видео без обучающих данных по каждому классу. Некоторые варианты комбинируют промпты со слабоконтролируемыми головами.

Зачем выбирать

Zero-shot-точность AUC 80–87% на UCF-Crime без дообучения беспрецедентна — она делает реальным пилот за одну неделю. Добавление новых классов аномалий — это замена промпта, а не цикл переобучения. Именно это нужно мультисайтовым ритейл- и промышленным заказчикам.

Где ломается

Подвох в задержке: полный ViT-L/14 CLIP даёт 80–150 мс на кадр даже на GPU класса RTX, а для edge-инференса обычно нужна дистилляция. Тонкие аномалии, определяемые движением (длительное нахождение в зоне, медленные манипуляции), детектируются хуже, потому что предобучение CLIP — это уровень изображения, а не временной.

Берите модели класса VadCLIP, когда: меток мало, нужно развернуться на десятках новых камер и можно позволить себе задержку 80–150 мс — или серверный GPU на каждые ~10 потоков.

Алгоритм 3 — Пространственно-временные ансамбли (Conv-LSTM + Transformer + вероятностная голова)

Когда нельзя пропустить событие — стекаете модели. Типичный ансамбль соединяет 3D-CNN/Conv-LSTM (движение), Transformer (длинная временная зависимость) и вероятностную голову (голосование с учётом неопределённости). На ShanghaiTech такой стек достигает AUC 97,89% с очень низкой фрагментацией.

Зачем выбирать

Расхождение голов — это сам по себе полезный сигнал: кадры с высоким расхождением мы отправляем человеку-оператору, а не сразу запускаем алерт. Только за счёт этого мы снизили объём ложных срабатываний в своих внедрениях примерно на 40%.

Где ломается

Стоимость. Три головы утраивают время обучения, объём железа и эксплуатацию. Мы рекомендуем ансамбль только для высокорисковых сцен (банки, суды, реанимации), где пропущенное событие — недопустимый отказ.

Берите ансамбль, когда: стоимость пропущенного события намного выше стоимости дополнительного GPU, и в контуре есть аналитик, который может разобрать неоднозначные случаи.

Алгоритм 4 — Isolation Forest (дешёвая базовая модель реального времени)

Isolation Forest строит случайные бинарные деревья, изолирующие выбросы за меньшее число разбиений, чем нормальные точки. Алгоритм без учителя, отлично распараллеливается и работает на 10–25 мс на кадр на встроенном CPU.

Зачем выбирать

Это самая дешёвая разумная базовая модель, которую можно отгрузить в продакшен. Мы используем её внутри V.A.L.T. как пре-фильтр на признаках энкодера (векторы движения, магнитуда optical flow, нормы эмбеддингов), чтобы глубокая модель запускалась только на кандидатных кадрах — это сокращает время GPU на 60–70% на «тихих» сценах.

Где ломается

Без глубокого энкодера впереди Isolation Forest упирается в AUC 75–85% на сырой пиксельной статистике — этого недостаточно для алертов в высокорисковых сценариях. Используйте для триажа, а не как единственный рубеж обороны.

Берите Isolation Forest, когда: нужен пре-фильтр на 10 мс на Jetson Nano, резервный механизм на время «холодного старта» глубокой модели или самообучаемый детектор дрейфа, работающий параллельно с продакшеном.

Алгоритм 5 — Автоэнкодеры и VAE/Conv-LSTM-AE

Обучаете автоэнкодер на нормальной записи; высокая ошибка реконструкции на инференсе сигнализирует об аномалии. Автоэнкодеры на Conv-LSTM расширяют подход на короткие временные окна. Они по-прежнему доминирующий выбор, когда меток нет вовсе, а сцена камеры в основном статична.

Зачем выбирать

Нет меток, нет таксономии, простой деплой. Это также самая лёгкая в дообучении модель при дрейфе сцен — достаточно подать последние 24 ч нормальной записи. Полезно для нишевого промышленного мониторинга (конвейеры, клапаны, серверные).

Где ломается

Доля ложных срабатываний 8–12% на оживлённых сценах — дождь, листва, толпа, переходы освещения. Используйте только на камерах с контролируемым окружением и в паре со слоем временного сглаживания.

Берите автоэнкодеры, когда: меток нет, сцена в основном стабильна, и алерт допускает окно сглаживания 1–2 с.

Застряли между MIL и визуально-языковой моделью?

Мы посмотрим ваши данные, железо и определение инцидента — и порекомендуем самый дешёвый стек, который попадает в ваш целевой уровень ложных срабатываний.

Позвоните нам → Напишите нам →

Алгоритм 6 — Кластеризация K-Means на эмбеддингах

Современное применение K-Means для VAD идёт не на сырых пикселях, а на эмбеддингах от замороженного видеоэнкодера (I3D, X3D, ViViT). Каждый кластер кодирует поведенческий режим; небольшие или удалённые кластеры — аномальные.

Зачем выбирать

Лёгкий, интерпретируемый и отлично подходит для профилирования поведения, а не детекции инцидентов — например, для группировки паттернов смен, аномалий потоков в ритейле или сравнения регулярных и нерегулярных пешеходных потоков.

Где ломается

Нужно выбирать K, и алгоритм чувствителен к дрейфу сцен. Перекластеризуйте раз в неделю — либо используйте только как дополнительный признак рядом с глубоким детектором.

Берите K-Means, когда: нужна сегментация поведения (кластеризация пиковых часов, потоки в ритейле) больше, чем детекция инцидентов.

Алгоритм 7 — DBSCAN для аномалий в толпе

DBSCAN группирует точки по локальной плотности без заранее заданного числа кластеров. В видеонаблюдении он в основном полезен на треклетах и траекториях (после пайплайна YOLO + SORT/ByteTrack) — изолированные треклеты в плотной толпе типичны для аномалий (человек движется против потока, остановившийся автомобиль).

Зачем выбирать

Устойчив к шуму, не нужно настраивать K, линейно масштабируется в оптимизированных вариантах, которые используются в современных стеках.

Где ломается

Подбор порога плотности хрупок при переменной заполненности толпы (часы пик и затишье). Используйте адаптивные оценщики плотности или откатывайтесь на K-Means, когда плотность падает.

Берите DBSCAN, когда: вы пост-обрабатываете треклеты в насыщенных людьми сценах (транспортные узлы, стадионы, торговые залы).

Матрица сравнения — кто выигрывает по какому компромиссу

Алгоритм Лучший бенчмарк Edge-задержка Потребность в метках Где силён
Слабоконтролируемое MIL (BN-WVAD/RTFM) UCF-Crime AUC 87,24% / XD-Violence AP 84,93% 30–50 мс (Orin) 500–1500 меток уровня видео Продакшен на стационарных камерах
Визуально-языковые (VadCLIP / AA-CLIP) UCF-Crime AUC 80–87% zero-shot 80–150 мс (серверный GPU) 0–100 примеров Мультисайт, быстрые пилоты, новые классы
Пространственно-временной ансамбль ShanghaiTech AUC 97,89% 40–80 мс (серверный GPU) Средняя (500–1000) Высокорисковые сцены (банки, реанимации)
Isolation Forest AUC 75–85% на сырых признаках 10–25 мс (CPU/Nano) Не нужны Пре-фильтр, монитор дрейфа, IoT edge
Автоэнкодер / Conv-LSTM-AE AUC 70–80% (CUHK Avenue) 20–40 мс (Orin) Только нормальная запись Статичные промышленные сцены
K-Means на эмбеддингах Н/Д (профилирование поведения) 5–15 мс (CPU) Не нужны Сегментация поведения, потоки трафика
DBSCAN на треклетах Н/Д (пост-обработка) 10–30 мс (CPU) Не нужны Аномалии в толпе, транспортные узлы

Эталонная архитектура: как алгоритмы собираются вместе

В продакшене ни один из этих алгоритмов не идёт в одиночку. Самый дешёвый надёжный стек, который мы разворачиваем, выглядит как четыре стадии по порядку: 1) приём RTSP/WebRTC в on-prem или облачный медиасервер (для V.A.L.T. мы используем кастомизированную связку SRS / mediasoup); 2) пре-фильтрация через Isolation Forest по магнитуде движения или эмбеддингов на edge-устройстве; 3) классификация кандидатных кадров слабоконтролируемой MIL- или VLM-головой; 4) пост-обработка через DBSCAN на треклетах и голосование ансамбля перед отправкой алерта.

Преимущество такого многослойного дизайна в том, что вы сокращаете время GPU на самой тяжёлой модели на 60–70%, сохраняя точность глубокой модели там, где она важна. В сочетании с edge-AI-инференсом (Jetson Orin Nano/AGX) вы остаётесь ниже 50 мс end-to-end на один поток — пороге, выше которого алерты ощущаются как лагающие. Подробнее об этом компромиссе мы писали в материале Edge AI vs Cloud AI for video surveillance.

Слой железа: edge или облако с реальными цифрами

Развёртывание Задержка Пропускная способность Стоимость железа Кому подходит
Jetson Orin Nano (edge) ~21 мс (47 FPS) 1 поток в реальном времени ~30 000 ₽ Алерты в реальном времени, объекты с высокими требованиями к приватности
Jetson Orin AGX (шлюз) 35–50 мс 2–6 потоков 52 500–150 000 ₽ Многопотоковый edge-шлюз, розничные магазины
On-prem GPU-сервер (1× A6000/L40) 25–60 мс 8–16 потоков 600 тыс.–1,1 млн ₽ Средние объекты, регулируемые данные
Облачный GPU (A100/L4 в Hetzner, AWS, GCP) 500–1500 мс (с RTT) 10–20+ потоков 150–375 ₽ за час видео Криминалистика, пакетное дообучение
Гибрид (алерты на edge + архив в облаке) 30–50 мс алерт / 2–5 с архив Смешанная Edge-железо + облачное хранилище Лучший дефолт для продакшена

Математика жёсткая: на 30 FPS у каждого кадра бюджет 33 мс. Edge-инференс в него укладывается; чистое облако — нет. Любое внедрение видеонаблюдения от Фора Софт по умолчанию идёт через гибридную топологию: edge для алертов, облако для хранения, дообучения и дашбордов.

Мини-кейс: V.A.L.T. в судах и медицинском обучении

Ситуация. Региональной судебной системе требовалось записывать допросы и показания свидетелей с девяти одновременных потоков IP-камер на каждую комнату, с пометками аномалий по случаям вмешательства в камеру, резким аудиособытиям и поведению вне протокола. Существующее решение — обработка только в облаке — давало задержку алерта 1–2 с и не подходило для разбора в реальном времени офицером.

12-недельный план. Мы заменили центральный пайплайн на многослойный стек, описанный выше: edge-шлюз в каждой комнате с пре-фильтрацией Isolation Forest по признакам движения и эмбеддингам, MIL-голова класса RTFM на кандидатных кадрах и DBSCAN-проверка треклетов на детекциях людей. MIL-голову обучили примерно на 800 внутренних клипах инцидентов и проверили кросс-комнатную генерализацию на отложенном объекте.

Результат. Задержка алерта упала с ~1,4 с до ~70 мс end-to-end; доля ложных срабатываний снизилась с ~6% до ~1,2% после временного сглаживания; доля пропущенных инцидентов осталась ниже 4% на отложенном объекте. Та же архитектура теперь работает во внедрениях V.A.L.T. в полицейских комнатах допроса и центрах медицинского образования. Хотите такую же оценку? Позвоните или напишите нам.

Модель стоимости: как выглядит честная кастомная разработка

Грубые оценки Фора Софт на кастомный пайплайн детекции аномалий — с учётом того, что наш Agent Engineering ускоряет фазы глубокой модели и интеграции:

Объём Типичная стоимость Сроки Что получаете
Сфокусированный PoC (1 камера, 1 тип аномалии) 450 тыс.–1,1 млн ₽ 2–4 недели Модель + edge-демо + отчёт по точности
Пилот (5–10 камер, 2–3 аномалии) 1,8–4,5 млн ₽ 6–12 недель Закалённый пайплайн + дашборд + цикл дообучения
Продакшен (50+ камер, мультисайт) 11–30 млн ₽ за 1-й год 4–6 месяцев Edge-шлюзы, центральная VMS, документация по соответствию
Годовая эксплуатация + дообучение 2,2–4,5 млн ₽/год Непрерывно Детекция дрейфа, ежемесячное обновление модели
Аудит на соответствие EU AI Act / GDPR 1,1–3,7 млн ₽ Разовый DPIA, файл рисков, журналы человеческого надзора

Если вендор предлагает полностью кастомное AI-внедрение на 50 камер дешевле 6 млн ₽, спросите, что он урезает (соответствие требованиям? дообучение? edge-шлюзы?). Если предлагает свыше 75 млн ₽ за тот же объём, спросите почему. Наши цены ниже, чем у легаси-SI-конкурентов, именно потому, что мы используем Agent Engineering для сжатия циклов разработки, а не потому, что срезаем углы на валидации.

Фреймворк принятия решения — выбираем алгоритм за пять вопросов

1. Сколько клипов инцидентов вы реально разметили? 0 примеров → VLM (VadCLIP). 100–500 → VLM с лёгким дообучением. 500–1500 → слабоконтролируемое MIL (BN-WVAD). 2 000+ покадровых меток → полностью контролируемый Transformer/ансамбль.

2. Какая задержка нужна для алертов? < 50 мс — edge (Jetson Orin) обязателен. 1–3 с — допустим гибридный пайплайн с пост-обработкой в облаке. > 5 с — подходит для чисто криминалистических задач.

3. Сколько объектов и насколько разные сцены? Одна стационарная камера → слабоконтролируемое MIL достаточно. 10+ объектов с разной геометрией → опирайтесь на визуально-языковую модель и закладывайте ежеквартальное дообучение.

4. Делаете ли биометрическую идентификацию? Если да — по умолчанию рассматривайте проект как запрещённый или высокорисковый по EU AI Act; проектируйте журналы аудита, человеческое override и DPIA с первой недели. Если нет — поведение, проникновение, падения, драки — это всё равно высокий риск по Акту, но реализуемо при правильной документации.

5. Какую долю ложных срабатываний выдержит ваша операционная команда? > 5% убивает доверие за неделю. Мы целимся в < 1,5% через ансамбли, временное сглаживание и маршрутизацию неоднозначных случаев аналитику в контуре. Цифры ниже 0,5% на оживлённых уличных сценах подозрительны — спросите у вендора, что именно он скрывает.

Пять подводных камней, которые тихо убивают продакшен-системы VAD

1. Доверять одному бенчмарку. Модель с 97% AUC на UCF-Crime может упасть до 75% на вашем торговом зале в 19:00. Всегда валидируйте на мультисценном бенчмарке вроде MSAD или SmartHome-Bench перед приёмкой.

2. Игнорировать временную фрагментацию. Покадровый AUC может скрыть модель, которая ловит начало драки и пропускает середину. Используйте временной IoU (tIoU) и требуйте 5–10 подряд аномальных кадров перед алертом.

3. Не детектировать дрейф. Смена освещения, сезонная листва, новая униформа — всё это незаметно выводит вашу модель из распределения. Запустите Isolation Forest на потоке эмбеддингов: когда расстояние от обучающего распределения растёт, планируйте дообучение.

4. Пропускать человека в контуре. Классификация «высокий риск» по EU AI Act фактически требует человеческого override. Заложите очередь проверки аналитиком в UI — не как фичу второй версии, а с первого дня.

5. Оптимизировать только точность. Операционные команды игнорируют системы, которые вызывают их чаще раза в неделю по ложным тревогам. Считайте долю ложных срабатываний главным KPI, а не сноской.

KPI для замеров: качество, бизнес, надёжность

KPI качества. Покадровый AUC > 90% на мультисценном отложенном наборе (а не на одном датасете); временной IoU > 0,5; падение кросс-сценного AUC < 10% между обучающей и развёрнутой камерой.

Бизнес-KPI. Время реакции оператора на истинно положительный алерт < 60 с; доля ложных срабатываний < 1,5% в пиковые часы; время добавления нового класса аномалии < 2 недель для стеков на базе VLM.

KPI надёжности. End-to-end задержка алерта P95 < 100 мс на edge; аптайм пайплайна > 99,9% на поток; ритм дообучения ≤ 90 дней; срок от срабатывания детектора дрейфа до дообучения — в пределах 14 дней.

Соответствие требованиям: EU AI Act, GDPR, BIPA

EU AI Act. Биометрическая идентификация в реальном времени в публичных пространствах в основном запрещена (в силе с февраля 2025 года). Прочая детекция видеоаномалий, применяемая для безопасности, охраны или мониторинга на рабочем месте, относится к «высокому риску» и должна пройти оценку соответствия и регистрацию в базе данных EU AI к августу 2026 года. Закладывайте файл управления рисками, план управления данными и журнал человеческого надзора.

GDPR. Записи — это персональные данные; классификации аномалий могут попадать под статью 22 об автоматизированных решениях. Проведите DPIA, определите окна хранения (часто 7–30 дней) и убедитесь, что процессы доступа субъекта к данным работают для видео.

Законы штатов США. BIPA в Иллинойсе, биометрические законы Техаса и Вашингтона требуют явного согласия на сбор биометрии. CCPA даёт жителям Калифорнии право знать и удалять биометрические данные. Спроектируйте процесс согласия до того, как включить камеры.

Когда НЕ стоит делать кастомный VAD

Если нужна только базовая детекция — длительное нахождение в зоне, проникновение, движение в запрещённых зонах — коробочные VMS-платформы (Avigilon, Eagle Eye Networks, Verkada, BriefCam, Sighthound) уже включают и алгоритмы, и compliance-инфраструктуру за 15 000–75 000 ₽ на камеру в год. Кастомная разработка имеет смысл только когда (а) ваше определение аномалии специфично для отрасли, (б) вам нужна on-prem или приватная облачная обработка по соображениям соответствия требованиям или (в) вы строите интегрированный продукт вокруг VAD-модели, а не просто наблюдение.

Всем остальным мы обычно рекомендуем сначала запустить коробочную платформу, а потом наслоить поверх её потока событий кастомную детекцию аномалий — дешевле, быстрее, меньше рисков.

Нужна проверка вашей VAD-архитектуры здравым смыслом?

Мы посмотрим ваше определение инцидента, датасет и инфраструктуру и скажем, что строить, что покупать, а что пропустить.

Позвоните нам → Напишите нам →

FAQ

Почему моя модель аномалий хорошо проходит тесты, но рушится в продакшене?

Публичные бенчмарки вроде UCF-Crime и ShanghaiTech курируются, хорошо освещены и коротки. Реальные камеры сталкиваются с дрейфом освещения, сезонными изменениями, перекрытиями и непривычной одеждой — это снимает 10–20 пунктов AUC у той же модели. Валидируйте на мультисценном наборе (MSAD, SmartHome-Bench), добавляйте детекцию дрейфа на эмбеддингах и закладывайте ритм дообучения каждые 60–90 дней.

Насколько низко можно опустить долю ложных срабатываний без пропусков?

В наших внедрениях мы выходим на 0,9–1,5% ложных срабатываний при доле пропущенных инцидентов 4–5% за счёт сочетания временного сглаживания (5–10 подряд аномальных кадров), голосования ансамбля и очереди проверки аналитиком для алертов с высокой неопределённостью. Цифры ниже 0,5% на оживлённых уличных сценах обычно означают, что порог завышен и вы пропускаете настоящие события.

Edge или облако — на чём остановиться по умолчанию?

Гибрид. Edge (Jetson Orin) для алертов с задержкой ниже 50 мс и приватности; облако — для хранения, дашбордов и централизованного дообучения. Чистое облако слишком медленно для алертов в моменте и оголяет сырое видео; чистый edge закрывает путь к непрерывному улучшению.

Сколько размеченных данных реально нужно?

Слабоконтролируемое MIL: 500–1500 меток уровня видео. Визуально-языковые модели: 0–100 примеров (zero-shot). Полностью контролируемые Transformer-модели: 2 000+ покадровых меток. Автоэнкодеры без учителя: 100–300 клипов только нормальной записи. Если у вас меньше этих минимумов, предпочтите VLM и узкое определение аномалии.

Могут ли визуально-языковые модели класса VadCLIP заменить дообученную модель?

Для пилотов и мультисайтовых раскатов, где меток мало, — да: AUC 80–87% в zero-shot достаточно, чтобы запустить. Для продакшена в одном высокорисковом месте, где важны лишние 4–6 пунктов AUC, дообученная слабоконтролируемая MIL-модель всё ещё выигрывает.

Кастомная система детекции аномалий соответствует EU AI Act из коробки?

«Из коробки» не соответствует ни одна система. Акт ожидает, что вы ведёте файл управления рисками, план управления данными, журнал человеческого надзора и проводите оценку соответствия. Закладывайте 10–20% бюджета проекта на документацию и аудит. Мы встраиваем эти артефакты в процесс поставки с первого спринта.

Какое железо планировать на 50 камер?

Типичная комбинация: 1 Jetson Orin Nano на приоритетную камеру (~30 000 ₽×N) или 1 Jetson Orin AGX на кластер из 4–6 камер (52 500–150 000 ₽ каждый), плюс on-prem GPU-сервер (1× A6000/L40, 600 тыс.–1,1 млн ₽) для дообучения, дашбордов и криминалистических запросов. Хорошо подходят серверы Hetzner серии AX как дешёвый узел дообучения.

Где Isolation Forest по-прежнему уместен в 2026 году?

В трёх местах: (1) edge-пре-фильтр на магнитуде движения или эмбеддингов, который стоит на воротах перед глубокой моделью и срезает время GPU на 60–70%; (2) детектор дрейфа на потоке эмбеддингов, чтобы дообучение запускалось автоматически; (3) резервный механизм на время «холодного старта» глубокой модели. Как единственный детектор на сырых пикселях — больше неконкурентоспособен.

Модели

Топ-7 моделей детекции аномалий для видеонаблюдения

Более глубокий разбор архитектур моделей, которые мы поставляем в продакшен.

Архитектура

Edge AI или облачный AI для видеонаблюдения

Компромиссы по задержке, цене и приватности с реальными цифрами.

Инженерия

Масштабируемые системы управления видео в 2026

Пять инженерных решений, от которых зависит масштабируемость вашей VMS.

Тренды

Тренды видеонаблюдения на Android в 2026

Пять AI-функций, переопределяющих сборку мобильных VMS-приложений.

Функции

12 ключевых функций современного VMS-ПО в 2026

Чек-лист покупателя перед заказом любой VMS-разработки.

Готовы выпустить детекцию аномалий, которая срабатывает там, где нужно?

Выбирайте алгоритм по своим данным и бюджету по задержке, а не по таблице лидеров. Заложите дешёвую базовую модель (Isolation Forest, автоэнкодер) под глубокий детектор (BN-WVAD или VadCLIP), валидируйте на мультисценном бенчмарке, запускайте на edge — и считайте долю ложных срабатываний тем самым KPI, который реально волнует ваших операторов.

Если разбираться со всем этим в одиночку не хочется — мы прошли этот путь для полицейских комнат допроса, судов и центров медицинского обучения и с удовольствием пройдём его для вас. Самый быстрый способ начать — короткий разговор с командой, которая построила V.A.L.T.

Проработаем вашу разработку детекции аномалий

Принесите определение инцидента и несколько примеров видеоклипов. Мы принесём 21 год опыта поставки решений по видео в реальном времени и AI — и честную оценку.

Позвоните нам → Напишите нам →

  • Технологии