7 лучших алгоритмов обнаружения аномалий в видеонаблюдении 2026: от RTFM до VadCLIP

Топ-7 алгоритмов детекции аномалий в видеонаблюдении 2026: от RTFM до VadCLIP — обложка

Главное

• Выбирайте по данным, а не по хайпу. Слабоконтролируемое MIL (RTFM, BN-WVAD) работает лучше, если у вас 500–1500 размеченных клипов; визуально-языковые модели (VadCLIP, AA-CLIP) — когда размеченных данных почти нет; Isolation Forest, автоэнкодеры и DBSCAN остаются самыми простыми и дешёвыми решениями для edge-устройств.

• AUC 97% на UCF-Crime ≠ продакшен. В реальных условиях доля ложных срабатываний составляет 0,9–5%, а AUC падает на 10–20% на новых объектах. С самого начала закладывайте кросс-сценную валидацию (MSAD, SmartHome- Bench) и дообучение модели раз в квартал.

• Edge-инференс обязателен для алертов. Jetson Orin Nano выполняет полноценную детекцию аномалий со скоростью около 47 кадров в секунду (время обработки — около 21 мс); облачный round-trip на той же модели занимает 500–1500 мс. Это разница между «поймали событие» и «посмотрели запись».

• Соответствие требованиям — это статья бюджета, а не сноска. По EU AI Act небиометрическая детекция видеоаномалий с августа 2026 года попадает в категорию высокого риска; закладывайте 10–20% от стоимости проекта на оценку рисков, ведение журналов человеческого контроля и DPIA.

• Реалистичные бюджеты для кастомного пайплайна. Фокусированный PoC с Agent Engineering начинается от 450 тыс. – 1,1 млн ₽; продакшен-развёртывание на 50 камер с дообучением и аудитом — 11–30 млн ₽ в первый год и около 2,2–4,5 млн ₽ в год далее.

Зачем Фора Софт написала этот плейбук

Фора Софт разрабатывает решения для видео в реальном времени и ИИ с 2005 года: за это время выпущено более 625 программных продуктов, а рейтинг выполнения задач на Upwork — 100%. Видеонаблюдение и обнаружение аномалий — это область, где мы работаем уже два десятилетия, сочетая две наши ключевые компетенции: стабильную передачу десятков живых RTSP/WebRTC-потоков и интеграцию моделей компьютерного зрения в эти потоки без превышения допустимой задержки.

Наш собственный SaaS V. A. L. T. работает в полицейских комнатах допроса, судах, больницах и центрах медицинского обучения, обрабатывая до девяти одновременных потоков с IP-камер на сессию в режиме реального времени. Уроки из этого руководства получены на основе реальных внедрений — включая запуск в судах Казахстана и масштабное внедрение для заказчика из сферы медицинского образования, — а не на основе результатов тестов в таблицах лидеров. Мы также разрабатываем продукты помимо V. A. L. T.: системы видеонаблюдения на дронах совместно с DSI Drones и мобильные приложения для IP-камер, такие как NETCAM.

В этой статье мы ранжируем алгоритмы, которые реально используем в работе, с учётом компромиссов, с которыми сталкивались на настоящих камерах — а не на тех, что лучше всего выглядят на UCF-Crime. Если вы оцениваете проект, переходите сразу к фреймворку принятия решения или свяжитесь с нами напрямую.

Прорабатываете пайплайн детекции аномалий?

Позвоните или напишите нашему техническому лиду по видео-ИИ — получите шорт-лист алгоритмов, план по оборудованию и реалистичную оценку. Без слайдов, без обязательств.

Позвоните нам → Напишите нам →

Вердикт в одном абзаце

Если у вас много обычных записей, но мало размеченных инцидентов, начните со слабоконтролируемой MIL-модели (RTFM или BN-ВАД) поверх предобученного бэкбона I3D/ViViT — это текущий SOTA на UCF-Crime (AUC ~97,5%) и XD-Violence (AP 84,93%). Если меток почти нет и нужно работать сразу с множеством объектов, используйте визуально-языковую модель (VadCLIP, AA-CLIP) для zero-shot-детекции (AUC 80–87%). Если работаете на Jetson Nano и нужно выявлять только явные аномалии, базовый Isolation Forest или автоэнкодер по-прежнему остаются актуальными. Дальше в статье разбираем, в каких случаях каждая из них даёт сбой, какие реальные результаты получаются и как их комбинировать, чтобы доля ложных срабатываний оставалась ниже 1,5%.

Как читать этот список

Каждый алгоритм ниже отвечает на свой вопрос при внедрении. Мы ранжируем их по количеству реальных проектов видеонаблюдения, где они действительно сработали, — а не по результатам бенчмарков из научных статей. У каждой позиции одинаковая структура: как работает, зачем использовать, где может подвести и однострочное правило для выбора.

Список разделён на два уровня. Уровень 1 (алгоритмы 1–3) — это решения, которые мы уже используем в продакшене на размеченных или слабо размеченных данных. Уровень 2 (алгоритмы 4–7) — это простые и быстрые базовые подходы: их часто применяют в составе гибридного стека вместе с нейросетевой моделью.

Алгоритм 1 — Слабоконтролируемое MIL (RTFM, BN-ВАД, ПЭ-МИЛ)

Это современная рабочая лошадка. Multiple-Instance Learning (MIL) рассматривает каждое видео как набор клипов и обучается присваивать высокие оценки наиболее аномальным клипам в «аномальных» мешках. RTFM (Robust Temporal Feature Magnitude) добавил функцию потерь на основе топ-k значений признаков; BN-ВWAD (CVPR 2024) заменил её критерием, основанным на BatchNorm; PE-MIL (CVPR 2024) включил текстовые промпты в качестве дополнительной информации.

Зачем выбирать

Нужны только метки на уровне видео («в этом клипе есть событие») — без покадровой разметки. С 500–1500 клипами инцидентов и нормальной записью BN- WVAD достигает AUC 87,24% на UCF- Crime и AP 84,93% на XD- Violence — текущий публичный state of the art. Инференс — 30–50 мс на RTX 4090 или Jetson Orin AGX.

Где ломается

Короткие аномалии (удар, выхватывание, падение) часто не достигают AUC выше 60%, потому что мешок MIL «размазывает» сигнал. Кросс-сценная генерализация работает слабо: перенос модели, обученной на одной камере, на другую без дообучения может снизить AUC на 10–15 пунктов. Меры по улучшению: обучайтесь на данных с нескольких камер, сглаживайте предсказания по окну из 5–10 кадров и объединяйте модель в ансамбль со вторым бэкбоном.

Берите слабоконтролируемое MIL, когда: у вас есть минимум 500 видеоклипов с прошлыми инцидентами, нужна высокая точность распознавания на стационарных камерах и в бюджет укладывается один Jetson Orin на объект.

Алгоритм 2 — Визуально-языковые модели (VadCLIP, AA-CLIP, AnomalyCLIP)

Детекторы на основе VLM замораживают энкодер в стиле CLIP и оценивают кадры по текстовым промптам («дерётся человек», «пожар», «упавшее тело»). VadCLIP (AAAI 2024), AA-CLIP (CVPR 2025) и AnomalyCLIP сделали этот подход применимым для видео без обучающих данных по каждому классу. Некоторые варианты комбинируют промпты со слабоконтролируемыми головами.

Зачем выбирать

Zero-shot-точность AUC 80–87% на UCF-Crime без дообучения беспрецедентна — она позволяет запустить пилот за одну неделю. Добавление новых классов аномалий сводится к замене промпта, а не требует цикла переобучения. Именно это нужно мультисайтовым ритейл- и промышленным заказчикам.

Где ломается

Подвох в задержке: полный ViT-Л/14 CLIP обрабатывает кадр за 80–150 мс даже на GPU уровня RTX, а для работы на краевых устройствах обычно требуется дистилляция. Тонкие аномалии, связанные с движением (например, длительное пребывание в зоне или медленные манипуляции), распознаются хуже — ведь CLIP обучается на уровне отдельных изображений, а не временных последовательностей.

Берите модели класса VadCLIP, когда: меток мало, нужно быстро развернуть на десятках новых камер и можно позволить себе задержку 80–150 мс — или серверный GPU на каждые ~10 потоков.

Алгоритм 3 — Пространственно-временные ансамбли (Conv-ЛSTM + Transformer + вероятностная голова)

Когда нельзя пропустить событие — комбинируйте модели. Типичный ансамбль объединяет 3D-ConvNet/Conv-ЛSTM (для анализа движения), Transformer (для учёта долгосрочных временных зависимостей) и вероятностную головку (голосование с учётом неопределённости). На датасете ShanghaiTech такой подход даёт AUC 97,89% при очень низкой фрагментации.

Зачем выбирать

Расхождение голов — полезный сигнал сам по себе: кадры с высоким расхождением мы отправляем человеку-оператору, а не сразу вызываем алерт. Благодаря этому мы снизили количество ложных срабатываний в наших внедрениях примерно на 40%.

Где ломается

Стоимость. Три модели утраивают время обучения, объём железа и расходы на эксплуатацию. Мы рекомендуем ансамбль только для высокорисковых сценариев (банки, суды, реанимации), где пропущенное событие — недопустимый сбой.

Берите ансамбль, когда: цена пропущенного события сильно превышает стоимость дополнительного GPU, и в команде есть аналитик, способный разобраться с неоднозначными случаями.

Алгоритм 4 — Isolation Forest (дешёвая базовая модель для работы в реальном времени)

Isolation Forest строит случайные бинарные деревья, которые изолируют выбросы за меньшее число разбиений, чем нормальные точки. Алгоритм работает без учителя, хорошо распараллеливается и выполняется за 10–25 мс на кадр на встроенном CPU.

Зачем выбирать

Это самая дешёвая разумная базовая модель, которую можно использовать в продакшене. Мы применяем её внутри V. A. L. T. как предварительный фильтр по признакам энкодера (векторы движения, магнитуда optical flow, нормы эмбеддингов), чтобы глубокая модель запускалась только на кандидатных кадрах — это сокращает нагрузку на GPU на 60–70% в «тихих» сценах.

Где ломается

Без глубокого энкодера Isolation Forest достигает AUC 75–85% на сырых пиксельных данных — этого недостаточно для алертов в высокорисковых сценариях. Используйте его для первичного отбора, а не как единственный способ защиты.

Берите Isolation Forest, когда: нужен фильтр, работающий за 10 мс на Jetson Nano, резервный механизм на время «холодного старта» глубокой модели или самообучаемый детектор дрейфа, работающий параллельно с продакшеном.

Алгоритм 5 — Автоэнкодеры и VAE/Conv-ЛSTM-AE

Обучайте автоэнкодер на нормальной записи: высокая ошибка реконструкции при инференсе указывает на аномалию. Автоэнкодеры на основе Conv-ЛSTM позволяют применять этот подход к коротким временным окнам. Они остаются основным выбором, когда меток нет вообще, а сцена в кадре в основном статична.

Зачем выбирать

Нет меток, нет таксономии, простой деплой. Это также самая лёгкая в дообучении модель при дрейфе сцен — достаточно подать последние 24 ч нормальной записи. Полезно для нишевого промышленного мониторинга (конвейеры, клапаны, серверные).

Где ломается

Доля ложных срабатываний 8–12% на оживлённых сценах — дождь, листва, толпа, резкие изменения освещения. Используйте только на камерах с контролируемым окружением и в паре со слоем временного сглаживания.

Берите автоэнкодеры, когда: меток нет, сцена в основном стабильна, и алерт допускает сглаживание за 1–2 секунды.

Застряли между MIL и визуально-языковой моделью?

Мы проанализируем ваши данные, оборудование и описание инцидента — и подберём самый экономичный стек, соответствующий вашему целевому уровню ложных срабатываний.

Позвоните нам → Напишите нам →

Алгоритм 6 — Кластеризация K-means на эмбеддингах

Современное применение K-Means для VAD работает не с сырыми пикселями, а с эмбеддингами от замороженного видеоэнкодера (I3D, X3D, ViViT). Каждый кластер описывает определённый поведенческий режим; небольшие или удалённые кластеры считаются аномальными.

Зачем выбирать

Лёгкий, интерпретируемый и отлично подходит для профилирования поведения, а не для обнаружения инцидентов — например, для группировки паттернов смен, аномалий потоков в ритейле или сравнения регулярных и нерегулярных пешеходных потоков.

Где ломается

Нужно выбирать K, и алгоритм чувствителен к дрейфу сцен. Перекластеризуйте раз в неделю — либо используйте только как дополнительный признак рядом с глубоким детектором.

Берите K-Means, когда: нужна сегментация поведения (кластеризация пиковых часов, потоки в ритейле), а не поиск аномалий.

Алгоритм 7 — DBSCAN для поиска аномалий в толпе

DBSCAN группирует точки по локальной плотности без необходимости заранее задавать число кластеров. В видеонаблюдении он особенно полезен для анализа треклетов и траекторий (после пайплайна YOLO + SORT/ByteTrack) — изолированные треклеты в плотной толпе часто указывают на аномалии (например, человек движется против потока или автомобиль стоит на месте).

Зачем выбирать

Устойчив к шуму, не требует настройки параметра K, линейно масштабируется в оптимизированных вариантах, применяемых в современных стеках.

Где ломается

Подбор порога плотности хрупок при переменной заполненности толпы (часы пик и затишье). Используйте адаптивные оценщики плотности или переключайтесь на K-Means, когда плотность падает.

Берите DBSCAN, когда: вы обрабатываете треклеты на людных сценах — в транспортных узлах, на стадионах, в торговых залах.

Матрица сравнения — кто выигрывает по какому компромиссу

Алгоритм	Лучший бенчмарк	Edge-задержка	Потребность в метках	Где силён
Слабоконтролируемое MIL (BN-ВАД/RTFM)	UCF-Crime AUC 87,24% / XD-Violence AP 84,93%	30–50 мс (Orin)	500–1500 меток уровня видео	Продакшен на стационарных камерах
Визуально-языковые модели (VadCLIP / AA-CLIP)	UCF-Crime AUC 80–87% zero-shot	80–150 мс (серверный GPU)	0–100 примеров	Мультисайт, быстрые пилоты, новые классы
Пространственно-временной ансамбль	ShanghaiTech AUC 97,89%	40–80 мс (серверный GPU)	Средняя (500–1000)	Высокорисковые сцены (банки, реанимации)
Isolation Forest	AUC 75–85% на сырых признаках	10–25 мс (CPU/Nano)	Не нужны	Пре-фильтр, монитор дрейфа, IoT edge
Автоэнкодер / Conv- LSTM- AE	AUC 70–80% (CUHK Avenue)	20–40 мс (Orin)	Только нормальная запись	Статичные промышленные сцены
K-Means на эмбеддингах	Н/Д (профилирование поведения)	5–15 мс (CPU)	Не нужны	Сегментация поведения, потоки трафика
DBSCAN на треклетах	Н/Д (постобработка)	10–30 мс (CPU)	Не нужны	Аномалии в толпе, транспортные узлы

Эталонная архитектура: как алгоритмы работают вместе

В продакшене ни один из этих алгоритмов не работает в одиночку. Самый дешёвый надёжный стек, который мы развёртываем, состоит из четырёх последовательных этапов: 1) приём RTSP/WebRTC в on-prem или облачный медиасервер (для V. A. L. T. мы используем кастомизированную связку SRS / mediasoup); 2) предварительная фильтрация с помощью Isolation Forest по магнитуде движения или эмбеддингов на edge-устройстве; 3) классификация кандидатных кадров с помощью слабоконтролируемой MIL- или VLM-головы; 4) постобработка через DBSCAN на треклетах и голосование ансамбля перед отправкой алерта.

Преимущество такого многослойного дизайна в том, что вы сокращаете время работы GPU на самой сложной модели на 60–70%, сохраняя точность глубокой нейросети там, где она действительно нужна. В сочетании с edge-выводом (Jetson Orin Nano/AGX) вы остаётесь в пределах 50 мс end-to-end на один поток — это порог, выше которого уведомления воспринимаются как запаздывающие. Подробнее об этом компромиссе мы писали в статье *Edge AI vs Cloud AI for video surveillance*.

Слой железа: edge или облако с реальными цифрами

Развёртывание	Задержка	Пропускная способность	Стоимость железа	Кому подходит
Jetson Orin Nano (edge)	~21 мс (47 FPS)	1 поток в реальном времени	~30 000 ₽	Алерты в реальном времени, объекты с высокими требованиями к приватности
Jetson Orin AGX (шлюз)	35–50 мс	2–6 потоков	52 500–150 000 ₽	Многопотоковый edge-шлюз, розничные магазины
On-prem GPU-сервер (1× A6000/L40)	25–60 мс	8–16 потоков	600 тыс. – 1,1 млн ₽	Средние объекты, регулируемые данные
Облачный GPU (A100/L4 в Hetzner, AWS, GCP)	500–1500 мс (с учётом RTT)	10–20+ потоков	150–375 ₽ за час видео	Криминалистика, пакетное дообучение
Гибрид (алерты на edge + архив в облаке)	30–50 мс алерт / 2–5 с архив	Смешанная	Edge-железо + облачное хранилище	Лучший дефолт для продакшена

Математика жёсткая: на 30 FPS у каждого кадра бюджет 33 мс. Edge-обработка в него укладывается, а чистое облако — нет. Любое внедрение видеонаблюдения от Фора Софт по умолчанию идёт через гибридную топологию: edge отвечает за алерты, а облако — за хранение, дообучение и дашборды.

Мини-кейс: V. A. L. T. в судах и медицинском обучении

Ситуация. Региональной судебной системе нужно было записывать допросы и показания свидетелей с девяти одновременных потоков IP-камер в каждой комнате, а также фиксировать аномалии — например, попытки вмешательства в работу камеры, резкие звуки или поведение, не соответствующее протоколу. Существующее решение, работавшее только в облаке, давало задержку оповещений 1–2 секунды и не подходило для оперативного анализа офицером в реальном времени.

12-недельный план. Мы заменили центральный пайплайн на многослойный стек, описанный выше: edge-шлюз в каждой комнате с предварительной фильтрацией Isolation Forest по признакам движения и эмбеддингам, MIL-голова класса RTFM на кандидатных кадрах и DBSCAN-проверка треклетов на детекциях людей. MIL-голову обучили примерно на 800 внутренних клипах инцидентов и проверили кросс-комнатную генерализацию на отложенном объекте.

Результат. Задержка алерта сократилась с ~1,4 с до ~70 мс end- to-end; доля ложных срабатываний упала с ~6% до ~1,2% после применения временного сглаживания; доля пропущенных инцидентов осталась ниже 4% на тестовом объекте. Та же архитектура теперь используется в полицейских комнатах допроса и центрах медицинского образования в рамках внедрения V. A. L. T. Хотите такую же оценку? Позвоните или напишите нам.

Модель стоимости: как выглядит честная кастомная разработка

Грубые оценки Фора Софт на кастомный пайплайн детекции аномалий — с учётом того, что наш Agent Engineering ускоряет этапы работы глубокой модели и интеграции:

Объём	Типичная стоимость	Сроки	Что получаете
Сфокусированный PoC (1 камера, 1 тип аномалии)	450 тыс. – 1,1 млн ₽	2–4 недели	Модель + демонстрация на edge + отчёт о точности
Пилот (5–10 камер, 2–3 аномалии)	1,8–4,5 млн ₽	6–12 недель	Закалённый пайплайн + дашборд + цикл дообучения
Продакшен (50+ камер, мультисайт)	11–30 млн ₽ за первый год	4–6 месяцев	Edge-шлюзы, центральная VMS, документация по соответствию
Годовая эксплуатация + дообучение	2,2–4,5 млн ₽/год	Непрерывно	Детекция дрейфа, ежемесячное обновление модели
Аудит на соответствие EU AI Act / GDPR	1,1–3,7 млн ₽	Разовый	DPIA, файл рисков, журналы человеческого надзора

Если вендор предлагает полностью кастомное AI-внедрение на 50 камер дешевле 6 млн ₽, спросите, что он урезает — соответствие требованиям, дообучение или edge-шлюзы? Если цена превышает 75 млн ₽ за тот же объём — тоже уточните, почему. Наши цены ниже, чем у традиционных системных интеграторов, потому что мы используем Agent Engineering для сокращения циклов разработки, а не за счёт упрощения валидации.

Фреймворк принятия решения — выбираем алгоритм за пять вопросов

1. Сколько клипов инцидентов вы реально разметили? 0 примеров → VLM (VadCLIP). 100–500 → VLM с лёгким дообучением. 500–1500 → слабоконтролируемое MIL (BN-WVAD). 2 000+ покадровых меток → полностью контролируемый Transformer/ансамбль.

2. Какая задержка нужна для алертов? < 50 мс — нужен edge (Jetson Orin). От 1 до 3 секунд — можно использовать гибридный пайплайн с постобработкой в облаке. Более 5 секунд — подходит для чисто криминалистических задач.

3. Сколько объектов и насколько разные сцены? Одна стационарная камера → достаточно слабоконтролируемого MIL. 10+ объектов с разной геометрией → используйте визуально-языковую модель и планируйте дообучение раз в квартал.

4. Делаете ли биометрическую идентификацию? Если да — по умолчанию относите проект к запрещённым или высокорисковым по EU AI Act; с первой недели проектируйте журналы аудита, возможность ручного вмешательства и DPIA. Если нет — поведение, проникновение, падения, драки всё равно попадают в категорию высокого риска по Акту, но реализация возможна при правильной документации.

5. Какую долю ложных срабатываний выдержит ваша операционная команда? > 5% убивает доверие за неделю. Мы ставим цель — < 1,5%, используя ансамбли, временное сглаживание и передачу неоднозначных случаев аналитикам в контуре. Цифры ниже 0,5% на оживлённых уличных сценах вызывают подозрения — спросите у поставщика, что он скрывает.

Пять подводных камней, которые тихо убивают продакшен-системы VAD

1. Доверять одному бенчмарку. Модель с 97% AUC на UCF-Crime может упасть до 75% на вашем торговом зале в 19:00. Всегда проверяйте на мультисценном бенчмарке вроде MSAD или SmartHome- Bench перед приёмкой.

2. Игнорировать временную фрагментацию. Покадровый AUC может скрыть модель, которая ловит начало драки, но пропускает середину. Используйте временной IoU (tIoU) и требуйте 5–10 подряд идущих аномальных кадров перед срабатыванием алерта.

3. Не детектировать дрейф. Смена освещения, сезонная листва, новая униформа — всё это незаметно выводит вашу модель из распределения. Запустите Isolation Forest на потоке эмбеддингов: когда расстояние до обучающего распределения растёт, планируйте дообучение.

4. Пропускать человека в контуре. Классификация «высокий риск» по EU AI Act фактически требует вмешательства человека. Заложите очередь проверки аналитиком в интерфейсе — не как фичу второй версии, а с самого начала.

5. Оптимизировать только точность. Операционные команды перестают обращать внимание на системы, которые срабатывают чаще раза в неделю из-за ложных тревог. Делайте долю ложных срабатываний главным KPI, а не второстепенным показателем.

KPI для замеров: качество, бизнес, надёжность

KPI качества. Покадровый AUC > 90% на мультисценном отложенном наборе (а не на одном датасете); временной IoU > 0,5; падение кросс-сценного AUC < 10% между обучающей и развёрнутой камерой.

Бизнес-метрики. Время реакции оператора на истинный положительный алерт — менее 60 с; доля ложных срабатываний — менее 1,5% в пиковые часы; время добавления нового класса аномалии — менее 2 недель для стеков на базе VLM.

KPI надёжности. Энд-ту-энд задержка алерта P95 < 100 мс на edge; аптайм пайплайна > 99,9% на поток; ритм дообучения ≤ 90 дней; срок от срабатывания детектора дрейфа до дообучения — не более 14 дней.

Соответствие требованиям: EU AI Act, GDPR, BIPA

EU AI Act. Биометрическая идентификация в реальном времени в общественных местах в основном запрещена (вступает в силу с февраля 2025 года). Другие виды анализа видео, используемые для обеспечения безопасности, охраны или контроля на рабочем месте, относятся к категории «высокий риск» и должны пройти оценку соответствия и быть зарегистрированы в базе данных EU AI до августа 2026 года. Подготовьте файл управления рисками, план работы с данными и журнал контроля со стороны человека.

GDPR. Записи — это персональные данные; классификации аномалий могут попадать под статью 22 об автоматизированных решениях. Проведите DPIA, определите сроки хранения (обычно 7–30 дней) и убедитесь, что процессы доступа субъекта к данным работают для видео.

Законы штатов США. BIPA в Иллинойсе, биометрические законы Техаса и Вашингтона требуют явного согласия на сбор биометрических данных. CCPA даёт жителям Калифорнии право знать, какие биометрические данные собираются, и удалять их. Спроектируйте процесс получения согласия до того, как подключать камеры.

Когда НЕ стоит делать кастомный VAD

Если нужна только базовая детекция — длительное нахождение в зоне, проникновение или движение в запрещённых зонах — готовые VMS-решения (Avigilon, Eagle Eye Networks, Verkada, BriefCam, Sighthound) уже включают необходимые алгоритмы и инфраструктуру для соответствия требованиям по цене от 15 000 до 75 000 ₽ в год на камеру. Кастомная разработка оправдана только в трёх случаях: (а) ваше определение аномалии сильно отличается от стандартных и специфично для отрасли, (б) требуется обработка данных локально или в приватном облаке из-за требований к безопасности или (в) вы создаёте интегрированный продукт на основе VAD-модели, а не просто систему видеонаблюдения.

Всем остальным мы обычно рекомендуем сначала запустить готовую платформу, а затем поверх неё организовать обработку событий с помощью собственной системы обнаружения аномалий — это дешевле, быстрее и снижает риски.

Нужна проверка вашей VAD-архитектуры здравым смыслом?

Мы изучим ваше определение инцидента, датасет и инфраструктуру и скажем, что стоит построить, что купить, а что можно пропустить.

Позвоните нам → Напишите нам →

FAQ

Почему моя модель аномалий хорошо проходит тесты, но рушится в продакшене?

Публичные бенчмарки вроде UCF-Crime и ShanghaiTech хорошо структурированы, хорошо документированы и относительно коротки. В реальных условиях камеры сталкиваются с изменением освещения, сезонными колебаниями, частичным перекрытием объектов и нестандартной одеждой — всё это снижает AUC на 10–20 пунктов даже у той же модели. Валидируйте модель на мультисценных наборах данных (MSAD, SmartHome- Bench), внедряйте детекцию дрейфа по эмбеддингам и планируйте дообучение каждые 60–90 дней.

Насколько низко можно снизить долю ложных срабатываний, не допуская пропусков?

В наших внедрениях уровень ложных срабатываний составляет 0,9–1,5%, при этом пропущено 4–5% инцидентов. Этого удаётся достичь за счёт временного сглаживания (5–10 подряд идущих аномальных кадров), голосования ансамбля моделей и передачи на проверку аналитику алертов с высокой степенью неопределённости. На оживлённых уличных сценах показатели ниже 0,5% обычно означают, что порог чувствительности завышен — и вы начинаете пропускать реальные события.

Edge или облако — на чём остановиться по умолчанию?

Гибрид. Edge (Jetson Orin) — для алертов с задержкой ниже 50 мс и обеспечения приватности; облако — для хранения, дашбордов и централизованного дообучения. Чистое облако слишком медленно для мгновенных алертов и передаёт сырое видео; чистый edge лишает возможности постоянного улучшения.

Сколько размеченных данных реально нужно?

Слабоконтролируемое MIL: 500–1500 меток на уровне видео. Визуально-языковые модели: 0–100 примеров (zero-shot). Полностью контролируемые Transformer-модели: 2 000+ покадровых меток. Автоэнкодеры без учителя: 100–300 клипов только нормальной записи. Если у вас меньше этих минимальных объёмов, лучше использовать VLM и чётко определить, что считать аномалией.

Могут ли визуально-языковые модели типа VadCLIP заменить дообученную модель?

Для пилотов и мультисайтовых раскатов, где меток мало, — да: AUC 80–87% в zero-shot достаточно, чтобы запустить. Для продакшена в одном высокорисковом месте, где важны лишние 4–6 пункта AUC, дообученная слабоконтролируемая MIL-модель всё ещё выигрывает.

Кастомная система детекции аномалий соответствует EU AI Act из коробки?

«Из коробки» ни одна система не соответствует требованиям. Акт предполагает, что вы ведёте файл управления рисками, план управления данными, журнал человеческого надзора и проводите оценку соответствия. Закладывайте 10–20% бюджета проекта на документацию и аудит. Эти артефакты мы интегрируем в процесс поставки уже с первого спринта.

Какое железо планировать на 50 камер?

Типичная комбинация: 1 Jetson Orin Nano на приоритетную камеру (~30 000 ₽ × N) или 1 Jetson Orin AGX на кластер из 4–6 камер (52 500–150 000 ₽ каждый), плюс локальный GPU-сервер (1× A6000/L40, 600 тыс.–1,1 млн ₽) для дообучения, дашбордов и криминалистических запросов. Хорошо подходят серверы Hetzner серии AX как недорогой узел для дообучения.

Где Isolation Forest по-прежнему уместен в 2026 году?

В трёх местах: (1) edge-префильтр по магнитуде движения или эмбеддингов — стоит перед глубокой моделью и сокращает нагрузку на GPU на 60–70%; (2) детектор дрейфа на потоке эмбеддингов, чтобы дообучение запускалось автоматически; (3) резервный механизм на время «холодного старта» глубокой модели. Как единственный детектор на сырых пикселях — уже не конкурентоспособен.

Что почитать дальше

Модели

Топ-7 моделей детекции аномалий для видеонаблюдения

Более глубокий разбор архитектур моделей, которые мы используем в продакшене.

Архитектура

Edge AI или облачный AI для видеонаблюдения

Компромиссы между задержкой, ценой и приватностью с реальными цифрами.

Инженерия

Масштабируемые системы управления видео в 2026

Пять инженерных решений, от которых зависит масштабируемость вашей VMS.

Тренды

Тренды видеонаблюдения на Android в 2026

Пять функций на основе ИИ, которые меняют подход к созданию мобильных приложений для систем видеонаблюдения.

Функции

12 ключевых функций современного VMS-ПО в 2026

Чек-лист покупателя перед заказом любой VMS-разработки.

Готовы запустить детекцию аномалий, которая срабатывает там, где нужно?

Выбирайте алгоритм исходя из ваших данных и допустимой задержки, а не по рейтингам. Начните с простой и дешёвой базовой модели — например, Isolation Forest или автоэнкодер — и используйте её в связке с глубоким детектором, таким как BN-WVAD или VadCLIP. Проверяйте систему на мультисценном бенчмарке, запускайте на edge-устройствах и оценивайте долю ложных срабатываний — это и будет ключевым показателем, который действительно важен для ваших операторов.

Если разбираться со всем этим в одиночку не хочется — мы уже прошли этот путь для полицейских комнат допроса, судов и центров медицинского обучения и с радостью пройдём его и для вас. Самый быстрый способ начать — короткий разговор с командой, которая создала V. A. L. T.

Проработаем вашу разработку детекции аномалий

Принесите определение инцидента и несколько примеров видеоклипов. Мы — 21 год опыта поставки решений по видео в реальном времени и AI, а также честную оценку.

Позвоните нам → Напишите нам →

Технологии

Показатель	Цифра за 2025	Что это значит для вас
Выручка мобильных приложений с генеративным ИИ	225 млрд ₽, +273% год к году	Самостоятельное AI-приложение теперь — полноценный продукт, а не просто функция.
Время в приложениях с генеративным ИИ	48 млрд часов (×3,6 к 2024)	Привычка у пользователей сформировалась — ассистенты теперь конкурируют с вашим приложением за время сессии.
Внедрение разработчиками	63% выпускают не менее одной AI-функции	Не выпускать ИИ в 2026 году — это уже конкурентное отставание, а не нейтральный выбор.
Прирост вовлечённости от персонализации	+62% вовлечённости, +80% конверсии	Одни только AI-рекомендации влияют на финансовый результат.
Пользователи мобильных AI-ассистентов (США)	200 млн+ (110 млн — только на мобильных)	Пользователи ожидают, что голосовой и текстовый ИИ будет работать везде.
Прогноз Gartner	Использование мобильных приложений снизится на 25% к 2027 году (из-за AI-ассистентов)	Приложения без встроенного ИИ будут терять пользователей в пользу системных ассистентов.

Фреймворк / API	Платформа	Лучше всего для	Типичная задержка	Структура затрат
Core ML	iOS, macOS, watchOS	Зрение и NLP на устройстве с Apple Neural Engine	< 100 мс	Разовая, внутри приложения
Apple Foundation Models	iOS 18+, macOS 15+	LLM на устройстве, резюмирование, инструменты письма	< 500 мс	Бесплатно (в составе ОС)
TensorFlow Lite / LiteRT	Android, iOS, Web	Кроссплатформенное ML на устройстве	< 200 мс	Разовая, внутри приложения
MediaPipe	Android, iOS, Web	Поза, руки, лицо, жесты, сегментация	< 100 мс	Разовая, внутри приложения
ML Kit (Google)	Android, iOS	Распознавание текста, штрихкоды, перевод, обнаружение лиц	50 мс–2 с	Бесплатный тариф + оплата за запрос
Gemini Nano (AICore)	Android (Pixel 9+, S26+)	LLM на устройстве, резюмирование, подсказки ответов	< 1 с	Бесплатно (в составе ОС)
ONNX Runtime Mobile	Android, iOS, Web	Переносимые модели между фреймворками	< 300 мс	Разовая, внутри приложения
OpenAI API (GPT-5)	Облако	Рассуждения, код и зрение уровня state-of-the-art	1–3 с	93,75–750 ₽ за 1 млн токенов
Anthropic Claude API	Облако	Рассуждения с длинным контекстом, анализ, код	1–3 с	75–1 875 ₽ / 1 млн токенов (скидка 50% при батч-обработке)
Google Gemini API	Облако	Мультимодальность, экономичный текст и зрение	1–2 с	6–375 ₽ / 1 млн токенов
AWS Rekognition	Облако	Анализ изображений и видео, модерация	500 мс–2 с	0,075–0,9 ₽ за изображение
Azure Cognitive Services	Облако	Корпоративное видение, стиль общения, язык	500 мс–2 с	За запрос + подписка

Объём	Пример функции	Сроки	Ориентировочная стоимость
Одна функция на устройстве	Сканирование документа + OCR	4–8 недель	2–6 млн ₽
Гибрид среднего размера	Зрение на устройстве + облачный LLM-чат	8–14 недель	6–13,5 млн ₽
Полноценный гибрид под продакшн	Оркестрация нескольких моделей, RAG, мониторинг	14–22 недели	11,2–22,5 млн ₽
Корпоративная платформа	Регулируемая отрасль (здравоохранение / финтех), несколько регионов, SLA	22+ недели	от 22,5 млн ₽

Платформа	Для чего лучше всего	Стартовая цена	Нужна гарнитура?
ClassVR	Школа (K–12), более 1 500 сценариев по учебной программе	от 75 000 ₽ за школьный комплект	Да (гарнитуры в комплекте)
Labster	Лаборатории биологии, химии, физики в вузах	5 925–8 175 ₽ за студента в год	Нет (браузер + опционально VR)
Nearpod (с VR)	Встраивание в уроки в школе	11 925–29 775 ₽ в год на преподавателя	Опционально
zSpace	AR/VR без гарнитуры; более 3 500 округов	По запросу (фирменное оборудование)	Нет (очки + дисплей с трекингом)
Prisms VR	Математика и естественные науки, 140 округов	По запросу (лицензия округа)	Да
Engage / Spatial	Совместные классы в высшем образовании	37 500–150 000 ₽ в год за помещение	Да (несколько устройств)
CoSpaces Edu	VR-проекты, которые создают сами ученики	75–225 ₽ за ученика в год	Опционально
Osso VR / FundamentalVR	Хирургическая подготовка	450 000–3 млн ₽ в год за рабочее место	Да

Статья расходов	Год 1	Год 2 и далее
30 × Meta Quest 3S (комплект за 37 500 ₽)	1 125 000 ₽	0 ₽ (обновление раз в 3–4 года)
Контент-платформа (ClassVR / Nearpod)	150 000–375 000 ₽	150 000–375 000 ₽
Обучение преподавателей (1 день)	112 500–225 000 ₽	Обновление: 37 500 ₽/год
Зарядная станция + MDM	112 500–187 500 ₽	0 ₽
Страховка / поломки (10%)	112 500 ₽	112 500 ₽
Итого	1,6–2 млн ₽	300 000–525 000 ₽

7 лучших алгоритмов обнаружения аномалий в видеонаблюдении 2026: от RTFM до VadCLIP

Зачем Фора Софт написала этот плейбук

Вердикт в одном абзаце

Как читать этот список

Алгоритм 1 — Слабоконтролируемое MIL (RTFM, BN-ВАД, ПЭ-МИЛ)

Зачем выбирать

Где ломается

Алгоритм 2 — Визуально-языковые модели (VadCLIP, AA-CLIP, AnomalyCLIP)

Зачем выбирать

Где ломается

Алгоритм 3 — Пространственно-временные ансамбли (Conv-ЛSTM + Transformer + вероятностная голова)

Зачем выбирать

Где ломается

Алгоритм 4 — Isolation Forest (дешёвая базовая модель для работы в реальном времени)

Зачем выбирать

Где ломается

Алгоритм 5 — Автоэнкодеры и VAE/Conv-ЛSTM-AE

Зачем выбирать

Где ломается

Алгоритм 6 — Кластеризация K-means на эмбеддингах

Зачем выбирать

Где ломается

Алгоритм 7 — DBSCAN для поиска аномалий в толпе

Зачем выбирать

Где ломается

Матрица сравнения — кто выигрывает по какому компромиссу

Эталонная архитектура: как алгоритмы работают вместе

Слой железа: edge или облако с реальными цифрами

Мини-кейс: V. A. L. T. в судах и медицинском обучении

Модель стоимости: как выглядит честная кастомная разработка

Фреймворк принятия решения — выбираем алгоритм за пять вопросов

Пять подводных камней, которые тихо убивают продакшен-системы VAD

KPI для замеров: качество, бизнес, надёжность

Соответствие требованиям: EU AI Act, GDPR, BIPA

Когда НЕ стоит делать кастомный VAD

FAQ

Что почитать дальше

Готовы запустить детекцию аномалий, которая срабатывает там, где нужно?

Похожие статьи

Хотите обсудить ваш проект?