Поиск аномалий в видеонаблюдении в 2026: модели, архитектуры и реальные показатели эффективности

Поиск аномалий в видеонаблюдении в 2026: модели, архитектуры и реальные продакшен-KPI — обложка

Ключевые выводы

• Поиск аномалий — это задача предсказания, а не классификации. Самые сложные аномалии редки, многогранны и зависят от контекста — заранее перечислить их при обучении невозможно.

• Supervised-, weakly-supervised-, self-supervised- и zero-shot-подходы каждый раскрываются в своих сценариях. Supervised требует размеченного видео; weakly-supervised учится только на метках уровня видео; self-supervised тренируется на потоках без разметки; zero-shot проверяет, могут ли CLIP или Video-LLaVA увидеть аномалию вообще без обучающих данных.

• VAD на трансформерах (video-MAE, TimeSformer, ViViT) теперь превосходит 3D CNN на стандартных бенчмарках. Передовые модели 2026 года достигают ≈90% AUC на UCF-Crime при наличии разметки.

• Выбор между «edge» и облаком зависит не от процессора, а от задержки, пропускной способности и юридических рисков. Jetson Orin Nano выполняет инференс 1080p25 примерно за 375–900 ₽/камера/месяц; облако масштабируется на тысячи камер, но требует оплаты исходящего трафика и создаёт сложности с соблюдением GDPR.

• Дрейф данных убивает модели быстрее, чем дрейф концепций. Обслуживание камер, сезонное освещение, обновление прошивки на CCTV-устройствах — всё это незаметно ухудшает качество данных. Нужен постоянный контроль KPI, а не разовая проверка.

Почему этот playbook написала Фора Софт

Компания Фора Софт уже более пяти лет внедряет поиск аномалий в видео на реальных сетях CCTV и IP-камер. Наши проекты — NetCam, платформа мониторинга прямых трансляций, и DSI Drones, система безопасности на базе дронов — ежедневно обрабатывают десятки тысяч видеопотоков с камер. Мы хорошо понимаем, что разрыв между исследовательским результатом (90% AUC на UCF-Crime) и рабочей системой, которая действительно ловит те аномалии, что важны вашей службе безопасности, и при этом настолько редко даёт ложные срабатывания, что операторы не отключают систему, — огромен.

Эта статья — наш план действий на 2026 год: какую стратегию обнаружения выбрать, как организовать пайплайн, в каких случаях edge-обработка выгоднее облачной, что отслеживать и какие ошибки могут подвести проекты. Там, где возможно, мы опираемся на данные из продакшена и чётко указываем, где цифры приблизительные.

Нужна VAD-модель, которая не будет засорять работу операторов ложными срабатываниями?

Мы построили детекторы аномалий для 15+ камерных сетей и знаем приёмы тонкой настройки, которые отличают рабочую систему от лабораторной демонстрации.

Позвоните нам → Напишите нам →

TL;DR — три точки принятия решения

Любая система поиска аномалий в видео (video anomaly detection, VAD) строится вокруг трёх ключевых решений. Принять их правильно — и модель доберётся до продакшена. Ошибиться — и придётся тратить квартал на переобучение на данных, которых у вас нет.

1. Что в вашем сценарии считается аномалией? Украденный велосипед, падение, праздношатание, пожар, проникновение, скопление людей, необычная походка, человек, который слишком долго стоит неподвижно. У каждой камеры свой ground truth. Дежурный в больнице видит совсем не то, что охранник на складе.

2. Как ваша модель будет учиться? (а) Supervised: у вас тысячи размеченных клипов, где каждый кадр или момент уже подписан. (б) Weakly-supervised: есть только общая метка для всего видео — содержит ли оно аномалию (да/нет), но не указано, когда именно она происходит. (в) Self-supervised: видео без разметки — модель учится на задачах, связанных с движением или предсказанием следующего кадра. (г) Zero-shot: используете предобученные vision-language-модели (CLIP, Video-LLaVA) и даёте определение аномалии в виде текста — модель применяет его без дополнительного обучения.

3. Где выполняется инференс? На edge (Jetson, Coral, Hailo на камере или edge-устройстве: низкая задержка, совместимость с GDPR, нулевые расходы на передачу данных) или в облаке (GPU в AWS/GCP/Azure: легко масштабируется, проще управлять версиями, дороже).

Таксономия аномалий в CCTV

Большинство статей сводят поиск аномалий к одной задаче, но продакшен-системы должны различать шесть разных классов:

1. Объектные аномалии. Человек в запрещённой зоне, машина на тротуаре, посторонний предмет на полке. Нужна детекция объектов и пространственные правила или обученная модель границ. Просто, но хрупко при движении камеры.

2. Двигательные аномалии. Бег, падение, резкие движения. Для их распознавания требуется моделирование позы во времени или анализ оптического потока. Достижение низкого уровня ложных срабатываний затруднено, потому что «быстрый шаг» ещё не означает «бег».

3. Траекторные аномалии. Человек движется зигзагом, возвращается назад, следует за другим. Для анализа нужны многокадровый трекинг и обученная или эвристическая модель «нормального маршрута».

4. Групповые и сценовые аномалии. Скопление людей, давка, праздное шатание. Нужно отслеживать группы и рассчитывать суммарный поток или плотность.

5. Аномалии уровня сцены. Огонь, дым, вода на полу, темнота. Обычно для их обнаружения используют простые CNN или эвристические детекторы, обученные на небольшом количестве примеров.

6. Контекстные аномалии. Человек один в 3 часа ночи, а не в полдень; активность в обычно пустой зоне во время смены. Для анализа нужны временные и календарные данные — это сложнее, чем просто распознавание объектов на кадре.

Supervised-обучение — это когда у вас есть размеченные данные

Если у вас есть датасет из 500+ размеченных аномальных клипов (с покадровыми bbox или временными метками), обучение с учителем — самый надёжный выбор. Стандартная архитектура — 3D-свёрточные сети, которые одновременно извлекают временные и пространственные признаки.

Основные архитектуры с учителем

I3D (Inflated 3D ConvNets). Опубликована в 2017 году, до сих пор активно применяется. 2D-сети для изображений (ResNet-50) «надуваются» до 3D путём повторения весов по временной оси, после чего дообучаются. На наборе данных UCF-Crime показывает AUC около 82%. Инференс работает быстро — менее 100 мс на клип из 16 кадров на GPU T4, модель легко дообучается. Основное ограничение — фиксированное поле восприятия: 16 кадров, что соответствует примерно 0,5–1 секунде при частоте 25 кадров в секунду.

X3D (эффективные 3D CNN). Вариант от Facebook 2020 года, оптимизированный под мобильные устройства и edge-вычисления. X3D-версия S (small) работает на Jetson Nano с производительностью около 30 TOPS и обрабатывает кадр за 40 мс. Компромисс: AUC около 76%, но вычислительная сложность в 50 раз ниже, чем у I3D.

SlowFast. Двухпоточная архитектура Facebook 2018 года: медленный поток (stride=2, высокая пространственная детализация) и быстрый поток (stride=1, отслеживание временной динамики). ≈85% AUC на UCF-Crime. Задержка и потребление памяти выше, чем у I3D, зато лучше распознаёт тонкие и быстрые события.

Выбирайте обучение с учителем, когда: у вас есть не менее 500 размеченных аномальных клипов, аномалии чётко определены и повторяются (например, падения, вторжения, скопления людей в одном помещении), и вы можете выделить 4–8 недель на разметку.

Weakly-supervised VAD — обучение на метках уровня видео

У реальных датасетов редко есть покадровые временные метки. У вас есть папка видео: «fight_001.mp4» (аномальное) и «normal_crowd_002.mp4» (нормальное). Обучение с частичной разметкой использует именно это: модель учится предсказывать метку на уровне всего видео (есть аномалия — да или нет) по «мешку кадров», а сама определяет, на какие кадры стоит обратить внимание.

Multiple-Instance Learning (MIL), базовый подход. Работа Султани и соавторов «Real-World Anomaly Detection in Videos» (ICCV 2017) ввела UCF-Crime — бенчмарк из 1,9 млн кадров реального видеонаблюдения. Их MIL-rank loss рассматривает видео как набор коротких фрагментов; если видео помечено как аномальное, хотя бы один фрагмент должен получить высокий балл. Результат: 76% AUC на UCF-Crime (ниже, чем у обученных с учителем моделей, но без использования временных меток).

RTFM (Ranking, Temporal, Frequency Modulation). Улучшение от Ли и соавторов 2021 года: используют амплитуду оптического потока, чтобы выделить фрагменты с высокой активностью движения, и применяют сглаживание по времени. ≈84% AUC на UCF-Crime. Обработка одного кадра занимает менее 50 мс на CPU — работает в реальном времени.

MGFN (Motion and Guidance Feature Network). Версия 2024 года достигает ≈87% AUC благодаря сочетанию энкодера движения и пространственной подсказки (saliency maps). Модель сложнее, но эффективна, если аномалии сосредоточены в определённых областях изображения.

Выбирайте weakly- supervised, когда: у вас 200+ сырых видеофайлов (нормальные и аномальные, без разметки кадров), есть 2–3 недели на проверку схемы разметки, а аномалии занимают более 10% длительности видео (чтобы хватило фрагментов для MIL).

Застряли между supervised и weakly- supervised?

Разберём, какая парадигма подходит уровню зрелости ваших данных, на коротком звонке.

Позвоните нам → Напишите нам →

Self-supervised и unsupervised VAD — обучение на потоках без разметки

У вас месяцы неотмеченного видео с камер видеонаблюдения. Self-обучение работает на этом же видео: восстанавливает кадры, предсказывает замаскированные участки или угадывает, что будет в следующую секунду. Аномалии выявляются по высокой ошибке восстановления или расхождению с предсказанием.

Канонические подходы

Реконструкция автоэнкодером. Обучите свёрточный автоэнкодер на «нормальных» кадрах (1–2 недели записи). На тесте высокая ошибка реконструкции — признак аномалии. Подход простой и понятный, но плохо работает при изменении освещения или сезонных колебаниях (дрейф данных).

Memory-augmented autoencoders (MemAE). Вариант Чжана и соавторов 2019 года: энкодер обучает словарь «нормальных» паттернов; если тестовый кадр не удаётся восстановить по этому словарю — он считается аномальным. ≈71% AUC на UCF-Crime (ниже, чем у supervised-методов, но без использования разметки). Плюс: естественная адаптация к плавному дрейфу.

Предиктивное кодирование. Обучаем модель предсказывать кадр t+к по кадрам с t–n до t. Аномалии приводят к ошибкам предсказания. Такой подход естественным образом распространяется на временную логику: например, если человек вошёл в зону A, он должен выйти через зону B, а не остаться там надолго.

Masked autoencoders для видео (video-MAE). Прорыв Хе и соавторов 2022 года: маскируем 50–80% случайных патчей в клипе и обучаем ViT их восстанавливать. Предобучаем на видео без разметки (ImageNet не подходит из-за отсутствия временной динамики), затем дообучаем на размеченных аномалиях или используем модель как есть. В 2026 году — лучший результат для самообучения. Инференс дорогой (≈500 мс на кадр на V100), но качество высокое (≈88% AUC при дообучении на UCF-Crime всего на 10% разметки).

Выбирайте self- supervised, когда: у вас более 3 месяцев непрерывной записи без разметки; аномалии встречаются редко (менее 1% кадров); вы можете выделить 3–4 недели на предобучение; и у вас есть GPU для обучения (V100, A100).

VAD на трансформерах — уровень лучших решений 2026 года

В 2023–2026 годах трансформеры вытеснили 3D CNN на всех ключевых бенчмарках. Почему? Трансформеры способны улавливать дальние временные зависимости без архитектурных ограничений (в отличие от CNN, которые ограничены фиксированным receptive field). В продакшене доминируют четыре варианта:

TimeSformer. Архитектура, предложенная Гедасом и соавторами в 2021 году: разделяет внимание на пространственное (внутри кадра) и временное (между кадрами). ≈86% AUC на UCF-Crime. Время вывода: ≈200 мс на кадр на GPU T4 при разрешении входа 224×224.

ViViT (Vision Video Transformer). Решение Google 2021 года: применяет patch embeddings ViT напрямую к 3D-токенам видео. Пространственно-временные токены обучаются совместно. ≈87% AUC. Медленнее TimeSformer (≈350 мс на кадр), зато эффективнее по числу параметров.

MViT-В2 (Multiscale Vision Transformers). Иерархическая пирамида трансформеров от Facebook: обработка на нескольких разрешениях с последующим объединением. ≈88% AUC на UCF-Crime. Требует больше памяти (10 ГБ и выше для анализа видео в 1080p), зато лучше выявляет мелкие аномалии.

Video-MAE + дообучение ViT-Б. Обучаем video-MAE на неразмеченных данных (например, архиве с камер видеонаблюдения), затем дообучаем энкодер ViT-Б на примерах аномалий с разметкой. Достигаем ≈90% AUC, используя вдвое меньше размеченных примеров по сравнению с обучением с нуля. Время обработки — около 150 мс на кадр на GPU L4 (самой доступной NVIDIA-карте среднего уровня в Google Cloud).

Выбирайте трансформерный VAD, когда: у вас есть разметка (более 300 клипов) и бюджет на облачный инференс (более 3 750 ₽ на камеру в месяц); аномалии тонкие (необычная походка, нестандартные траектории); и вы можете терпеть задержку 150–350 мс.

Zero-shot VAD на фундаментальных моделях

CLIP (vision-language-модель от OpenAI) и её видеоаналоги (Video-LLaVA, видеоверсии BLIP-2) позволяют описывать аномалии на естественном языке и анализировать кадры видео без дополнительного обучения. Разметка не требуется.

Zero-shot на CLIP. Кодируем промпт: «бегущий человек», «скопление людей», «кто-то перелезает через забор». Кодируем каждый кадр. Считаем косинусное сходство. Кадры с оценкой >0,7 помечаются. Плюс: не нужно обучение, быстро адаптируется к новым типам аномалий. Минус: около 60% AUC на UCF-Crime (хуже любого метода с учителем), много ложных срабатываний на обычном быстром движении.

Запросы к Video-LLaVA. Современные модели, работающие с изображением и текстом, могут отвечать на вопросы вроде: «Кадр аномален для парковки?». Это полезно для выявления контекстных аномалий — например, машина на парковке в 3 часа ночи выглядит подозрительно, а днём — нормально. Однако инференс требует много ресурсов (около 1–2 секунд на кадр), а модель часто ошибается, уверенно помечая безобидные ситуации как подозрительные.

Практичный гибрид: используйте CLIP как первичный фильтр (отсеивать очевидные негативные примеры), а затем применяйте обученный детектор аномалий к кадрам с высокой уверенностью. Такой подход снижает нагрузку на GPU на 70%, сохраняя AUC на уровне 85%+.

Пайплайн обнаружения — архитектура и поток данных

Любая система VAD в продакшене устроена по такой схеме:

1. Декодирование. Чтение кадров H.264/H.265 из RTSP-потока (IP-камера) или файла. Типичная пропускная способность: 1080p25 ≈ 600 МБ/с сырого YUV. Это становится узким местом по стоимости при масштабировании на тысячи потоков.

2. Предобработка. Изменение размера (например, 1080p → 224×224), нормализация (по средним и стандартным отклонениям ImageNet или по статистике самого видео), опционально — подавление шума. ≈5–10 мс на кадр на CPU.

3. Детекция и трекинг объектов. Запускаем YOLO (или Faster R- CNN), чтобы найти людей, транспорт и предметы. Связываем обнаруженные объекты между кадрами с помощью DeepSORT или фильтра Калмана. ≈30–50 мс на кадр на GPU.

4. Извлечение признаков. Выделяем найденные объекты и вычисляем их эмбеддинги — по позе, внешнему виду и векторам движения. По желанию можно использовать оптический поток для всего кадра или для каждого отслеживаемого объекта. Время обработки — около 10–20 мс на кадр.

5. Темпоральная модель. Подаём скользящее окно признаков кадров (например, 16 кадров — 0,64 секунды при 25 fps) в I3D, video-MAE или MemAE. На выходе получаем скалярную оценку аномалии — на кадр или на клип. Время обработки — около 50–200 мс, в зависимости от архитектуры.

6. Скоринг и пороги. Оценки сглаживаем во времени — используем медианный фильтр или экспоненциальное скользящее среднее. Устанавливаем порог, например, score > 0,7 — это триггер алерта. Повторные алерты на одну и ту же трассу подавляем в течение окна, например, 5 секунд.

7. Алертинг. Отправляем аномалии в очередь сообщений (Kafka, SQS), сохраняем в базу данных, отправляем webhooks или MQTT в дашборды операторов. Фиксируем метаданные: временная метка кадра, область выделения, уровень уверенности в аномалии, идентификатор объекта, зона.

YOLO + DeepSORT как слой детекции объектов

YOLO v8n (nano) распознаёт объекты со скоростью более 30 кадров в секунду на Jetson Orin Nano. DeepSORT отслеживает объекты между кадрами, присваивая им стабильные идентификаторы. Вместе эти компоненты становятся узким местом большинства пайплайнов: если трекинг сбоит, дальнейший анализ аномалий теряет смысл.

Конфигурация YOLO. v8n для edge (<50 мс на кадр), v8s/в8m для облака. Порог уверенности 0,5–0,6, чтобы сбалансировать ложные срабатывания (лишняя нагрузка) и пропущенные обнаружения (каскадная потеря при поиске аномалий).

Конфигурация DeepSORT. Использует глубокий признак внешности (ReID-модель, обученная на датасетах переидентификации людей) и предсказание движения с помощью фильтра Калмана. Если человек исчезает из кадра больше чем на 30 кадров (то есть более 1 секунды при 25 кадрах в секунду), трек завершается. Гиперпараметры max_age и n_init задают, сколько времени сохранять «зомби»-треки — это полезно при перекрытиях, но может мешать при множественных проникновениях.

В продакшене обращайте внимание на крайние случаи: передача камеры (handoff), восстановление после окклюзии, дрейф модели ReID.

Сравнительная матрица — какой подход подходит под ваши ограничения

Подход	AUC на UCF-Crime	Объём разметки	Стоимость инференса (мс/кадр на L4)	Устойчивость к дрейфу	Когда выбирать
I3D supervised	82%	500+ клипов	80–120	Низкая (фиксированные обучающие данные)	Стабильные, чётко определённые аномалии; высокий бюджет
RTFM weakly-supervised	84%	200+ видео (только видео)	90–140	Средняя (обучается на основе движения)	Нет покадровой разметки; много видео
MemAE unsupervised	71%	Нет (без разметки)	60–100	Высокая (адаптивный словарь)	Нулевая разметка; допустим плавный дрейф
Video-MAE + ViT	90% (дообученный)	150–300 размеченных (после предобучения)	150–200	Высокая (дообучение на собственных данных)	Backlog без разметки >3 месяца; тонкие аномалии
CLIP zero-shot	60%	Нет	200–300	Средняя (зависит от промпта)	Мгновенный разворот; определение аномалий обновляется каждую неделю

Пять подходов сравнили — и впали в паралич анализа?

Пришлите свои параметры: количество камер, ресурсы на разметку, требуемая задержка — и мы подберём подходящий подход.

Позвоните нам → Напишите нам →

Edge или облако — когда выносить инференс на камеру

Выбор между edge и облаком — не про чистую вычислительную мощность GPU. Это про задержку, пропускную способность, приватность и стоимость при масштабировании.

Edge (инференс на камере или edge-устройстве). Разворачиваем I3D, X3D или лёгкий YOLO на Jetson Orin Nano (40 TOPS, ≈18 600 ₽), Hailo-8 (≈6 700 ₽, 13 TOPS) или Google Coral TPU (4 TOPS). Плюсы: никаких расходов на передачу данных, задержка меньше 100 мс, соблюдение GDPR (видео не покидает объект), работает без интернета. Минусы: жёсткие ограничения на вычисления (можно запустить одну модель, но не ансамбль), обновление сложнее (обновить прошивку на 1000 камер — задача на две недели).

Облако (инференс на GPU в AWS/GCP/Azure). Передаём H.264-кадры на серверы с Tesla T4 (16 ГБ VRAM, ≈22 ₽/час), L4 (≈45 ₽/час) или H100 (≈225 ₽/час). Плюсы: можно масштабироваться до тысяч камер на одном кластере, обновлять модель одним кликом, собрать ансамбль из пяти детекторов. Минусы: расходы на исходящий трафик (≈0,75–3,7 ₽ за гигабайт — сумма быстро растёт), задержка туда-обратно 200–500 мс, сложности с GDPR (кадры пересекают границы стран).

Гибрид: edge — для лёгкой детекции (обнаружение объектов YOLO), облако — для тяжёлых моделей (оценка аномалий через video-MAE). YOLO работает на Jetson (30 мс), отправляет bounding box (100 КБ/с) в облако, где происходит оценка этих областей (высокая загрузка GPU). Задержка: около 150 мс. Трафик: 100 КБ/с ≈ 4,5 ₽/камера/месяц. Это стандартный вариант у Фора Софт для развёртываний от 50 камер.

Железо и арифметика расходов

Одна 1080p-камера при 25 кадрах в секунду выдаёт 1,3 МБ/с необработанного видео. После сжатия H.264 (коэффициент 50:1) поток по сети составляет 26 КБ/с. Стоимость выполнения инференса сильно зависит от оборудования и используемой модели.

Стоимость инференса на одну камеру, 1080p25, одна модель (I3D или YOLO+I3D)

Jetson Orin Nano (edge). Железо: 18 600 ₽ единовременно. Потребление: 15 Вт постоянно. Инференс: I3D на ≈100 мс на кадр = 2,5 кадра в секунду (в 10 раз медленнее реального времени). Обходной приём: обрабатывать каждый 4-й кадр и накапливать оценки. Эффективная пропускная способность: реальное время на четверти разрешения или 6 fps на полном. Стоимость: 18 600 ₽ + 112 ₽/месяц на электричество + 375 ₽/месяц за edge-лицензию (если требуется) = около 487 ₽/месяц на камеру, при амортизации за 24 месяца.

AWS T4 GPU (облако, шаринг). Один T4 (22 ₽/час) справляется примерно с 8 параллельными потоками 1080p25 на I3D (50 мс на поток, до 4 одновременно). Стоимость на одну камеру: 22 × 24 ÷ 8 = 67 ₽/месяц на вычисления + 3,7 ₽/месяц на передачу данных (1080p25 × 26 КБ/с × 2,6 млн секунд в месяц × 0,75 ₽/ГБ) = 71 ₽/месяц. Задержка: 150–200 мс. Плюс 50% на оркестрацию: 107 ₽/камера/месяц.

AWS L4 GPU (облако, получше). Один L4 (45 ₽/час) справляется с примерно 15 потоками. Стоимость: 45 × 24 ÷ 15 = 72 ₽/месяц на вычисления + 3,7 ₽ egress = 75 ₽/месяц. Задержка: 120–150 мс. С оркестрацией: 113 ₽/камера/месяц.

Эмпирическое правило: Edge (Jetson Nano) выгоднее при менее чем 50 камерах. Облако (T4/L4) становится эффективнее при более чем 100 камерах — тогда затраты на управление распределяются. Гибридный вариант (обработка на edge с YOLO и в облаке с I3D) — оптимальное решение для 50–500 камер: 225–300 ₽ за камеру в месяц.

Датасеты и бенчмарки

UCF-Crime (1,9 млн кадров, 128 часов). Реальное видео с камер видеонаблюдения: 80 нормальных клипов, 41 аномальный (драки, грабежи, вандализм). Набор сильно несбалансирован. Используется в каждой статье с 2017 года. Метрика — AUC на уровне видео (показывает, насколько хорошо модель отличает аномальные клипы от нормальных). Оговорка: все аномалии — насильственные или криминальные, модели могут переобучаться на интенсивность движения.

ShanghaiTech (317 часов, сцены метро и улицы). Покадровая разметка для выявления пиксельных аномалий (например, праздношатание, скопление людей и т. д.). Разметка более детальная, чем в UCF-Crime. Метрика — пиксельный AUC или частота обнаружения аномалий на кадре при низкой частоте ложных срабатываний.

Аvenue и XD-Violence. Небольшие бенчмарки, ориентированные на специфические сценарии — например, брошенные предметы или насилие. В продакшене почти не применяются из-за узкой направленности.

Street Scene. Свежий датасет 2024 года — 400 часов записи с реальных камер видеонаблюдения в общественных местах. Содержит больше типов аномалий: кража велосипеда, несанкционированный вход, сон на скамейке. Постепенно становится отраслевым стандартом, но пока фрагментирован из-за проприетарных реализаций.

Мини-кейс — мониторинг стройплощадки

Ситуация: средняя строительная компания с 12 активными площадками, на каждой — 3–4 камеры. Цель — выявлять нарушения техники безопасности (рабочие без каски, оставленное без присмотра оборудование, несанкционированный доступ в нерабочее время) и посторонние проникновения. Текущее положение: 15 операторов круглосуточно следят за дашбордами, пропускают события в спокойные дни и допускают ошибки в загруженные.

Решение (недели 1–4): мы собрали две недели непрерывной записи с четырёх эталонных площадок — 40 часов видео без разметки. Недели 1–2: построили self- supervised MemAE на этих 40 часах (стоимость обучения: 3 750 ₽ на Lambda GPU Cloud). Неделя 3: разметили по 200 кадров с каждой площадки на нарушения техники безопасности (детекция касок через YOLO + поза, оставленное оборудование — через паузы в DeepSORT). Дообучили supervised I3D на 200 размеченных кадрах с каждой площадки. Неделя 4: задеплоили на edge (Jetson Orin в защищённом от погоды корпусе на каждой площадке).

KPI (до и после, прогон 8 недель): ложные срабатывания снизились с 47 на камеру в день (операторы отключали систему ко 2-й неделе) до 8 на камеру в день (уровень приемлемый, операторы активно следят). Среднее время обнаружения нарушений техники безопасности — 3,2 минуты (ранее — 12 минут, в зависимости от того, кто из операторов в этот момент работал). Пропущенных инцидентов — 2 из 18 отслеженных (точность распознавания — 88%). Стоимость оборудования: 18 600 ₽ × 36 камер = 669 600 ₽ единовременно. Операционные расходы: 150 ₽ на камеру в месяц (лицензия edge + удалённый мониторинг). Окупаемость: 669 600 ₽ ÷ (5 предотвращённых инцидентов в год × 3,7 млн ₽ стоимость одного инцидента) — менее двух недель.

Фреймворк решения — выбираем подход за пять вопросов

Ответьте на пять вопросов по порядку, чтобы сузить пространство выбора:

Q1. Есть ли у вас размеченные данные с аномалиями (покадровые или временные метки видео)? Да → к Q2. Нет → к Q3.

Q2. У вас больше 500 размеченных клипов или более 50 тыс. размеченных кадров? Да → supervised (I3D, SlowFast, дообученный video-MAE). Нет → weakly-supervised (RTFM, MGFN), если есть более 200 меток на уровне видео; иначе self-supervised предобучение + дообучение на небольшой размеченной выборке.

Q3. Есть ли более 3 месяцев непрерывного неразмеченного видео с тех же камер? Да → предобучаем video-MAE на вашем видео, затем дообучаем на небольшой размеченной выборке (к вопросу Q4). Нет → используем MemAE (без обучения, полностью без учителя) или CLIP в режиме zero-shot (мгновенно, без обучения).

Q4. Нужен ли инференс в реальном времени (задержка менее 50 мс), и готовы ли вы к более низкому AUC (ниже 85%)? Да → X3D на edge (Jetson Nano). Нет → дообученный video-MAE в облаке (T4/L4 GPU).

Q5. Определение аномалий стабильно или меняется от недели к неделе? Стабильно → вкладывайтесь в supervised или предобученное self-supervised-обучение (затраты невозвратные, но ROI хороший). Меняется → CLIP zero-shot (правите промпт, не переобучаете) или лёгкая эвристическая система (движение + детекция объектов).

Пять подводных камней, которые топят VAD-проекты

1. Модель убивает дрейф данных, а не дрейф концепций. Обучили на записи июля 2025 года (день, зелёные деревья). Сентябрь: листья пожелтели, трава засохла, угол солнца изменился. Без переобучения качество модели падает на 15–20%. Продакшен-команды не замечают, пока операторы не начинают глушить алерты. Решение: мониторьте AUC еженедельно (прогоняйте модель на holdout-наборе с прошлой недели). Переобучайте каждые 4–6 недель или когда AUC упадёт больше чем на 5%.

2. Усталость от ложных срабатываний рушит внедрение. Оператор видит 50 алертов за смену, 45 из них — ложные. К третьему дню он отключает уведомления, к седьмому — саму систему. Решение: задавайте порог консервативно (начинайте с 95% точности, принимая 40% полноты). Чётко определите, что именно важно для вашей команды. Алерты должны быть редкими и надёжными.

3. Переобучение под бенчмарк (UCF-Crime, ShanghaiTech). В статьях указывают 90% AUC на UCF-Crime, но на данных клиента модель работает плохо — из-за другого освещения, угла камеры или сцены. UCF-Crime включает только насильственные преступления; он не охватывает праздношатание, проникновение или кражу оборудования. Решение: соберите две недели записей у клиента и проверьте модель на них до подписания контракта. Падение AUC на 15% по сравнению с бенчмарком — норма и допустимо.

4. Освещение, окклюзия и сезонная чувствительность. Ночной режим CCTV (чёрно-белый, высокий шум), сильный дождь, бегущие тени, зима против лета вызывают тихие сбои. Уверенность YOLO падает, трекинг ломается, оценки аномалий превращаются в шум. Решение: собирайте обучающие и валидационные данные по всему диапазону освещения и погоды. Используйте аугментации (случайная яркость, контраст, гауссов шум) при обучении. Валидируйте раз в квартал на записях со всех сезонов.

5. Расползание скоупа в распознавание лиц. Клиент спрашивает: «Можно идентифицировать бегущего?» или «Уведомлять, если в магазин зашёл известный шоплифтер». Это уже не поиск аномалий, а биометрическая идентификация — а она жёстко регулируется (EU AI Act с февраля 2025 запретил массовое биометрическое наблюдение, штаты Иллинойс и Техас имеют законы вида BIPA). Понадобится юридическая проверка, согласие пользователя (opt-in) и оценка воздействия на конфиденциальность (privacy-impact assessment). Решение: чётко фиксируйте границы скоупа в договоре. Предлагайте детекцию объектов и траекторий (что человек делал, а не кто он), а не идентификацию.

KPI — что измерять

Качественные KPI (ловит ли модель настоящие аномалии?). (1) AUC или ROC-кривая (порогоустойчивая метрика способности ранжировать; 90% — отлично, 70% — базово, 50% — случайное угадывание). (2) Precision при фиксированном recall (например, «точность при обнаружении 80% аномалий»). (3) Среднее время обнаружения (MTTD) — сколько секунд проходит с начала аномалии до сигнала тревоги. Типичные цели: MTTD <5 сек, precision >80% при recall 70%.

Бизнес-метрика (снижает ли система операционные расходы?). (1) Частота ложных срабатываний на камеру в день (FAR). Норма: <10 на камеру в день (раз в 2–3 часа). (2) Необнаруженные инциденты в месяц (аномалии, которые позже нашли операторы или сообщили клиенты). (3) Время оператора на обработку ложных срабатываний (в секундах; если >30 сек — оператор тратит время на разбор). Цель: <5 минут на оператора за смену на разбор ложных срабатываний.

KPI надёжности (остаётся ли система онлайн и точной?). (1) Uptime (% камер с работающим инференсом >99,5%). (2) Дрейф AUC (изменение AUC от недели к неделе; падение >5% — триггер на переобучение). (3) Задержка инференса (p50, p99; цель: p99 <200 мс для облака, <100 мс для edge).

Комплаенс — GDPR, EU AI Act, BIPA

Видеонаблюдение жёстко регулируется. VAD-системы должны пройти три фильтра:

GDPR (ЕС, ЕЭП). Кадры считаются персональными данными, если они идентифицируют человека или могут это сделать. Если вы обрабатываете видео в ЕС или храните его на серверах в ЕС, GDPR применяется. Требования: (1) законное основание (например, общественная безопасность, право работодателя на наблюдение, условия договора). (2) минимизация данных (храните кадры только столько, сколько необходимо; результаты детекции аномалий можно оставлять, а исходные кадры удаляйте через 72 часа, если иное не требуется по закону). (3) право на объяснение (операторы должны понимать, по какой причине система определила аномалию). Рекомендация: выполняйте анализ на edge — видео не покидает объект, в облако передаются только уведомления (таймстамп, уровень уверенности, класс объекта).

EU AI Act (с 2025 года). Биометрическое массовое наблюдение в реальном времени — например, распознавание лиц в толпе на улице — запрещено. К этому же относится переидентификация: сопоставление одного и того же человека между камерами по цифровым «отпечаткам» внешности (эмбеддингам). Сам по себе поиск аномалий не запрещён, но использовать его для определения личности нельзя. Рекомендация: отслеживайте события (например, человек бежит, собирается толпа), а не идентифицируйте людей.

BIPA (Иллинойс, Техас расширяется). Требует, чтобы перед сбором и использованием биометрических данных — лица, отпечатков пальцев, голоса, походки — человек давал осознанное согласие. Системы распознавания лиц обязаны сообщать, если используют биометрию, и предоставлять возможность отказаться. Штрафы за нарушение — от 75 000 до 375 000 ₽. Рекомендация: не используйте идентификацию по внешности без необходимости. Если это неизбежно — чётко укажите это в политике конфиденциальности и дайте пользователям возможность отказаться.

Когда НЕ использовать ИИ для поиска аномалий в видео

Нейросетевой VAD — мощный, но дорогой. Иногда классическое компьютерное зрение работает лучше. Рассмотрите эвристическую систему, если:

Аномалии у вас пространственно или временно простые. «Алерт, когда человек заходит в зону A». Детекция объектов (YOLO) + правила зоны справятся лучше любого нейросетевого детектора аномалий. Стоимость: 0 ₽ за камеру (только YOLO на edge). Задержка: 50 мс. Через неделю всё работает.

У вас меньше 10 камер. Нейронный VAD — это фиксированная стоимость (месяцы инженерной работы), которая распределяется между камерами. На 5 камер эвристика будет быстрее и дешевле. На 500 камер нейросеть покажет лучшие результаты.

Камерный парк нестабилен или будет часто меняться. Если камеру перемещают, поворачивают или заменяют каждые 3 месяца, переобучение нейронной модели становится постоянной головной болью. А вот правила — например, координаты зон — адаптировать проще.

Высокий регуляторный риск. Если в вашей юрисдикции биометрическое наблюдение вызывает сомнения или клиент требует полного отказа от ИИ, правила обеспечивают аудит-трейл и легко объяснимы. Нейронные модели могут выдавать ложные результаты; правила — нет.

FAQ

На каком датасете обучать детектор аномалий?

Начните с UCF-Crime для демонстрации концепции (он публичный, большой и для него есть бенчмарки), а затем сразу соберите две недели записей с целевой камерной сети и проверьте модель на них. У UCF-Crime разница в точности по сравнению с реальным наблюдением составляет около 15%: датасет сфокусирован на насильственных преступлениях в контролируемых условиях. Модель для продакшена должна обучаться на ваших данных (или хотя бы дообучаться на них).

Достаточно ли одного YOLO для поиска аномалий?

YOLO распознаёт объекты, но не учитывает временной контекст и не замечает необычное поведение. Чтобы отслеживать объекты во времени, используйте YOLO + DeepSORT, а поверх — модель, работающую с последовательностями (например, I3D или MemAE), либо логические правила. Исключение: если аномалии — чисто пространственные (человек в запрещённой зоне, предмет не на своём месте), достаточно YOLO и правил по зонам — это быстро и эффективно.

Будет ли модель работать в темноте, в ночном режиме, на чёрно-белых камерах CCTV?

Скорее всего, нет — без переобучения. Запись в ночном режиме шумная, чёрно-белая, с другой контрастностью, чем дневное видео. Если 90% обучающего набора — день, а 10% — ночь, на чистой ночной съёмке модель потеряет более чем на 20%. Собирайте ночные обучающие данные; используйте аугментации (яркость, контраст) при обучении; проверяйте качество отдельно на ночных записях.

Облачный инференс или edge? Как выбрать?

Edge — если у вас менее 50 камер, нужна жёсткая задержка (менее 50 мс) или соблюдение GDPR. Облако — если более 100 камер, задержка 150–200 мс допустима, а также требуются частые обновления модели. Гибрид (edge YOLO + cloud VAD) — оптимальный вариант для 50–500 камер.

Можно ли использовать Gemini или CLIP в zero-shot режиме вместо обучения?

Да, но будьте готовы к ~60% AUC вместо 85–90%. CLIP zero-shot работает быстро (без обучения) и гибко (можно менять определение аномалий через промпт), но часто ошибается (выдаёт ложные срабатывания на безобидных быстрых движениях). Используйте его как первичный фильтр, а не единственный детектор. Инференс тоже не дешёвый — около 200–300 мс на кадр в облаке.

Сколько камер тянет один GPU?

Один T4 GPU (≈22 ₽/час): 6–8 камер 1080p25 на I3D (100 мс на кадр, 25 fps = 2,5 потока параллельно). Один L4 GPU: 12–15 камер. Один H100 GPU: 50+ камер. Цифры приведены при допустимой задержке стриминга (200 мс). Если нужна задержка меньше 100 мс — делите на два. Накладные расходы на оркестрацию (Kubernetes, балансировка нагрузки) снижают эффективную пропускную способность на 20–30%.

GDPR — это блокер для поиска аномалий в реальном времени?

Нет, если всё сделать правильно. GDPR разрешает видеонаблюдение в целях безопасности, если есть законное основание и соблюдается принцип минимизации данных. Разверните обработку на edge (кадры остаются на камере), отправляйте в облако только уведомления — временную метку, уровень уверенности, без передачи самих кадров. Храните записи локально не более 72 часов, после чего удаляйте. Такой подход проходит GDPR-аудиты, а юридическое сопровождение комплаенса обходится дешевле 750 тыс. ₽.

Какой AUC обычно показывает продакшен-детектор аномалий в видео?

На бенчмарке UCF-Crime: 85–90% (supervised или на трансформерах). На ваших данных (после валидации на реальном видео): ожидайте падение AUC на 10–20% из-за доменного сдвига. В продакшене с переобучением каждые 4–6 недель и квартальной валидацией по всем сезонам: удерживается 70–80% AUC. В переводе на бизнес-показатели — precision 75%, recall 60% (ловим 6 из 10 реальных аномалий, и 3 из 4 алертов — настоящие).

Что почитать дальше

Компьютерное зрение

Продакшен-гайд по YOLO + DeepSORT

Трекинг и переидентификация объектов в реальном времени для пайплайнов видеонаблюдения.

Инфраструктура

Edge AI или cloud AI для видеонаблюдения

Стоимость, задержка и приватность — компромиссы при развёртывании инференса для видеонаблюдения.

Кейс

Видеонаблюдение на стройплощадке с ИИ

Автоматизация контроля техники безопасности на стройке с помощью визуального поиска аномалий.

Этика и комплаенс

Этика и регулирование ИИ-видеонаблюдения в 2026

Как пройти GDPR, EU AI Act и регулирование биометрии для систем видеонаблюдения.

Найм

Как нанимать инженеров по компьютерному зрению

Скрининг и онбординг senior CV-инженеров для систем поиска аномалий в продакшене.

Пилот работает, но масштабироваться до 50 камер — страшно?

Обсудим с командой продакшена дрейф данных, настройку ложных срабатываний и архитектуру развёртывания на больших масштабах.

Позвоните нам → Напишите нам →

Поиск аномалий в видео в 2026 — выбираем правильную архитектуру

Поиск аномалий в видеонаблюдении вышел на пять рабочих подходов: supervised (90% AUC, требуется 500+ размеченных кадров), weakly-supervised (84% AUC, нужна только разметка по видео), self-supervised (88% AUC после дообучения, нужен архив без разметки), на трансформерах (90% AUC, лучший результат, но задержка 150–200 мс) и zero-shot (60% AUC, мгновенно, без обучения). Выбирайте подход в зависимости от качества данных, допустимой задержки и количества камер. Используйте YOLO+DeepSORT для отслеживания объектов, подавайте временные признаки в I3D или video-MAE и тщательно подбирайте порог срабатывания, чтобы количество ложных тревог не превышало 10 в день на камеру — иначе оператор начнёт игнорировать оповещения. Контролируйте AUC раз в неделю и переобучайте модель каждые 4–6 недель, чтобы компенсировать дрейф данных. Edge-решения эффективны до 50 камер; облачные — с 100 и выше; гибрид (обработка на edge с YOLO и анализ в облаке с VAD) — оптимальный вариант для 50–500 камер.

Разрыв между исследовательским baseline (статьёй про UCF-Crime) и реальной продакшен-системой (аномалии, которые действительно важны для вашей команды, при этом ложные срабатывания настолько редки, что операторы не отключают систему) — это 3–4 месяца инженерной работы и постоянного контроля. Начинайте с supervised или weakly-supervised подхода, если у вас есть размеченные данные; если разметки нет — предобучайте video-MAE на собственных архивах. Жёстко проверяйте систему на своих записях до подписания контракта.

Фора Софт выводила VAD-системы в продакшен на NetCam, DSI Drones и более чем в 15 клиентских сетях. Наш playbook — не теория, а проверенная практика на реальных проектах. Если вы запускаете новое развёртывание или масштабируете действующий пилот, мы готовы обсудить ваши конкретные ограничения на коротком звонке и предложить подходящую архитектуру и таймлайн под ваш сценарий.

Готовы начать создавать VAD для своей сети?

Мы строили детекторы аномалий в самых разных отраслях — стройка, ритейл, транспорт, здравоохранение. Расскажите про камеры, аномалии и сроки.

Позвоните нам → Напишите нам →

Технологии

Показатель	Цифра за 2025	Что это значит для вас
Выручка мобильных приложений с генеративным ИИ	225 млрд ₽, +273% год к году	Самостоятельное AI-приложение теперь — полноценный продукт, а не просто функция.
Время в приложениях с генеративным ИИ	48 млрд часов (×3,6 к 2024)	Привычка у пользователей сформировалась — ассистенты теперь конкурируют с вашим приложением за время сессии.
Внедрение разработчиками	63% выпускают не менее одной AI-функции	Не выпускать ИИ в 2026 году — это уже конкурентное отставание, а не нейтральный выбор.
Прирост вовлечённости от персонализации	+62% вовлечённости, +80% конверсии	Одни только AI-рекомендации влияют на финансовый результат.
Пользователи мобильных AI-ассистентов (США)	200 млн+ (110 млн — только на мобильных)	Пользователи ожидают, что голосовой и текстовый ИИ будет работать везде.
Прогноз Gartner	Использование мобильных приложений снизится на 25% к 2027 году (из-за AI-ассистентов)	Приложения без встроенного ИИ будут терять пользователей в пользу системных ассистентов.

Фреймворк / API	Платформа	Лучше всего для	Типичная задержка	Структура затрат
Core ML	iOS, macOS, watchOS	Зрение и NLP на устройстве с Apple Neural Engine	< 100 мс	Разовая, внутри приложения
Apple Foundation Models	iOS 18+, macOS 15+	LLM на устройстве, резюмирование, инструменты письма	< 500 мс	Бесплатно (в составе ОС)
TensorFlow Lite / LiteRT	Android, iOS, Web	Кроссплатформенное ML на устройстве	< 200 мс	Разовая, внутри приложения
MediaPipe	Android, iOS, Web	Поза, руки, лицо, жесты, сегментация	< 100 мс	Разовая, внутри приложения
ML Kit (Google)	Android, iOS	Распознавание текста, штрихкоды, перевод, обнаружение лиц	50 мс–2 с	Бесплатный тариф + оплата за запрос
Gemini Nano (AICore)	Android (Pixel 9+, S26+)	LLM на устройстве, резюмирование, подсказки ответов	< 1 с	Бесплатно (в составе ОС)
ONNX Runtime Mobile	Android, iOS, Web	Переносимые модели между фреймворками	< 300 мс	Разовая, внутри приложения
OpenAI API (GPT-5)	Облако	Рассуждения, код и зрение уровня state-of-the-art	1–3 с	93,75–750 ₽ за 1 млн токенов
Anthropic Claude API	Облако	Рассуждения с длинным контекстом, анализ, код	1–3 с	75–1 875 ₽ / 1 млн токенов (скидка 50% при батч-обработке)
Google Gemini API	Облако	Мультимодальность, экономичный текст и зрение	1–2 с	6–375 ₽ / 1 млн токенов
AWS Rekognition	Облако	Анализ изображений и видео, модерация	500 мс–2 с	0,075–0,9 ₽ за изображение
Azure Cognitive Services	Облако	Корпоративное видение, стиль общения, язык	500 мс–2 с	За запрос + подписка

Объём	Пример функции	Сроки	Ориентировочная стоимость
Одна функция на устройстве	Сканирование документа + OCR	4–8 недель	2–6 млн ₽
Гибрид среднего размера	Зрение на устройстве + облачный LLM-чат	8–14 недель	6–13,5 млн ₽
Полноценный гибрид под продакшн	Оркестрация нескольких моделей, RAG, мониторинг	14–22 недели	11,2–22,5 млн ₽
Корпоративная платформа	Регулируемая отрасль (здравоохранение / финтех), несколько регионов, SLA	22+ недели	от 22,5 млн ₽

Платформа	Для чего лучше всего	Стартовая цена	Нужна гарнитура?
ClassVR	Школа (K–12), более 1 500 сценариев по учебной программе	от 75 000 ₽ за школьный комплект	Да (гарнитуры в комплекте)
Labster	Лаборатории биологии, химии, физики в вузах	5 925–8 175 ₽ за студента в год	Нет (браузер + опционально VR)
Nearpod (с VR)	Встраивание в уроки в школе	11 925–29 775 ₽ в год на преподавателя	Опционально
zSpace	AR/VR без гарнитуры; более 3 500 округов	По запросу (фирменное оборудование)	Нет (очки + дисплей с трекингом)
Prisms VR	Математика и естественные науки, 140 округов	По запросу (лицензия округа)	Да
Engage / Spatial	Совместные классы в высшем образовании	37 500–150 000 ₽ в год за помещение	Да (несколько устройств)
CoSpaces Edu	VR-проекты, которые создают сами ученики	75–225 ₽ за ученика в год	Опционально
Osso VR / FundamentalVR	Хирургическая подготовка	450 000–3 млн ₽ в год за рабочее место	Да

Статья расходов	Год 1	Год 2 и далее
30 × Meta Quest 3S (комплект за 37 500 ₽)	1 125 000 ₽	0 ₽ (обновление раз в 3–4 года)
Контент-платформа (ClassVR / Nearpod)	150 000–375 000 ₽	150 000–375 000 ₽
Обучение преподавателей (1 день)	112 500–225 000 ₽	Обновление: 37 500 ₽/год
Зарядная станция + MDM	112 500–187 500 ₽	0 ₽
Страховка / поломки (10%)	112 500 ₽	112 500 ₽
Итого	1,6–2 млн ₽	300 000–525 000 ₽

Поиск аномалий в видеонаблюдении в 2026: модели, архитектуры и реальные показатели эффективности

Почему этот playbook написала Фора Софт

TL;DR — три точки принятия решения

Таксономия аномалий в CCTV

Supervised-обучение — это когда у вас есть размеченные данные

Основные архитектуры с учителем

Weakly-supervised VAD — обучение на метках уровня видео

Self-supervised и unsupervised VAD — обучение на потоках без разметки

Канонические подходы

VAD на трансформерах — уровень лучших решений 2026 года

Zero-shot VAD на фундаментальных моделях

Пайплайн обнаружения — архитектура и поток данных

YOLO + DeepSORT как слой детекции объектов

Сравнительная матрица — какой подход подходит под ваши ограничения

Edge или облако — когда выносить инференс на камеру

Железо и арифметика расходов

Стоимость инференса на одну камеру, 1080p25, одна модель (I3D или YOLO+I3D)

Датасеты и бенчмарки

Мини-кейс — мониторинг стройплощадки

Фреймворк решения — выбираем подход за пять вопросов

Пять подводных камней, которые топят VAD-проекты

KPI — что измерять

Комплаенс — GDPR, EU AI Act, BIPA

Когда НЕ использовать ИИ для поиска аномалий в видео

FAQ

Что почитать дальше

Поиск аномалий в видео в 2026 — выбираем правильную архитектуру

Похожие статьи

Хотите обсудить ваш проект?