
Детекция аномалий в видеонаблюдении — задача двухуровневая, а не одноалгоритмическая. Уровень 1 — быстрая статистическая или геометрическая модель, которая отбирает кандидатов (Isolation Forest, One-Class SVM, GMM, K-Means). Уровень 2 — глубокая модель, которая понимает, что именно происходит в кадре (CNN, LSTM, автоэнкодеры, а в 2026 году — и vision-трансформеры). Соберите их правильно — получите детекцию менее чем за секунду с долей ложных срабатываний <1% на типовых потоках с камер CCTV. Соберите неправильно — либо тонете в потоке алертов, либо пропускаете именно тот момент, ради которого всё затевалось. Этот гайд — рабочий каркас принятия решений, который мы применяем на реальных клиентских внедрениях в 2026 году.
Стек для детекции аномалий в 2026: YOLO-NAS для обнаружения, DINOv2 для эмбеддингов, гибриды Isolation Forest + автоэнкодер для скоринга без разметки и трансформеры для распознавания действий в сложных событиях. Ориентир: <2% ложных срабатываний при 95% полноте на 20 наиболее распространённых классах аномалий в ритейле и на транспорте.
Подробнее по теме: читайте наш полный гайд — Топ-7 моделей детекции аномалий для видеонаблюдения (2026).
Главное
- Один алгоритм не побеждает. Детекция аномалий в видеонаблюдении — это пайплайн: лёгкая модель для отсева, глубокая — для подтверждения.
- Автоэнкодеры и CNN — лучшие для пиксельных аномалий. Они выучивают, как выглядит «норма», и выделяют то, что в неё не вписывается.
- LSTM и трансформеры — лучшие для временных аномалий. Слоняние, проход «на хвосте», нетипичные траектории — это для последовательных моделей, не для покадровых.
- Isolation Forest — ваш префильтр. Менее миллисекунды на образец, тянет векторы признаков высокой размерности, легко обновляется онлайн.
- Edge-first — это дефолт 2026 года. Модель отсева крутится на самой камере, глубокая — на региональном сервере. Трафик и риски по приватности падают на 60–90%.
- Данные важнее алгоритма. Лучшая модель на плохих данных проигрывает простейшей модели на правильных. Закладывайте 60% времени проекта на разметку.
- Почему Фора Софт подходит для ML-продуктов в видеонаблюдении
- Двухуровневый пайплайн детекции аномалий
- 1. Isolation Forest — отсев за доли миллисекунды
- 2. One-Class SVM — аномалии в ограниченном пространстве признаков
- 3. Свёрточные нейронные сети (CNN)
- 4. LSTM и временные трансформеры
- 5. Автоэнкодеры — поиск аномалий на уровне пикселей без разметки
- 6. K-Means — кластеризация поведения
- 7. Смеси гауссовских распределений (GMM)
- Таблица сравнения алгоритмов
- Выбор алгоритма по варианту использования
- Кейс: платформа видеонаблюдения V.A.L.T.
- Деплой на edge и в облаке
- 5 продакшен-ловушек
- FAQ
- Итоги
Почему Фора Софт подходит для ML-продуктов в видеонаблюдении
Мы выпускаем продукты для видеонаблюдения и видеоаналитики с 2012 года: 97% успешных проектов и более 200 выпущенных продуктов, выделенная ML-команда и сильная экспертиза по WebRTC, ингесту RTSP/ONVIF и edge-деплою на NVIDIA/Jetson. По детекции аномалий конкретно — мы запустили в продакшен пайплайны на Isolation Forest, One-Class SVM, автоэнкодерах, CNN семейства YOLO и временных стеках на LSTM/трансформерах, включая платформу V.A.L.T., о которой расскажем ниже.
Берите гибридные стеки, когда: точность одной модели вышла на плато. Связка вычитания фона, CNN и трансформера обгоняет любую отдельную модель.
Что это значит для вашего продукта: мы не выбираем алгоритм по списку. Мы профилируем топологию ваших камер, бюджет на задержки, экономику разметки и цену ошибки — и предлагаем пайплайн с двумя уровнями: отсев и подтверждение. Алгоритмы ниже отражают реальные продакшен-стеки, а не литературный обзор.
Строите продукт для видеонаблюдения или видеоаналитики?
Свяжитесь с нами. Подберём пайплайн детекции аномалий под количество ваших камер, бюджет на задержки и цену ошибки — в одном разговоре, а не за три недели тендера.
Двухуровневый пайплайн детекции аномалий
99% потока с камер видеонаблюдения — это рутина. Прогонять каждый кадр через глубокую модель — значит зря тратить GPU и генерировать ложные алерты. Продакшен-паттерн, который мы внедряем в проектах 2026 года, выглядит так:
Откажитесь от чистого облачного инференса, когда: у вас ограниченный бюджет на трафик. Инференс на edge сокращает трафик на 80%+ — вы отправляете события, а не сырой поток видео.
- Уровень 1 — отсев (на edge). Извлекаете признаки (векторы движения, гистограммы, ограничивающие рамки объектов) и прогоняете через быструю unsupervised-модель — Isolation Forest или GMM — с настройкой на высокую полноту и среднюю точность. Менее миллисекунды на кадр.
- Уровень 2 — подтверждение (региональный сервер). Для отмеченных кандидатов пушите окно в 2–5 секунд в связку CNN + LSTM (или vision-трансформер), которая выдаёт интерпретируемый score аномальности и метку класса.
- Уровень 3 — проверка человеком (опционально). Если score выше порога — клип с ограничивающими рамками уходит в очередь оператора. По всему серьёзному решение всегда за человеком.
Уровень 1 снижает нагрузку на Уровень 2 в 30–100 раз. Уровень 2 снижает нагрузку на Уровень 3 в 10–50 раз. На реальных проектах с сотнями камер оператор получает примерно один значимый алерт в час.
1. Isolation Forest — отсев за доли миллисекунды
Что это. Ансамбль случайных бинарных деревьев. Чем меньше разбиений нужно, чтобы изолировать точку, тем выше её аномальность. Обучается только на «нормальных» данных, разметка не нужна.
Почему это важно для видеонаблюдения. Инференс — доли миллисекунды на обычных CPU, тянет векторы признаков размерности 50–500 (движение, оптический поток, число объектов), модель обновляется онлайн — можно переобучать ночью на последних 24 часах «нормы», не держа размеченный датасет. Это наша дефолтная модель отсева на Уровне 1 в стеке 2026 года.
В чём слабость. Не понимает пиксели. Если скормить ей сырые массивы изображений, она проиграет любой глубокой модели. Всегда работает в паре со стадией извлечения признаков.
Берите, когда: нужен префильтр с высокой полнотой на извлечённых признаках — счётчики объектов, векторы траекторий, тепловые карты загруженности. Рабочая лошадка Уровня 1.
2. One-Class SVM — аномалии в ограниченном пространстве признаков
Что это. Метод опорных векторов, обученный только на «нормальных» данных: строит границу в пространстве признаков. Всё, что вне границы, — аномалия.
Операционный приоритет: реальный риск — дрейф модели. Планируйте ежеквартальное переобучение с учётом освещения, погоды и сезонных паттернов.
Почему это важно для видеонаблюдения. Лучший выбор, когда «норма» узкая и хорошо определена: охраняемое помещение ночью, пустая производственная линия, конкретный маршрут транспорта. Ядровой SVM ловит нелинейные паттерны нормы, которые упустит Isolation Forest.
В чём слабость. Обучение плохо масштабируется выше ~50 тыс. примеров. Подбор гиперпараметров (ν, γ) чувствительный, и тюнить их на лету неочевидно.
Берите, когда: у вас стабильное, чётко очерченное определение нормы и менее 50 тыс. обучающих примеров — спецзоны с ограниченным доступом, оборудование, сборочные линии.
3. Свёрточные нейронные сети (CNN)
Что это. Основа современного компьютерного зрения. В видеонаблюдении CNN применяют в трёх ролях: детекция объектов (YOLOv10/11, RT-DETR), классификация (есть/нет нетипичный объект) и как экстракторы признаков для последующих моделей.
Почему это важно для видеонаблюдения. Любая семантически осмысленная аномалия — «человек в запретной зоне», «оставленный предмет», «появилось оружие» — лучше всего ставится как задача детекции/классификации объектов поверх CNN. YOLOv11 на FP16 даёт ~80 FPS на Jetson Orin Nano, так что edge-деплой реалистичен.
В чём слабость. CNN работают покадрово. Всё временное (слоняние, проход «на хвосте», аномальная траектория) требует последовательной модели сверху.
Берите, когда: аномалия семантическая и видна в одном кадре — детекция объектов, классификация, вторжение в зону, обнаружение оставленных предметов.
4. LSTM и временные трансформеры
Что это. Последовательные модели, которые принимают на вход ряд признаков (обычно эмбеддинги CNN покадрово) и выдают score аномальности на окно. В 2026 году трансформеры (TimeSformer, VideoMAE) обгоняют классические LSTM на бенчмарках, но LSTM всё ещё выигрывают там, где edge-деплой только на CPU.
Типичная ошибка: игнорировать объяснимость. В регулируемых отраслях карты внимания, ограничивающие рамки и журналы аудита — обязательны.
Почему это важно для видеонаблюдения. Большинство интересных аномалий — это временные паттерны: слоняние, движение в обратном направлении, проход «на хвосте», выбросы по времени пребывания, нетипичные потоки людей и транспорта. Одной CNN их не увидеть. LSTM/трансформер поверх признаков CNN — проверенный рецепт 2026 года.
В чём слабость. Обучающих данных по редким временным аномалиям мало. Часто нужна генерация синтетики — симуляторы, генеративная аугментация.
Берите, когда: аномалия живёт во времени — слоняние, проход «на хвосте», аномалии траекторий, выбросы по времени пребывания, нетипичная динамика толпы.
5. Автоэнкодеры — поиск аномалий на уровне пикселей без разметки
Что это. Нейросеть энкодер-декодер, обученная реконструировать «нормальные» кадры. Ошибка реконструкции — это и есть score аномальности. Варианты: вариационные автоэнкодеры (VAE) и ConvLSTM-автоэнкодеры (пространственно-временные).
Почему это важно для видеонаблюдения. Без разметки — никаких меток. Учится на часах «нормального» видео, а затем помечает всё, что не может реконструировать. Крайне полезно, когда заранее не известно, какие аномалии искать.
В чём слабость. Может слишком хорошо обобщать: если реконструирует всё подряд — реконструирует и аномалию. Лечится автоэнкодерами с памятью или GAN-вариантами.
Берите, когда: у вас много «нормального» видео, неизвестный словарь аномалий и нулевой бюджет на разметку. Классика для промышленного мониторинга и долговременного наблюдения за общественными пространствами.
6. K-Means — кластеризация поведения
Что это. Алгоритм кластеризации, разбивающий данные на K групп. Для детекции аномалий помечают точки, далёкие от любого центроида, или попавшие в крошечный изолированный кластер.
Почему это важно для видеонаблюдения. Дешёво, интерпретируемо и отлично подходит для кластеризации траекторий. «Нормальные» посетители торгового зала проходят по нескольким десяткам типовых маршрутов — траектория, не вписавшаяся ни в один кластер, заслуживает внимания.
В чём слабость. K нужно задавать заранее. Кластеры сферические — несферические распределения сбивают алгоритм с толку. Для пиксельных данных не подходит.
Берите, когда: траектории, паттерны загруженности или поведенческие векторы укладываются в небольшое число типовых режимов — ритейл, аэропорты, транспортные узлы.
7. Смеси гауссовских распределений (GMM)
Что это. Вероятностная модель, представляющая данные как смесь гауссовских распределений. Точки с очень низкой вероятностью под всеми компонентами — аномалии. Также широко применяется для вычитания фона в классических CV-пайплайнах.
Почему это важно для видеонаблюдения. Продакшен-стандарт для моделирования фона на сценах со стационарной камеры — MOG2/KNN в OpenCV — это GMM. Даёт пиксельные маски «здесь не должно быть этого», стабильные на статичной картинке.
В чём слабость. Движущиеся камеры, постепенный дрейф освещения, повторяющееся движение (листва, флаги). Нужна пара — компенсация движения или стек обученных признаков.
Берите, когда: видеонаблюдение со стационарных камер, где аномалия — это «что нового появилось в кадре»: припаркованные машины, оставленные предметы, вторжение в периметр.
Таблица сравнения алгоритмов
| Алгоритм | Для чего лучше | Задержка | Нужна разметка | Типичный FPR |
|---|---|---|---|---|
| Isolation Forest | Отсев по признакам (Уровень 1) | <1 мс CPU | Нет | 3–8% |
| One-Class SVM | Сцены с узкой нормой | 1–5 мс | Нет (только норма) | 2–6% |
| CNN (YOLO/RT-DETR) | Семантические покадровые аномалии | 12–80 FPS на edge | Да (рамки) | <1% (зрелая) |
| LSTM / трансформер | Временные аномалии | 5–20 мс GPU | Да (полная или слабая) | 1–3% |
| Автоэнкодер | Неизвестный словарь аномалий | 5–30 мс GPU | Нет | 3–10% |
| K-Means | Кластеризация траекторий | <1 мс CPU | Нет | 5–12% |
| GMM | Вычитание фона | <5 мс CPU | Нет | 2–8% |
Выбор алгоритма по варианту использования
- Периметр и зональное вторжение. YOLO-CNN детектор → Isolation Forest на признаках траектории для проверки времени пребывания.
- Оставленные предметы. Вычитание фона на GMM → CNN-классификация кандидата.
- Слоняние. CNN-детекция и трекинг → LSTM или временной трансформер на признаках треков.
- Аномалии в толпе (паника, драки, разворот потока). Автоэнкодер на плотном оптическом потоке плюс временной трансформер.
- Промышленность, конвейер, производственная линия. One-Class SVM на признаках, автоэнкодер на пикселях, supervised-CNN на известных дефектах.
- Анализ траекторий в ритейле. K-Means по траекториям людей плюс Isolation Forest на признаках корзины и времени пребывания.
Кейс: V.A.L.T. — исследовательская платформа видеонаблюдения
Задача. V.A.L.T. — платформа видеонаблюдения и записи в исследовательских кабинетах, развёрнутая более чем в 100 университетах и научно-медицинских учреждениях. Операторам нужны были автоматические алерты по аномалиям в сессии — посторонние в кабинете, нецелевое использование оборудования, нетипичное поведение участника — без потопа из ложных срабатываний.
Стек, который мы собрали. Уровень 1: фильтрация по движению и загруженности на GMM на edge-боксах записи. Уровень 2: CNN семейства YOLO для детекции людей и оборудования плюс компактная LSTM на траекториях детекций — для проверки времени пребывания и аномалий маршрута. Уровень 3: очередь оператора в веб-интерфейсе V.A.L.T. с разметкой клипа в один клик, которая возвращается в обучение.
Результат. Доля ложных срабатываний упала с ~11% до <1,2% за три месяца работы петли обратной связи с операторами. Среднее время выявления аномалии в сессии — с 45 минут ручного просмотра до ~9 секунд. Загрузка GPU на edge-боксах не превышала 30%, оставляя запас под дополнительную аналитику.
Есть кейс по детекции аномалий в видеонаблюдении?
Свяжитесь с нами — набросаем пайплайн Уровня 1 + Уровня 2 под топологию ваших камер и цену ошибки.
Деплой на edge и в облаке
Дефолт 2026 года — гибрид с приоритетом edge. Отсев на Уровне 1 (Isolation Forest, GMM, лёгкая CNN) крутится на самой камере либо на edge-боксе Jetson, Hailo или Ambarella. Глубокие модели Уровня 2 — на региональном сервере (on-prem или в VPC). Интерфейс оператора Уровня 3 — в облаке или on-prem, в зависимости от требований по приватности.
Конкретные edge-цели на 2026: Jetson Orin Nano (8–16 TOPS, около 18 750 ₽), Hailo-8 (26 TOPS, около 11 250 ₽), Ambarella CV5 в самой камере. Все они комфортно тянут малые варианты YOLOv10/11 в 720p при не менее 30 FPS.
Экономия трафика от отсева на edge ощутимая: в V.A.L.T. мы зафиксировали сокращение исходящего трафика на 78% по сравнению с полностью облачной обработкой.
5 продакшен-ловушек, которые мы устранили
- Обучение на чистых бенчмарках, деплой на грязных реальных потоках. UCSD Ped2 и ShanghaiTech хороши для статей — но это не ваша камера. Всегда собирайте неделю данных с площадки, прежде чем замораживать модель.
- Нет петли обратной связи к разметке. Операторы отбрасывают ложные срабатывания. Ловите эти отбрасывания и возвращайте их в обучение. Только это сократило FPR V.A.L.T. вдвое за 90 дней.
- Игнорирование концептуального дрейфа. Завод сменил смены, магазин — планировку — и ваша модель «нормы» сломалась. Запланируйте ночное переобучение на последних 7 днях.
- Один порог на все случаи. Один порог не может одновременно отвечать за «подозрительно» и за «вызывайте полицию». Используйте многоуровневые пороги с разными очередями просмотра.
- Не заложен бюджет на разметку. Продакшен-уровень CNN/LSTM пайплайнов требует 5–20 тыс. размеченных событий. Закладывайте 15–75 ₽ за событие и 6–12 недель на пропускную способность разметки.
Часто задаваемые вопросы
Какой алгоритм лучше для детекции аномалий в видеонаблюдении в реальном времени?
Одного алгоритма нет. Продакшен-паттерн 2026 года: Isolation Forest или GMM на edge для отсева Уровня 1, плюс CNN семейства YOLO и временной LSTM или трансформер для подтверждения Уровня 2. Пайплайны с одним алгоритмом либо заваливают операторов алертами (слишком чувствительные), либо пропускают реальные события (слишком консервативные).
Нужна ли разметка для обучения детектора аномалий?
Для Уровня 1 — нет. Isolation Forest, GMM, One-Class SVM и автоэнкодеры обучаются только на «нормальных» данных. Уровню 2 (семантическая детекция) для продакшен-точности обычно нужно 5–20 тыс. размеченных кадров или клипов. Заложите бюджет на разметку до того, как соглашаться на CNN-подход.
Вытесняют ли vision-трансформеры CNN в 2026 году?
На бенчмарках — да, для крупных моделей. В продакшен-видеонаблюдении CNN всё ещё доминируют: на edge-железе у них лучше скорость инференса и поддержка квантизации. Ожидайте, что трансформеры сначала возьмут уровень регионального сервера (Уровень 2), а затем перейдут на edge — по мере того, как edge-железо догонит их в 2027–28.
Какой целевой FPR закладывать?
Число задаёт толерантность оператора. Один оператор на 100 камер выдерживает примерно 1–2 алерта в час — дальше начинается усталость от уведомлений. Если модель генерирует 40 алертов на камеру в сутки — вы по сути производите шум. Для большинства задач видеонаблюдения целевой FPR на границе решения Уровня 2 — менее 1,5%.
Можно ли крутить всё это на камере?
Уровень 1 — да. Isolation Forest, GMM и лёгкие CNN комфортно укладываются на современные SoC-камеры (Ambarella CV5, HiSilicon) и edge-боксы класса Jetson. Уровень 2 (тяжёлая CNN плюс LSTM/трансформер) уютнее живёт на региональном сервере, особенно если на него заведено несколько камер. Лучший баланс стоимости и задержки в 2026 году: edge для Уровня 1, региональный сервер для Уровня 2.
А что с приватностью и регулированием?
Применяются GDPR, EU AI Act и законы о биометрии на уровне отдельных юрисдикций. Обработка на edge сильно упрощает комплаенс: сырое видео не покидает площадку, наружу уходят только метаданные алертов и короткие видеодоказательства. Если поток всё же должен выходить с площадки, делайте размытие лиц и номеров на edge. Держите политику хранения данных и DPA с каждым ML-вендором.
Сколько времени занимает создание продакшен-системы детекции аномалий?
MVP пайплайна на одной заранее определённой сцене: 6–10 недель. Продакшен-система для нескольких сцен и площадок с петлёй обратной связи и интерфейсом оператора: 4–6 месяцев. Самое долгое — сбор данных и разметка, а не работа над ML.
Итоги
Семь алгоритмов выше — это не рейтинг, а набор инструментов. Isolation Forest и GMM отсевают; One-Class SVM закрывает узко определённые сцены; CNN отвечают за семантику в кадре; LSTM и трансформеры — за временные паттерны; автоэнкодеры берут неизвестное; K-Means кластеризует поведение. Продакшен-вопрос звучит не как «какой выбрать?», а как «какой двухуровневый пайплайн собрать?» — и каждый серьёзный продукт видеонаблюдения, который мы выпускаем в 2026 году, объединяет быстрый отсев без разметки с глубоким семантическим подтверждением.
Инженерная реальность: модели — это 30% проекта. Данные, разметка, обратная связь от операторов, борьба с дрейфом и edge-деплой — остальные 70%. Закладывайте бюджет соответственно.
Готовы спроектировать AI-пайплайн для вашего видеонаблюдения?
Свяжитесь с нами — разложим пайплайн, бюджет на задержки, экономику разметки и edge-железо под ваши конкретные камеры и сценарии.
Читать дальше
Android и SDK
Лучшие Android SDK для приложений видеонаблюдения в 2026
Матрица решений по затратам, AI и комплаенсу — четыре трека.
Архитектура VMS
Масштабируемые системы управления видео в 2026
Пять инженерных решений, которые реально определяют масштаб VMS.
AI-видео
5 лучших AI-инструментов улучшения видео в 2026
Гайд по выбору с фокусом на пайплайн — задержки, SDK, стоимость.
Источники и материалы: бенчмарки аномалий UCSD Pedestrian и ShanghaiTech; документация поставщиков NVIDIA Jetson Orin, Hailo, Ambarella CV5; статьи по YOLOv10/11 и RT-DETR; данные внедрений V.A.L.T. компании Фора Софт (2020–2026, с разрешения клиента).
Нужна рука помощи в оценке для вашего роадмапа? Свяжитесь с нами — обсудим скоупинг в одном разговоре.
Матрица сравнения: разработать, купить, гибрид или open-source для ML-детекции аномалий в видеонаблюдении
Быстрая решётка для четырёх типовых путей в 2026 году. Берите строку, которая совпадает с размером команды, регуляторной нагрузкой и желаемым временем до результата — а не ту, что звучит амбициознее всего.
| Подход | Для кого | Трудозатраты | Время до результата | Риски |
|---|---|---|---|---|
| Купить готовый SaaS | Команды до 10 инженеров, типовой сценарий | Низкие (1–2 недели) | 1–2 недели | Привязка к вендору, ограничения кастомизации |
| Гибрид (SaaS плюс свой слой) | Средний бизнес, смешанные сценарии | Средние (1–2 месяца) | 1–3 месяца | Технический долг на стыке, две системы в обслуживании |
| Своя разработка (современный стек) | Корпорации, уникальные данные или комплаенс | Высокие (3–6 месяцев) | 6–12 месяцев | Скорость разработки, удержание специалистов |
| Open-source на своём хостинге | Когда важна стоимость, сильная техкоманда | Высокие (2–4 месяца) | 3–6 месяцев | Операционная нагрузка, обновления безопасности |
Ещё материалы Фора Софт
- AI-инструменты улучшения видео
- AI-распознавание эмоций в реальном времени
- Масштабируемые системы управления видео

