
Главное
• Универсальные алгоритмы детекции аномалий не работают в видеонаблюдении. Готовый isolation forest или one-class SVM, обученный на табличных данных, не выдерживает изменений освещения, погоды, перекрытий и смены ракурса камеры. В продакшене нужны фичевые пайплайны, заточенные под конкретный домен.
• У четырёх семейств алгоритмов очень разный профиль затрат. Статистические — дёшево, но хрупко. Дистанционные — дёшево, но без учёта времени. Реконструктивные — средне, нужны только нормальные данные. Последовательностные — дорого, зато улавливают временные паттерны. Выбирайте по своим данным и бюджету задержки.
• Доля ложных срабатываний — единственная операционная метрика, которая важна. Модель с полнотой 95 % и долей ложных срабатываний 30 % за две недели приучает операторов игнорировать оповещения. Сначала тюньте на точность, потом, когда появится доверие, поднимайте чувствительность.
• Детекция дрейфа (drift) — обязательна. Модели, обученные на летних записях, деградируют зимой; модели, обученные на фиксированном ракурсе, ломаются после поворота камеры. Мониторинг распределения уверенности модели ловит дрейф раньше пользователей.
• EyeBuild снизил долю ложных срабатываний на 73 % за 6 недель — целевой майнинг сложных негативов и временное сглаживание, чисто алгоритмическая работа без нового железа.
Почему этот плейбук написала Фора Софт
С 2005 года Фора Софт выпустила более 50 проектов по видеонаблюдению. EyeBuild — наш флагманский деплой системы детекции аномалий: автономные камеры на солнечной энергии с ИИ, охраняющие сотни строительных площадок, работают по 4G/5G и используют ансамбль YOLO + автоэнкодер прямо на устройстве. VALT обслуживает более 650 юридических организаций и обеспечивает поиск по событиям внутри записанных видео.
В 2024–2025 годах мы выпустили четыре продакшен-системы детекции аномалий и провели аудит ещё двух. Паттерны из этого руководства — из этих проектов и из открытых бенчмарков (UCF-Crime, ShanghaiTech, MVTec AD).
Если вы ML-инженер, CTO продукта в области видеонаблюдения или интегратор умных зданий и сейчас оцениваете внедрение детекции аномалий, это руководство подскажет, какое семейство алгоритмов подходит под ваш сценарий, какая архитектура переживает дрейф и где обычно ломаются проекты.
Нужна система детекции аномалий, которая действительно работает?
Пришлите нам описание парка камер, среды и целевых событий. За 48 часов вернёмся с одностраничным прогнозом по модели и архитектуре. Бесплатно.
Почему универсальная детекция аномалий не работает в продакшене
Универсальная детекция аномалий (sklearn IsolationForest на плоских табличных фичах) подходит для мошенничества с картами и серверных метрик. Для видео она не годится. Три причины:
1. Видео — это не табличные данные. Кадр — это 1920×1080×3 пикселя. Сначала модель должна спроецировать его в фичевое пространство: сырые пиксели, CNN-эмбеддинги, оптический поток, маски переднего плана, детекции объектов. Выбор фичевого пайплайна влияет на результат сильнее, чем выбор самого алгоритма детекции аномалий поверх него.
2. Норма нестационарна. Освещение, погода, время суток, сезон — «норма» в 6 утра летом — это не «норма» в 6 вечера зимой. Модели, обученные на статичном срезе, дрейфуют быстро. В продакшене нужны скользящие базовые линии или модели, обусловленные доменом.
3. Аномалии редкие и асимметричные. Настоящие аномалии (проникновение, падение, пожар) — это 0,001 % кадров. Доля ложных срабатываний даже 1 % даёт более 1000 оповещений в день на парке из 100 камер — операционно непригодно. Планка — точность, а не полнота.
Четыре семейства алгоритмов
| Семейство | Примеры | Стоимость инференса | Когда подходит |
|---|---|---|---|
| Статистические | Z-score, IQR, расстояние Махаланобиса | Микросекунды | Очень узкие фичи (гистограмма движения, яркость) |
| Дистанционные | kNN, LOF, isolation forest, one-class SVM | Миллисекунды | Эмбеддинги детекций, фичи на уровне кадра |
| Реконструктивные | Автоэнкодер, VAE, GAN, U-Net | Десятки мс (NPU 1-го уровня) | Пиксельные аномалии, не нужны размеченные негативы |
| Последовательностные | LSTM, Transformer, TimesNet, MAE-ST | Сотни мс | Поведенческие паттерны во времени |
Статистические методы. Дёшево, интерпретируемо, хрупко. Z-score по гистограммам движения ловит резкие изменения; расстояние Махаланобиса по небольшому вектору фич ловит многомерные выбросы. Используются как первичный фильтр перед более тяжёлым инференсом.
Дистанционные методы. Обучаются на эмбеддингах детекций (векторы фич на основе CNN) и помечают сэмплы, далёкие от обучающего распределения. Isolation forest — рабочая лошадка: быстрый, устойчивый, обучается только на нормальных данных. One-class SVM работает на меньших датасетах, но плохо масштабируется. Local Outlier Factor (LOF) справляется с разной плотностью данных там, где остальные пасуют.
Реконструктивные методы. Автоэнкодер учится сжимать и восстанавливать «нормальные» кадры; высокая ошибка реконструкции = аномалия. Обучается на неразмеченных нормальных записях — огромный плюс для видеонаблюдения, где размеченные аномалии редкость. Вариационные автоэнкодеры (VAE) и варианты на основе GAN дают лучшее качество ценой большего вычислительного бюджета.
Последовательностные методы. Улавливают временные паттерны — слоняющиеся люди, оставленные предметы, нетипичные траектории. Архитектуры LSTM и Transformer предсказывают следующий кадр; большая ошибка предсказания = аномалия. TimesNet и MAE-ST (masked autoencoder spatio-temporal) — state-of-the-art 2026 года на бенчмарках вроде UCF-Crime.
Берите дистанционные методы (isolation forest), когда: у вас есть эмбеддинги детекций из YOLO и нужен быстрый, устойчивый скоринг аномалий на edge-устройствах.
Берите реконструктивные методы (автоэнкодер), когда: размеченных аномалий мало или их совсем нет. Обучайтесь на нормальных записях; высокая ошибка реконструкции отметит ненормальные сцены.
Берите последовательностные методы (Transformer), когда: аномалия временная — слоняющиеся люди, оставленные предметы, нетипичные траектории. Тяжелее по вычислениям; обычно идёт как верификация на стороне облака.
Берите ансамбль (несколько семейств), когда: доля ложных срабатываний критична. Согласие двух независимых детекторов сильнее, чем любой из них по отдельности.
Что специфично именно для видео
Разделение переднего и заднего плана. Большинство алгоритмов детекции аномалий должны работать по переднему плану (двигающимся объектам), а не по всему кадру. Вычитание фона через MOG2 или специализированную сеть сегментации сокращает размер фичевого пространства на 90 % и значительно улучшает соотношение сигнал/шум.
Движение и аномалия — не одно и то же. Все аномалии связаны с движением; не каждое движение — аномалия. Идущий человек — это не аномалия; человек, перелезающий через забор в 3 ночи, — аномалия. Детектор должен учитывать движение в связке с контекстом (класс объекта + место + время), чтобы их различать.
Сдвиги по освещению, погоде и времени суток. Обучающие данные должны покрывать весь рабочий диапазон деплоя. Аугментируйте обильно — яркость, контраст, погодные оверлеи (дождь, туман), ИК и видимый спектр, золотой час. Доменная рандомизация распространяется и на синтетические данные, когда реального покрытия не хватает.
Инвариантность к ракурсу и зуму. Модель, обученная на одном ракурсе, ломается, когда камеру перемещают или меняют зум. Либо включайте геометрическую аугментацию в обучение (перспективные сдвиги, разный зум, варианты кадрирования), либо обучайте по одной модели на камеру с онлайн-адаптацией.
Эталонная архитектура
Рисунок 1. Продакшен-детекция аномалий — инференс на edge, edge-фильтр, верификация в облаке, разбор оператором, телеметрия и петля дообучения.
В архитектуре пять активных слоёв и одна петля дообучения. На edge работает облегчённая детекция (YOLO + автоэнкодер) на 30 fps. Edge-фильтр применяет порог уверенности и временное сглаживание (требует совпадения на 3 из 5 подряд идущих кадров перед оповещением). Облачный верификатор запускает более тяжёлый Transformer или Vision-Language Model на загруженных снимках, плюс корреляцию между камерами. Очередь оператора приоритезирует события с высокой уверенностью. Телеметрия отслеживает распределение уверенности по каждой камере и времени суток; пайплайн обучения принимает размеченные ложные срабатывания и каждую неделю запускает дообучение.
Пайплайн данных — разметка, аугментация, синтетика
Разметка. Активное обучение бьёт разметку в лоб. Модель предлагает кадры, в которых она не уверена; человек их размечает. Время разметки сокращается в 5–10 раз против случайного семплинга. CVAT, Roboflow Annotate и Label Studio поддерживают активное обучение в петле.
Аугментация. Яркость и контраст, погода (наложения дождя и тумана), перспективные сдвиги, размытие движения, имитация шума сенсора. Albumentations — рабочая лошадка среди Python-библиотек. Аугментируйте до 5–10-кратного объёма исходного датасета.
Синтетические данные. Unity, Unreal Engine, NVIDIA Omniverse и BlenderProc генерируют физически корректные синтетические записи видеонаблюдения. Используйте для покрытия редких событий (драки, кражи, пожар), где реальных записей мало. Доменная рандомизация позволяет аккуратно смешивать синтетику с реальными данными. SyntheticAIData и Datagen — это вендоры с готовыми синтетическими датасетами.
Майнинг сложных негативов. Самая высокорентабельная техника. Периодически забирайте ложные срабатывания из продакшена, размечайте их как «норму» и дообучайте модель. Это сдвигает решающую границу в нужную сторону. Снижение ложных срабатываний на 73 % в EyeBuild — почти полностью результат майнинга сложных негативов.
Контроль ложных срабатываний — единственная важная метрика
Модель с полнотой 95 % и долей ложных срабатываний 30 % за две недели приучает операторов игнорировать оповещения. Когда доверие потеряно, модель операционно мертва даже при полноте 99 %. Три приёма, чтобы прижать ложные срабатывания:
1. Пороги уверенности. Поднимайте порог по каждой камере на основе наблюдаемой доли ложных срабатываний. У камеры с большим числом ложных — более строгий порог; у камеры с низким — оставляйте чувствительность. Тюнинг по камерам выигрывает у глобального порога в 3–5 раз.
2. Временное сглаживание (3 из 5). Требуйте, чтобы детекция сработала на 3 из 5 подряд идущих кадров, прежде чем выдать оповещение. Артефакты на одном кадре (шум сенсора, кратковременное перекрытие) отсекаются. Добавляет 100–200 мс задержки и снижает ложные срабатывания на 60–80 %.
3. Корреляция между камерами. Проникновение по периметру должно быть видно с соседних камер. Детекция на одной камере без подтверждения с других понижается в приоритете. Это ещё уменьшает ложные срабатывания ценой небольшой потери полноты.
Детекция дрейфа и расписание дообучения
Модели, обученные на летних записях, деградируют зимой. Новые ракурсы камер, новые этапы стройки, новые типы машин — всё это незаметно подтачивает точность. Сигнал — сдвиг распределения уверенности модели со временем. Отслеживайте среднее и дисперсию уверенности по каждой камере в недельном разрезе; резкое падение или расширение распределения говорит о дрейфе.
Расписание дообучения. Стабильный продакшен — раз в месяц на свежей партии сложных негативов. Новый деплой или смена окружения — раз в неделю первые 2 месяца, затем раз в месяц. Инфраструктура дообучения должна быть автоматизирована — ручные циклы отстают от дрейфа.
Canary-деплой. Новая модель уходит на 5 % камер; в течение 7 дней мониторите долю ложных срабатываний, полноту на размеченной валидационной выборке и распределение уверенности. Если всё чисто, ракатываетесь до 25 % и далее до 100 %. Всегда держите предыдущую версию модели на диске для отката.
Модель детекции аномалий выдаёт ложные срабатывания?
Пришлите нам двухнедельную выборку продакшен-данных. За 5 рабочих дней мы найдём корневую причину ложных срабатываний и предложим план исправления. Бесплатно.
Реальные бенчмарки — UCF-Crime, ShanghaiTech, EyeBuild
UCF-Crime. Открытый бенчмарк с 13 классами аномалий (насилие, арест, поджог, нападение, ДТП, кража со взломом, взрыв, драка, дорожная авария, ограбление, стрельба, магазинная кража, кража, вандализм). 1900 обучающих видео, 290 тестовых. State-of-the-art по AUC на уровне кадра в 2026 году — около 88–90 %; слабосупервизорные методы — около 84–86 %.
ShanghaiTech Campus. 437 видео с 13 фиксированных камер на университетском кампусе. Классы аномалий: катание на скейте, езда на велосипеде, прыжки, драки. State-of-the-art по AUC на уровне кадра в 2026: ~95 %.
MVTec AD. Промышленный датасет с дефектами (15 категорий, 5354 изображения). Не видео, а одиночные изображения — полезен для бенчмаркинга автоэнкодеров. PaDiM, PatchCore и EfficientAD в 2026 году выбивают по AUROC более 99 % на изображениях.
Наши данные по EyeBuild (под NDA, обезличенные). Около 220 камер на 18 строительных площадках. До тюнинга: точность 28 % при полноте 80 % на детекции проникновений в нерабочее время. После тюнинга (майнинг сложных негативов + временное сглаживание): точность 73 % при полноте 78 % — улучшение в 2,6 раза в категориях, где важно доверие оператора, при минимальной потере полноты.
Своя разработка или готовое решение
Предобученные модели в коммерческих камерах (Axis, Hanwha, Avigilon). Привязаны к железу и вендору, нормально справляются с базовой детекцией людей и машин. Спотыкаются на вертикально-специфичных событиях (соблюдение СИЗ, цепочка хранения вещдоков, поведение строительной техники).
Облачные API (AWS Rekognition, Google Cloud Vision). Просто стартовать; стоимость становится определяющей при масштабе парка (см. наш гид по edge AI). Только базовая детекция; никакой вертикальной специализации.
Open-source-модели и предобученные веса. YOLO26, MMDetection, библиотека anomalib — отличные стартовые точки. Нужен файнтюнинг на ваших доменных данных и MLOps для поддержки.
Кастомная разработка. Это правильный выбор, когда: (а) у вас есть доменно-специфичная модель аномалий, которой нет в готовых продуктах; (б) комплаенс или требования к локализации данных требуют инференса on-prem или в вашем VPC; (в) масштаб парка делает инвестиции в инженерию оправданными.
Мини-кейс — EyeBuild снизил ложные срабатывания на 73 %
EyeBuild ставит ИИ-камеры на солнечных батареях на стройках — uplink по 4G/5G, проводного интернета нет, инференс должен идти прямо на устройстве. Изначальная продакшен-модель (YOLOv8n + простой порог уверенности) выдавала примерно 120 событий на площадку за ночь. Операторы фиксировали более 70 % ложных срабатываний — в основном белки, еноты, развевающиеся тенты, фары проезжающих машин.
Шестинедельная работа. Недели 1–2: подключили в продакшене телеметрию по распределению уверенности на каждой камере. Недели 3–4: спринт по майнингу сложных негативов — собрали 2800 снимков ложных срабатываний, разметили как «норму» и дообучили YOLO с focal loss. Неделя 5: добавили временное сглаживание (совпадение на 3 из 5 кадров). Неделя 6: запустили canary-деплой на 12 площадок и далее раскатали до 100 %.
Результат. Число событий на площадку за ночь упало с ~120 до ~32; точность поднялась с 28 % до 73 %; полнота осталась 78 % (потеряли 2 процентных пункта). Субъективная оценка доверия операторов выросла с 2,4/5 до 4,2/5. Хотите похожий аудит на своём парке камер? Позвоните нам.
Как выбрать алгоритм за пять вопросов
В1. Есть ли у вас размеченные аномалии? Нет: реконструкция (автоэнкодер). Да, но мало: слабосупервизорные методы. Да, много: супервизорный классификатор.
В2. Аномалия временная? Покадровые аномалии (нарушитель, видимый в момент X): автоэнкодер или дистанционные методы. Эволюционирующие во времени аномалии (слоняющиеся люди, оставленные предметы): последовательностные.
В3. Бюджет задержки? <10 мс: статистические или дистанционные. 10–100 мс: автоэнкодер или неглубокий Transformer. >100 мс: полный Transformer или VLM в облаке.
В4. Инференс на edge или в облаке? Edge (NPU 1-го уровня): автоэнкодер или дистанционные. Облако: ансамбль из полного Transformer и VLM.
В5. Профиль дрейфа? Стабильная сцена, фиксированная камера, предсказуемое освещение: проще модели справляются. Улица, разные сезоны, мобильная камера: вкладывайтесь в петлю дообучения, чувствительную к дрейфу.
Подводные камни
1. Оптимизировать полноту до того, как поднимется точность. Полнота звучит важно, но операторов держит в работе именно точность. Сначала тюньте на точность; чувствительность повышайте, когда появится доверие.
2. Обучение на одной камере и деплой на много. Модели, обученные на одном ракурсе, не работают на других. Либо включайте многоракурсные данные в обучение, либо обучайте по одной модели на камеру с онлайн-адаптацией.
3. Нет мониторинга дрейфа. Без отслеживания распределения уверенности вы узнаете о деградации модели только по жалобам клиентов. Заложите телеметрию с первого дня.
4. Пропуск временного сглаживания. Покадровые детекции шумные. Требуйте согласия по нескольким кадрам (3 из 5) перед оповещением; ложные срабатывания сократятся на 60–80 % при незначительной потере полноты.
5. Забыть про приватность и GDPR. Детекция аномалий часто связана с захватом лиц или профилированием поведения. С первого дня планируйте редактирование PII прямо на устройстве, режим работы с биометрией по статье 9 GDPR (особая категория данных) и правила хранения.
Какие KPI измерять
KPI качества. Точность (цель: >70 % до появления доверия, >85 % после). Полнота (цель: >75 % по критичным событиям). Доля ложных срабатываний на камеру в день (цель: <3). AUC на валидационной выборке (цель: >0,85).
Бизнес-KPI. Доля разобранных оператором оповещений (% оповещений, разобранных в рамках SLA). Число ложных срабатываний по жалобам клиентов. Среднее время обнаружения критичных событий.
KPI надёжности. Сигнал дрейфа модели (изменение средней уверенности неделя к неделе >5 % — триггер оповещения). Успешность OTA-деплоя моделей (цель: 99,8 %). Задержка инференса p99 (цель: <50 мс на edge 1-го уровня).
FAQ
Isolation forest или one-class SVM — что лучше?
Isolation forest лучше масштабируется и быстрее обучается на больших датасетах (миллионы сэмплов). One-class SVM даёт более высокую точность на маленьких датасетах, но деградирует на объёмах больше 50 тыс. сэмплов. Для видеонаблюдения по умолчанию берите isolation forest, если ваш обучающий набор не меньше 5 тыс.
Можно ли использовать Vision-Language Model (GPT-4V, Gemini) для детекции аномалий?
Да, для верификации в облаке. Отправьте помеченный кадр в GPT-4V с промптом — «Этот человек делает что-то необычное?» — и используйте ответ как второе мнение. Добавляет 1–3 секунды задержки и поэтапную стоимость; используйте только на событиях, помеченных на edge, а не на каждом кадре.
Сколько занимает обучение кастомной модели?
С нуля на ваших данных: 6–10 недель. Файнтюнинг предобученных YOLO + автоэнкодер под ваш домен: 2–3 недели. Продакшен-деплой с мониторингом и петлёй дообучения: добавьте 4–6 недель. Быстрее — за счёт переиспользования паттернов нашего Agent Engineering из EyeBuild и VALT.
Какой объём датасета нужен?
Для автоэнкодера: 50–100 часов нормальных записей, покрывающих все условия (день/ночь/погода). Для супервизорной модели: 500+ размеченных примеров аномалий на класс. Аугментация увеличивает объём в 5–10 раз. Синтетические данные закрывают пробелы по редким событиям.
Соответствуют ли системы детекции аномалий требованиям GDPR?
Если они захватывают лица или биометрию, применяется статья 9 GDPR (особая категория данных). Меры: редактирование PII прямо на устройстве (размытие лиц до того, как кадр уйдёт с камеры), минимизация данных (отправляйте события, а не сырые кадры), ограничения хранения, DPIA. Если система используется для мониторинга на рабочем месте, может также применяться классификация уровня риска по EU AI Act.
Что такое anomalib и стоит ли его брать?
anomalib — это open-source-библиотека от Intel/OpenVINO с реализациями PaDiM, PatchCore, EfficientAD и других SOTA-алгоритмов детекции аномалий. Отлично подходит для промышленной детекции дефектов (в стиле MVTec AD) и хорошая стартовая точка для подходов с автоэнкодерами в видеонаблюдении.
Может ли инференс на edge тянуть детекцию аномалий на 30 fps?
Да — на NPU 1-го уровня (Hailo-8, Jetson Orin Nano, Coral). YOLO26 + лёгкий автоэнкодер дают 30 fps на 1080p при энергопотреблении менее 10 Вт. Железо 2-го и 3-го уровня требует пропуска кадров или меньших моделей.
Как оценить, какой вендор детекции аномалий лучше?
Запустите 4-недельный пилот с двумя-тремя финалистами на ваших реальных записях. Меряйте точность и полноту на вашей размеченной валидационной выборке, долю ложных срабатываний за 2 недели в продакшене и поведение модели при дрейфе условий. Бенчмарки вендоров на их собственных данных не переносятся на ваши.
Что почитать дальше
Edge AI
Edge AI для видеонаблюдения
Парный гид по уровням железа и развёртыванию.
AI
ИИ-система детекции аномалий
Более ранний обзор той же темы на верхнем уровне.
VMS
Видеоаналитика и наблюдение
Куда уходят события аномалий после детекции.
Архитектура
Масштабируемый дизайн VMS
Архитектура VMS для парков камер.
AI Infra
MCP для видеоприложений
Как добавить слой LLM-агента поверх событий детекции.
Готовы запустить детекцию аномалий, которой будут доверять операторы?
Универсальные алгоритмы не работают на видео. У четырёх семейств — статистических, дистанционных, реконструктивных, последовательностных — очень разные профили по затратам и точности. Выбирайте по своим данным и бюджету задержки; для контроля ложных срабатываний рассмотрите ансамбль.
В первые 90 дней точность важнее полноты. Майнинг сложных негативов и временное сглаживание стабильно срезают ложные срабатывания на 60–80 % в продакшене. Детекция дрейфа обязательна. Петля дообучения должна быть автоматизирована — ручные циклы отстают от реального дрейфа.
Хотите шестинедельный план улучшения детекции аномалий?
Пришлите нам описание парка камер, текущую модель и долю ложных срабатываний. За 5 рабочих дней вернёмся с планом повышения точности. Бесплатно.

