7 лучших моделей для обнаружения аномалий в видеонаблюдении в 2026 году

Топ-7 моделей детекции аномалий для видеонаблюдения в 2026 году — обложка

Главное

• В продакшене работают семь семейств моделей. Свёрточные автоэнкодеры, двухпотоковые сети с оптическим потоком, 3D CNN, ConvLSTM, слабо контролируемый MIL (RTFM), самообучающиеся трансформеры (MAE-DFER) и vision-language модели на базе CLIP (AnomalyCLIP, LAVAD).

• В 2024–2026 годах VLM и самообучающиеся трансформеры значительно повысили точность распознавания. AnomalyCLIP и BERT+RTFM показывают около 90% AUC на UCF-Crime и около 98% на ShanghaiTech — без покадровой разметки.

• Edge-развёртывание — не опция, а обязательное условие. Чистые облачные архитектуры не соответствуют SLA по задержке менее 200 мс, которые требуются диспетчерским службам, и сильно усложняют соблюдение требований GDPR и EU AI Act.

• Лабораторный AUC завышает реальную точность на 10–15 пунктов. Главный показатель в продакшене — не цифра на UCF-Crime, а доля настоящих срабатываний от общего числа алертов.

• В реальных сборках объединяют три-четыре модели из семи. Стек YOLO + автоэнкодер + VLM с голосованием «два из трёх» снижает число ложных срабатываний вдвое по сравнению с любой одной моделью.

Зачем Фора Софт написала этот плейбук

Мы разрабатываем решения для видеонаблюдения и ИИ в мультимедиа с 2005 года. Обнаружение аномалий — ключевой элемент почти каждого современного проекта, который мы реализуем: запись судебных заседаний, медицинские тренинги, защита от краж в ритейле, охрана периметра. И вопрос какую модель выбрать наши инженеры чаще всего обсуждают с клиентами ещё на этапе определения задач.

Наша платформа V. A. L. T. обрабатывает неограниченное количество одновременных HD-потоков в комнатах полицейских допросов и медицинских учебных центрах, а детекция аномалий работает параллельно со слоем записи. Инженерные решения — что детектировать, как, где запускать и как избежать ложных срабатываний в судебных материалах — напрямую зависят от семи семейств моделей ниже.

Этот плейбук — концентрат разговора о выборе модели: какие семь моделей детекции аномалий действительно заслуживают места в стеке, когда каждая из них уместна, на какие бенчмарки можно опираться и как собрать стек, который работает в продакшене, а не только на лидерборде.

Выбираете модель детекции аномалий для своей системы?

30 минут с senior-инженером, у которого за плечами AI-видеонаблюдение в залах суда, больницах и ритейле. Расскажите про сценарии, SLA и задачу — вернёмся с тем, что построили бы мы.

Позвоните нам → Напишите нам →

Как выбрать модель в 2026 году — четыре главных фактора

Прежде чем выбирать конкретную модель, ответьте на четыре вопроса. Всё, что идёт ниже в статье, — это следствие этих ответов.

Есть ли у вас разметка? Если разметки нет совсем — ваш путь к свёрточным автоэнкодерам или VLM. Разметка на уровне видео («в этом ролике есть драка») открывает путь к слабо контролируемым MIL-методам вроде RTFM. Покадровая разметка позволяет использовать полностью управляемые подходы, но в реальных проектах встречается редко.

Какой бюджет по задержке? До 200 мс (полицейская диспетчеризация, автоматический отклик) требует вычислений на edge и лёгких архитектур. Выше 500 мс (оповещение оператора, анализ после события) можно использовать трансформеры и VLM.

Аномалии — событийные или сценовые? Событийные аномалии (драка, бег, падение) хорошо распознают 3D CNN и двухпотоковые сети с оптическим потоком. Сценовые (праздношатание, посторонние предметы, оставленные сумки) лучше выявляет комбинация детектора объектов и реконструкции.

Сколько локаций придётся покрыть? Одна фиксированная камера выигрывает от автоэнкодера, обученного под конкретную сцену. SaaS для разных локаций требует обобщения — VLM, трансформеры или ансамбль с доменной адаптацией.

Модель 1 — свёрточные автоэнкодеры (базовый подход без учителя)

Свёрточный энкодер сжимает каждый кадр до компактного латентного кода, а декодер восстанавливает кадр по этому коду. Обучайте модель только на «нормальных» видео — всё, что плохо восстанавливается, считается аномалией. Разметка не требуется, модель небольшая, а время работы — 15–30 мс на Jetson Nano.

Сильные стороны: самый быстрый способ настроить детектор для конкретной сцены с одной фиксированной камерой. Ограничения: предел точности — около 70–80% AUC на бенчмарках с реальными данными; чувствителен к изменениям освещения и погодных условий; пропускает тонкие аномалии, на которые не реагирует потеря реконструкции.

Берите свёрточный автоэнкодер, когда: у вас одна камера, разметки нет, а базовую модель нужно запустить уже на этой неделе — при двух неделях качественной записи.

Модель 2 — двухпоточные сети с оптическим потоком

Параллельно работают две CNN: одна анализирует сырые RGB-кадры (внешний вид), вторая — оптический поток между кадрами (движение). Потоки объединяются на этапе финального предсказания. Классический подход позволяет выявлять аномалии, связанные с движением — например, бег, драки, скопление людей, движение против потока, — которые покадровые методы не замечают.

Сильные стороны: отлично справляется с движенческими аномалиями, даёт независимый сигнал, который повышает точность ансамбля на 5–8 пунктов. Ограничения: расчёт оптического потока занимает 20–40 мс на кадр; не работает на PTZ-камерах и при очень быстром движении.

Берите двухпотоковую сеть с оптическим потоком, когда: важные аномалии связаны с движением, а камеры неподвижны.

Модель 3 — 3D CNN и SlowFast (пространственно-временные)

Здесь 2D-свёртки заменяются на 3D, которые охватывают и пространство, и время. Модели C3D, I3D и SlowFast улавливают, как развивается действие — например, нарастание драки или затухание падающего объекта — то, что покадровые подходы не замечают. I3D, предобученный на датасете Kinetics, до сих пор остаётся основным инструментом для извлечения признаков в современных слабо контролируемых методах.

Сильные стороны: хорошо справляется с аномалиями в событиях, надёжная основа для последующих MIL-методов. Ограничения: инференс возможен только на GPU, обработка клипа из 8 кадров занимает 200–400 мс, обучение требует значительных затрат.

Берите 3D CNN, когда: аномалии происходят эпизодически, на этапе инференса доступен GPU, а короткие окна длительностью 3–10 секунд охватывают нужные события.

Модель 4 — ConvLSTM (рекуррентная реконструкция видео)

Свёрточный энкодер передаёт данные в LSTM, который учится предсказывать следующий кадр; ошибка реконструкции или предсказания указывает на аномалию. Такой подход занимает промежуточное положение между простыми автоэнкодерами и полноценными 3D CNN — он дешевле, чем 3D-сети, но лучше учитывает временные зависимости, чем покадровые методы.

Сильные стороны: хорошо подходит для постоянного мониторинга видео на edge-устройствах с GPU (например, Jetson Orin NX); справляется с клипами продолжительностью от 5 до 30 секунд. Ограничения: хуже работает на реальных, «диких» данных, чем трансформеры; плохо масштабируется при увеличении контекста — эффективно обрабатывает лишь несколько десятков кадров.

Берите ConvLSTM, когда: нужно моделировать последовательности на edge-устройствах с GPU, но без полной стоимости 3D CNN.

Модель 5 — слабо контролируемый MIL (RTFM, MIST, S3R)

Multiple Instance Learning рассматривает каждое видео как «мешок» с общей меткой — аномалия или норма; отдельные кадры получают эту метку с определённой вероятностью. RTFM (ICCV 2021) внедрил устойчивое обучение по величине временных признаков с использованием self-attention и до сих пор остаётся эталоном SOTA: около 84,3% AUC на UCF-Crime и 97,2% на ShanghaiTech с признаками I3D. Вариант с BERT повышает результат на ShanghaiTech до ~98,5%.

Сильные стороны: высокая точность без покадровой разметки — достаточно аннотаций на уровне видео. Ограничения: 6–8 ГБ видеопамяти при обучении, зависимость от предметной области (модель, обученная на ShanghaiTech, плохо работает в ритейле или на парковках).

Берите RTFM/МИЛ, когда: у вас есть разметка на уровне видео («в этом ролике есть драка»), GPU-ресурсы и события с аномалиями.

Модель 6 — самообучающиеся трансформеры (MAE-DFER, ViViT, TimeSformer)

Сначала трансформер обучают на десятках тысяч неразмеченных клипов с помощью маскированного автокодирования, а затем дообучают на меньшем размеченном наборе данных. Переломный момент 2024–2026 годов: резко снизились требования к размеченным данным, выросла точность в реальных условиях и появилась возможность интерпретировать работу модели с помощью карт внимания. ViViT и TimeSformer используют раздельное пространственно-временное внимание, чтобы эффективно обрабатывать длинный контекст.

Сильные стороны: высокая точность на сложных бенчмарках реального мира; предобучение снижает зависимость от разметки. Ограничения: время вывода — 300–800 мс, требуется GPU, интерпретация сложнее, чем у CNN+LSTM.

Берите самообучающиеся трансформеры, когда: точность в реальных условиях — главный показатель эффективности, на инференсе есть GPU, а размеченных данных мало.

Модель 7 — vision-language модели (AnomalyCLIP, LAVAD, VadCLIP)

Методы на базе CLIP обучаются создавать совместный визуально-языковой эмбеддинг, а аномалии можно описывать на естественном языке. AnomalyCLIP сейчас лидирует на UCF-Crime с ~90,32% AUC и на ShanghaiTech с ~93,5% — при этом используется разметка только на уровне клипа. LAVAD работает полностью в zero-shot режиме. VadCLIP++ входит в топ на XD-Violence с ~90,5% AP. Самые свежие модели (Holmes-ВАД, VERA) генерируют текстовые объяснения для каждого алерта — это важный плюс при проведении комплаенс-аудитов.

Сильные стороны: работает в разных локациях, распознаёт новые типы аномалий без переобучения, выдаёт понятные предупреждения. Ограничения: самый высокий расход ресурсов на обработку (80–300 мс на кадр на современной GPU), часто требует локального размещения, чтобы кадры не передавались через сторонние API из соображений конфиденциальности.

Берите VLM для детекции аномалий, когда: нужна работа с разными локациями, понятные уведомления или запросы на аномалии в текстовом виде.

Семь моделей в одной сравнительной таблице

Модель	Нужна разметка	UCF-Crime / ShTech	Задержка	Где сильнее всего
Свёрточный автоэнкодер	Не нужна	~70–80% AUC	15–30 мс	Одна фиксированная камера, без разметки
Двухпотоковая сеть с оптическим потоком	Покадровая или на уровне видео	~78–85% AUC	+30–60 мс к RGB	Движенческие аномалии
3D CNN / SlowFast	Покадровая или на уровне видео	~80–88% AUC	200–400 мс	Событийные аномалии
ConvLSTM	Не нужна / на уровне видео	~78–85% AUC	100–300 мс	Последовательное моделирование на edge
Слабо-контролируемый MIL (RTFM)	Только на уровне видео	~84,3% / 97,2% AUC	80–150 мс	Есть разметка на уровне видео
Самообучающийся трансформер	Мало разметки	~85–95% AUC	300–800 мс	Максимум точности в реальных условиях
VLM (AnomalyCLIP, LAVAD)	Не нужна / на уровне клипа	~90,3% / 93,5% AUC	80–300 мс	Разные локации, объяснимость

Цифры в таблице — это консервативные опубликованные результаты с лидербордов; в продакшене на вашей локации обычно получается на 5–15 пунктов ниже. Используйте таблицу как относительный порядок, а не гарантию.

Бенчмарки, которым стоит доверять в 2026 году

UCF-Crime. 13 типов преступлений, 128 часов видео, разметка на уровне видео. AnomalyCLIP с ~90,3% AUC — текущий SOTA; реальные рабочие развертывания показывают 75–85%.

ShanghaiTech Campus. 13 сценариев на территории кампуса с покадровой разметкой. BERT+RTFM показывает результат около 98,5% — это верхний предел; AnomalyCLIP достигает примерно 93,5%, при этом требуя значительно меньше контроля.

XD-Violence. Только сцены насилия с синхронизированным звуком; VadCLIP++ занимает первое место с AP около 90,5%. Подходит для тестирования мультимодальных детекторов.

Avenue. Пешеходы праздно шатаются и движутся против потока; SOTA в районе 88–90%. Подходит для бенчмарков с толпами низкой плотности.

MSAD (2024). 14 разнородных сцен, специально отобранных для проверки способности моделей обобщать на новых локациях. Честный стресс-тест: методы, показывающие 95% точность на ShanghaiTech, часто падают до середины 80-х на MSAD.

Почему в продакшене собирают ансамбль из трёх-четырёх моделей

Ни одна модель не работает одинаково хорошо на всех типах сцен, при любом освещении и для всех видов аномалий. В продакшен-стеке, который мы внедряем, обычно комбинируют YOLO-подобный детектор объектов — для понятных алертов по зонам, свёрточный автоэнкодер — чтобы находить новые аномалии, которых раньше не было в размеченных данных, и либо MIL-модель в стиле RTFM, либо VLM — чтобы лучше обобщать между разными локациями.

Смысл не в том, чтобы выбрать модель с самым высоким AUC и остановиться на ней — важно собрать правильный набор моделей и держать число ложных срабатываний ниже двух на камеру в день. Консенсус «2 из 3» по трём семействам моделей обычно снижает ложные срабатывания вдвое по сравнению с лучшей одиночной моделью — за счёт задержки 30–80 мс. Для диспетчерских сценариев это компромисс, который мы почти всегда рекомендуем.

Edge или облако — где эти модели действительно работают

В 2026 году архитектура по умолчанию — edge-first. Задержка от камеры до алерта на Jetson Orin NX с правильно скомпилированной моделью составляет 40–80 мс; та же нагрузка на чисто облачной архитектуре (RTSP → кодировщик → облачный инференс) даёт 500–2000 мс, если честно измерять сетевой round-trip. Полицейская диспетчеризация и автоматические триггеры замков и дверей требуют задержки менее 200 мс — чисто облачная схема не укладывается в SLA.

Edge-инференс также сжимает полосу с 4–8 Мбит/с на 1080p-поток до 50–200 Кбит/с метаданных — и именно это определяет, хватит ли канала для развёртывания на 200 камер. И это меняет разговор по GDPR и EU AI Act: вместо «объясните, как обрабатываются данные» — «сырые кадры не покидают устройство». Это самое чистое с точки зрения комплаенса положение из возможных.

Нужен архитектурный ревью текущего стека моделей?

Мы проводим двухнедельные аудиты: выявляем основные причины ложных срабатываний и предлагаем замену модели, которая обеспечит наибольший рост точности при минимальных затратах на разработку.

Позвоните нам → Напишите нам →

На каком железе эти модели работают в продакшене

Реалистичные пары «семейство моделей — железо»:

Jetson Orin Nano Super (18 600 ₽, 67 TOPS). Обрабатывает свёрточные автоэнкодеры, детекторы объектов типа YOLO и квантованные ConvLSTM для 1–3 камер. Подходит как базовая платформа для бюджетного SaaS-видеонаблюдения.

Jetson Orin NX (44 900 ₽, 100 TOPS). Удобная платформа для RTFM с поддержкой I3D, двухпоточных сетей с оптическим потоком и квантованных трансформеров, способных к самообучению. Поддерживает 3–5 камер.

Jetson AGX Orin (149 900 ₽, 275 TOPS). Подходит для VLM-нагрузок (AnomalyCLIP, LAVAD) на edge-устройствах или в кластерах из 10+ камер с полными ансамблями моделей.

Hailo-8 (M.2, ~11 100–14 900 ₽, 26 TOPS, <3 Вт). Подходит для безвентиляторных смарт-камер при массовом производстве; уверенно справляется с YOLO и квантованными автоэнкодерами.

Тактики снижения ложных срабатываний, которые работают

Какую модель ни возьми, лабораторный AUC в продакшене будет ниже на 10–15 пунктов. Пять тактик, которые надёжно закрывают этот разрыв:

1. Temporal smoothing. Применяйте экспоненциальное скользящее среднее за 3–5 секунд к значению аномалии до срабатывания триггера. Это устраняет 30–50% покадровых выбросов, но добавляет задержку в 50–100 мс.

2. Маскирование зон интереса (ROI). Скрывайте отражения, движение деревьев, вывески и тени от оборудования HVAC. Это снижает количество ложных срабатываний на открытых участках на 40–60% при настройке одной камеры за пять минут.

3. Консенсус нескольких моделей. Требуйте согласия двух из трёх моделей перед срабатыванием. Примерно вдвое снижает ложные срабатывания при трёхкратном вычислении на инференсе.

4. Пороги, настраиваемые оператором. Слайдеры чувствительности для смены обычно переопределяют глобальные настройки по умолчанию. Ночная смена может использовать другие значения, чем дневная — и это нормально.

5. Маршрутизация по классу сцены. Отдельная модель для каждого класса сцены (парковка, коридор, ритейл, периметр) даёт прирост AUC на 5–10% по сравнению с единой универсальной моделью.

Комплаенс — EU AI Act, BIPA, GDPR

Детекция аномалий, использующая биометрию (распознавание лиц, анализ походки, оценка позы), по EU AI Act относится к категории высокого риска, и требования к ней вступают в силу с августа 2026 года. Небиометрическая детекция аномалий (например, праздношатание, плотность толпы, выход за границы зоны, нестандартное движение) не попадает в эту категорию — именно поэтому большинство наших продакшен-решений намеренно остаются в ней.

Иллинойсский закон BIPA предусматривает гражданские штрафы за каждое нарушение при обработке биометрических данных без явного письменного согласия; правильным решением является ML-маршрутизация с учётом юрисдикции, отключающая функции распознавания лица, позы и походки в штатах, где действует BIPA. Статья 9 GDPR относит биометрию к специальной категории персональных данных — в этом случае оптимальным подходом станет edge-обработка плюс проведённый и задокументированный Data Protection Impact Assessment.

Мини-кейс — стек детекции аномалий V. A. L. T.

V. A. L. T. работает в залах судебных заседаний, медицинских учебных центрах и комнатах допросов правоохранительных органов. Ограничения здесь серьёзные: поддержка неограниченного числа одновременных HD-потоков, идеальная синхронизация аудио и видео (даже полусекундный рассинхрон может подорвать вещественное доказательство в суде), шифрование по протоколам SSL и RTMPS, ролевой доступ и выгрузка данных с соблюдением цепочки хранения (chain-of-custody).

Наш стек детекции аномалий на V. A. L. T. объединяет три семейства из семи: детектор объектов на базе YOLO для правил по зонам и поведению (интерпретируемый для прокуроров), свёрточный автоэнкодер под конкретную сцену для выявления новых аномалий, обученный на двух неделях нормальной записи с каждой камеры, и квантованный MIL-детектор на базе RTFM для событийных аномалий, по которым есть разметка на уровне видео. Голосование «два из трёх» и временной сглаживатель на 2 секунды формируют входные данные для интерфейса оператора.

Результат, который важен клиентам на практике: количество ложных срабатываний снизилось с десятков в день на одну камеру до менее чем двух, при этом точность распознавания действительно значимых событий — таких как потеря сознания, посторонний вход или физическая агрессия — осталась выше 90%. Система прошла аудит для использования в суде, поскольку в метаданных каждого алерта указано, какая модель сработала и какие признаки она учла.

Хотите такой же аудит на своём стеке? Позвоните нам по номеру +7 (911) 236-51-91 или напишите на info@fora-soft.ru — разберём, куда уходит ваш бюджет на ложные срабатывания.

KPI — и пороги, которые действительно важны

KPI качества. Доля обнаружения аномалий — выше 85% на репрезентативных для локации примерах. Ложных срабатываний — не более двух на камеру в день. Покадровый F1 — выше 0,85 на собственной валидационной выборке. Доля подтверждённых оператором оповещений — выше 80%.

Бизнес-метрики. Стоимость одного корректного срабатывания — менее 37 ₽. Время до уведомления — менее 200 мс для оперативного реагирования. Снижение трафика на 90% и более по сравнению с прямым стримингом. Стоимость одной камеры в месяц — от 975 до 2 250 ₽ при разумной edge-ориентированной архитектуре.

KPI надёжности. Аппаратный MTBF превышает 2 000 часов. Дрейф AUROC модели не превышает 5 процентных пунктов за 30 дней. Аптайм edge-устройства — выше 99,5%. Время восстановления отказавшего edge-узла — менее 15 минут.

Фреймворк выбора — модель за пять вопросов

1. Сколько у вас разметки? Нет совсем → автоэнкодер или VLM. Только на уровне видео → RTFM/МIL. Покадровая → управляемый CNN+LSTM или трансформер.

2. Бюджет по задержке? До 200 мс → лёгкие edge-модели (автоэнкодер, ConvLSTM, YOLO+правила). Выше 500 мс → в игру вступают трансформеры и VLM.

3. Событийные или сценовые аномалии? Событийные — 3D CNN, двухпоточные сети с оптическим потоком, RTFM. Сценовые — YOLO + автоэнкодер + VLM.

4. Одна локация или кросс-локационный SaaS? Одна → автоэнкодер под сцену сложно применить. Кросс-локационный → VLM или самообучающийся трансформер.

5. Какое положение по комплаенсу? Строго по стандартам ЕС и BIPA — используем только небиометрические технологии (автоэнкодер, RTFM, YOLO). Храните VLM локально, не передавайте сырые кадры через сторонние API.

Когда эти модели разворачивать НЕ стоит

Откажитесь от кастомной разработки, если у вас меньше 80 камер и аномалии типичны для отрасли — готовые решения вроде Verkada, Eagle Eye или Avigilon на таком масштабе будут эффективнее кастомной системы. Откажитесь, если допустимая задержка — 1–2 секунды, а оператору нужен лишь дашборд в формате сводки. Откажитесь, если ваши локации сильно различаются, и вы не можете собрать хотя бы две недели качественной записи для каждого типа камер.

Стройте кастом, когда детекция аномалий — ключевое отличие продукта, когда задержка не должна превышать 200 мс, когда обработка данных должна происходить локально, когда определения аномалий сильно зависят от вашей предметной области или когда требования к соответствию нормам запрещают обработку в облаке.

FAQ

Какая модель детекции аномалий самая точная в 2026 году?

На стандартных бенчмарках BERT+RTFM показывает ~98,5% AUC на ShanghaiTech, AnomalyCLIP — ~90,32% на UCF-Crime, а VadCLIP++ лидирует на XD-Violence с ~90,5% AP. Ни одна из этих моделей не сохраняет лидерские позиции на новых локациях без адаптации; рассчитывайте на падение метрик на 5–15 пунктов и проектируйте системы с учётом этого.

Можно ли запускать детекцию аномалий без размеченных данных?

Да. Свёрточным автоэнкодерам, обученным на двух неделях нормальной записи с каждой камеры, разметка не нужна — и они дают вполне рабочий детектор для конкретной сцены. VLM-методы вроде LAVAD позволяют обнаруживать аномалии без дообучения под задачу — это zero-shot детекция. Оба подхода — реалистичные точки входа для новой локации.

RTFM до сих пор остаётся золотым стандартом для слабо контролируемой детекции?

RTFM (и его варианты с BERT и S3R) остаётся очень конкурентоспособным — около 84,3% AUC на UCF-Crime и около 97,2% на ShanghaiTech. Более современные методы на основе VLM (например, AnomalyCLIP) превосходят его на UCF-Crime в zero-shot и clip-уровневых режимах, но RTFM по-прежнему остаётся самым надёжным базовым решением, когда есть разметка на уровне видео и требуется эффективный инференс с точки зрения использования GPU.

Как работают vision-language модели вроде AnomalyCLIP и LAVAD?

Они используют CLIP-подобный совместный визуально-языковой эмбеддинг, в котором кадры можно сравнивать с описаниями аномалий на естественном языке («человек бежит», «человек несёт лестницу»). LAVAD работает полностью в zero-shot режиме; AnomalyCLIP дообучается на разметке уровня кадров. Оба подхода хорошо обобщаются между локациями и дают более понятные алерты, чем чисто визуальные модели.

Одна модель или ансамбль?

Для критичных развёртываний — ансамбль. Типовой продакшен-стек объединяет три семейства моделей (например, YOLO + автоэнкодер + RTFM или VLM) с консенсусом «два из трёх». Такой подход примерно вдвое снижает количество ложных срабатываний по сравнению с лучшей одиночной моделью — ценой дополнительной задержки в 30–80 мс.

Какую задержку закладывать на real-time алерт?

Меньше 200 мс от камеры до сигнала для полицейской диспетчеризации и автоматического реагирования. Меньше 500 мс — для оповещения оператора в ритейле или охране кампуса. Чистые облачные архитектуры обычно дают задержку 500–2000 мс, если честно измерять сетевой round-trip; edge-обработка на Jetson Orin NX обычно укладывается в 40–80 мс.

Соответствует ли детекция аномалий EU AI Act?

Небиометрическая детекция аномалий (например, праздношатание, высокая плотность толпы, выход за границы зоны, нестандартное движение) в целом соответствует требованиям прозрачности и легитимного интереса. Биометрическая детекция (по лицу, походке, позе) относится к высокорисковым системам по AI Act — с обязательными требованиями, вступающими в силу с августа 2026 года, включая управление рисками, проверку обучающих данных и ведение журнала событий. Большинство B2B SaaS-решений в сфере видеонаблюдения сознательно остаются небиометрическими.

Сколько стоит кастомная разработка детекции аномалий?

Для базового edge-первого стека (одно семейство моделей, выполнение на edge, дашборд) реалистичный бюджет на MVP — 3–9 млн ₽, и ещё 3,7–11 млн ₽ на доведение до готовности к продакшену. Полный ансамбль на трёх семействах с поддержкой нескольких регионов и комплаенс-документацией обычно укладывается в 15–37 млн ₽. Agent Engineering сокращает эти цифры на 30–50% по инженерной части.

Что почитать дальше

Плейбук

Автоматическая детекция аномалий в камерах безопасности

Сквозной инженерный плейбук с edge-архитектурой и моделями стоимости.

Алгоритмы

Лучшие алгоритмы детекции аномалий в видеонаблюдении

Подробное сравнение алгоритмов, лежащих в основе перечисленных выше семейств моделей.

Real-time

Real-time детекция аномалий в видеонаблюдении

Как edge-пайплайны удерживают задержку до 200 мс без потери точности.

AI-детекция аномалий в системах видеонаблюдения

Системный взгляд на то, как работает AI-детекция аномалий — от начала до конца.

Android

Интеграция Android-приложений с IP-камерами в 2026 году

Полный проход по Android-стороне стека для интеграции с IP-камерами.

AI-обзор

AI-видеонаблюдение в 2026: архитектура, стоимость, комплаенс

AI и детекция аномалий в видеонаблюдении — полный гайд на 2026 год.

AI-камеры

AI-IP-камеры в 2026: гайд покупателя

Как умный edge и облачные функции меняют безопасность в 2026 году.

Мобильные

Мобильные приложения для IP-камер в 2026: практический гайд

Инженерные паттерны и продуктовые ограничения для приложений работы с IP-камерами.

VMS

Системы управления видеонаблюдением: гайд покупателя и разработчика 2026

Современный VMS — полный гайд по выбору, архитектуре и интеграции в 2026 году.

Android SDK

Лучшие Android SDK для видеонаблюдения в 2026: матрица решений по четырём осям

Стоимость, ИИ и комплаенс — матрица решений по четырём направлениям.

ML-алгоритмы

7 лучших алгоритмов машинного обучения для обнаружения аномалий в системах видеонаблюдения в 2026 году

Семь лучших алгоритмов машинного обучения для обнаружения аномалий — подборка, готовая к использованию в продакшене, на 2026 год.

Готовы запустить детекцию аномалий, которой доверяют операторы?

Выбор среди семи моделей детекции аномалий для видеонаблюдения зависит от вашей разметки, допустимой задержки, особенностей сцен и требований к комплаенсу, а не от позиций в лидерборде. Лучшие решения 2026 года объединяют три–четыре семейства моделей на базе чистой edge-архитектуры, считают ложные срабатывания главной метрикой и проектируются с учётом EU AI Act с самого начала.

Если вы ограничили сборку, переносите систему с облачного VMS или застопорились из-за ложных срабатываний — мы столько раз проходили через это, что можем пропустить опрос и сразу обсудить архитектуру.

Давайте проверим ваш стек моделей для обнаружения аномалий

30 минут, один senior-инженер, без воды. Принесите архитектурную схему или предложение от вендора — вернёмся с тем, что построили бы мы.

Позвоните нам → Напишите нам →

Технологии

Показатель	Цифра за 2025	Что это значит для вас
Выручка мобильных приложений с генеративным ИИ	225 млрд ₽, +273% год к году	Самостоятельное AI-приложение теперь — полноценный продукт, а не просто функция.
Время в приложениях с генеративным ИИ	48 млрд часов (×3,6 к 2024)	Привычка у пользователей сформировалась — ассистенты теперь конкурируют с вашим приложением за время сессии.
Внедрение разработчиками	63% выпускают не менее одной AI-функции	Не выпускать ИИ в 2026 году — это уже конкурентное отставание, а не нейтральный выбор.
Прирост вовлечённости от персонализации	+62% вовлечённости, +80% конверсии	Одни только AI-рекомендации влияют на финансовый результат.
Пользователи мобильных AI-ассистентов (США)	200 млн+ (110 млн — только на мобильных)	Пользователи ожидают, что голосовой и текстовый ИИ будет работать везде.
Прогноз Gartner	Использование мобильных приложений снизится на 25% к 2027 году (из-за AI-ассистентов)	Приложения без встроенного ИИ будут терять пользователей в пользу системных ассистентов.

Фреймворк / API	Платформа	Лучше всего для	Типичная задержка	Структура затрат
Core ML	iOS, macOS, watchOS	Зрение и NLP на устройстве с Apple Neural Engine	< 100 мс	Разовая, внутри приложения
Apple Foundation Models	iOS 18+, macOS 15+	LLM на устройстве, резюмирование, инструменты письма	< 500 мс	Бесплатно (в составе ОС)
TensorFlow Lite / LiteRT	Android, iOS, Web	Кроссплатформенное ML на устройстве	< 200 мс	Разовая, внутри приложения
MediaPipe	Android, iOS, Web	Поза, руки, лицо, жесты, сегментация	< 100 мс	Разовая, внутри приложения
ML Kit (Google)	Android, iOS	Распознавание текста, штрихкоды, перевод, обнаружение лиц	50 мс–2 с	Бесплатный тариф + оплата за запрос
Gemini Nano (AICore)	Android (Pixel 9+, S26+)	LLM на устройстве, резюмирование, подсказки ответов	< 1 с	Бесплатно (в составе ОС)
ONNX Runtime Mobile	Android, iOS, Web	Переносимые модели между фреймворками	< 300 мс	Разовая, внутри приложения
OpenAI API (GPT-5)	Облако	Рассуждения, код и зрение уровня state-of-the-art	1–3 с	93,75–750 ₽ за 1 млн токенов
Anthropic Claude API	Облако	Рассуждения с длинным контекстом, анализ, код	1–3 с	75–1 875 ₽ / 1 млн токенов (скидка 50% при батч-обработке)
Google Gemini API	Облако	Мультимодальность, экономичный текст и зрение	1–2 с	6–375 ₽ / 1 млн токенов
AWS Rekognition	Облако	Анализ изображений и видео, модерация	500 мс–2 с	0,075–0,9 ₽ за изображение
Azure Cognitive Services	Облако	Корпоративное видение, стиль общения, язык	500 мс–2 с	За запрос + подписка

Объём	Пример функции	Сроки	Ориентировочная стоимость
Одна функция на устройстве	Сканирование документа + OCR	4–8 недель	2–6 млн ₽
Гибрид среднего размера	Зрение на устройстве + облачный LLM-чат	8–14 недель	6–13,5 млн ₽
Полноценный гибрид под продакшн	Оркестрация нескольких моделей, RAG, мониторинг	14–22 недели	11,2–22,5 млн ₽
Корпоративная платформа	Регулируемая отрасль (здравоохранение / финтех), несколько регионов, SLA	22+ недели	от 22,5 млн ₽

Платформа	Для чего лучше всего	Стартовая цена	Нужна гарнитура?
ClassVR	Школа (K–12), более 1 500 сценариев по учебной программе	от 75 000 ₽ за школьный комплект	Да (гарнитуры в комплекте)
Labster	Лаборатории биологии, химии, физики в вузах	5 925–8 175 ₽ за студента в год	Нет (браузер + опционально VR)
Nearpod (с VR)	Встраивание в уроки в школе	11 925–29 775 ₽ в год на преподавателя	Опционально
zSpace	AR/VR без гарнитуры; более 3 500 округов	По запросу (фирменное оборудование)	Нет (очки + дисплей с трекингом)
Prisms VR	Математика и естественные науки, 140 округов	По запросу (лицензия округа)	Да
Engage / Spatial	Совместные классы в высшем образовании	37 500–150 000 ₽ в год за помещение	Да (несколько устройств)
CoSpaces Edu	VR-проекты, которые создают сами ученики	75–225 ₽ за ученика в год	Опционально
Osso VR / FundamentalVR	Хирургическая подготовка	450 000–3 млн ₽ в год за рабочее место	Да

Статья расходов	Год 1	Год 2 и далее
30 × Meta Quest 3S (комплект за 37 500 ₽)	1 125 000 ₽	0 ₽ (обновление раз в 3–4 года)
Контент-платформа (ClassVR / Nearpod)	150 000–375 000 ₽	150 000–375 000 ₽
Обучение преподавателей (1 день)	112 500–225 000 ₽	Обновление: 37 500 ₽/год
Зарядная станция + MDM	112 500–187 500 ₽	0 ₽
Страховка / поломки (10%)	112 500 ₽	112 500 ₽
Итого	1,6–2 млн ₽	300 000–525 000 ₽

7 лучших моделей для обнаружения аномалий в видеонаблюдении в 2026 году

Зачем Фора Софт написала этот плейбук

Как выбрать модель в 2026 году — четыре главных фактора

Модель 1 — свёрточные автоэнкодеры (базовый подход без учителя)

Модель 2 — двухпоточные сети с оптическим потоком

Модель 3 — 3D CNN и SlowFast (пространственно-временные)

Модель 4 — ConvLSTM (рекуррентная реконструкция видео)

Модель 5 — слабо контролируемый MIL (RTFM, MIST, S3R)

Модель 6 — самообучающиеся трансформеры (MAE-DFER, ViViT, TimeSformer)

Модель 7 — vision-language модели (AnomalyCLIP, LAVAD, VadCLIP)

Семь моделей в одной сравнительной таблице

Бенчмарки, которым стоит доверять в 2026 году

Почему в продакшене собирают ансамбль из трёх-четырёх моделей

Edge или облако — где эти модели действительно работают

На каком железе эти модели работают в продакшене

Тактики снижения ложных срабатываний, которые работают

Комплаенс — EU AI Act, BIPA, GDPR

Мини-кейс — стек детекции аномалий V. A. L. T.

KPI — и пороги, которые действительно важны

Фреймворк выбора — модель за пять вопросов

Когда эти модели разворачивать НЕ стоит

FAQ

Что почитать дальше

Готовы запустить детекцию аномалий, которой доверяют операторы?

Похожие статьи

Хотите обсудить ваш проект?