Машинное обучение для обнаружения аномалий в видео: практическое руководство для служб безопасности 2026

Машинное обучение для детекции аномалий в видеонаблюдении: руководство 2026 для служб безопасности — обложка

Главное

• Обнаружение аномалий с помощью машинного обучения — это выбор между покупкой и разработкой, а не научный эксперимент. Платформы вроде Avigilon, Verkada и BriefCam покрывают 80% типичных аномалий; собственная разработка окупается при ~200 камерах или если аномалии специфичны для вашей отрасли.

• Архитектура важнее алгоритма. Инференс на edge-устройствах Jetson Orin Nano (около 18 600 ₽, 40 TOPS) даёт оповещения менее чем за 100 мс; передача сырых 4K-потоков в облако добавляет задержку от 200 до 2000 мс и создаёт значительный счёт за трафик.

• Проекты губят ложные срабатывания, а не точность. Ненастроенные системы выдают 30–70% ложных оповещений; адаптивные пороги и временная фильтрация снижают этот показатель на 67% без потери настоящих срабатываний.

• GDPR и EU AI Act сужают пространство выбора. Распознавание лиц и удалённая биометрическая идентификация в реальном времени запрещены или отнесены к высокому риску; детекция аномалий объектов и поведения (например, праздношатание, проникновение, высокая плотность толпы) остаётся законной.

• Фора Софт уже поставляла именно такой стек. Наша видеоплатформа V. A. L. T. работает в продакшене с детекцией аномалий для клиентов из регулируемых отраслей, включая проекты уровня судебных залов в Казахстане, со 100% соблюдением сроков за 21 год работы с видео.

Почему Фора Софт написала это руководство

Фора Софт создаёт видео- и мультимедийные продукты с 2005 года. За 21 год мы реализовали более 250 проектов, и видеонаблюдение, видеоаналитика на основе ИИ, а также стриминг в реальном времени — основа нашего портфолио. Наши инженеры настраивают пайплайны детекции на базе WebRTC, RTMP/HLSS, RTSP и NVIDIA DeepStream, запускают их на edge-платах Jetson и в кластерах AWS и Hetzner, и при этом гарантируют выполнение всех сроков.

Самый показательный кейс — V. A. L. T, наша платформа видеонаблюдения и контроля процессов. V. A. L. T работает в регулируемых средах (правоохранительные органы, клинические учреждения, проект для судебных залов в Казахстане), где ложные оповещения недопустимы, а ведение аудиторского следа обязательно. Именно эта реальная операционная практика — а не таблица лидеров на Kaggle — определяет рекомендации в этом руководстве.

Остальная часть руководства отвечает на вопросы, которые покупатели реально задают нам на первых звонках: какие семейства моделей работают, как выглядит хорошая архитектура, каковы реальные затраты, где останавливаются требования GDPR и EU AI Act и когда выгоднее купить готовую VMS, чем строить свою с нуля. Используйте это руководство, чтобы оценить свой проект — или пришлите нам ТЗ, и мы оценим его вместе с вами.

Оцениваете продукт видеонаблюдения с ML?

Пришлите количество камер, классы аномалий и зону соответствия. За один звонок мы подскажем, что выбрать — собственную разработку, готовое решение или гибрид, и назовём реальную стоимость.

Позвоните нам → Напишите нам →

Что считается видеоаномалией в контексте безопасности

Прежде чем выбирать модель или вендора, определите таксономию аномалий. Большинство провалов «AI-видеонаблюдения» происходят из-за того, что покупатель не различает «аномальные пиксели», «аномальные события» и «нарушения политик». Это три разные задачи с тремя разными кривыми затрат.

1. Аномалии на уровне объектов. То, чего не должно быть на кадре: человек в запрещённой зоне, машина на пешеходной дорожке, оставленная сумка. Проблема решается с помощью проверенных моделей детекции объектов (YOLOv8, RT-DETR) и правил геозон. Типичная задача.

2. Аномалии движения и поведения. Бег в запрещённой зоне, праздное шатание, падение, драка, внезапное расхождение толпы. Здесь нужны пространственно-временные модели (I3D, TimeSformer, Video Swin) и контекст продолжительностью 3–10 секунд. Задача решаема, но непростая.

3. Контекстные аномалии и нарушения политик. «Эта дверь никогда не должна открываться после 21:00». «Этот оператор никогда не заходит в систему из-за границы». Здесь видеособытия объединяются с данными СКУД, расписаниями и информацией об идентификации. ML — самая простая часть; интеграция с существующими системами занимает 60% времени.

Выбирайте уровень объектов, когда: вы точно знаете, какой объект и зона вас интересуют (например, нарушитель на периметре или машина на пожарном проезде), а допустимый уровень ложных срабатываний — средний. Поведенческие и контекстные модели в таких случаях — избыточная мощность.

Срез рынка: почему каждый вендор VMS теперь выпускает версию с ИИ

Рынок AI-видеонаблюдения в 2024 году оценивался примерно в 375–487 млрд ₽ и, по прогнозам, достигнет 900 млрд – 2,1 трлн ₽ к 2030 году с темпами роста 20–31% CAGR — в зависимости от источника (MarketsAndMarkets, Grand View Research). Более широкий сегмент видеоаналитики, включающий ритейл, транспорт и промышленность, к 2030 году вырастет до примерно 2,8 трлн ₽ при CAGR 19,5%.

Три силы разгоняют развитие этой технологии. Первая — edge-чипы стали дешевле: Jetson Orin Nano за 18 600 ₽ сегодня запускает модели, которым в 2020 году требовалась рабочая станция за 375 000 ₽. Вторая — предобученные базовые модели (I3D, Video Swin, SAM) сократили затраты на сбор данных для тех, у кого нет миллиона размеченных кадров. Третья — вендоры доказали, что могут снизить нагрузку на операторов: Avigilon от Motorola сообщает о сокращении ложных тревог примерно на 90% благодаря самообучающейся системе Unusual Motion Detection.

Практический вывод: если вы запускаете такой продукт в 2026 году, вы не на передовой технологий, а используете стек, который уже 3–5 лет отлаживался в продакшене. Поэтому оценки падают, а не растут.

Семейства моделей, которые реально используются в продакшене

Пять архитектур покрывают 95% реальных проектов. Выбирайте подходящую по количеству размеченных данных, требованиям к задержке и типу аномалий — пространственным, временным или обоим сразу.

CNN-бэкбоны (ResNet, DenseNet, EfficientNet)

Зачем брать. Самый быстрый инференс (2–5 TFLOP/кадр), минимальный объём памяти, поддерживается всеми edge-рантаймами. Идеально подходит для покадровой классификации объектов или сцены.

Ограничения. Нет временной логики. CNN не различает «человек вошёл в банк» и «человек вбежал в банк». На статичных сценах с мерцанием света часто возникают ложные срабатывания.

3D-CNN / I3D

Зачем брать. Учится пространственным и временным признакам одновременно. На UCF-Crime ансамбли на основе I3D показывают около 84,6% AUC на уровне кадра — это сопоставимо с Transformer-бейзлайнами 2024 года. Зрелая экосистема в NVIDIA TAO и DeepStream.

Ограничения. Потребляет много памяти: ожидайте 6–8 ГБ VRAM на поток при разрешении 224×224 и клипах из 32 кадров. На устройствах с ограниченными ресурсами работает медленнее 2D-альтернатив, если не используется оптимизация TensorRT.

Видео-трансформеры (TimeSformer, Video Swin)

Зачем брать. Текущий state of the art. Swin-3DART показал 0,861 ROC AUC на ShanghaiTech; SwinAnomaly (условный GAN + Video Swin) держится около SOTA и при этом работает в реальном времени на железе уровня Orin. Учитывают длинный временной контекст без болезненной проблемы затухающих градиентов LSTM.

Ограничения. Требуют много обучающих данных и вычислительных ресурсов; не подходят, если у вас меньше 10 тыс. размеченных клипов. Для запуска на edge-устройствах нужна тщательная квантизация.

Автоэнкодеры и VAE-реконструкция

Зачем брать. Обучение без учителя. Обучайте модель на часах «нормального» видео, отмечайте кадры, которые она не может восстановить. Метки не требуются. Подходит, когда аномалия — это «что-то странное», а не конкретное событие.

Ограничения. Метод предполагает, что ошибка реконструкции коррелирует с аномальностью — а это часто не так. Склонен к высокому уровню ложных срабатываний при изменении освещения, дрожании камеры или появлении новых, но вполне нормальных объектов.

Самообучение и контрастивные методы (MoCo, SimCLR, VideoMAE)

Зачем брать. Подходит для few-shot обучения. Предобучается на большом объёме неразмеченного видео, дообучается на нескольких сотнях размеченных клипов с аномалиями. По нашему опыту, затраты на разметку снижаются в 10 раз.

Ограничения. Предобучение стоит дорого. Окупается только тогда, когда эти затраты можно распределить между несколькими проектами или площадками.

Выбирайте трансформер, когда: у вас более 50 тыс. размеченных клипов, нужен длинный временной контекст (например, драки, падения, потоки людей) и есть бюджет на оборудование уровня Orin NX. При меньшем объёме данных или более жёстких ограничениях по железу лучше использовать I3D или CNN с правилами.

Сравнительная матрица: какая модель подходит для какой задачи

Семейство моделей	Для чего лучше	Сколько меток нужно	Подходит для edge	Типичный AUC
2D CNN	Объекты и правила зон	1–5 тыс. размеченных кадров	Да (Jetson Nano+)	0,75–0,85
3D-CNN / I3D	Драки, падения, бег	5–50 тыс. клипов	Orin Nano+	0,82–0,90
Видео-трансформер	Аномалии толпы и сцены с длинным контекстом	50 тыс. и более клипов	Orin NX+	0,86–0,97
Автоэнкодер / VAE	«Что-то странное» без учителя	Не нужны (только нормальное видео)	Да (Jetson Nano+)	0,70–0,82
Самообучение + дообучение	Few-shot, много площадок	100–500 клипов на площадку	Orin Nano+	0,80–0,92

Эталонная архитектура: edge, облако или гибрид

Решение об архитектуре влияет на стоимость и задержки гораздо сильнее, чем выбор модели. Существует три паттерна; для практически любого серьёзного проекта выигрывает гибридный подход.

Только edge

Детекция работает непосредственно на камере или локальном модуле Jetson/ Hailo. Задержка — от 10 до 100 мс. В центральный офис отправляются только оповещения и короткие видеофрагменты событий. Система функционирует в автономном режиме. Это оптимальный выбор для объектов с менее чем 8 камерами или при жёстких требованиях к приватности, когда необработанное видео не должно покидать локальную сеть.

Только облако

Все потоки направляются в AWS или GCP для обработки. Задержка — от 200 до 2000 мс. Пропускная способность — около 5–50 Мбит/с на поток. Расходы на исходящий трафик быстро растут: площадка из 500 камер при среднем битрейте 4 Мбит/с генерирует около 21 ТБ данных в день. Такой подход оправдан только для криминалистического анализа, редких опросов или если у заказчика есть выделенный магистральный канал.

Гибрид (обнаружение на edge + корреляция в облаке)

Edge-модели отфильтровывают 99% обычных кадров; в облако передаются только события и метаданные с низким битрейтом, где происходит корреляция между камерами, долгосрочный анализ паттернов и работа с интерфейсом. Задержка — 50–300 мс. Полоса пропускания — около 10% от исходных потоков. Это стандартный подход для всего, что сегодня выпускает Фора Софт.

Выбирайте только облако, когда: вам важнее поиск по архиву (в стиле BriefCam), чем оповещения в реальном времени, а пропускная способность не проблема. Всем остальным — по умолчанию гибрид.

Edge-железо: что закладывать в спецификацию

Чип на edge определяет, сколько потоков на коробку вы сможете анализировать и какие модели в него поместятся. В 2026 году практический шорт-лист короткий.

Устройство	TOPS	TDP	Цена	Для чего лучше
Jetson Orin Nano	34–40	5–25 Вт	18 600 ₽	2–4 потока, стандартные CNN/I3D
Jetson Orin NX	100	10–25 Вт	~52 500 ₽	8–16 потоков, трансформеры
Hailo-8	13	3 Вт	~30 000 ₽ за модуль	Камеры на батарее, фиксированные CNN
Google Coral TPU	4	2 Вт	3 700–11 200 ₽	PoC, один поток, только TFLite
Ambarella CV2x	5–20	3–5 Вт	22 500–45 000 ₽	Камеры уровня видеонаблюдения со встроенным ISP

Для большинства наших клиентов Jetson Orin Nano в связке с локальным PoE-коммутатором справляется с 2–4 потоками на устройство и запускает все стандартные модели детекции аномалий после оптимизации через TensorRT. Переходите на Orin NX, если нужны модели уровня трансформеров или более 8 потоков на устройство.

Как устроен пайплайн реального времени изнутри

Продакшен-пайплайн — это семь этапов, а не один вызов модели. Любой пропущенный этап проявляется в виде ложных тревог, всплесков задержки или роста расходов на хранение.

1. Приём. Подтягивание видео по RTSP (камеры ONVIF Profile S) или через WebRTC для более современных решений. Для обработки нескольких потоков используйте GStreamer или nvstreammux из NVIDIA DeepStream.

2. Декодирование и предобработка. Аппаратное декодирование H.264/ H.265 на NVDEC или SoC камеры. Коррекция гистограммы и обрезка изображения до нужного разрешения для подачи на вход модели.

3. Детекция и трекинг. YOLOv8 или RT-DETR для распознавания объектов; ByteTrack для отслеживания нескольких объектов, включая случаи перекрытия; I3D или Video Swin для выявления временных аномалий.

4. Временной фильтр. Требуйте сигнала аномалии на 3–5 последовательных кадрах перед отправкой оповещения. Только так удаётся сократить ложные срабатывания на 40–60% — с задержкой всего 5–10 мс.

5. Слияние нескольких камер. Коррелируйте события на соседних камерах по синхронизированным таймстемпам через NTP. Аномалии, которые видны с нескольких камер (например, бегущий человек, последовательно пересекающий два кадра), получают более высокий приоритет.

6. Движок правил и политик. Геозоны, расписания, события СКУД. Здесь «человек в зоне» становится «человеком в запрещённой зоне в нерабочее время».

7. Доставка оповещений и аудиторский след. WebSocket до операторской консоли, пуш на мобильный, запись в неизменяемый журнал. Именно этот журнал открывает доступ к регулируемым проектам — без него вы теряете каждую корпоративную сделку.

Нужен второй взгляд на дизайн вашего пайплайна?

Пришлите эскиз. Один из наших видеоинженеров проверит его на задержки, ложные срабатывания и полосу пропускания до того, как вы определитесь с выбором оборудования.

Позвоните нам → Напишите нам →

Бенчмарки и датасеты: что на самом деле значит «state of the art»

Когда вендор называет красивую цифру точности, спрашивайте, на каком датасете она получена. Пять датасетов, которые действительно важны, в порядке возрастания сложности:

UCF-Crime. 1900 неотредактированных видео, 128 часов, 13 реальных аномалий (насилие, ограбления, стрельба, поджог). Самый сложный публичный бенчмарк. Текущий SOTA: ~84,6% AUC на уровне кадра.

XD-Violence. Крупный датасет с насилием, разметка — частичная. Текущий результат ансамблей: около 88% AUC.

ShanghaiTech. 13 сцен, контролируемое разбиение. Проще, чем UCF-Crime. Лучшие методы показывают AUC от 92 до 98%.

Avenue. Аномалии в уличном движении. Типичные значения — 85–96%.

CUHK Abnormality in Crowds. Толкотня, столкновения, драки. Типичные значения — 75–95%.

Предупреждение из реальной жизни: при развёртывании на своей площадке AUC обычно падает на 15–25% из-за сдвига домена. Модель, которая показывает 0,90 на ShanghaiTech, в первую неделю на вашей площадке будет давать 0,70–0,75. Заложите спринт на переобучение модели на ваших размеченных данных.

Проблема ложных срабатываний (единственное, что действительно волнует операторов)

Ненастроенная модель выдаёт ложные тревоги в 30–70% случаев. После примерно 30 ложных оповещений с одной камеры в день операторы начинают игнорировать 40–70% всех сигналов системы — включая реальные события. Каждый зрелый проект тратит больше инженерных ресурсов на борьбу с ложными срабатываниями, чем на развитие самого детектора.

Пять слоёв, которые действительно работают вместе:

1. Адаптивный порог. Настройте пороги уверенности для каждой камеры индивидуально. Опубликованные адаптивные методы позволяют сократить ложные срабатывания на 67% при сохранении доли истинных срабатываний выше 94%.

2. Временной консенсус. Требуйте, чтобы аномалия наблюдалась на 3–5 последовательных кадрах. Это снижает ложные срабатывания на 40–60% при почти незаметном увеличении задержки.

3. Корреляция между камерами. Если оповещение подтверждает соседняя камера, ему присваивается более высокий приоритет. Это позволяет сократить ложные срабатывания на региональных событиях на 70–80%.

4. Обратная связь от человека. Позвольте операторам помечать ложные срабатывания прямо в интерфейсе и дообучайте модель на этой обратной связи раз в неделю. Такой подход закрывает разрыв, вызванный сдвигом домена, за 4–8 недель.

5. Мультимодальное слияние. Объединяйте видео, звук, данные с датчиков дверей, события СКУД и (на промышленных объектах) телеметрию оборудования. Самообучающийся UMD от Avigilon в реальных условиях снижает количество ложных тревог примерно на 90%.

Купить или построить: сторонние платформы для сравнения

Любая честная презентация собственной разработки начинается со сравнения с существующими платформами. Если одна из них даёт 80% нужного за 40% затрат — выбирайте её.

Платформа	Сильная сторона	Ценовой ориентир	Когда выбирать
Avigilon (Motorola)	Самообучающаяся детекция аномалий и единый парк камер	60–255 тыс. ₽ за камеру (железо) + 750–2 250 ₽ за канал в месяц (программное обеспечение)	Управляемый сервис, <100 камер
Genetec	Корпоративное единое видео + СКУД	3 750–15 000 ₽ за камеру в месяц	>500 камер, безопасность — отдельная бизнес-функция
Verkada	Облачный SMB-сегмент	37 500–225 000 ₽ за оборудование + 14 900–134 900 ₽ за камеру в год	Нет ИТ-штата, быстрый запуск, <200 камер
BriefCam	Криминалистический поиск, синопсис видео	37 500–225 000 ₽ за камеру в год	Расследования важнее оповещений в реальном времени
Amazon Rekognition Video	Оплата по минутам анализа	7,5–75 ₽ за минуту анализа	Эпизодический или событийный анализ
NVIDIA DeepStream	SDK для разработчиков	Бесплатный SDK + 750 тыс.–3,7 млн ₽ в год за корпоративную поддержку	Кастомный пайплайн, своя инженерная команда

Выбирайте собственную разработку, когда: у вас более 200 камер, есть класс аномалий, специфичный для вашей сферы и не покрытый ни одним поставщиком (например, нарушения в фармацевтической чистой комнате, контроль поведения в кабине пилота или в зале суда), либо требуется территориальное хранение данных, исключающее использование облачных VMS.

Модель затрат: реалистичный запуск на 100 камер

Планировать проще с конкретными цифрами. Вот как выглядит развёртывание детекции аномалий на 100 камер по трём сценариям закупки при типичных рыночных ценах 2026 года. Эти диапазоны рассчитаны на готовые классы аномалий (вторжение, праздношатание, драки, падения). Аномалии, специфичные для домена, повышают стоимость собственной разработки.

Статья затрат	Готовая VMS	Гибрид (edge + SaaS)	Собственная разработка (Фора Софт)
Первоначальные капитальные затраты	7,5–18 млн ₽	6–13 млн ₽	3,7–11 млн ₽
Сроки разработки	2–6 недель на настройку	2–4 месяца	4–8 месяцев до MVP
Годовой OpEx	3,7–15 млн ₽	2,2–9 млн ₽	1,5–6 млн ₽
Штат сопровождения	0,25–0,5 FTE	0,5–1 FTE	1–2 FTE
TCO за 5 лет	26–52 млн ₽	18–45 млн ₽	15–37 млн ₽

Наш агентный инженерный процесс (программирование с ассистентом-LLM, переиспользуемые внутренние библиотеки для приёма, декодирования, трекинга и интерфейсов) сокращает сроки собственной разработки по сравнению с базовыми отраслевыми показателями. Диапазон «3,7–11 млн ₽ первоначально» отражает именно это преимущество, а не демпинг — обсудите с нами конкретное количество камер, прежде чем привязываться к цифре.

Мини-кейс: V. A. L. T в продакшене

V. A. L. T — наша долгосрочная платформа для видеонаблюдения и фиксации процессов. Она используется в проектах для правоохранительных органов, медицинских тренингов и судебных заседаний, где ключевая задача — запись, просмотр и оповещение по заданным правилам. Деплой в судах Казахстана — один из публичных примеров: сотни залов, обязательные аудиторские следы, недопустимость пропуска событий.

Архитектура, выигравшая контракт, — это гибридный паттерн из этого руководства. Устройства на границе сети в каждом зале принимают видео, кодируют его в H.265, добавляют метки и проводят первичную детекцию аномалий. В центральное облако отправляются только события и индексированные метаданные. Там супервайзеры просматривают помеченные фрагменты, ищут записи по разным залам и экспортируют пакеты, пригодные для суда, с защищённым от подделки логированием.

Два урока стали основой для всех последующих проектов видеонаблюдения: с самого начала закладывайте аудиторский след — без него регулируемые клиенты не подпишут договор, — и делайте движок «правил» независимым от ML-модели, чтобы неинженеры могли сами добавлять и настраивать политики оповещений. Хотите такой же разбор для своего проекта? Позвоните нам или напишите.

Фреймворк принятия решения из пяти вопросов

В1. Сколько камер и на скольких площадках? Менее 50 камер на одной площадке — коммерческие VMS вроде Verkada или Avigilon выгоднее по TCO. Более 200 камер или несколько площадок с требованиями к хранению данных на территории — пора рассматривать кастомное решение.

В2. Ваши аномалии есть в готовом каталоге? Вторжение, праздношатание, драки, падения, оставленные предметы, плотность толпы — всё это распознают BriefCam, Avigilon и Verkada. Доменно-специфичные классы (нарушение в чистой комнате, несоблюдение процедур, поведение в кабине пилота, сигналы в зале суда) — нет. Именно здесь кастомная модель оправдывает свою стоимость.

В3. Каков ваш бюджет на задержку? Живое вмешательство (ограбление, насилие) требует оповещений менее чем за 100 мс; для криминалистического анализа допустимы задержки в минуты. Жёсткие требования по задержке вынуждают выбирать edge или гибридную архитектуру; криминалистика может работать в облаке.

В4. Где юридически живут данные? EU AI Act и GDPR фактически блокируют облачные проекты с распознаванием лиц. Если клиент — госорган или европейская компания, по умолчанию выбирайте edge-обработку и локальное хранение данных, а детектируйте только объекты и поведение.

В5. Кто будет переобучать модель? Сдвиг домена сразу снижает AUC на 15–25%. Если у вас нет плана еженедельного переобучения на данных площадки, выбирайте вендора, который берёт эту задачу на себя, или заключайте контракт на сопровождение с партнёром по разработке.

Пять ошибок, которые топят проекты

1. Бенчмарк на не том датасете. Выкатить на склад модель, дающую 0,95 AUC на ShanghaiTech, — гарантированный провал. Всегда дообучайте модель на 500+ клипах с вашей площадки и указывайте реальный AUC, а не научные цифры.

2. Откладывать борьбу с ложными срабатываниями на «после релиза». К моменту, когда операторы скажут, что оповещения шумные, они уже отключат уведомления. Временная фильтрация, адаптивные пороги и слияние камер должны быть в MVP, а не в бэклоге.

3. Стримить 4K в облако для инференса. 500 камер по 4 Мбит/с — это 21 ТБ в сутки. Исходящий трафик в облаке по 6,7 ₽ за ГБ оборачивается шестизначными суммами в рублях в год. Edge-обработка — не просто оптимизация, а вопрос выживания бюджета.

4. Игнорировать сдвиг домена и сезонный дрейф. Посещаемость торгового центра сильно отличается в июле и декабре. Без регулярного переобучения или онлайн-обучения точность оповещений снижается уже через три месяца.

5. Пропустить аудиторский след. Регулируемые покупатели (здравоохранение, правоохрана, суды, финансы) уходят, когда понимают, что вы не можете предоставить защищённый от подделки журнал всех оповещений, переопределений и смен моделей. Это нужно закладывать с первой недели разработки, а не через шесть месяцев.

KPI: что реально измерять

KPI качества. Точность и полнота на клипах с вашей платформы (а не на публичных бенчмарках). Цель: точность ≥ 0,9 и полнота ≥ 0,85 после трёх циклов переобучения. Еженедельно отслеживайте дрейф AUC.

Бизнес-метрики. Количество оповещений на камеру в сутки (цель — менее 10), доля подтверждённых операторами оповещений (более 80%), время до первой реакции на истинное положительное событие (менее 60 с) и доля реальных инцидентов, зафиксированных системой, а не обнаруженных позже (более 85%).

KPI надёжности. Доступность edge-устройств (99,5% и выше), задержка от обнаружения до оповещения p95 (менее 500 мс) и стабильность пайплайна обучения (доля успешных запусков переобучения в месяц — более 90%).

Приватность, GDPR и EU AI Act: что можно и нельзя поставлять

Регулирование делит «детекцию аномалий» на две категории и относится к ним совершенно по-разному.

Низкий риск (можно поставлять под GDPR и EU AI Act). Обнаружение объектов, аномалий движения и поведения без повторной идентификации людей. Оценка плотности толпы, выявление праздношатания по силуэту, обнаружение вторжений, падений и драк. Требуется стандартное уведомление по GDPR и оценка воздействия на приватность.

Высокий риск или запрет. Удалённая биометрическая идентификация в реальном времени в общественных местах запрещена для правоохранительных органов по EU AI Act. Сбор записей с камер без цели — прямо запрещён. Распознавание походки и определение этнической принадлежности отнесены к «высокорисковым» AI-системам по этому акту и требуют полной оценки соответствия.

Практический совет: по умолчанию проектируйте систему с учётом низкого уровня риска. Если клиент требует распознавание лиц, передайте запрос вендору с акцентом на соблюдение норм и заключите отдельный контракт для высокорисковых операций. Правоприменение строгое — французский регулятор оштрафовал Clearview AI на 20 млн € в 2022 году за незаконный сбор данных о лицах, и с тех пор регуляторы ЕС действуют последовательно.

Нужен стек детекции аномалий, совместимый с GDPR?

Мы 21 год поставляем видеопродукты в регулируемые среды. Пришлите зону соответствия — и мы подберём подходящие модели и схему развёртывания, чтобы избежать штрафов.

Позвоните нам → Напишите нам →

Когда детекция аномалий с помощью машинного обучения — неправильный ответ

ML — это не универсальный апгрейд видеонаблюдения. Три ситуации, в которых система на правилах или просто человек-оператор справляется лучше:

Маленькое число камер и плотное человеческое наблюдение. Одна камера на парковке, за которой круглосуточно следит охранник, не даёт достаточной отдачи от ML-слоя, чтобы оправдать затраты на оборудование, лицензии и переобучение.

Нет ни обучающих данных, ни ресурсов операторов. ML требует недель размеченного «нормального» видео плюс обратной связи от операторов. Если ни того, ни другого нет, хорошо настроенное правило детекции движения справится лучше, чем недообученная модель.

Безопасность жизни с детерминированными правилами. Детекцию огня, дыма и газа лучше поручить специализированным датчикам, а не машинному обучению по видео. Используйте видео для подтверждения, а не как основной сигнал.

Минимальный пайплайн DeepStream (для инженеров, оценивающих проект)

Для инженеров, изучающих это руководство, вот скелет многопоточного пайплайна детекции на Jetson. Полезен для оценки требований к железу на этапе закупки; не готов к продакшену.

# Эталонный пайплайн DeepStream, 4 RTSP-потока -> YOLOv8 -> трекер -> sink
gst-launch-1.0 \
  nvstreammux name=mux batch-size=4 width=1280 height=720 live-source=1 ! \
  nvinfer config-file-path=/opt/yolov8.txt ! \
  nvtracker ll-lib-file=/opt/libnvds_nvmultiobjecttracker.so ! \
  nvinfer config-file-path=/opt/anomaly_i3d.txt ! \
  nvmultistreamtiler rows=2 columns=2 ! \
  nvvideoconvert ! nvdsosd ! \
  nveglglessink \
  rtspsrc location=rtsp://cam1:554/h264 ! rtph264depay ! h264parse ! nvv4l2decoder ! mux.sink_0 \
  rtspsrc location=rtsp://cam2:554/h264 ! rtph264depay ! h264parse ! nvv4l2decoder ! mux.sink_1 \
  rtspsrc location=rtsp://cam3:554/h264 ! rtph264depay ! h264parse ! nvv4l2decoder ! mux.sink_2 \
  rtspsrc location=rtsp://cam4:554/h264 ! rtph264depay ! h264parse ! nvv4l2decoder ! mux.sink_3

Orin Nano справляется с четырьмя 1080p-потоками с детектором YOLOv8-с и I3D-модулем для анализа аномалий после оптимизации через TensorRT. Если заменить модуль на трансформерный — понадобится Orin NX или более мощная модель.

FAQ

Насколько точна детекция видеоаномалий на ML в реальных проектах?

AUC на публичных бенчмарках составляет от 0,80 до 0,97 в зависимости от сложности датасета. В реальных условиях точность падает на 15–25% уже в первый день из-за сдвига домена. После 2–3 циклов переобучения на данных площадки можно достичь точности выше 0,90 и полноты выше 0,85 для готовых классов аномалий.

Какие реалистичные сроки для самостоятельной разработки продукта по детекции видеоаномалий?

Сфокусированный MVP для 3–5 стандартных типов аномалий на одной площадке реализуется за 4–8 месяцев. Многоплощадочные мультитенантные платформы с движком правил, аудиторским следом и интерфейсами для операторов требуют 9–14 месяцев. Наш агентный инженерный процесс и переиспользуемые внутренние библиотеки для видеопайплайнов позволяют сократить эти сроки по сравнению с отраслевыми стандартами.

Можно ли запустить детекцию аномалий на существующих IP-камерах без их замены?

Да, в большинстве случаев. Любая камера с поддержкой ONVIF Profile S или RTSP передаёт видео в формате H.264/265 на edge-устройство — например, Jetson Orin Nano, Hailo-8 или шлюз Ambarella. Это означает, что существующий парк камер продолжает работать без изменений: вы добавляете только вычислительные мощности и программное обеспечение, а не сами камеры.

Как сравнивать собственную разработку с Avigilon или Verkada?

Оценивайте по пяти критериям: количество камер, специфичность аномалий, требования к задержке, территориальность данных и ответственность за переобучение. Коммерческая VMS выигрывает, когда классов аномалий немного, а камер — меньше ~150. Кастомное решение предпочтительнее при большем числе камер или если нужен детектор под конкретную задачу, строгий аудит или жёсткие требования к локальному развёртыванию.

Законно ли распознавание лиц для моего проекта по EU AI Act?

Удалённая биометрическая идентификация в реальном времени в общественных местах запрещена для использования правоохранительными органами — с узкими исключениями. Остальные применения относятся к категории «высокорисковых» и требуют полной оценки соответствия, регистрации, ведения логов и контроля за данными. В большинстве случаев распознавание лиц для выявления аномалий лучше вообще не использовать — стоит опираться на анализ объектов и поведения.

Как снизить ложные срабатывания, не пропуская реальные события?

Накладывайте пять слоёв: адаптивные пороги под каждую камеру, временной консенсус по 3–5 кадрам, корреляция между камерами, обратная связь от человека через интерфейс и мультимодальное слияние (звук, датчики дверей, СКУД). Опубликованные методы адаптивных порогов дают 67% сокращения ложных срабатываний при истинно положительной доле >94%.

На каком edge-железе стандартизироваться в 2026 году?

Jetson Orin Nano (18 600 ₽, 40 TOPS) — для 2–4 потоков с моделями CNN/I3D; Orin NX (~52 500 ₽, 100 TOPS) — для трансформеров или 8+ потоков; Hailo-8 — для камер на батарее с ультранизким энергопотреблением; Ambarella CV2x — когда нужно, чтобы тот же SoC обрабатывал ISP камеры. Откажитесь от оригинального Jetson Nano в новых проектах 2026 года — он слишком медленный для современных видеомоделей.

Кому принадлежит модель после сдачи проекта?

В наших кастомных разработках вы получаете всё: исходный код, веса моделей, пайплайны обработки обучающих данных. Это одна из главных причин, по которой клиенты выбирают кастомные решения, а не готовые платформы: нет привязки к поставщику, вы можете сами переобучать модели или в любой момент сменить разработчика. Мы предлагаем контракты на сопровождение — если вам удобнее доверить нам переобучение и контроль дрейфа данных.

Что почитать дальше

Видеонаблюдение

Системы видеонаблюдения на заказ с AI

Сквозной обзор того, как мы оцениваем и выпускаем кастомные продукты видеонаблюдения.

Реальное время

Детекция аномалий в видеонаблюдении в реальном времени

Бюджеты задержки, архитектура пайплайна и стратегии настройки для живых оповещений.

Автоматизация

Автоматическая детекция аномалий на камерах безопасности

Как автоматизировать сортировку событий на существующем парке камер без его замены.

Алгоритмы

Лучшие алгоритмы для детекции аномалий в видеонаблюдении

Глубокое погружение в то, какие алгоритмы хорошо работают в продуктах безопасности и почему.

Готовы протестировать ML-детекцию аномалий для вашего парка камер?

Шорт-лист очевиден. Сначала определите классы аномалий, число камер и зону размещения данных. Возьмите гибридную архитектуру по умолчанию, Jetson Orin Nano или NX — как базовый edge-чип, I3D или Video Swin — как семейство моделей по умолчанию. Инвестируйте в стек подавления ложных срабатываний (адаптивные пороги, временной консенсус, корреляция между камерами, обратная связь от оператора) с самого начала, а не после запуска.

Затем честно сравните «сборка с нуля» и «покупка готового решения»: если у вас меньше 150 камер и аномалии стандартные, скорее всего, выгоднее коммерческая VMS. Если камер больше или аномалии специфичны для вашей отрасли — кастомное решение окажется дешевле за пять лет по общей стоимости владения (TCO) и даст вам полный контроль над моделью. Фора Софт уже 21 год делает ставку на кастомные решения — пришлите техническое задание, и мы заранее скажем, какой путь для вас выгоднее, до того как вы потратите хоть рубль.

Давайте оценим ваш проект ML-видеонаблюдения

Поделитесь количеством камер, классами аномалий и зоной соответствия. После звонка вы получите решение — строить или покупать, — а также реалистичные сроки и ориентировочную стоимость.

Позвоните нам → Напишите нам →

Технологии

Показатель	Цифра за 2025	Что это значит для вас
Выручка мобильных приложений с генеративным ИИ	225 млрд ₽, +273% год к году	Самостоятельное AI-приложение теперь — полноценный продукт, а не просто функция.
Время в приложениях с генеративным ИИ	48 млрд часов (×3,6 к 2024)	Привычка у пользователей сформировалась — ассистенты теперь конкурируют с вашим приложением за время сессии.
Внедрение разработчиками	63% выпускают не менее одной AI-функции	Не выпускать ИИ в 2026 году — это уже конкурентное отставание, а не нейтральный выбор.
Прирост вовлечённости от персонализации	+62% вовлечённости, +80% конверсии	Одни только AI-рекомендации влияют на финансовый результат.
Пользователи мобильных AI-ассистентов (США)	200 млн+ (110 млн — только на мобильных)	Пользователи ожидают, что голосовой и текстовый ИИ будет работать везде.
Прогноз Gartner	Использование мобильных приложений снизится на 25% к 2027 году (из-за AI-ассистентов)	Приложения без встроенного ИИ будут терять пользователей в пользу системных ассистентов.

Фреймворк / API	Платформа	Лучше всего для	Типичная задержка	Структура затрат
Core ML	iOS, macOS, watchOS	Зрение и NLP на устройстве с Apple Neural Engine	< 100 мс	Разовая, внутри приложения
Apple Foundation Models	iOS 18+, macOS 15+	LLM на устройстве, резюмирование, инструменты письма	< 500 мс	Бесплатно (в составе ОС)
TensorFlow Lite / LiteRT	Android, iOS, Web	Кроссплатформенное ML на устройстве	< 200 мс	Разовая, внутри приложения
MediaPipe	Android, iOS, Web	Поза, руки, лицо, жесты, сегментация	< 100 мс	Разовая, внутри приложения
ML Kit (Google)	Android, iOS	Распознавание текста, штрихкоды, перевод, обнаружение лиц	50 мс–2 с	Бесплатный тариф + оплата за запрос
Gemini Nano (AICore)	Android (Pixel 9+, S26+)	LLM на устройстве, резюмирование, подсказки ответов	< 1 с	Бесплатно (в составе ОС)
ONNX Runtime Mobile	Android, iOS, Web	Переносимые модели между фреймворками	< 300 мс	Разовая, внутри приложения
OpenAI API (GPT-5)	Облако	Рассуждения, код и зрение уровня state-of-the-art	1–3 с	93,75–750 ₽ за 1 млн токенов
Anthropic Claude API	Облако	Рассуждения с длинным контекстом, анализ, код	1–3 с	75–1 875 ₽ / 1 млн токенов (скидка 50% при батч-обработке)
Google Gemini API	Облако	Мультимодальность, экономичный текст и зрение	1–2 с	6–375 ₽ / 1 млн токенов
AWS Rekognition	Облако	Анализ изображений и видео, модерация	500 мс–2 с	0,075–0,9 ₽ за изображение
Azure Cognitive Services	Облако	Корпоративное видение, стиль общения, язык	500 мс–2 с	За запрос + подписка

Объём	Пример функции	Сроки	Ориентировочная стоимость
Одна функция на устройстве	Сканирование документа + OCR	4–8 недель	2–6 млн ₽
Гибрид среднего размера	Зрение на устройстве + облачный LLM-чат	8–14 недель	6–13,5 млн ₽
Полноценный гибрид под продакшн	Оркестрация нескольких моделей, RAG, мониторинг	14–22 недели	11,2–22,5 млн ₽
Корпоративная платформа	Регулируемая отрасль (здравоохранение / финтех), несколько регионов, SLA	22+ недели	от 22,5 млн ₽

Платформа	Для чего лучше всего	Стартовая цена	Нужна гарнитура?
ClassVR	Школа (K–12), более 1 500 сценариев по учебной программе	от 75 000 ₽ за школьный комплект	Да (гарнитуры в комплекте)
Labster	Лаборатории биологии, химии, физики в вузах	5 925–8 175 ₽ за студента в год	Нет (браузер + опционально VR)
Nearpod (с VR)	Встраивание в уроки в школе	11 925–29 775 ₽ в год на преподавателя	Опционально
zSpace	AR/VR без гарнитуры; более 3 500 округов	По запросу (фирменное оборудование)	Нет (очки + дисплей с трекингом)
Prisms VR	Математика и естественные науки, 140 округов	По запросу (лицензия округа)	Да
Engage / Spatial	Совместные классы в высшем образовании	37 500–150 000 ₽ в год за помещение	Да (несколько устройств)
CoSpaces Edu	VR-проекты, которые создают сами ученики	75–225 ₽ за ученика в год	Опционально
Osso VR / FundamentalVR	Хирургическая подготовка	450 000–3 млн ₽ в год за рабочее место	Да

Статья расходов	Год 1	Год 2 и далее
30 × Meta Quest 3S (комплект за 37 500 ₽)	1 125 000 ₽	0 ₽ (обновление раз в 3–4 года)
Контент-платформа (ClassVR / Nearpod)	150 000–375 000 ₽	150 000–375 000 ₽
Обучение преподавателей (1 день)	112 500–225 000 ₽	Обновление: 37 500 ₽/год
Зарядная станция + MDM	112 500–187 500 ₽	0 ₽
Страховка / поломки (10%)	112 500 ₽	112 500 ₽
Итого	1,6–2 млн ₽	300 000–525 000 ₽

Машинное обучение для обнаружения аномалий в видео: практическое руководство для служб безопасности 2026

Почему Фора Софт написала это руководство

Что считается видеоаномалией в контексте безопасности

Срез рынка: почему каждый вендор VMS теперь выпускает версию с ИИ

Семейства моделей, которые реально используются в продакшене

CNN-бэкбоны (ResNet, DenseNet, EfficientNet)

3D-CNN / I3D

Видео-трансформеры (TimeSformer, Video Swin)

Автоэнкодеры и VAE-реконструкция

Самообучение и контрастивные методы (MoCo, SimCLR, VideoMAE)

Сравнительная матрица: какая модель подходит для какой задачи

Эталонная архитектура: edge, облако или гибрид

Только edge

Только облако

Гибрид (обнаружение на edge + корреляция в облаке)

Edge-железо: что закладывать в спецификацию

Как устроен пайплайн реального времени изнутри

Бенчмарки и датасеты: что на самом деле значит «state of the art»

Проблема ложных срабатываний (единственное, что действительно волнует операторов)

Купить или построить: сторонние платформы для сравнения

Модель затрат: реалистичный запуск на 100 камер

Мини-кейс: V. A. L. T в продакшене

Фреймворк принятия решения из пяти вопросов

Пять ошибок, которые топят проекты

KPI: что реально измерять

Приватность, GDPR и EU AI Act: что можно и нельзя поставлять

Когда детекция аномалий с помощью машинного обучения — неправильный ответ

Минимальный пайплайн DeepStream (для инженеров, оценивающих проект)

FAQ

Что почитать дальше

Готовы протестировать ML-детекцию аномалий для вашего парка камер?

Похожие статьи

Хотите обсудить ваш проект?