
Главное
• Детекция аномалий через ML — это решение «купить или построить», а не научный проект. Платформы вроде Avigilon, Verkada и BriefCam покрывают 80% типовых аномалий; своя разработка окупается от ~200 камер или когда класс аномалий специфичен для отрасли.
• Архитектура важнее алгоритма. Инференс на edge-устройствах Jetson Orin Nano (около 18 600 ₽, 40 TOPS) даёт оповещения менее чем за 100 мс; передача сырых 4K-потоков в облако добавляет 200–2000 мс задержки и солидный счёт за трафик.
• Проекты губят ложные срабатывания, а не точность. Ненастроенные системы выдают 30–70% ложных оповещений; адаптивные пороги плюс временная фильтрация снижают это на 67% без потери истинных срабатываний.
• GDPR и EU AI Act сужают пространство выбора. Распознавание лиц и удалённая биометрическая идентификация в реальном времени запрещены или относятся к категории высокого риска; детекция аномалий объектов и поведения (праздношатание, проникновение, плотность толпы) остаётся в рамках закона.
• Фора Софт уже поставляла именно такой стек. Наша видеоплатформа V.A.L.T работает в продакшене с детекцией аномалий для клиентов из регулируемых отраслей, включая проекты уровня судебных залов в Казахстане, со 100% соблюдением сроков за 21 год работы с видео.
Почему Фора Софт написала это руководство
Фора Софт создаёт видео- и мультимедиа-продукты с 2005 года. За 21 год мы выпустили более 250 проектов, и видеонаблюдение, видеоаналитика с применением AI и стриминг в реальном времени — это основа нашего портфолио. Наши инженеры собирают пайплайны детекции на базе WebRTC, RTMP/HLS, RTSP и NVIDIA DeepStream, запускают их на edge-платах Jetson и кластерах AWS/Hetzner и держат 100% соблюдение сроков по всем этим проектам.
Самый показательный кейс — V.A.L.T, наша платформа видеонаблюдения и наблюдения за процессами. V.A.L.T развёрнут в регулируемых средах (правоохранительные органы, клинические учреждения, проект для судебных залов в Казахстане), где ложные оповещения недопустимы, а ведение аудиторского следа обязательно. Именно эта операционная реальность — а не таблица лидеров на Kaggle — формирует рекомендации в этом руководстве.
Остальная часть руководства отвечает на вопросы, которые покупатели реально задают нам на первых звонках: какие семейства моделей работают, как выглядит хорошая архитектура, каковы реальные затраты, где останавливают GDPR и EU AI Act и когда дешевле купить готовую VMS, чем строить свою. Используйте это руководство, чтобы оценить свой проект — или пришлите нам ТЗ, и мы оценим его вместе с вами.
Оцениваете продукт видеонаблюдения с ML?
Пришлите количество камер, классы аномалий и зону соответствия. За один звонок мы скажем, что выбрать — собственную разработку, готовое решение или гибрид — и сколько это реально стоит.
Что считается видеоаномалией в контексте безопасности
Прежде чем выбирать модель или вендора, зафиксируйте таксономию аномалий. Большинство провалов «AI-видеонаблюдения» случается потому, что покупатель не отделил «аномальные пиксели» от «аномальных событий» и от «нарушений политик». Это три разные задачи с тремя разными кривыми затрат.
1. Аномалии на уровне объектов. То, чего не должно быть в кадре: человек в запретной зоне, машина на пешеходной дорожке, оставленная сумка. Решается зрелыми моделями детекции объектов (YOLOv8, RT-DETR) плюс правилами геозон. Типовая задача.
2. Аномалии движения и поведения. Бег в зоне, где бегать нельзя, праздношатание, падение, драка, внезапное расхождение толпы. Здесь нужны пространственно-временные модели (I3D, TimeSformer, Video Swin) и 3–10 секунд контекста. Решаемо, но нетривиально.
3. Контекстные аномалии и нарушения политик. «Эта дверь никогда не должна открываться после 21:00». «Этот оператор никогда не логинится из-за границы». Здесь видеособытия комбинируются с данными СКУД, расписаниями и идентификацией. ML — самая простая часть; интеграция с существующими системами съедает 60% сроков.
Выбирайте уровень объектов, когда: вы уже точно знаете объект и зону, которые вас интересуют (нарушитель периметра, машина на пожарном проезде), а допустимый уровень ложных срабатываний средний. Поведенческие и контекстные модели для таких сценариев — избыточная мощность.
Срез рынка: почему каждый VMS-вендор теперь выпускает AI-версию
Рынок AI-видеонаблюдения в 2024 году оценивался примерно в 375–487 млрд ₽ и, по прогнозам, достигнет 900 млрд – 2,1 трлн ₽ к 2030 году с темпами роста 20–31% CAGR — в зависимости от того, какому аналитику верить (MarketsAndMarkets, Grand View Research). Более широкий сегмент видеоаналитики, куда входят ритейл, транспорт и промышленность, к 2030 году выходит примерно на 2,8 трлн ₽ при CAGR 19,5%.
Три силы разгоняют эту кривую. Первая — edge-чипы подешевели: Jetson Orin Nano за 18 600 ₽ сегодня запускает модели, которым в 2020 году требовалась рабочая станция за 375 000 ₽. Вторая — предобученные базовые модели (I3D, Video Swin, SAM) сократили затраты на сбор данных для покупателей, у которых нет миллиона размеченных кадров под рукой. Третья — вендоры доказали, что могут снизить нагрузку на операторов: Avigilon от Motorola сообщает о ~90% сокращении ложных тревог за счёт самообучающейся системы Unusual Motion Detection.
Практический вывод: если вы запускаете такой продукт в 2026 году, вы не на острие технологий, а внедряете стек, который уже 3–5 лет шлифовался в продакшене. Поэтому оценки падают, а не растут.
Семейства моделей, которые реально работают в продакшене
Пять архитектур покрывают 95% реальных проектов. Выбирайте по количеству размеченных данных, требованиям к задержке и тому, какие у вас аномалии — пространственные, временные или и те, и другие.
CNN-бэкбоны (ResNet, DenseNet, EfficientNet)
Зачем брать. Самый быстрый инференс (2–5 TFLOP/кадр), минимальный объём памяти, поддерживается всеми edge-рантаймами. Идеально для покадровой классификации объектов или сцены.
Ограничения. Никакой временной логики. CNN не отличит «человек вошёл в банк» от «человек вбежал в банк». Высокий уровень ложных срабатываний на статичных сценах с мерцанием освещения.
3D-CNN / I3D
Зачем брать. Учится пространственным и временным признакам одновременно. На UCF-Crime ансамбли на основе I3D держатся около ~84,6% AUC на уровне кадра — это конкурентно с Transformer-бейзлайнами 2024 года. Зрелая экосистема в NVIDIA TAO и DeepStream.
Ограничения. Прожорлива к памяти: рассчитывайте на 6–8 ГБ VRAM на поток при 224×224 и клипах по 32 кадра. Медленнее 2D-альтернатив на edge-устройствах без оптимизации TensorRT.
Видео-трансформеры (TimeSformer, Video Swin)
Зачем брать. Текущий state of the art. Swin-3DART показал 0,861 ROC AUC на ShanghaiTech; SwinAnomaly (условный GAN + Video Swin) держится около SOTA и при этом работает в реальном времени на железе уровня Orin. Учитывают длинный временной контекст без болезненной проблемы затухающих градиентов LSTM.
Ограничения. Требуют много обучающих данных и вычислений; не ваш выбор, если у вас меньше 10 тыс. размеченных клипов. Для деплоя нужна аккуратная квантизация под edge-устройства.
Автоэнкодеры и VAE-реконструкция
Зачем брать. Обучение без учителя. Учите модель на часах «нормального» видео, помечайте кадры, которые она не может восстановить. Метки не нужны. Подходит, когда класс аномалии — это «что-то странное», а не конкретное событие.
Ограничения. Предполагает, что ошибка реконструкции коррелирует с аномальностью — что часто неверно. Склонна к высокому уровню ложных срабатываний при смене освещения, дрожании камеры, появлении новых, но нормальных объектов.
Самообучение и контрастивные методы (MoCo, SimCLR, VideoMAE)
Зачем брать. Подходит для few-shot. Предобучение на большом неразмеченном видео, дообучение на нескольких сотнях размеченных клипов с аномалиями. По нашему опыту, бюджет на разметку сокращается в 10×.
Ограничения. Предобучение стоит дорого. Окупается только если эти затраты можно размазать на несколько проектов или площадок.
Выбирайте трансформер, когда: у вас >50 тыс. размеченных клипов, нужен длинный временной контекст (драки, падения, потоки людей) и есть бюджет на edge-железо уровня Orin NX. С меньшим объёмом данных или более жёстким бюджетом на железо оставайтесь на I3D или CNN + правилах.
Сравнительная матрица: какая модель для какой задачи
| Семейство моделей | Для чего лучше | Сколько меток нужно | Подходит для edge | Типичный AUC |
|---|---|---|---|---|
| 2D CNN | Объекты и правила зон | 1–5 тыс. размеченных кадров | Да (Jetson Nano+) | 0,75–0,85 |
| 3D-CNN / I3D | Драки, падения, бег | 5–50 тыс. клипов | Orin Nano+ | 0,82–0,90 |
| Видео-трансформер | Аномалии толпы и сцены с длинным контекстом | 50 тыс.+ клипов | Orin NX+ | 0,86–0,97 |
| Автоэнкодер / VAE | «Что-то странное» без учителя | Не нужны (только нормальное видео) | Да (Jetson Nano+) | 0,70–0,82 |
| Самообучение + дообучение | Few-shot, много площадок | 100–500 клипов на площадку | Orin Nano+ | 0,80–0,92 |
Эталонная архитектура: edge, облако или гибрид
Решение об архитектуре влияет на стоимость и задержку гораздо сильнее, чем выбор модели. Существует три паттерна; для практически любого серьёзного проекта побеждает гибрид.
Только edge
Детекция работает на самой камере или на локальном модуле Jetson/Hailo. Задержка 10–100 мс. В центральный офис уходят только оповещения и короткие клипы событий. Работает офлайн. Лучший выбор для менее чем 8 камер на площадке или для строгих требований к приватности, когда сырое видео не должно покидать локальную сеть.
Только облако
Все потоки идут в AWS/GCP для инференса. Задержка 200–2000 мс. Полоса: ~5–50 Мбит/с на поток. Расходы на исходящий трафик быстро накапливаются; площадка из 500 камер при среднем битрейте 4 Мбит/с генерирует ~21 ТБ в день. Оправдано только для криминалистического поиска, опроса с низкой частотой или когда у заказчика есть выделенный магистральный канал.
Гибрид (детекция на edge + корреляция в облаке)
Edge-модели отфильтровывают 99% нормальных кадров; в облако идут только события и метаданные с низким битрейтом, где вы делаете корреляцию между камерами, долгосрочный анализ паттернов и интерфейс. Задержка 50–300 мс. Полоса ~10% от сырых потоков. Это паттерн по умолчанию для всего, что сегодня выпускает Фора Софт.
Выбирайте только облако, когда: вам важнее криминалистический поиск по архиву (в стиле BriefCam), чем оповещения в реальном времени, а полоса не проблема. Всем остальным — по умолчанию гибрид.
Edge-железо: что закладывать в спецификацию
Чип на edge определяет, сколько потоков на коробку вы сможете анализировать и какие модели в него поместятся. В 2026 году практический шорт-лист короткий.
| Устройство | TOPS | TDP | Цена | Для чего лучше |
|---|---|---|---|---|
| Jetson Orin Nano | 34–40 | 5–25 Вт | 18 600 ₽ | 2–4 потока, стандартные CNN/I3D |
| Jetson Orin NX | 100 | 10–25 Вт | ~52 500 ₽ | 8–16 потоков, трансформеры |
| Hailo-8 | 13 | 3 Вт | ~30 000 ₽ за модуль | Камеры на батарее, фиксированные CNN |
| Google Coral TPU | 4 | 2 Вт | 3 700–11 200 ₽ | PoC, один поток, только TFLite |
| Ambarella CV2x | 5–20 | 3–5 Вт | 22 500–45 000 ₽ | Камеры уровня видеонаблюдения со встроенным ISP |
Для большинства наших клиентов Jetson Orin Nano плюс локальный PoE-коммутатор закрывает 2–4 потока на устройство и тянет все стандартные модели детекции аномалий после оптимизации TensorRT. Переходите на Orin NX, когда нужны модели уровня трансформеров или >8 потоков на коробку.
Как устроен пайплайн реального времени изнутри
Продакшен-пайплайн — это семь этапов, а не один вызов модели. Любой пропущенный этап вылезает в виде ложных тревог, всплесков задержки или счетов за хранение.
1. Приём. Подтягивание по RTSP (камеры ONVIF Profile S) или WebRTC для более современных стеков. Используйте GStreamer или nvstreammux из NVIDIA DeepStream для пакетной обработки нескольких потоков.
2. Декодирование и предобработка. Аппаратное декодирование H.264/H.265 на NVDEC или SoC камеры. Эквализация гистограммы и кроп разрешения под вход модели.
3. Детекция и трекинг. YOLOv8 или RT-DETR для объектов; ByteTrack для трекинга нескольких объектов, выдерживающего перекрытия; I3D или Video Swin для временных аномалий.
4. Временной фильтр. Требуйте сигнала аномалии на 3–5 последовательных кадрах до выдачи оповещения. Только это убирает 40–60% ложных срабатываний ценой 5–10 мс задержки.
5. Слияние нескольких камер. Коррелируйте события на соседних камерах через синхронизированные по NTP таймстемпы. Аномалии, видимые с нескольких камер (например, бегущий человек, последовательно пересекающий два кадра), получают более высокий приоритет.
6. Движок правил и политик. Геозоны, расписания, события СКУД. Здесь «человек в зоне» превращается в «человек в запретной зоне в нерабочее время».
7. Доставка оповещений и аудиторский след. WebSocket до операторской консоли, пуш на мобильный, запись в неизменяемый журнал. Именно этот журнал продаёт вас в регулируемые проекты — без него вы теряете каждую корпоративную сделку.
Нужен второй взгляд на дизайн вашего пайплайна?
Пришлите эскиз. Один из наших видео-инженеров пройдётся по нему на предмет задержки, ложных срабатываний и полосы пропускания до того, как вы зафиксируете выбор железа.
Бенчмарки и датасеты: что на самом деле значит «state of the art»
Когда вендор называет красивую цифру точности, спрашивайте, на каком датасете. Пять датасетов, которые имеют значение, в порядке возрастания сложности:
UCF-Crime. 1900 нерезаных видео, 128 часов, 13 реальных аномалий (насилие, ограбления, стрельба, поджог). Самый сложный публичный бенчмарк. Текущий SOTA: ~84,6% AUC на уровне кадра.
XD-Violence. Крупномасштабный датасет насилия, слабо размеченный. Текущий результат ансамблей: ~88% AUC.
ShanghaiTech. 13 сцен, контролируемые разбиения. Проще UCF-Crime. Топ-методы: 92–98% AUC.
Avenue. Аномалии уличного движения. Типичные значения 85–96%.
CUHK Abnormality in Crowds. Толкотня, столкновения, драки. Типичные значения 75–95%.
Предупреждение из реальной жизни: при развёртывании на своей площадке AUC обычно падает на 15–25% из-за сдвига домена. Модель, дающая 0,90 на ShanghaiTech, в первую неделю на площадке покажет 0,70–0,75. Заложите спринт переобучения на своих размеченных данных.
Проблема ложных срабатываний (единственное, что реально волнует операторов)
Ненастроенная модель выдаёт ложную тревогу на 30–70% событий. После примерно 30 ложных оповещений на камеру в сутки люди-операторы начинают игнорировать 40–70% всего, что выдаёт система, — включая реальные события. Каждый зрелый проект тратит больше инженерных ресурсов на подавление ложных срабатываний, чем на сам детектор.
Пять слоёв, которые реально работают в комбинации:
1. Адаптивный порог. Настраивайте пороги уверенности под каждую камеру на месте. Опубликованные адаптивные методы дают 67% сокращения ложных срабатываний при сохранении истинно-положительной доли >94%.
2. Временной консенсус. Требуйте, чтобы аномалия удерживалась на 3–5 последовательных кадрах. 40–60% сокращения ложных срабатываний при пренебрежимом росте задержки.
3. Корреляция между камерами. Оповещения, подтверждённые соседней камерой, получают более высокий приоритет. 70–80% сокращения ложных срабатываний на региональных событиях.
4. Обратная связь от человека. Дайте операторам пометить ложные срабатывания прямо из интерфейса; еженедельно дообучайте модель на этой обратной связи. Закрывает разрыв из-за сдвига домена за 4–8 недель.
5. Мультимодальное слияние. Сочетайте видео со звуком, датчиками дверей, событиями СКУД и (для промышленных площадок) телеметрией оборудования. Самообучающийся UMD от Avigilon в полевых условиях даёт примерно 90% сокращения ложных тревог.
Купить или построить: сторонние платформы для сравнения
Любая честная презентация собственной разработки начинается со сравнения с рынком платформ. Если одна из них даёт вам 80% желаемого за 40% затрат — берите её.
| Платформа | Сильная сторона | Ценовой ориентир | Когда выбирать |
|---|---|---|---|
| Avigilon (Motorola) | Самообучающаяся детекция аномалий и единый парк камер | 60–255 тыс. ₽ за камеру (железо) + 750–2 250 ₽ за канал в месяц (ПО) | Управляемый сервис, <100 камер |
| Genetec | Корпоративное единое видео + СКУД | 3 750–15 000 ₽ за камеру в месяц | >500 камер, безопасность — отдельная бизнес-функция |
| Verkada | Облачный SMB-сегмент | 37 500–225 000 ₽ за камеру (железо) + 14 900–134 900 ₽ за камеру в год | Нет ИТ-штата, быстрый запуск, <200 камер |
| BriefCam | Криминалистический поиск, синопсис видео | 37 500–225 000 ₽ за камеру в год | Расследования важнее оповещений в реальном времени |
| Amazon Rekognition Video | Оплата по минутам анализа | 7,5–75 ₽ за минуту анализа | Эпизодический или событийный анализ |
| NVIDIA DeepStream | SDK для разработчиков | Бесплатный SDK + 750 тыс.–3,7 млн ₽ в год за корпоративную поддержку | Кастомный пайплайн, своя инженерная команда |
Выбирайте собственную разработку, когда: у вас >200 камер, есть класс аномалий, специфичный для домена и не покрытый ни одним вендором (нарушение в фармацевтической чистой комнате, соответствие в кабине пилота, поведение в зале суда), или требование к территориальному хранению данных, исключающее облачные VMS.
Модель затрат: реалистичный деплой на 100 камер
Планировать проще с конкретными цифрами. Вот как ложится развёртывание детекции аномалий на 100 камер по трём путям закупки при типичных рыночных ценах 2026 года. Эти диапазоны рассчитаны на готовые классы аномалий (вторжение, праздношатание, драки, падения). Аномалии, специфичные для домена, повышают стоимость собственной разработки.
| Статья затрат | Готовая VMS | Гибрид (edge + SaaS) | Собственная разработка (Фора Софт) |
|---|---|---|---|
| Первоначальный CapEx | 7,5–18 млн ₽ | 6–13 млн ₽ | 3,7–11 млн ₽ |
| Сроки разработки | 2–6 недель на настройку | 2–4 месяца | 4–8 месяцев до MVP |
| Годовой OpEx | 3,7–15 млн ₽ | 2,2–9 млн ₽ | 1,5–6 млн ₽ |
| Штат сопровождения | 0,25–0,5 FTE | 0,5–1 FTE | 1–2 FTE |
| TCO за 5 лет | 26–52 млн ₽ | 18–45 млн ₽ | 15–37 млн ₽ |
Наш агентный инженерный процесс (программирование с ассистентом-LLM, переиспользуемые внутренние библиотеки для приёма, декодирования, трекинга и интерфейсов) сокращает сроки собственной разработки относительно базовых отраслевых цифр выше. Диапазон «3,7–11 млн ₽ первоначально» отражает именно это, а не демпинг — обсудите с нами конкретное количество камер до того, как привязываться к числу.
Мини-кейс: V.A.L.T в продакшене
V.A.L.T — наша долгоживущая платформа для видеонаблюдения и фиксации процессов. Она работает в проектах для правоохранительных органов, тренингов в клиниках и судебных залов, где основная задача — запись, просмотр и сигнализация по правилам. Деплой в судах Казахстана — один из публичных примеров: сотни залов, обязательные аудиторские следы, нулевая терпимость к пропущенным событиям.
Архитектура, выигравшая контракт, — это гибридный паттерн из этого руководства. Edge-устройства в каждом зале занимаются приёмом, кодированием в H.265, тегированием и первичной детекцией аномалий. В центральное облако уходят только события и индексированные метаданные, где супервайзеры просматривают помеченные фрагменты, ищут по разным залам и экспортируют пакеты, пригодные для суда, с защищённым от подделки логированием.
Два урока перенеслись на все последующие проекты видеонаблюдения: инвестируйте в аудиторский след с самого начала, потому что регулируемые покупатели не подпишут договор без него, и держите движок «правил» независимым от ML-модели, чтобы не-инженеры могли добавлять и настраивать политики оповещений. Хотите такой же разбор для вашего проекта? Позвоните нам или напишите.
Фреймворк принятия решения из пяти вопросов
В1. Сколько камер и на скольких площадках? Менее 50 камер на одной площадке — коммерческая VMS вроде Verkada или Avigilon выигрывает по TCO. Более 200 камер или несколько площадок с требованиями к территориальности данных — пора рассматривать кастом.
В2. Ваши аномалии есть в готовом каталоге? Вторжение, праздношатание, драки, падения, оставленные предметы, плотность толпы — всё это покрывают BriefCam, Avigilon и Verkada. Доменно-специфичные классы (нарушение в чистой комнате, несоблюдение процедур, поведение в кабине пилота, сигналы в зале суда) — нет. Именно здесь кастом отрабатывает свою стоимость.
В3. Каков ваш бюджет на задержку? Живое вмешательство (ограбление, насилие) требует оповещений менее чем за 100 мс; для криминалистического просмотра нормально и за минуты. Жёсткая задержка вынуждает выбирать edge или гибрид; криминалистика может жить в облаке.
В4. Где юридически живут данные? EU AI Act и GDPR практически закрывают облачные проекты с распознаванием лиц. Если покупатель — государственный орган или европейское предприятие, по умолчанию выбирайте edge + локальное хранение и детектируйте только объекты и поведение.
В5. Кто будет переобучать модель? Сдвиг домена стоит 15–25% AUC в первый же день. Если у вас нет плана еженедельного переобучения на данных площадки, выбирайте вендора, который берёт это на себя, или подписывайте контракт на сопровождение с партнёром по разработке.
Пять ошибок, которые топят проекты
1. Бенчмарк на не том датасете. Выкатить на склад модель, дающую 0,95 AUC на ShanghaiTech, — гарантированный конфуз. Всегда дообучайте на 500+ клипах со своей площадки и отчитывайтесь о реальном AUC, а не о научных цифрах.
2. Откладывать борьбу с ложными срабатываниями на «после релиза». К моменту, когда операторы скажут, что оповещения шумные, они уже отключат уведомления. Временная фильтрация, адаптивные пороги и слияние камер должны быть в MVP, а не в бэклоге.
3. Стримить 4K в облако для инференса. 500 камер по 4 Мбит/с — это 21 ТБ в сутки. Исходящий облачный трафик по 6,7 ₽ за ГБ выливается в шестизначные суммы в рублях в год. Edge-инференс — это не оптимизация, а вопрос выживания бюджета.
4. Игнорировать сдвиг домена и сезонный дрейф. «Праздношатание» в уличном торговом центре имеет разный базовый уровень в июле и в декабре. Без планового переобучения или онлайн-обучения точность оповещений падает за три месяца.
5. Пропустить аудиторский след. Регулируемые покупатели (здравоохранение, правоохрана, суды, финансы) уходят в тот момент, когда понимают, что вы не можете выдать защищённый от подделки журнал каждого оповещения, каждого переопределения и каждой смены модели. Закладывайте это в первую неделю разработки, а не в шестой месяц.
KPI: что реально измерять
KPI качества. Точность и полнота на клипах с вашей площадки (а не на публичных бенчмарках). Цель: точность ≥ 0,9 при полноте ≥ 0,85 после трёх циклов переобучения. Отслеживайте дрейф AUC еженедельно.
Бизнес-KPI. Оповещений на камеру в сутки (цель <10), доля подтверждённых операторами оповещений (>80%), время до первой реакции на истинно-положительное событие (<60 с) и доля реальных инцидентов, пойманных системой, а не обнаруженных позже (>85%).
KPI надёжности. Доступность edge-устройств (99,5%+), задержка от детекции до оповещения p95 (<500 мс) и здоровье пайплайна обучения (доля успешных запусков переобучения в месяц, >90%).
Приватность, GDPR и EU AI Act: что можно и нельзя поставлять
Регулирование делит «детекцию аномалий» на две полосы и относится к ним совершенно по-разному.
Низкий риск (можно поставлять под GDPR и EU AI Act). Детекция объектов, аномалии движения, аномалии поведения без повторной идентификации людей. Плотность толпы, праздношатание по силуэту, детекция вторжений, падений и драк. Требуется стандартное уведомление по GDPR и оценка влияния на приватность.
Высокий риск или запрет. Удалённая биометрическая идентификация в реальном времени в общественных местах запрещена для правоохранительных органов по EU AI Act. Нецелевой сбор записей с камер для баз данных распознавания лиц прямо запрещён. Распознавание походки и определение этнической принадлежности отнесены к «высокорисковым» AI-системам по этому акту и требуют полной оценки соответствия.
Практический совет: по умолчанию проектируйте под полосу низкого риска. Если покупатель настаивает на распознавании лиц, перенаправьте запрос вендору с упором на комплаенс и оформите отдельный высокорисковый контракт. Правоприменение жёсткое — французский регулятор оштрафовал Clearview AI на 20 млн € в 2022 году за незаконные практики сбора лиц, и регуляторы ЕС с тех пор последовательны.
Нужен стек детекции аномалий, совместимый с GDPR?
Мы 21 год поставляем видеопродукты в регулируемые среды. Пришлите зону соответствия — и мы подберём модели и паттерн развёртывания, который не приведёт к штрафу.
Когда детекция аномалий с помощью машинного обучения — неправильный ответ
ML — это не универсальный апгрейд видеонаблюдения. Три ситуации, в которых система на правилах или просто человек-оператор подходит лучше:
Маленькое число камер и плотное человеческое наблюдение. Одна камера на парковке, за которой круглосуточно следит охранник, не даёт достаточной отдачи от ML-слоя, чтобы оправдать железо, лицензии и затраты на переобучение.
Нет ни обучающих данных, ни ресурсов операторов. ML требует недель размеченного «нормального» видео плюс обратной связи от операторов. Если нет ни того, ни другого, хорошо настроенное правило детекции движения побьёт недообученную модель.
Безопасность жизни с детерминированными правилами. Детекцию огня, дыма и газа лучше доверять профильным датчикам, а не ML на видео. Используйте видео как подтверждение, а не как основной сигнал.
Минимальный пайплайн DeepStream (для инженеров, оценивающих проект)
Для инженеров, изучающих это руководство, вот скелет многопотокового пайплайна детекции на Jetson. Полезен, чтобы выставить ожидания по железу на этапе закупки; не готов к продакшену.
# Эталонный пайплайн DeepStream, 4 RTSP-потока -> YOLOv8 -> трекер -> sink gst-launch-1.0 \ nvstreammux name=mux batch-size=4 width=1280 height=720 live-source=1 ! \ nvinfer config-file-path=/opt/yolov8.txt ! \ nvtracker ll-lib-file=/opt/libnvds_nvmultiobjecttracker.so ! \ nvinfer config-file-path=/opt/anomaly_i3d.txt ! \ nvmultistreamtiler rows=2 columns=2 ! \ nvvideoconvert ! nvdsosd ! \ nveglglessink \ rtspsrc location=rtsp://cam1:554/h264 ! rtph264depay ! h264parse ! nvv4l2decoder ! mux.sink_0 \ rtspsrc location=rtsp://cam2:554/h264 ! rtph264depay ! h264parse ! nvv4l2decoder ! mux.sink_1 \ rtspsrc location=rtsp://cam3:554/h264 ! rtph264depay ! h264parse ! nvv4l2decoder ! mux.sink_2 \ rtspsrc location=rtsp://cam4:554/h264 ! rtph264depay ! h264parse ! nvv4l2decoder ! mux.sink_3
Orin Nano тянет четыре 1080p-потока с детектором YOLOv8-s и I3D-головой для аномалий после оптимизации TensorRT. Подмените голову на трансформерную — и вам понадобится Orin NX или мощнее.
FAQ
Насколько точна детекция видеоаномалий на ML в реальных проектах?
AUC на публичных бенчмарках лежит между 0,80 и 0,97 в зависимости от сложности датасета. В поле ожидайте падения на 15–25% в первый же день из-за сдвига домена. После 2–3 циклов переобучения на данных площадки точность 0,90+ при полноте 0,85+ достижима для готовых классов аномалий.
Какие реалистичные сроки для собственной разработки продукта детекции видеоаномалий?
Сфокусированный MVP для 3–5 стандартных классов аномалий на одной площадке укладывается в 4–8 месяцев. Многоплощадочные, мультитенантные платформы с движком правил, аудиторским следом и операторскими интерфейсами требуют 9–14 месяцев. Наш агентный инженерный процесс и переиспользуемые внутренние библиотеки для видеопайплайнов сжимают эти окна относительно отраслевых базовых значений.
Можно ли запустить детекцию аномалий на существующих IP-камерах без их замены?
Да, в большинстве случаев. Любая камера с ONVIF Profile S или поддержкой RTSP пушит H.264/H.265 на edge-устройство (Jetson Orin Nano, Hailo-8, шлюз Ambarella). Это значит, что существующий парк камер продолжает работать; вы добавляете вычисления и ПО, а не камеры.
Как сравнивать собственную разработку с Avigilon или Verkada?
Оценивайте по пяти осям: количество камер, специфичность аномалий, требование к задержке, территориальность данных и ответственность за переобучение. Коммерческая VMS выигрывает в первой строке, когда классы аномалий типовые, а камер меньше ~150. Кастом выигрывает выше или когда нужен доменно-специфичный детектор, жёсткий аудиторский след или строгое локальное развёртывание.
Законно ли распознавание лиц для моего проекта по EU AI Act?
Удалённая биометрическая идентификация в реальном времени в общественных местах запрещена для правоохранительного использования с узкими исключениями. Другие применения относятся к «высокорисковым» и требуют полной оценки соответствия, регистрации, логирования и контроля данных. Для большинства сценариев детекции аномалий распознавания лиц лучше избегать вовсе и опираться на сигналы объектов и поведения.
Как снизить ложные срабатывания, не пропуская реальных событий?
Накладывайте пять слоёв: адаптивные пороги под каждую камеру, временной консенсус по 3–5 кадрам, корреляция между камерами, обратная связь от человека через интерфейс и мультимодальное слияние (звук, датчики дверей, СКУД). Опубликованные методы адаптивных порогов дают 67% сокращения ложных срабатываний при истинно-положительной доле >94%.
На каком edge-железе стандартизироваться в 2026 году?
Jetson Orin Nano (18 600 ₽, 40 TOPS) для 2–4 потоков с моделями CNN/I3D; Orin NX (~52 500 ₽, 100 TOPS) для трансформеров или 8+ потоков; Hailo-8 для камер на батарее с ультранизким энергопотреблением; Ambarella CV2x, когда нужно, чтобы тот же SoC обрабатывал ISP камеры. Избегайте оригинального Jetson Nano для новых проектов в 2026 году — он слишком медленный для современных видеомоделей.
Кому принадлежит модель после сдачи проекта?
В наших кастомных разработках — вам: исходники, веса, пайплайны обучающих данных, всё. Это одна из ключевых причин, по которой покупатели выбирают кастом, а не платформу: никакой привязки к вендору, полное право переобучать своими силами или сменить поставщика. Мы предлагаем контракты на сопровождение, если вам удобнее переложить переобучение и мониторинг дрейфа на нас.
Что почитать дальше
Видеонаблюдение
Системы видеонаблюдения на заказ с AI
Сквозной обзор того, как мы оцениваем и выпускаем кастомные продукты видеонаблюдения.
Реальное время
Детекция аномалий в видеонаблюдении в реальном времени
Бюджеты задержки, дизайн пайплайна и стратегии настройки для живых оповещений.
Автоматизация
Автоматическая детекция аномалий на камерах безопасности
Как автоматизировать сортировку событий на существующем парке камер без его замены.
Алгоритмы
Лучшие алгоритмы для детекции аномалий в видеонаблюдении
Глубокое погружение в то, какие алгоритмы хорошо работают в продуктах безопасности и почему.
Готовы оценить ML-детекцию аномалий для вашего парка камер?
Шорт-лист очевиден. Сначала зафиксируйте классы аномалий, количество камер и зону размещения данных. Возьмите гибридную архитектуру как дефолт, Jetson Orin Nano или NX — как дефолтный edge-чип, I3D или Video Swin — как дефолтное семейство моделей. Инвестируйте в стек подавления ложных срабатываний (адаптивные пороги, временной консенсус, корреляция между камерами, обратная связь от оператора) с первого дня, а не после запуска.
Затем честно посчитайте build vs buy: если у вас меньше 150 камер и аномалии типовые, скорее всего, побеждает коммерческая VMS. Выше — или если класс аномалий доменно-специфичный — кастом дешевле на горизонте пятилетнего TCO и даёт вам владение моделью. Фора Софт уже 21 год держится на стороне кастома — пришлите ТЗ, и мы скажем, на какой стороне вы окажетесь, до того, как вы потратите хоть рубль.
Давайте оценим ваш проект ML-видеонаблюдения
Поделитесь количеством камер, классами аномалий и зоной соответствия. После звонка у вас будет вердикт «строить или покупать», реалистичные сроки и ориентир по бюджету.

