Система ИИ-видеонаблюдения с мониторингом в реальном времени, обнаружением угроз и анализом поведения

ИИ-видеонаблюдение в 2026 году — уже не модный термин, а зрелый продакшен-стек из детекторов, трекеров и визуально-языковых моделей (vision-language models, VLM), которые работают на edge-чипах за 18 600 ₽. Этот гайд — о том, как Фора Софт строит и интегрирует ИИ-наблюдение для клиентов, которым нужно обнаружение аномалий в реальном времени без шквала ложных срабатываний, без проблем с соответствием EU AI Act и без полной замены парка камер. Написано для CTO, продакт-менеджеров и интеграторов, которые уже знают, что такое камера, и хотят понять, что строить, что покупать, а кого нанимать.

Мало времени? Вот выжимка на 90 секунд.

Современное ИИ-наблюдение — это пайплайн: приём потока (RTSP/ONVIF) → детекция (YOLO v11) → трекинг (ByteTrack/BotSORT) → рассуждение (VLM или правила) → оповещение. Запускайте его на NVIDIA Jetson Orin Nano Super на edge или на GPU в облаке, если нужен тяжёлый VLM-инференс. Три ваши главные боли — ложные срабатывания, соответствие EU AI Act (вступает в силу 2 августа 2026 года) и интеграция парка до-ONVIF-камер, который нельзя выкинуть. Всё остальное — обычная инженерия. Наша платформа V.A.L.T работает на 2 500+ камерах в 770+ организациях и служит эталонной архитектурой для большей части того, о чём пойдёт речь ниже.

Ключевые тезисы

  • Эталонный пайплайн 2026 года — это YOLO v11 + ByteTrack/BotSORT + VLM для рассуждения о сцене, развёрнутый на Jetson Orin Nano Super или Hailo-8 на edge.
  • Edge-инференс теперь стоит 18 600 ₽ за канал (Jetson Orin Nano Super, 67 TOPS). Полностью облачные архитектуры в большинстве случаев проигрывают по совокупной стоимости владения.
  • EU AI Act становится обязательным к исполнению 2 августа 2026 года. Большинство применений видеонаблюдения либо запрещены, либо относятся к категории высокого риска, либо требуют прозрачности — соответствие нужно закладывать в архитектуру, а не накручивать поверх.
  • Визуально-языковые модели (Qwen2-VL, Florence-2, Gemini) превращают текстовые промпты в детекции. Это новый интеграционный примитив, а не маркетинговое заявление.
  • Платформа V.A.L.T от Фора Софт обслуживает 2 500+ камер в 770+ организациях; наш стек для видеонаблюдения проверен боевыми задачами в ритейле, медицине и правоохранительных органах.

По теме: читайте наш подробный гайд — «Топ-7 моделей обнаружения аномалий для видеонаблюдения (2026)».

Что реально изменилось в ИИ-наблюдении между 2022 и 2026 годами

Три сдвига. Первый: детекторы стали радикально быстрее — YOLO v11 на Jetson Orin Nano Super выдаёт 30+ FPS на 1080p при mAP в районе 55. Два года назад такие цифры требовали дискретного GPU. Второй: трекинг повзрослел — ByteTrack и BotSORT перешли порог, за которым многообъектный трекинг надёжно работает в толпе и не теряет идентификаторы при частичной окклюзии. Третий, и самый важный: визуально-языковые модели (VLM) стали практической частью пайплайна. Вместо того чтобы обучать узкоспециализированный классификатор для сценария «кто-то оставил сумку», вы пишете промпт. Это меняет экономику создания новых детекций.

Что не изменилось: камеры по-прежнему говорят на RTSP или ONVIF, у заказчиков остаётся легаси-парк, интеграторы живут и умирают по уровню ложных срабатываний, а юристы по приватности по-прежнему частично владеют дорожной картой продукта. EU AI Act, обязательный к исполнению с 2 августа 2026 года, сделал последний пункт неоспоримым. Система видеонаблюдения 2026 года, которая не умеет себя объяснять, — это юридический риск, а не продукт.

Эталонный пайплайн 2026 года, стадия за стадией

Каждая система ИИ-видеонаблюдения, которую мы в Фора Софт строим, состоит из одних и тех же пяти стадий. Реализация каждой стадии может меняться от проекта к проекту, но форма пайплайна — нет.

1. Приём потока — RTSP, ONVIF, WebRTC

Большинство IP-камер в мире говорят по RTSP (RFC 2326) для самой передачи и по ONVIF Profile S/T для обнаружения и управления PTZ. Современные браузерные центры мониторинга всё чаще требуют WebRTC для удалённого просмотра с задержкой менее 500 мс — этот паттерн мы уже разворачивали в нескольких кастомных проектах по видеонаблюдению. Для развёртываний в Азиатско-Тихоокеанском регионе GB/T 28181 обязателен. Стадия приёма также отвечает за переподключения, back-pressure и метрики здоровья потока — звучит скучно, пока в развёртывании на 500 камер один битый NAL-юнит не уронит цикл декодирования.

2. Детекция — YOLO v11, RT-DETR или доменные модели

YOLO v11 — наш дефолт. YOLO v11-Nano выдаёт 39,5 mAP при задержке 1,55 мс (TensorRT, T4) и достаточно компактен для Jetson Orin Nano Super. YOLO v11-XL берёт 54,7 mAP на COCO, когда точность важнее пропускной способности. Для плотных сцен с мелкими объектами впереди RT-DETR и модели семейства DINO, ценой 2–4× по вычислениям. Для специализированных задач — огонь, дым, контроль СИЗ, оружие — вы дообучаете голову YOLO на 5–15 тысячах доменных изображений.

3. Трекинг — ByteTrack, BotSORT, StrongSORT

ByteTrack — дефолтный выбор: 77,3% MOTA на MOT17, 170+ FPS на скромном GPU, ReID-модель не нужна. Когда сцена плотная или много окклюзий, BotSORT добавляет лёгкую ReID-голову для стабильности идентификаторов. Для трекинга криминалистического качества между разными камерами стоит дополнительной задержки StrongSORT. Неверно выбранный трекер удваивает уровень ложных срабатываний, и никто этого не замечает, пока не пожалуется оператор.

4. Рассуждение — правила, модель аномалий или VLM

Детекции и треки — это ещё не оповещения. Стадия рассуждения превращает их в оповещения. В низкорисковых развёртываниях достаточно правил (зона + время удержания + класс). В среднерисковых обучают модель аномалий на данных уровня UCF-Crime или ShanghaiTech. В высокорисковых используют VLM (Qwen2-VL, Florence-2 или Gemini), которая отвечает на вопрос о клипе обычным языком — «есть ли кто-нибудь, лежащий в проходе 3?» — и выдаёт короткое аудитируемое обоснование. Это обоснование критично для AI Act: оповещение-чёрный-ящик в 2026 уже не отгружают.

5. Доставка — оповещения, клипы, дашборды, API

Интерфейс оператора и есть продукт. Push-уведомления, просмотр клипов в режиме «бок о бок», ранжирование по критичности и обратная связь «пометить как ложное срабатывание», которая со временем переобучает (или перенастраивает промпт) модель. API для интеграции с SIEM/SOC (Splunk, QRadar, Sentinel) и стратегия хранения, удовлетворяющая требованиям к срокам в каждой юрисдикции, куда вы продаёте.

Шорт-лист моделей 2026 года, с цифрами

Модель Роль Ключевая цифра Хорошо идёт на Когда брать
YOLO v11-NДетектор39,5 mAP @ 1,55 мсJetson Orin Nano, Hailo-8Edge, много потоков
YOLO v11-XLДетектор54,7 mAPRTX 4090 / L40SКогда важна точность
RT-DETR-LДетектор53,0 mAP @ 108 FPSGPU, сцены с мелкими объектамиТолпа, торговые залы
ByteTrackТрекер77,3% MOTA, 170+ FPSCPU + GPUДефолтный выбор
BotSORTТрекер + ReID+2–4% MOTA к ByteTrackGPU, плотные сценыАэропорты, стадионы
Qwen2-VL-7BVLM для сценыПо промптуA100 / L40S / APIПроизвольные запросы аномалий
Florence-2VLM (open-weight)Объекты + граф сценыL4 / L40SVLM на собственной инфраструктуре
Gemini 2.5Облачная VLMAPIТолько облакоМалый объём, большое разнообразие

Edge или облако: TCO изменилось в 2025

В январе 2025 года NVIDIA выпустила Jetson Orin Nano Super — 18 600 ₽, 67 TOPS, в 1,7× больше пропускной способности, чем у предыдущего поколения. Один этот SKU поменял экономику ИИ-видеонаблюдения. Для большинства коммерческих развёртываний edge-стек теперь выигрывает у облака по совокупной стоимости владения уже в горизонте 18 месяцев.

Развёртывание CAPEX на камеру OPEX на камеру в год Кому подходит
Edge (Jetson / Hailo)11 200–22 500 ₽750–2 200 ₽ (питание + OTA)Приватность, низкая задержка, регионы
Облако (GPU API)0 ₽6 000–15 000 ₽ (инференс + egress)Малый объём, быстрый старт
Гибрид (edge-детекция + облачный VLM)11 200–22 500 ₽1 500–4 500 ₽Регулируемые отрасли
On-prem GPU-сервер4 500–11 200 ₽ (с амортизацией)750–1 500 ₽Плотные объекты (≥ 64 камеры)

Если вы оцениваете предложение поставщика, и он даёт чистое облако за 11 200+ ₽ на камеру в год для 200 камер, спросите почему. Это 2 250 000 ₽ в год на нагрузку, которая могла бы крутиться на edge-железе за 4,5 млн ₽ единовременно с амортизацией на 5 лет. Свяжитесь с нами для 30-минутного архитектурного ревью, и мы прогоним цифры по вашему парку.

Что на самом деле значит «обнаружение аномалий» в 2026

Слово «аномалия» делает слишком много работы. В продакшен-системе 2026 года оно раскладывается на пять конкретных категорий, у каждой — своя модель, свои данные и свой характерный режим отказа.

  • Объектные аномалии. Неожиданный класс объекта в зоне — автомобиль на пешеходной территории, посылка, оставленная на 90+ секунд. Решаются связкой «детектор + правила».
  • Поведенческие аномалии. Праздное шатание, скопление, бег, драка, падение. Решаются моделями распознавания действий (SlowFast, MViT) или VLM с поведенческим промптом.
  • Траекторные аномалии. Движение против потока на эскалаторе, необычный маршрут по складу. Решаются связкой «трекер + обученная модель траекторий».
  • Сценовые аномалии. Огонь, дым, протечка, разбитое стекло. Специализированные классификаторы на дообученных бэкбонах.
  • Комплаенс-аномалии. Отсутствие СИЗ, несанкционированный проход «на хвосте», доступ во внеурочное время. Связка «детектор + контекст идентификации/ACL».

Поставщик, который говорит «мы обнаруживаем аномалии» и не уточняет, какую из этих пяти категорий он решает, продаёт вам демо, а не продукт.

Борьба с ложными срабатываниями — самая ценная инженерная работа

Доверие оператора к ИИ-видеонаблюдению — это функция уровня ложных срабатываний. Выше ~5% — операторы начинают игнорировать оповещения; выше 10% — отключают модуль целиком. Пять техник ниже снижают FPR на порядок — таков наш опыт по внедрениям V.A.L.T.

  1. Контекстные пороги уверенности. Порог — на камеру, а не на модель. Парковка в 3 часа ночи терпит более низкую уверенность, чем торговый зал в полдень.
  2. Временная согласованность. Оповещение запускается, только если детекция держится N подряд идущих кадров или переидентифицируется через разрыв. Убивает однокадровых «призраков».
  3. Геометрия зон. Каждая зона оповещения — это многоугольник с правилами входа/выхода, а не прямоугольник. Убирает срабатывания «обнаружен человек», когда «человек» — это плакат.
  4. Второе мнение от VLM. Для оповещений высокой критичности VLM перечитывает клип и отвечает на структурированный вопрос. Стоит копейки, отсекает верхние 30% ложных срабатываний.
  5. Обратная связь от оператора. Каждое отклонение оператора размечается и попадает обратно в тюнинг порогов или мелкий дообучающий прогон. Накопительный эффект на горизонте 3–6 месяцев.

EU AI Act, GDPR и что нужно заложить в продукт

EU AI Act обязателен для систем высокого риска с 2 августа 2026 года. Большая часть биометрической идентификации в общественных местах либо запрещена прямо, либо разрешена только для узких задач правоохранительных органов с судебной санкцией, либо классифицируется как высокий риск со строгими обязательствами. Штрафы за нарушения доходят до 35 млн € или 7% мирового оборота, в зависимости от того, что больше. Даже если вы не продаёте в ЕС, ваши SaaS-клиенты потребуют эквивалентного контроля.

Шесть вещей, которые нужно заложить в продукт с первого дня:

  • Прозрачность. Система должна уметь объяснить, почему она запустила оповещение. Сохраняйте обрезанный клип, детекции, правило, версию модели и (если использовался) промпт и ответ VLM.
  • Контроль со стороны человека. Каждое действие высокой критичности проходит через оператора, с задокументированным путём ручной отмены.
  • Минимизация данных. Размывайте не относящиеся к делу лица по умолчанию; храните только то, что требует политика, и только столько, сколько политика разрешает.
  • Мониторинг искажений (bias). Отслеживайте производительность модели по демографическим срезам. Открытый реестр искажений, а не закопанный аудит-лог.
  • Юрисдикционная маршрутизация. Видео из ЕС остаётся в ЕС; видео из Калифорнии — в Калифорнии; видео из Китая соответствует MLPS 2.0. Региональные бакеты и ключи шифрования.
  • Аудит-трейл. Неизменяемые логи каждого оповещения, отклонения, экспорта и обновления модели на весь срок хранения.

Чтобы это сделать правильно, специалисты по комплаенсу и ML-инженеры должны сидеть в одной комнате с первого спринта. Наша услуга интеграции ИИ идёт с чек-листом готовности к AI Act, встроенным в фазу дискавери.

Интеграция парка до-ONVIF-камер без полной замены

Около 60% корпоративных парков камер либо предшествуют ONVIF, либо используют вендор-расширения поверх RTSP. «Выкинуть всё» — ни политически, ни финансово не реальность. Наш плейбук для проектов на унаследованной инфраструктуре:

  1. Мост-шлюз. Небольшой Linux-бокс на площадку (или на стойку), который реэкспортирует легаси-поток как ONVIF/RTSP в ИИ-стек. Работает для аналоговых камер через DVR, для проприетарных IP-протоколов и для вендор-залоченных NVR.
  2. Библиотека проб по производителям. Библиотека PTZ/пресетов/событий для распространённых старых камер (Hikvision, Axis legacy, Pelco, Panasonic, Bosch). Разовое вложение, окупается всю жизнь.
  3. Нормализация частоты кадров. Старые аналоговые камеры выдают 6–12 FPS; ИИ-пайплайнам для трекинга нужно 10–15. Аккуратно интерполируйте или дропайте; тюньте пороги на каждую камеру.
  4. Постепенная замена. Очередь приоритетов по возрасту и критичности камеры. Заменяйте по 20% в год, а не 100% сразу.

Метрики, которые важны (и метрики, которыми поставщики пытаются вас запутать)

Игнорируйте «accuracy». Модель с точностью 99% на базовой частоте аномалий 1% — это модель, молчащая в 99% случаев. Цифры, которые важны:

  • Recall при рабочем FPR. «Мы ловим X% реальных событий при одной ложной тревоге на камеру в неделю».
  • Время до оповещения. Медианная задержка от начала события до уведомления оператора. Меньше 5 секунд — хорошо; больше 30 — бесполезно.
  • Сэкономленное время оператора. Минуты просмотра видео, замещённые ранжированным списком оповещений. Измеряйте в часах на оператора за смену, а не в ИИ-баззвордах.
  • Среднее время до повторного захвата идентификатора. Как быстро трекер восстанавливает идентификатор после окклюзии. Метрика качества жизни для криминалистических сценариев.
  • Стоимость одного результативного оповещения. Совокупная стоимость стека ÷ оповещения, которые привели к действиям оператора. Единственная цифра, которая волнует закупки.

Кейс: V.A.L.T — 2 500+ камер, 770+ организаций

Кратко

V.A.L.T — флагманская платформа Фора Софт для видеоменеджмента и наблюдения: HD-видеостриминг с 2 500+ IP-камер для 770+ организаций (полицейские управления, медицинские учреждения, центры защиты детей, образование). Приём по HLS/RTSP, управление PTZ, гранулярные ролевые права доступа, шифрование SSL/RTMPS и подключаемый аналитический слой, в котором живут ИИ-модели.

На типовом проекте в центре защиты детей V.A.L.T обслуживает 20–60 камер интервью-комнат, обеспечивает доступ по делу, чтобы стажёры видели только разрешённые им записи, и применяет ИИ-модель, обученную на размеченных клипах, чтобы помечать процедурные аномалии для проверки супервайзером. Интеграция занимает 4–8 недель «под ключ» и заменяет ручной процесс проверки, который раньше съедал 15–20 человеко-часов супервайзера на одно дело.

Главный урок шире: платформа видеонаблюдения такого масштаба — это в основном инфраструктура: надёжные потоки, права доступа, хранилище. А ИИ сидит сверху. Поставщики, которые начинают с ИИ и пропускают «сантехнику», отгрузят демо, которое развалится на 200 камерах. Свяжитесь с нами для разбора архитектуры V.A.L.T, если хотите увидеть, как стек складывается воедино.

Строить, покупать или гибрид? Матрица решения

Вариант Лучше всего, когда Типичная стоимость Время до результата
SaaS VMS + ИИ≤ 50 камер, стандартный сценарий6 000–15 000 ₽/камера/годДни
On-prem NVR + коммерческий ИИ-SDKСредний сегмент, суверенитет данных1,1 млн–4,5 млн ₽ + 1 500–3 700 ₽/камера/год4–8 недель
Кастомная разработка (наша сильная сторона)≥ 200 камер, специфический домен11,2 млн–90 млн ₽ (единоразово)3–9 месяцев
Гибрид (V.A.L.T + кастомный ИИ)Корпоративный, регулируемый4,5 млн–30 млн ₽6–12 недель

Восемь красных флагов в предложении по ИИ-наблюдению

  1. Не указан уровень ложных срабатываний. Нет FPR при заявленном recall — нет продукта.
  2. Не указана версия модели. «Наш собственный ИИ» — это маркетинг; «YOLO v11 с дообученной головой» — инженерный ответ.
  3. Нет варианта на edge. В 2026 году поставщик, у которого есть только облако, теряет ключевой рычаг TCO.
  4. Нет плана по AI Act. Если «EU AI Act» вызывает у поставщика пожатие плечами, у вашей юридической команды будет та же реакция.
  5. Нет реестра искажений. Производительность по демографическим группам различается. Поставщики, которые делают вид, что нет, что-то скрывают.
  6. Нет списка поддерживаемых ONVIF/RTSP-устройств. «Мы работаем с любой камерой» рассыпается на Panasonic WV-SF336 2012 года.
  7. Нет цикла обратной связи от оператора. Сам по себе FPR не улучшится. Система без интерфейса обратной связи со временем становится хуже, а не лучше.
  8. Нет SLA на время до оповещения. Продукт — это и есть задержка. Нет SLA — нет продукта.

Плейбук развёртывания ИИ-видеонаблюдения

Так мы заходим в новые проекты. Пропуск любого шага надёжно приводит к демо, которое не отгружается.

  1. Инвентаризация камер. Производитель, модель, прошивка, протокол, частота кадров, разрешение, возраст.
  2. Таксономия сцен. Какие именно типы аномалий важны на этом объекте — а не список из 50 пунктов с маркетингового сайта.
  3. Базовые метрики. 2 недели измерения, как оператор тратит время, какой уровень ложных срабатываний у существующей системы, какой объём оповещений сейчас.
  4. Пилот на 10 камерах. Минимальная подвыборка, репрезентативная для объекта. Откалибруйте пороги, измерьте FPR, итерируйтесь.
  5. Согласование по комплаенсу. DPIA, классификация по AI Act, политики хранения, обучение операторов — до масштабирования.
  6. Поэтапная раскатка. 10 → 50 → 200 → весь парк. Цикл обратной связи работает всё это время.
  7. Ежеквартальное переобучение. Новые данные, новые пороги, новая версия модели. Запланировано в бюджете, а не ad hoc.

Архитектурное ревью

Оцениваете проект ИИ-видеонаблюдения?

Мы поставляем софт для видеонаблюдения для 770+ организаций с 2005 года. За 30 минут пройдёмся по вашей архитектуре под нагрузкой — выбор моделей, edge или облако, готовность к AI Act.

Позвоните нам → Напишите нам →

Где ИИ-видеонаблюдение в 2026 приносит реальную пользу

  • Ритейл. Снижение потерь (организованные кражи, мошенничество на кассах самообслуживания), аналитика очередей, контроль выкладки. Измеримая окупаемость за 6–9 месяцев.
  • Производство. Контроль СИЗ, зоны исключения для погрузчиков, обнаружение остановки линии, оценка эргономических рисков. Окупаемость через безопасность и качество.
  • Транспорт и логистика. Обнаружение оставленных предметов, управление двором и доками, аналитика времени простоя.
  • Здравоохранение. Обнаружение падений в палатах, маршрутизация посетителей, контроль доступа в закрытые зоны. Высокая категория риска по AI Act — закладывайте требования с самого начала.
  • Правоохранительные органы и суды. Центры защиты детей, проверка интервью-комнат — родная территория V.A.L.T.
  • Умные здания и кампусы. Контроль прохода «на хвосте», внеурочный доступ, планирование заполненности. Хорошо стыкуется с системами контроля доступа.

Качество модели определяется стратегией работы с данными

Главный фактор производительности ИИ-наблюдения — не архитектура, а данные. Средний по качеству детектор на отличных данных регулярно обыгрывает state-of-the-art-модель на скудных. У нашего продакшен-пайплайна для данных четыре составляющих:

  • Базовый размеченный набор. 5–15 тысяч доменных изображений или нарезок клипов, размеченных обученной командой. Это то, что запускает первую рабочую модель.
  • Синтетическая аугментация. Погода, низкая освещённость, окклюзия, смазывание движения — симулируются на этапе обучения, чтобы модель была устойчива к условиям, для которых натурального видео не хватает.
  • Очередь активного обучения. Каждый продакшен-кадр с низкой уверенностью — кандидат на разметку. Люди размечают сложные кейсы; модель учится на собственных сомнениях.
  • Мониторинг дрейфа. Популяционная статистика по выходам модели против исторической базовой линии. Резкие изменения значат либо «камеру сдвинули», либо «мир изменился» — оба случая требуют внимания.

Публичные бенчмарки, на которые стоит ссылаться в закупках

Если вы пишете RFP, фиксируйте требования к точности по опубликованным бенчмаркам, а не по заявлениям поставщиков. Вот датасеты, которыми реально пользуется исследовательское сообщество.

  • MOT17 / MOT20. Бенчмарки многообъектного трекинга. Цифра ByteTrack в 77,3% MOTA — это MOT17.
  • COCO. Золотой стандарт детекции объектов. Цифры mAP для YOLO v11 берутся с COCO val.
  • UCF-Crime. 1 900+ реальных криминальных клипов в 13 категориях. Эталон для обнаружения аномалий.
  • ShanghaiTech Campus. 13 сцен, 330+ аномальных событий. Широко используется для слабо-контролируемого обнаружения аномалий.
  • XD-Violence. Крупнейший публичный датасет по обнаружению насилия, 4 754 видео.
  • DeepChange (2025). Датасет для ReID людей с учётом 12-месячных изменений одежды, 17 камер. Эталон для исследований долгосрочного трекинга.

Open-source-стек, который стоит знать

Даже если вы покупаете коммерческий продукт, знание open-source-ландшафта помогает держать поставщика в тонусе.

  • Frigate. Лучший в классе self-hosted NVR с локальным инференсом, интеграцией с Home Assistant и активным сообществом разработчиков. 100+ детекций в секунду на скромном железе с Coral TPU или Hailo-8.
  • OpenCV. Через 25 лет всё ещё рабочая лошадка препроцессинга. Каждый продакшен-пайплайн её касается.
  • NVIDIA DeepStream SDK. Правильный ответ для Jetson-железа — батчинг множества потоков, интеграция с TensorRT, ONVIF/RTSP.
  • Ultralytics (YOLO v11). Самый доступный путь к продакшен-детектору. Есть варианты лицензий, разрешающие коммерческое использование.
  • SuperGradients, Roboflow. Оркестрация обучения, разметка данных, инструменты оценки.
  • Qwen2-VL, Florence-2, LLaVA-Video. Open-weight VLM для рассуждения о сцене на собственной инфраструктуре, когда облако — не вариант.

Часто задаваемые вопросы про ИИ-видеонаблюдение

Насколько точно ИИ-видеонаблюдение в 2026 году?

Для чётко определённых аномалий (оставленный предмет, падение, праздное шатание) на корректно откалиброванном развёртывании мы видим 85–95% recall при не более чем 1 ложной тревоге на камеру в неделю. Для новых или едва уловимых аномалий recall падает до 60–75%. Любой, кто называет 99% на открытом множестве, измеряет не то.

Можно ли запустить ИИ-наблюдение полностью на edge?

Да, для связки «детекция + трекинг + правила». Jetson Orin Nano Super тянет 4–8 потоков на 10–15 FPS с YOLO v11-N. Рассуждение на VLM обычно всё-таки живёт на локальном GPU-сервере или в облаке: VLM класса 7B слишком тяжелы для edge-устройств уровня Nano.

EU AI Act не остановит нашу поставку?

Нет — большая часть коммерческого видеонаблюдения остаётся законной, если вы закладываете прозрачность, контроль человека и пропорциональность. Жёсткие ограничения сидят в биометрической идентификации в общественных местах и в прогнозировании поведения идентифицированных людей. На фазе дискавери мы проводим воркшоп по классификации по AI Act, чтобы вы знали свою категорию с первого дня.

Как VLM меняют архитектуру?

Они заменяют большую часть кода кастомного классификатора промптами. Детекторы и трекеры всё равно нужны — VLM слишком медленны, чтобы гонять их на каждом кадре, — но VLM вызывается на короткий клип, чтобы ответить на конкретный вопрос («есть ли кто-нибудь, кто лежит?»). Это ускоряет выкатку новых детекций и даёт текстовое обоснование для логов.

Нужно ли менять имеющиеся камеры?

В большинстве случаев — нет. Мост-шлюз реэкспортирует легаси-потоки как ONVIF/RTSP, и ИИ-стеку всё равно. Частота кадров и разрешение всё-таки важны: очень старые камеры на 4 FPS ограничивают возможности трекинга. Планируйте плавную замену на 3–5 лет, а не полную в первый же день.

Какие реалистичные сроки для кастомной разработки?

3–4 недели дискавери, 6–10 недель пилота на 10 камерах, 3–6 месяцев до раскатанного решения на первые 200 камер. Быстрее — если у вас уже есть размеченные данные и работающая VMS; медленнее — если VMS вы строите параллельно.

Кому принадлежат данные?

Вам. Наш стандартный договор даёт Фора Софт только минимально необходимый доступ к данным для работы системы и запрещает обучение на видео клиента без явного письменного согласия в конкретном контракте. Всё остаётся в вашей юрисдикции.

Короткое резюме — ИИ-видеонаблюдение, 2026

Современное ИИ-видеонаблюдение — это пятиступенчатый пайплайн: приём, детекция, трекинг, рассуждение, доставка. Он построен на понятном стеке: YOLO v11, ByteTrack или BotSORT и VLM для рассуждения о сцене. Jetson Orin Nano Super опустил edge-инференс ниже 18 600 ₽ за канал; большинство развёртываний теперь выигрывают по TCO, идя сначала на edge. Сложные задачи — уровень ложных срабатываний, соответствие EU AI Act и интеграция унаследованного парка камер, а не точность детектора. Выбирайте партнёра, который называет свои модели, даёт FPR при выбранном recall и по умолчанию отгружает аудит-трейл, готовый к AI Act.

Если хотите, чтобы Фора Софт проверила или построила ваш ИИ-стек для видеонаблюдения, — мы делаем это каждую неделю: от пилотов в одном здании до корпоративных раскаток на 2 500+ камер.

Готовы обсудить ИИ-видеонаблюдение?

Приходите с числом камер и сценариями. Уйдёте со стеком, сроками и оценкой.

Позвоните нам → Напишите нам →

Услуга

Разработка систем видеонаблюдения

Кастомные платформы видеонаблюдения от 10 до 10 000+ камер.

ИИ и железо

Тренды ИИ-IP-камер

Что меняется в ML на стороне камеры и в edge-инференсе.

Архитектура

Масштабируемые системы видеоменеджмента

Как современные VMS-архитектуры масштабируются за пределы 1 000 камер.

Услуга

Интеграция ИИ

Сквозная интеграция ИИ с FinOps и готовностью к AI Act.

  • Технологии