
ИИ-видеонаблюдение в 2026 году — уже не модный термин, а зрелый продакшен-стек из детекторов, трекеров и визуально-языковых моделей (vision-language models, VLM), которые работают на edge-чипах за 18 600 ₽. Этот гайд — о том, как Фора Софт строит и интегрирует ИИ-наблюдение для клиентов, которым нужно обнаружение аномалий в реальном времени без шквала ложных срабатываний, без проблем с соответствием EU AI Act и без полной замены парка камер. Написано для CTO, продакт-менеджеров и интеграторов, которые уже знают, что такое камера, и хотят понять, что строить, что покупать, а кого нанимать.
Мало времени? Вот выжимка на 90 секунд.
Современное ИИ-наблюдение — это пайплайн: приём потока (RTSP/ONVIF) → детекция (YOLO v11) → трекинг (ByteTrack/BotSORT) → рассуждение (VLM или правила) → оповещение. Запускайте его на NVIDIA Jetson Orin Nano Super на edge или на GPU в облаке, если нужен тяжёлый VLM-инференс. Три ваши главные боли — ложные срабатывания, соответствие EU AI Act (вступает в силу 2 августа 2026 года) и интеграция парка до-ONVIF-камер, который нельзя выкинуть. Всё остальное — обычная инженерия. Наша платформа V.A.L.T работает на 2 500+ камерах в 770+ организациях и служит эталонной архитектурой для большей части того, о чём пойдёт речь ниже.
Ключевые тезисы
- →Эталонный пайплайн 2026 года — это YOLO v11 + ByteTrack/BotSORT + VLM для рассуждения о сцене, развёрнутый на Jetson Orin Nano Super или Hailo-8 на edge.
- →Edge-инференс теперь стоит 18 600 ₽ за канал (Jetson Orin Nano Super, 67 TOPS). Полностью облачные архитектуры в большинстве случаев проигрывают по совокупной стоимости владения.
- →EU AI Act становится обязательным к исполнению 2 августа 2026 года. Большинство применений видеонаблюдения либо запрещены, либо относятся к категории высокого риска, либо требуют прозрачности — соответствие нужно закладывать в архитектуру, а не накручивать поверх.
- →Визуально-языковые модели (Qwen2-VL, Florence-2, Gemini) превращают текстовые промпты в детекции. Это новый интеграционный примитив, а не маркетинговое заявление.
- →Платформа V.A.L.T от Фора Софт обслуживает 2 500+ камер в 770+ организациях; наш стек для видеонаблюдения проверен боевыми задачами в ритейле, медицине и правоохранительных органах.
По теме: читайте наш подробный гайд — «Топ-7 моделей обнаружения аномалий для видеонаблюдения (2026)».
Что реально изменилось в ИИ-наблюдении между 2022 и 2026 годами
Три сдвига. Первый: детекторы стали радикально быстрее — YOLO v11 на Jetson Orin Nano Super выдаёт 30+ FPS на 1080p при mAP в районе 55. Два года назад такие цифры требовали дискретного GPU. Второй: трекинг повзрослел — ByteTrack и BotSORT перешли порог, за которым многообъектный трекинг надёжно работает в толпе и не теряет идентификаторы при частичной окклюзии. Третий, и самый важный: визуально-языковые модели (VLM) стали практической частью пайплайна. Вместо того чтобы обучать узкоспециализированный классификатор для сценария «кто-то оставил сумку», вы пишете промпт. Это меняет экономику создания новых детекций.
Что не изменилось: камеры по-прежнему говорят на RTSP или ONVIF, у заказчиков остаётся легаси-парк, интеграторы живут и умирают по уровню ложных срабатываний, а юристы по приватности по-прежнему частично владеют дорожной картой продукта. EU AI Act, обязательный к исполнению с 2 августа 2026 года, сделал последний пункт неоспоримым. Система видеонаблюдения 2026 года, которая не умеет себя объяснять, — это юридический риск, а не продукт.
Эталонный пайплайн 2026 года, стадия за стадией
Каждая система ИИ-видеонаблюдения, которую мы в Фора Софт строим, состоит из одних и тех же пяти стадий. Реализация каждой стадии может меняться от проекта к проекту, но форма пайплайна — нет.
1. Приём потока — RTSP, ONVIF, WebRTC
Большинство IP-камер в мире говорят по RTSP (RFC 2326) для самой передачи и по ONVIF Profile S/T для обнаружения и управления PTZ. Современные браузерные центры мониторинга всё чаще требуют WebRTC для удалённого просмотра с задержкой менее 500 мс — этот паттерн мы уже разворачивали в нескольких кастомных проектах по видеонаблюдению. Для развёртываний в Азиатско-Тихоокеанском регионе GB/T 28181 обязателен. Стадия приёма также отвечает за переподключения, back-pressure и метрики здоровья потока — звучит скучно, пока в развёртывании на 500 камер один битый NAL-юнит не уронит цикл декодирования.
2. Детекция — YOLO v11, RT-DETR или доменные модели
YOLO v11 — наш дефолт. YOLO v11-Nano выдаёт 39,5 mAP при задержке 1,55 мс (TensorRT, T4) и достаточно компактен для Jetson Orin Nano Super. YOLO v11-XL берёт 54,7 mAP на COCO, когда точность важнее пропускной способности. Для плотных сцен с мелкими объектами впереди RT-DETR и модели семейства DINO, ценой 2–4× по вычислениям. Для специализированных задач — огонь, дым, контроль СИЗ, оружие — вы дообучаете голову YOLO на 5–15 тысячах доменных изображений.
3. Трекинг — ByteTrack, BotSORT, StrongSORT
ByteTrack — дефолтный выбор: 77,3% MOTA на MOT17, 170+ FPS на скромном GPU, ReID-модель не нужна. Когда сцена плотная или много окклюзий, BotSORT добавляет лёгкую ReID-голову для стабильности идентификаторов. Для трекинга криминалистического качества между разными камерами стоит дополнительной задержки StrongSORT. Неверно выбранный трекер удваивает уровень ложных срабатываний, и никто этого не замечает, пока не пожалуется оператор.
4. Рассуждение — правила, модель аномалий или VLM
Детекции и треки — это ещё не оповещения. Стадия рассуждения превращает их в оповещения. В низкорисковых развёртываниях достаточно правил (зона + время удержания + класс). В среднерисковых обучают модель аномалий на данных уровня UCF-Crime или ShanghaiTech. В высокорисковых используют VLM (Qwen2-VL, Florence-2 или Gemini), которая отвечает на вопрос о клипе обычным языком — «есть ли кто-нибудь, лежащий в проходе 3?» — и выдаёт короткое аудитируемое обоснование. Это обоснование критично для AI Act: оповещение-чёрный-ящик в 2026 уже не отгружают.
5. Доставка — оповещения, клипы, дашборды, API
Интерфейс оператора и есть продукт. Push-уведомления, просмотр клипов в режиме «бок о бок», ранжирование по критичности и обратная связь «пометить как ложное срабатывание», которая со временем переобучает (или перенастраивает промпт) модель. API для интеграции с SIEM/SOC (Splunk, QRadar, Sentinel) и стратегия хранения, удовлетворяющая требованиям к срокам в каждой юрисдикции, куда вы продаёте.
Шорт-лист моделей 2026 года, с цифрами
| Модель | Роль | Ключевая цифра | Хорошо идёт на | Когда брать |
|---|---|---|---|---|
| YOLO v11-N | Детектор | 39,5 mAP @ 1,55 мс | Jetson Orin Nano, Hailo-8 | Edge, много потоков |
| YOLO v11-XL | Детектор | 54,7 mAP | RTX 4090 / L40S | Когда важна точность |
| RT-DETR-L | Детектор | 53,0 mAP @ 108 FPS | GPU, сцены с мелкими объектами | Толпа, торговые залы |
| ByteTrack | Трекер | 77,3% MOTA, 170+ FPS | CPU + GPU | Дефолтный выбор |
| BotSORT | Трекер + ReID | +2–4% MOTA к ByteTrack | GPU, плотные сцены | Аэропорты, стадионы |
| Qwen2-VL-7B | VLM для сцены | По промпту | A100 / L40S / API | Произвольные запросы аномалий |
| Florence-2 | VLM (open-weight) | Объекты + граф сцены | L4 / L40S | VLM на собственной инфраструктуре |
| Gemini 2.5 | Облачная VLM | API | Только облако | Малый объём, большое разнообразие |
Edge или облако: TCO изменилось в 2025
В январе 2025 года NVIDIA выпустила Jetson Orin Nano Super — 18 600 ₽, 67 TOPS, в 1,7× больше пропускной способности, чем у предыдущего поколения. Один этот SKU поменял экономику ИИ-видеонаблюдения. Для большинства коммерческих развёртываний edge-стек теперь выигрывает у облака по совокупной стоимости владения уже в горизонте 18 месяцев.
| Развёртывание | CAPEX на камеру | OPEX на камеру в год | Кому подходит |
|---|---|---|---|
| Edge (Jetson / Hailo) | 11 200–22 500 ₽ | 750–2 200 ₽ (питание + OTA) | Приватность, низкая задержка, регионы |
| Облако (GPU API) | 0 ₽ | 6 000–15 000 ₽ (инференс + egress) | Малый объём, быстрый старт |
| Гибрид (edge-детекция + облачный VLM) | 11 200–22 500 ₽ | 1 500–4 500 ₽ | Регулируемые отрасли |
| On-prem GPU-сервер | 4 500–11 200 ₽ (с амортизацией) | 750–1 500 ₽ | Плотные объекты (≥ 64 камеры) |
Если вы оцениваете предложение поставщика, и он даёт чистое облако за 11 200+ ₽ на камеру в год для 200 камер, спросите почему. Это 2 250 000 ₽ в год на нагрузку, которая могла бы крутиться на edge-железе за 4,5 млн ₽ единовременно с амортизацией на 5 лет. Свяжитесь с нами для 30-минутного архитектурного ревью, и мы прогоним цифры по вашему парку.
Что на самом деле значит «обнаружение аномалий» в 2026
Слово «аномалия» делает слишком много работы. В продакшен-системе 2026 года оно раскладывается на пять конкретных категорий, у каждой — своя модель, свои данные и свой характерный режим отказа.
- Объектные аномалии. Неожиданный класс объекта в зоне — автомобиль на пешеходной территории, посылка, оставленная на 90+ секунд. Решаются связкой «детектор + правила».
- Поведенческие аномалии. Праздное шатание, скопление, бег, драка, падение. Решаются моделями распознавания действий (SlowFast, MViT) или VLM с поведенческим промптом.
- Траекторные аномалии. Движение против потока на эскалаторе, необычный маршрут по складу. Решаются связкой «трекер + обученная модель траекторий».
- Сценовые аномалии. Огонь, дым, протечка, разбитое стекло. Специализированные классификаторы на дообученных бэкбонах.
- Комплаенс-аномалии. Отсутствие СИЗ, несанкционированный проход «на хвосте», доступ во внеурочное время. Связка «детектор + контекст идентификации/ACL».
Поставщик, который говорит «мы обнаруживаем аномалии» и не уточняет, какую из этих пяти категорий он решает, продаёт вам демо, а не продукт.
Борьба с ложными срабатываниями — самая ценная инженерная работа
Доверие оператора к ИИ-видеонаблюдению — это функция уровня ложных срабатываний. Выше ~5% — операторы начинают игнорировать оповещения; выше 10% — отключают модуль целиком. Пять техник ниже снижают FPR на порядок — таков наш опыт по внедрениям V.A.L.T.
- Контекстные пороги уверенности. Порог — на камеру, а не на модель. Парковка в 3 часа ночи терпит более низкую уверенность, чем торговый зал в полдень.
- Временная согласованность. Оповещение запускается, только если детекция держится N подряд идущих кадров или переидентифицируется через разрыв. Убивает однокадровых «призраков».
- Геометрия зон. Каждая зона оповещения — это многоугольник с правилами входа/выхода, а не прямоугольник. Убирает срабатывания «обнаружен человек», когда «человек» — это плакат.
- Второе мнение от VLM. Для оповещений высокой критичности VLM перечитывает клип и отвечает на структурированный вопрос. Стоит копейки, отсекает верхние 30% ложных срабатываний.
- Обратная связь от оператора. Каждое отклонение оператора размечается и попадает обратно в тюнинг порогов или мелкий дообучающий прогон. Накопительный эффект на горизонте 3–6 месяцев.
EU AI Act, GDPR и что нужно заложить в продукт
EU AI Act обязателен для систем высокого риска с 2 августа 2026 года. Большая часть биометрической идентификации в общественных местах либо запрещена прямо, либо разрешена только для узких задач правоохранительных органов с судебной санкцией, либо классифицируется как высокий риск со строгими обязательствами. Штрафы за нарушения доходят до 35 млн € или 7% мирового оборота, в зависимости от того, что больше. Даже если вы не продаёте в ЕС, ваши SaaS-клиенты потребуют эквивалентного контроля.
Шесть вещей, которые нужно заложить в продукт с первого дня:
- Прозрачность. Система должна уметь объяснить, почему она запустила оповещение. Сохраняйте обрезанный клип, детекции, правило, версию модели и (если использовался) промпт и ответ VLM.
- Контроль со стороны человека. Каждое действие высокой критичности проходит через оператора, с задокументированным путём ручной отмены.
- Минимизация данных. Размывайте не относящиеся к делу лица по умолчанию; храните только то, что требует политика, и только столько, сколько политика разрешает.
- Мониторинг искажений (bias). Отслеживайте производительность модели по демографическим срезам. Открытый реестр искажений, а не закопанный аудит-лог.
- Юрисдикционная маршрутизация. Видео из ЕС остаётся в ЕС; видео из Калифорнии — в Калифорнии; видео из Китая соответствует MLPS 2.0. Региональные бакеты и ключи шифрования.
- Аудит-трейл. Неизменяемые логи каждого оповещения, отклонения, экспорта и обновления модели на весь срок хранения.
Чтобы это сделать правильно, специалисты по комплаенсу и ML-инженеры должны сидеть в одной комнате с первого спринта. Наша услуга интеграции ИИ идёт с чек-листом готовности к AI Act, встроенным в фазу дискавери.
Интеграция парка до-ONVIF-камер без полной замены
Около 60% корпоративных парков камер либо предшествуют ONVIF, либо используют вендор-расширения поверх RTSP. «Выкинуть всё» — ни политически, ни финансово не реальность. Наш плейбук для проектов на унаследованной инфраструктуре:
- Мост-шлюз. Небольшой Linux-бокс на площадку (или на стойку), который реэкспортирует легаси-поток как ONVIF/RTSP в ИИ-стек. Работает для аналоговых камер через DVR, для проприетарных IP-протоколов и для вендор-залоченных NVR.
- Библиотека проб по производителям. Библиотека PTZ/пресетов/событий для распространённых старых камер (Hikvision, Axis legacy, Pelco, Panasonic, Bosch). Разовое вложение, окупается всю жизнь.
- Нормализация частоты кадров. Старые аналоговые камеры выдают 6–12 FPS; ИИ-пайплайнам для трекинга нужно 10–15. Аккуратно интерполируйте или дропайте; тюньте пороги на каждую камеру.
- Постепенная замена. Очередь приоритетов по возрасту и критичности камеры. Заменяйте по 20% в год, а не 100% сразу.
Метрики, которые важны (и метрики, которыми поставщики пытаются вас запутать)
Игнорируйте «accuracy». Модель с точностью 99% на базовой частоте аномалий 1% — это модель, молчащая в 99% случаев. Цифры, которые важны:
- Recall при рабочем FPR. «Мы ловим X% реальных событий при одной ложной тревоге на камеру в неделю».
- Время до оповещения. Медианная задержка от начала события до уведомления оператора. Меньше 5 секунд — хорошо; больше 30 — бесполезно.
- Сэкономленное время оператора. Минуты просмотра видео, замещённые ранжированным списком оповещений. Измеряйте в часах на оператора за смену, а не в ИИ-баззвордах.
- Среднее время до повторного захвата идентификатора. Как быстро трекер восстанавливает идентификатор после окклюзии. Метрика качества жизни для криминалистических сценариев.
- Стоимость одного результативного оповещения. Совокупная стоимость стека ÷ оповещения, которые привели к действиям оператора. Единственная цифра, которая волнует закупки.
Кейс: V.A.L.T — 2 500+ камер, 770+ организаций
Кратко
V.A.L.T — флагманская платформа Фора Софт для видеоменеджмента и наблюдения: HD-видеостриминг с 2 500+ IP-камер для 770+ организаций (полицейские управления, медицинские учреждения, центры защиты детей, образование). Приём по HLS/RTSP, управление PTZ, гранулярные ролевые права доступа, шифрование SSL/RTMPS и подключаемый аналитический слой, в котором живут ИИ-модели.
На типовом проекте в центре защиты детей V.A.L.T обслуживает 20–60 камер интервью-комнат, обеспечивает доступ по делу, чтобы стажёры видели только разрешённые им записи, и применяет ИИ-модель, обученную на размеченных клипах, чтобы помечать процедурные аномалии для проверки супервайзером. Интеграция занимает 4–8 недель «под ключ» и заменяет ручной процесс проверки, который раньше съедал 15–20 человеко-часов супервайзера на одно дело.
Главный урок шире: платформа видеонаблюдения такого масштаба — это в основном инфраструктура: надёжные потоки, права доступа, хранилище. А ИИ сидит сверху. Поставщики, которые начинают с ИИ и пропускают «сантехнику», отгрузят демо, которое развалится на 200 камерах. Свяжитесь с нами для разбора архитектуры V.A.L.T, если хотите увидеть, как стек складывается воедино.
Строить, покупать или гибрид? Матрица решения
| Вариант | Лучше всего, когда | Типичная стоимость | Время до результата |
|---|---|---|---|
| SaaS VMS + ИИ | ≤ 50 камер, стандартный сценарий | 6 000–15 000 ₽/камера/год | Дни |
| On-prem NVR + коммерческий ИИ-SDK | Средний сегмент, суверенитет данных | 1,1 млн–4,5 млн ₽ + 1 500–3 700 ₽/камера/год | 4–8 недель |
| Кастомная разработка (наша сильная сторона) | ≥ 200 камер, специфический домен | 11,2 млн–90 млн ₽ (единоразово) | 3–9 месяцев |
| Гибрид (V.A.L.T + кастомный ИИ) | Корпоративный, регулируемый | 4,5 млн–30 млн ₽ | 6–12 недель |
Восемь красных флагов в предложении по ИИ-наблюдению
- Не указан уровень ложных срабатываний. Нет FPR при заявленном recall — нет продукта.
- Не указана версия модели. «Наш собственный ИИ» — это маркетинг; «YOLO v11 с дообученной головой» — инженерный ответ.
- Нет варианта на edge. В 2026 году поставщик, у которого есть только облако, теряет ключевой рычаг TCO.
- Нет плана по AI Act. Если «EU AI Act» вызывает у поставщика пожатие плечами, у вашей юридической команды будет та же реакция.
- Нет реестра искажений. Производительность по демографическим группам различается. Поставщики, которые делают вид, что нет, что-то скрывают.
- Нет списка поддерживаемых ONVIF/RTSP-устройств. «Мы работаем с любой камерой» рассыпается на Panasonic WV-SF336 2012 года.
- Нет цикла обратной связи от оператора. Сам по себе FPR не улучшится. Система без интерфейса обратной связи со временем становится хуже, а не лучше.
- Нет SLA на время до оповещения. Продукт — это и есть задержка. Нет SLA — нет продукта.
Плейбук развёртывания ИИ-видеонаблюдения
Так мы заходим в новые проекты. Пропуск любого шага надёжно приводит к демо, которое не отгружается.
- Инвентаризация камер. Производитель, модель, прошивка, протокол, частота кадров, разрешение, возраст.
- Таксономия сцен. Какие именно типы аномалий важны на этом объекте — а не список из 50 пунктов с маркетингового сайта.
- Базовые метрики. 2 недели измерения, как оператор тратит время, какой уровень ложных срабатываний у существующей системы, какой объём оповещений сейчас.
- Пилот на 10 камерах. Минимальная подвыборка, репрезентативная для объекта. Откалибруйте пороги, измерьте FPR, итерируйтесь.
- Согласование по комплаенсу. DPIA, классификация по AI Act, политики хранения, обучение операторов — до масштабирования.
- Поэтапная раскатка. 10 → 50 → 200 → весь парк. Цикл обратной связи работает всё это время.
- Ежеквартальное переобучение. Новые данные, новые пороги, новая версия модели. Запланировано в бюджете, а не ad hoc.
Архитектурное ревью
Оцениваете проект ИИ-видеонаблюдения?
Мы поставляем софт для видеонаблюдения для 770+ организаций с 2005 года. За 30 минут пройдёмся по вашей архитектуре под нагрузкой — выбор моделей, edge или облако, готовность к AI Act.
Где ИИ-видеонаблюдение в 2026 приносит реальную пользу
- Ритейл. Снижение потерь (организованные кражи, мошенничество на кассах самообслуживания), аналитика очередей, контроль выкладки. Измеримая окупаемость за 6–9 месяцев.
- Производство. Контроль СИЗ, зоны исключения для погрузчиков, обнаружение остановки линии, оценка эргономических рисков. Окупаемость через безопасность и качество.
- Транспорт и логистика. Обнаружение оставленных предметов, управление двором и доками, аналитика времени простоя.
- Здравоохранение. Обнаружение падений в палатах, маршрутизация посетителей, контроль доступа в закрытые зоны. Высокая категория риска по AI Act — закладывайте требования с самого начала.
- Правоохранительные органы и суды. Центры защиты детей, проверка интервью-комнат — родная территория V.A.L.T.
- Умные здания и кампусы. Контроль прохода «на хвосте», внеурочный доступ, планирование заполненности. Хорошо стыкуется с системами контроля доступа.
Качество модели определяется стратегией работы с данными
Главный фактор производительности ИИ-наблюдения — не архитектура, а данные. Средний по качеству детектор на отличных данных регулярно обыгрывает state-of-the-art-модель на скудных. У нашего продакшен-пайплайна для данных четыре составляющих:
- Базовый размеченный набор. 5–15 тысяч доменных изображений или нарезок клипов, размеченных обученной командой. Это то, что запускает первую рабочую модель.
- Синтетическая аугментация. Погода, низкая освещённость, окклюзия, смазывание движения — симулируются на этапе обучения, чтобы модель была устойчива к условиям, для которых натурального видео не хватает.
- Очередь активного обучения. Каждый продакшен-кадр с низкой уверенностью — кандидат на разметку. Люди размечают сложные кейсы; модель учится на собственных сомнениях.
- Мониторинг дрейфа. Популяционная статистика по выходам модели против исторической базовой линии. Резкие изменения значат либо «камеру сдвинули», либо «мир изменился» — оба случая требуют внимания.
Публичные бенчмарки, на которые стоит ссылаться в закупках
Если вы пишете RFP, фиксируйте требования к точности по опубликованным бенчмаркам, а не по заявлениям поставщиков. Вот датасеты, которыми реально пользуется исследовательское сообщество.
- MOT17 / MOT20. Бенчмарки многообъектного трекинга. Цифра ByteTrack в 77,3% MOTA — это MOT17.
- COCO. Золотой стандарт детекции объектов. Цифры mAP для YOLO v11 берутся с COCO val.
- UCF-Crime. 1 900+ реальных криминальных клипов в 13 категориях. Эталон для обнаружения аномалий.
- ShanghaiTech Campus. 13 сцен, 330+ аномальных событий. Широко используется для слабо-контролируемого обнаружения аномалий.
- XD-Violence. Крупнейший публичный датасет по обнаружению насилия, 4 754 видео.
- DeepChange (2025). Датасет для ReID людей с учётом 12-месячных изменений одежды, 17 камер. Эталон для исследований долгосрочного трекинга.
Open-source-стек, который стоит знать
Даже если вы покупаете коммерческий продукт, знание open-source-ландшафта помогает держать поставщика в тонусе.
- Frigate. Лучший в классе self-hosted NVR с локальным инференсом, интеграцией с Home Assistant и активным сообществом разработчиков. 100+ детекций в секунду на скромном железе с Coral TPU или Hailo-8.
- OpenCV. Через 25 лет всё ещё рабочая лошадка препроцессинга. Каждый продакшен-пайплайн её касается.
- NVIDIA DeepStream SDK. Правильный ответ для Jetson-железа — батчинг множества потоков, интеграция с TensorRT, ONVIF/RTSP.
- Ultralytics (YOLO v11). Самый доступный путь к продакшен-детектору. Есть варианты лицензий, разрешающие коммерческое использование.
- SuperGradients, Roboflow. Оркестрация обучения, разметка данных, инструменты оценки.
- Qwen2-VL, Florence-2, LLaVA-Video. Open-weight VLM для рассуждения о сцене на собственной инфраструктуре, когда облако — не вариант.
Часто задаваемые вопросы про ИИ-видеонаблюдение
Насколько точно ИИ-видеонаблюдение в 2026 году?
Для чётко определённых аномалий (оставленный предмет, падение, праздное шатание) на корректно откалиброванном развёртывании мы видим 85–95% recall при не более чем 1 ложной тревоге на камеру в неделю. Для новых или едва уловимых аномалий recall падает до 60–75%. Любой, кто называет 99% на открытом множестве, измеряет не то.
Можно ли запустить ИИ-наблюдение полностью на edge?
Да, для связки «детекция + трекинг + правила». Jetson Orin Nano Super тянет 4–8 потоков на 10–15 FPS с YOLO v11-N. Рассуждение на VLM обычно всё-таки живёт на локальном GPU-сервере или в облаке: VLM класса 7B слишком тяжелы для edge-устройств уровня Nano.
EU AI Act не остановит нашу поставку?
Нет — большая часть коммерческого видеонаблюдения остаётся законной, если вы закладываете прозрачность, контроль человека и пропорциональность. Жёсткие ограничения сидят в биометрической идентификации в общественных местах и в прогнозировании поведения идентифицированных людей. На фазе дискавери мы проводим воркшоп по классификации по AI Act, чтобы вы знали свою категорию с первого дня.
Как VLM меняют архитектуру?
Они заменяют большую часть кода кастомного классификатора промптами. Детекторы и трекеры всё равно нужны — VLM слишком медленны, чтобы гонять их на каждом кадре, — но VLM вызывается на короткий клип, чтобы ответить на конкретный вопрос («есть ли кто-нибудь, кто лежит?»). Это ускоряет выкатку новых детекций и даёт текстовое обоснование для логов.
Нужно ли менять имеющиеся камеры?
В большинстве случаев — нет. Мост-шлюз реэкспортирует легаси-потоки как ONVIF/RTSP, и ИИ-стеку всё равно. Частота кадров и разрешение всё-таки важны: очень старые камеры на 4 FPS ограничивают возможности трекинга. Планируйте плавную замену на 3–5 лет, а не полную в первый же день.
Какие реалистичные сроки для кастомной разработки?
3–4 недели дискавери, 6–10 недель пилота на 10 камерах, 3–6 месяцев до раскатанного решения на первые 200 камер. Быстрее — если у вас уже есть размеченные данные и работающая VMS; медленнее — если VMS вы строите параллельно.
Кому принадлежат данные?
Вам. Наш стандартный договор даёт Фора Софт только минимально необходимый доступ к данным для работы системы и запрещает обучение на видео клиента без явного письменного согласия в конкретном контракте. Всё остаётся в вашей юрисдикции.
Короткое резюме — ИИ-видеонаблюдение, 2026
Современное ИИ-видеонаблюдение — это пятиступенчатый пайплайн: приём, детекция, трекинг, рассуждение, доставка. Он построен на понятном стеке: YOLO v11, ByteTrack или BotSORT и VLM для рассуждения о сцене. Jetson Orin Nano Super опустил edge-инференс ниже 18 600 ₽ за канал; большинство развёртываний теперь выигрывают по TCO, идя сначала на edge. Сложные задачи — уровень ложных срабатываний, соответствие EU AI Act и интеграция унаследованного парка камер, а не точность детектора. Выбирайте партнёра, который называет свои модели, даёт FPR при выбранном recall и по умолчанию отгружает аудит-трейл, готовый к AI Act.
Если хотите, чтобы Фора Софт проверила или построила ваш ИИ-стек для видеонаблюдения, — мы делаем это каждую неделю: от пилотов в одном здании до корпоративных раскаток на 2 500+ камер.
Готовы обсудить ИИ-видеонаблюдение?
Приходите с числом камер и сценариями. Уйдёте со стеком, сроками и оценкой.
Читайте дальше
Услуга
Разработка систем видеонаблюдения
Кастомные платформы видеонаблюдения от 10 до 10 000+ камер.
ИИ и железо
Тренды ИИ-IP-камер
Что меняется в ML на стороне камеры и в edge-инференсе.
Архитектура
Масштабируемые системы видеоменеджмента
Как современные VMS-архитектуры масштабируются за пределы 1 000 камер.
Услуга
Интеграция ИИ
Сквозная интеграция ИИ с FinOps и готовностью к AI Act.
