ИИ-видеонаблюдение в 2026: как устроено, сколько стоит и что требует закон

ИИ-видеонаблюдение в 2026: архитектура, стоимость, требования закона — обложка

ИИ-видеонаблюдение в 2026 году — уже не модный термин, а зрелый продакшен-стек из детекторов, трекеров и визуально-языковых моделей (vision-language models, VLM), которые работают на edge-чипах за 18 600 ₽. Этот гайд — о том, как Фора Софт строит и интегрирует ИИ-наблюдение для клиентов, которым нужно обнаружение аномалий в реальном времени без большого числа ложных срабатываний, без проблем с соответствием EU AI Act и без полной замены парка камер. Написано для CTO, продакт-менеджеров и интеграторов, которые уже знают, что такое камера, и хотят понять, что строить, что покупать, а кого нанимать.

Мало времени? Вот краткое содержание за 90 секунд.

Современное ИИ-наблюдение — это цепочка: приём потока (RTSP/ONVIF) → детекция (YOLO v11) → трекинг (ByteTrack/BotSORT) → рассуждение (VLM или правила) → оповещение. Запускайте её на NVIDIA Jetson Orin Nano Super на edge или на GPU в облаке, если нужен тяжёлый VLM-инференс. Три главные проблемы — ложные срабатывания, соответствие EU AI Act (вступает в силу 2 августа 2026 года) и интеграция старых камер, не поддерживающих ONVIF, которые нельзя просто выбросить. Всё остальное — обычная инженерия. Наша платформа V. A. L. T. работает на 2 500+ камерах в 770+ организациях и служит эталонной архитектурой для большей части того, о чём пойдёт речь ниже.

Ключевые тезисы

→Эталонный пайплайн 2026 года — это YOLO v11 + ByteTrack/BotSORT + VLM для анализа сцены, развернутый на Jetson Orin Nano Super или Hailo-8 на edge.
→Edge-вывод теперь стоит 18 600 ₽ за канал (Jetson Orin Nano Super, 67 TOPS). Полностью облачные решения в большинстве случаев уступают по общей стоимости владения.
→EU AI Act вступает в силу 2 августа 2026 года. Большинство систем видеонаблюдения либо запрещены, либо попадают в категорию высокого риска, либо требуют соблюдения прозрачности — соответствие нужно закладывать в архитектуру, а не добавлять потом.
→Визуально-языковые модели (Qwen2-VL, Florence-2, Gemini) превращают текстовые запросы в детекции. Это новый способ интеграции, а не просто маркетинговый ход.
→Платформа V. A. L. T от Фора Софт обслуживает 2 500+ камер в 770+ организациях; наш стек для видеонаблюдения прошёл проверку на реальных задачах в ритейле, медицине и правоохранительных органах.

По теме: читайте наш подробный гайд — «Топ-7 моделей обнаружения аномалий для видеонаблюдения (2026)».

Что реально изменилось в ИИ-наблюдении между 2022 и 2026 годами

Три сдвига. Первый: детекторы стали радикально быстрее — YOLO v11 на Jetson Orin Nano Super выдаёт 30+ FPS на 1080p при mAP около 55. Два года назад такие показатели были возможны только с дискретным GPU. Второй: трекинг заметно продвинулся — ByteTrack и BotSORT преодолели порог, после которого многообъектный трекинг стабильно работает в толпе и не теряет идентификаторы при частичной закрытости. Третий, и самый важный: визуально-языковые модели (VLM) стали реальной частью пайплайна. Вместо того чтобы обучать узкоспециализированный классификатор для сценария «кто-то оставил сумку», вы просто пишете промпт. Это кардинально меняет подход к созданию новых детекций.

Что не изменилось: камеры по-прежнему используют RTSP или ONVIF, у заказчиков остаётся парк устаревшего оборудования, интеграторы зависят от количества ложных срабатываний, а юристы по приватности по-прежнему влияют на развитие продукта. EU AI Act, вступающий в силу 2 августа 2026 года, окончательно закрепил этот момент. Система видеонаблюдения 2026 года, которая не может объяснить, как принимает решения, — это юридический риск, а не полноценный продукт.

Эталонный пайплайн 2026 года, стадия за стадией

Каждая система ИИ-видеонаблюдения, которую мы в Фора Софт разрабатываем, состоит из пяти одинаковых этапов. Реализация каждого этапа может отличаться от проекта к проекту, но структура пайплайна остаётся неизменной.

1. Приём потока — RTSP, ONVIF, WebRTC

Большинство IP-камер в мире используют RTSP (RFC 2326) для передачи видео и ONVIF Profile S/Т для обнаружения и управления PTZ. Современные браузерные системы видеонаблюдения всё чаще требуют WebRTC, чтобы обеспечить просмотр в реальном времени с задержкой менее 500 мс — такой подход мы уже применяли в нескольких кастомных проектах. В Азиатско-Тихоокеанском регионе стандарт GB/T 28181 является обязательным. На этапе приёма реализуются переподключения, управление нагрузкой (back-pressure) и мониторинг состояния потока — всё это кажется рутинным, пока в системе из 500 камер один повреждённый NAL-юнит не сломает цикл декодирования.

2. Детекция — YOLO v11, RT-DETR или доменные модели

YOLO v11 — наш стандартный выбор. YOLO v11-Nano показывает 39,5 mAP при задержке 1,55 мс (TensorRT, T4) и достаточно компактный для Jetson Orin Nano Super. YOLO v11-XL достигает 54,7 mAP на COCO, когда важнее точность, а не скорость. Для сцен с большим количеством мелких объектов лучше подходят RT-DETR и модели семейства DINO, но они требуют в 2–4 раза больше вычислений. Для специализированных задач — обнаружение огня, дыма, СИЗ или оружия — достаточно дообучить голову YOLO на 5–15 тысячах изображений из нужной предметной области.

3. Трекинг — ByteTrack, BotSORT, StrongSORT

ByteTrack — выбор по умолчанию: 77,3% MOTA на MOT17, 170+ FPS на слабом GPU, ReID-модель не требуется. Когда объекты плотно заполняют сцену или часто перекрываются, BotSORT добавляет простую ReID-голову для стабильной идентификации. Для точного отслеживания между камерами, где нужна криминалистическая надёжность, стоит использовать StrongSORT — он добавляет небольшую задержку, но повышает точность. Неправильно выбранный трекер может удвоить количество ложных срабатываний, и об этом никто не узнает, пока оператор не пожалуется.

4. Рассуждение — правила, модель аномалий или VLM

Детекции и треки — это ещё не оповещения. Стадия рассуждения превращает их в оповещения. В низкорисковых развёртываниях достаточно правил (зона + время удержания + класс). В среднерисковых используют модель аномалий, обученную на данных уровня UCF-Crime или ShanghaiTech. В высокорисковых применяют VLM (Qwen2-VL, Florence-2 или Gemini), которая отвечает на вопрос о клипе обычным языком — «есть ли кто-то, лежащий в проходе 3?» — и выдаёт краткое, понятное обоснование. Это обоснование критически важно для AI Act: оповещения-«чёрные ящики» с 2026 года уже не пройдут сертификацию.

5. Доставка — оповещения, клипы, дашборды, API

Интерфейс оператора — это и есть продукт. Push-уведомления, просмотр клипов в режиме «бок о бок», ранжирование по уровню критичности и возможность отметить срабатывание как ложное — эта обратная связь со временем переобучает модель или перенастраивает промпт. API для интеграции с SIEM/ SOC (Splunk, QRadar, Sentinel) и стратегия хранения данных, соответствующая требованиям по срокам хранения в каждой юрисдикции, где вы продаёте продукт.

Шорт-лист моделей 2026 года с цифрами

Модель	Роль	Ключевая цифра	Хорошо идёт на	Когда брать
YOLO v11-N	Детектор	39,5 mAP @ 1,55 мс	Jetson Orin Nano, Hailo-8	Edge, много потоков
YOLO v11-XL	Детектор	54,7 mAP	RTX 4090 / L40S	Когда важна точность
RT-DETR-L	Детектор	53,0 mAP @ 108 FPS	GPU, сцены с мелкими объектами	Толпа, торговые залы
ByteTrack	Трекер	77,3% MOTA, 170+ FPS	CPU + GPU	Дефолтный выбор
BotSORT	Трекер + ReID	+2–4% MOTA к ByteTrack	GPU, плотные сцены	Аэропорты, стадионы
Qwen2-VL-7B	VLM для сцены	По промпту	A100 / L40S / API	Произвольные запросы аномалий
Florence-2	VLM (open-weight)	Объекты + граф сцены	L4 / L40S	VLM на собственной инфраструктуре
Gemini 2.5	Облачная VLM	API	Только облако	Малый объём, большое разнообразие

Edge или облако: TCO изменилось в 2025

В январе 2025 года NVIDIA выпустила Jetson Orin Nano Super — 18 600 ₽, 67 TOPS, в 1,7 раза выше пропускная способность по сравнению с предыдущим поколением. Один этот SKU изменил экономику ИИ-видеонаблюдения. Для большинства коммерческих развёртываний edge-решение теперь становится выгоднее облака по совокупной стоимости владения уже через 18 месяцев.

Развёртывание	CAPEX на камеру	OPEX на камеру в год	Кому подходит
Edge (Jetson / Hailo)	11 200–22 500 ₽	750–2 200 ₽ (питание + OTA)	Приватность, низкая задержка, регионы
Облако (GPU API)	0 ₽	6 000–15 000 ₽ (инференс + egress)	Малый объём, быстрый старт
Гибрид (обнаружение границ + облачная модель визуального языка)	11 200–22 500 ₽	1 500–4 500 ₽	Регулируемые отрасли
On-prem GPU-сервер	4 500–11 200 ₽ (с учётом амортизации)	750–1 500 ₽	Плотные объекты (≥ 64 камеры)

Если вы оцениваете предложение поставщика, и он предлагает чистое облако за 11 200+ ₽ на камеру в год для 200 камер — спросите, почему. Это 2 250 000 ₽ в год на нагрузку, которую можно запустить на edge-оборудовании за 4,5 млн ₽ единовременно с амортизацией на 5 лет. Свяжитесь с нами для 30-минутного архитектурного ревью — мы прогоним цифры по вашему парку.

Что на самом деле значит «обнаружение аномалий» в 2026

Слово «аномалия» делает слишком много работы. В продакшен-системе 2026 года оно разбивается на пять конкретных категорий — у каждой своя модель, свои данные и свой характерный режим отказа.

Объектные аномалии. Неожиданный объект в зоне — например, автомобиль на пешеходной территории или посылка, оставленная более чем на 90 секунд. Проблемы решаются с помощью комбинации «детектор + правила».
Поведенческие аномалии. Бездельное блуждание, скопление людей, бег, драки, падения. Проблему решают модели распознавания действий (SlowFast, MViT) или VLM с поведенческим промптом.
Траекторные аномалии. Движение против потока на эскалаторе, нестандартный путь по складу. Проблему решает комбинация «трекер + обученная модель траекторий».
Сценовые аномалии. Огонь, дым, протечка, разбитое стекло. Специализированные классификаторы на дообученных бэкбонах.
Комплаенс-аномалии. Отсутствие СИЗ, несанкционированный проход «на хвосте», доступ во внеурочное время. Связка «детектор + контекст идентификации/ACL».

Поставщик, который говорит «мы обнаруживаем аномалии», но не уточняет, какую из пяти категорий он решает, продаёт вам демо, а не настоящий продукт.

Борьба с ложными срабатываниями — самая ценная инженерная работа

Доверие оператора к ИИ-видеонаблюдению зависит от уровня ложных срабатываний. При показателе выше ~5% операторы начинают игнорировать оповещения, а при превышении 10% — отключают модуль полностью. Пять описанных ниже техник снижают FPR на порядок — таков наш опыт внедрения системы V. A. L. T.

Контекстные пороги уверенности. Порог устанавливается на камеру, а не на модель. Парковка в три часа ночи допускает более низкую уверенность, чем торговый зал в полдень.
Временная согласованность. Оповещение срабатывает, только если объект обнаруживается на N последовательных кадрах или переидентифицируется после временного разрыва. Это позволяет отсеивать однокадровых «призраков».
Геометрия зон. Каждая зона оповещения — это многоугольник с правилами входа и выхода, а не прямоугольник. Это исключает ложные срабатывания, когда система ошибочно распознаёт плакат как человека.
Второе мнение от VLM. Для оповещений высокой критичности VLM перечитывает клип и отвечает на структурированный вопрос. Стоит копейки, отсекает верхние 30% ложных срабатываний.
Обратная связь от оператора. Каждое отклонение оператора фиксируется и возвращается в настройку порогов или используется для небольшого дообучения. Накопительный эффект проявляется через 3–6 месяцев.

EU AI Act, GDPR и что нужно заложить в продукт

EU AI Act вступит в силу для систем высокого риска с 2 августа 2026 года. Большая часть биометрической идентификации в общественных местах либо запрещена, либо разрешена только для узкоспециализированных задач правоохранительных органов при наличии судебного разрешения, либо относится к высокому риску и требует строгих обязательств. Штрафы за нарушения могут достигать 35 млн € или 7% мирового оборота компании — в зависимости от того, что больше. Даже если вы не продаёте продукты в ЕС, ваши SaaS-клиенты будут требовать аналогичных мер контроля.

Шесть вещей, которые нужно заложить в продукт с самого начала:

Прозрачность. Система должна уметь объяснить, почему сработало оповещение. Сохраняйте обрезанный клип, детекции, правило, версию модели и (если использовался) промпт и ответ VLM.
Контроль со стороны человека. Каждое действие высокой критичности проходит через оператора и имеет задокументированный способ ручной отмены.
Минимизация данных. По умолчанию размывайте лица, не имеющие отношения к делу; храните только то, что требует политика, и только в объёме, который она разрешает.
Мониторинг искажений (bias). Следите за работой модели по разным демографическим группам. Используйте открытый реестр искажений, а не скрытые лог-файды аудита.
Юрисдикционная маршрутизация. Видео из ЕС остаётся в ЕС, видео из Калифорнии — в Калифорнии, видео из Китая соответствует MLPS 2.0. Региональные бакеты и ключи шифрования.
Аудит-трейл. Неизменяемые логи всех оповещений, отклонений, экспортов и обновлений модели на весь срок хранения.

Чтобы всё прошло правильно, специалисты по комплаенсу и ML-инженеры должны работать вместе с самого первого спринта. Наша услуга интеграции ИИ включает чек-лист готовности к AI Act, встроенный в фазу дисковери.

Интеграция парка до-ONVIF-камер без полной замены

Около 60% корпоративных парков камер либо предшествуют ONVIF, либо используют вендор-расширения поверх RTSP. «Выкинуть всё» — ни политически, ни финансово нереально. Наш плейбук для проектов на унаследованной инфраструктуре:

Мост-шлюз. Небольшой Linux-сервер на площадке (или в стойке), который преобразует устаревший видеопоток в формат ONVIF/RTSP для ИИ-аналитики. Поддерживает аналоговые камеры через DVR, проприетарные IP-протоколы и NVR с вендорной блокировкой.
Библиотека проб по производителям. Библиотека PTZ/пресетов/событий для популярных старых камер (Hikvision, Axis legacy, Pelco, Panasonic, Bosch). Разовое вложение, окупается на протяжении всей эксплуатации.
Нормализация частоты кадров. Старые аналоговые камеры работают на 6–12 кадров в секунду, а ИИ-алгоритмам для трекинга нужно 10–15. Аккуратно интерполируйте или отбрасывайте кадры, настраивайте пороги под каждую камеру отдельно.
Постепенная замена. Очередь приоритетов определяется возрастом и критичностью камеры. Заменяйте по 20% в год, а не всё сразу.

Метрики, которые действительно важны (и те, которыми поставщики пытаются вас ввести в заблуждение)

Игнорируйте «accuracy». Модель с точностью 99% на базовой частоте аномалий 1% — это модель, которая молчит в 99% случаев. Цифры, которые важны:

Recall при рабочем FPR. «Мы выявляем X% реальных событий при одной ложной тревоге на камеру в неделю».
Время до оповещения. Медианное время от начала события до уведомления оператора. Менее 5 секунд — хорошо; более 30 — бесполезно.
Сэкономленное время оператора. Минуты просмотра видео, заменённые на ранжированный список оповещений. Измеряйте в часах на одного оператора за смену, а не в ИИ-терминах.
Среднее время до повторного захвата идентификатора. Как быстро трекер снова находит идентификатор после потери. Важная метрика для криминалистических задач.
Стоимость одного результативного оповещения. Общая стоимость стека делённая на количество оповещений, которые привели к действиям оператора. Единственная цифра, которая интересует закупку.

Кейс: V. A. L. T — 2 500+ камер, 770+ организаций

Кратко

V. A. L. T — флагманская платформа Фора Софт для видеоменеджмента и наблюдения: HD-видеостриминг с 2 500+ IP-камер для 770+ организаций (полицейские управления, медицинские учреждения, центры защиты детей, образовательные учреждения). Приём по HLS/RTSP, управление PTZ, детальные права доступа по ролям, шифрование SSL/RTMPS и подключаемый аналитический слой, где работают ИИ-модели.

На типовом проекте в центре защиты детей V. A. L. T. обслуживает 20–60 камер интервью-комнат, обеспечивает доступ по делам — стажёры видят только те записи, к которым у них есть разрешение, — и использует ИИ-модель, обученную на размеченных клипах, чтобы выявлять процедурные аномалии и направлять их на проверку супервайзеру. Интеграция занимает 4–8 недель «под ключ» и заменяет ручной процесс проверки, который раньше требовал 15–20 человеко-часов супервайзера на одно дело.

Главный урок шире: платформа видеонаблюдения такого масштаба — это в основном инфраструктура: надёжные потоки, права доступа, хранилище. А ИИ работает поверх. Те, кто начинает с ИИ и пропускает «сантехнику», покажут рабочее демо, но оно не выдержит нагрузки уже на 200 камерах. Свяжитесь с нами, чтобы разобрать архитектуру V. A. L. T. и увидеть, как все компоненты стека работают вместе.

Строить, покупать или гибрид? Матрица решения

Вариант	Лучше всего, когда	Типичная стоимость	Время до результата
SaaS VMS + ИИ	≤ 50 камер, стандартный сценарий	6 000–15 000 ₽ за камеру в год	Дни
Локальный NVR + коммерческий ИИ-SDK	Средний сегмент, суверенитет данных	1,1 млн–4,5 млн ₽ + 1 500–3 700 ₽ за камеру в год	4–8 недель
Кастомная разработка (наша сильная сторона)	≥ 200 камер, специфический домен	11,2 млн–90 млн ₽ (единовременно)	3–9 месяцев
Гибрид (V. A. L. T + кастомный ИИ)	Корпоративный, регулируемый	4,5 млн–30 млн ₽	6–12 недель

Восемь красных флагов в предложении по ИИ-наблюдению

Не указан уровень ложных срабатываний. Без FPR при заявленном recall продукт не может считаться готовым.
Не указана версия модели. «Наш собственный ИИ» — это маркетинг; «YOLO v11 с дообученной головой» — точный инженерный ответ.
Нет варианта на edge. В 2026 году поставщик, у которого есть только облако, теряет важный инструмент для снижения общей стоимости владения (TCO).
Нет плана по AI Act. Если «EU AI Act» вызывает у поставщика пожатие плечами, у вашей юридической команды будет точно такая же реакция.
Нет реестра искажений. Производительность по демографическим группам различается. Поставщики, которые делают вид, что ничего не скрывают, — врут.
Нет списка поддерживаемых ONVIF/RTSP-устройств. Фраза «мы работаем с любой камерой» не работает на практике — например, с Panasonic WV-SF336 2012 года подключение не удаётся.
Нет обратной связи от оператора. Сам по себе FPR не улучшится. Система без механизма обратной связи со временем становится хуже, а не лучше.
Нет SLA на время до оповещения. Продукт — это и есть задержка. Нет SLA — нет продукта.

Плейбук развёртывания ИИ-видеонаблюдения

Так мы начинаем работать с новыми проектами. Пропуск любого шага надёжно приводит к тому, что демо не проходит отгрузку.

Инвентаризация камер. Производитель, модель, прошивка, протокол, частота кадров, разрешение, возраст.
Таксономия сцен. Какие именно типы аномалий важны на этом объекте — а не список из 50 пунктов с маркетингового сайта.
Базовые метрики. Две недели измерения: как оператор тратит время, каков уровень ложных срабатываний в текущей системе и сколько оповещений приходит сейчас.
Пилот на 10 камерах. Минимальная выборка, репрезентативная для объекта. Откалибруйте пороги, измерьте FPR, итерируйтесь.
Согласование по комплаенсу. DPIA, классификация по AI Act, политики хранения данных, обучение операторов — до масштабирования.
Поэтапная раскатка. 10 → 50 → 200 → весь парк. Цикл обратной связи работает на всех этапах.
Ежеквартальное переобучение. Новые данные, новые пороги, новая версия модели. Запланировано в бюджете, а не по мере необходимости.

Архитектурное ревью

Оцениваете проект ИИ-видеонаблюдения?

Мы поставляем программное обеспечение для видеонаблюдения более чем 770 организациям с 2005 года. За 30 минут проанализируем вашу архитектуру под нагрузкой — выбор моделей, edge или облако, готовность к AI Act.

Позвоните нам → Напишите нам →

Где ИИ-видеонаблюдение в 2026 году приносит реальную пользу

Ритейл. Снижение потерь (организованные кражи, мошенничество на кассах самообслуживания), анализ очередей, контроль выкладки. Окупаемость за 6–9 месяцев.
Производство. Контроль СИЗ, зоны, где запрещена работа погрузчиков, обнаружение остановки линии, оценка эргономических рисков. Окупаемость за счёт безопасности и качества.
Транспорт и логистика. Обнаружение оставленных предметов, управление двором и доками, анализ времени простоя.
Здравоохранение. Обнаружение падений в палатах, навигация для посетителей, контроль доступа в закрытые зоны. Высокая категория риска по AI Act — закладывайте требования с самого начала.
Правоохранительные органы и суды. Центры защиты детей и проверка интервью-комнат — родная территория V. A. L. T.
Умные здания и кампусы. Контроль прохода «на хвосте», доступ вне рабочего времени, планирование загруженности. Хорошо интегрируется с системами контроля доступа.

Качество модели зависит от стратегии работы с данными

Главный фактор производительности ИИ-наблюдения — не архитектура, а данные. Хороший детектор на качественных данных стабильно работает лучше, чем передовая модель на плохих. У нашего продакшен-пайплайна для данных четыре компонента:

Базовый размеченный набор. 5–15 тысяч доменных изображений или кадров из видео, размеченных обученной командой. Это позволяет запустить первую рабочую модель.
Синтетическая аугментация. Погода, плохая освещённость, частичная закрытость объектов и размытие движения — всё это моделируется на этапе обучения, чтобы модель хорошо работала в условиях, для которых нет достаточного количества реальных видеозаписей.
Очередь активного обучения. Каждый продакшен-кадр с низкой уверенностью становится кандидатом на разметку. Люди размечают сложные случаи — модель учится на своих сомнениях.
Мониторинг дрейфа. Популяционная статистика по выходам модели по сравнению с исторической базовой линией. Резкие изменения могут означать либо «камеру сдвинули», либо «мир изменился» — в любом случае это требует внимания.

Публичные бенчмарки, на которые стоит ссылаться при закупках

Если вы пишете RFP, указывайте требования к точности на основе опубликованных бенчмарков, а не на заявлениях поставщиков. Вот датасеты, которые реально использует исследовательское сообщество.

MOT17 / MOT20. Бенчмарки для многообъектного трекинга. Результат ByteTrack — 77,3% MOTA — получен на MOT17.
COCO. Золотой стандарт для детекции объектов. Цифры mAP для YOLO v11 взяты с COCO val.
UCF-Crime. Более 1900 реальных криминальных клипов в 13 категориях. Эталонный набор данных для обнаружения аномалий.
ShanghaiTech Campus. 13 сцен, более 330 аномальных событий. Широко используется для обнаружения аномалий с минимальным контролем.
XD-Violence. Крупнейший публичный датасет для обнаружения насилия, 4 754 видео.
DeepChange (2025). Датасет для ReID людей с учётом изменений одежды за 12 месяцев, 17 камер. Эталон для исследований долгосрочного трекинга.

Open-Source-стек, который стоит знать

Даже если вы приобретаете коммерческий продукт, знание open-source-ландшафта помогает держать поставщика в тонусе.

Frigate. Лучший в своём классе самостийный NVR с локальным распознаванием, интеграцией с Home Assistant и активным сообществом разработчиков. Обрабатывает более 100 детекций в секунду на скромном оборудовании с Coral TPU или Hailo-8.
OpenCV. Через 25 лет остаётся надёжным инструментом для предварительной обработки. В каждом промышленном пайплайне она участвует.
NVIDIA DeepStream SDK. Для оборудования Jetson оптимальным решением является обработка нескольких потоков одновременно, интеграция с TensorRT, поддержка ONVIF и RTSP.
Ultralytics (YOLO v11). Самый простой способ получить детектор для использования в продакшене. Доступны лицензии, разрешающие коммерческое применение.
SuperGradients, Roboflow. Управление обучением, разметка данных, инструменты для оценки.
Qwen2-VL, Florence-2, LLaVA-Video. Open-weight VLM для анализа сцен на собственной инфраструктуре, когда использовать облако невозможно.

Часто задаваемые вопросы про ИИ-видеонаблюдение

Насколько точно ИИ-видеонаблюдение в 2026 году?

Для чётко определённых аномалий (оставленный предмет, падение, праздное шатание) на правильно откалиброванной системе мы получаем 85–95% recall при не более чем одной ложной тревоге на камеру в неделю. Для новых или едва заметных аномалий recall снижается до 60–75%. Любой, кто заявляет о 99% на открытых данных, измеряет не то.

Можно ли запустить ИИ-наблюдение полностью на edge?

Да, для связки «детекция + трекинг + правила». Jetson Orin Nano Super справляется с 4–8 потоками на 10–15 FPS с YOLO v11-Н. Обработка на VLM обычно выполняется на локальном GPU-сервере или в облаке: модели VLM класса 7B слишком тяжеловесны для edge-устройств уровня Nano.

EU AI Act не остановит нашу поставку?

Нет — большая часть коммерческого видеонаблюдения остаётся законной, если соблюдаются прозрачность, человеческий контроль и пропорциональность. Жёсткие ограничения касаются биометрической идентификации в общественных местах и прогнозирования поведения идентифицированных людей. На этапе дискавери мы проводим воркшоп по классификации по AI Act, чтобы вы с первого дня понимали свою категорию.

Как VLM меняют архитектуру?

Они заменяют большую часть кода кастомного классификатора промптами. Детекторы и трекеры всё равно нужны — VLM слишком медленные, чтобы запускать их на каждом кадре, — но VLM вызывается на короткий клип, чтобы ответить на конкретный вопрос («есть ли кто-то, кто лежит?»). Это ускоряет внедрение новых детекций и даёт текстовое обоснование для логов.

Нужно ли менять имеющиеся камеры?

В большинстве случаев — нет. Мост-шлюз преобразует старые потоки в ONVIF/RTSP, и ИИ-стеку это не мешает. Частота кадров и разрешение всё же важны: очень старые камеры с 4 кадрами в секунду сильно ограничивают возможности трекинга. Планируйте постепенную замену на 3–5 лет, а не полную замену сразу.

Какие реалистичные сроки для кастомной разработки?

3–4 недели на этапа поиска решений, 6–10 недель на тестирование пилота с 10 камерами, 3–6 месяцев до полного внедрения на первые 200 камер. Процесс ускорится, если у вас уже есть размеченные данные и готовая система видеонаблюдения (VMS); замедлится, если VMS вы разрабатываете одновременно.

Кому принадлежат данные?

Вам. Наш стандартный договор предоставляет компании «Фора Софт» только минимально необходимый доступ к данным для работы системы и запрещает использовать видео клиента для обучения без вашего письменного согласия, зафиксированного в отдельном соглашении. Все данные остаются в вашей юрисдикции.

Короткое резюме — ИИ-видеонаблюдение, 2026

Современное ИИ-видеонаблюдение — это пятиступенчатый пайплайн: приём, детекция, трекинг, рассуждение, доставка. Он построен на понятном стеке: YOLO v11, ByteTrack или BotSORT и VLM для анализа сцены. Jetson Orin Nano Super снизил стоимость edge-обработки до менее чем 18 600 ₽ за канал; теперь большинство развёртываний выигрывают по TCO, если начинают с edge. Сложные задачи — это уровень ложных срабатываний, соответствие EU AI Act и интеграция с уже установленным парком камер, а не точность детектора. Выбирайте партнёра, который называет свои модели, указывает FPR при заданном recall и по умолчанию поставляет аудит-трейл, готовый к требованиям AI Act.

Если хотите, чтобы Фора Софт проверила или построила ваш ИИ-стек для видеонаблюдения — мы делаем это каждую неделю: от пилотных проектов в одном здании до развёртывания в корпоративных сетях на 2 500+ камер.

Готовы обсудить ИИ-видеонаблюдение?

Приходите с числом камер и сценариями. Уйдёте со стеком, сроками и оценкой.