
Ключевые тезисы
• Видеонаблюдение с ИИ под заказ заменяет «глядение в пиксели» на принятие решений. Современные системы выявляют угрозы, формируют алерты быстрее 500 мс и снижают шум ложных срабатываний у операторов на 30–50% по сравнению с детекцией только по движению.
• Построить или купить: коробка выигрывает до тех пор, пока не понадобится своя аналитика, локальное хранение данных или плотная интеграция. Verkada, Eagle Eye, Rhombus и Spot AI закрывают типовые задачи. Свой продукт выигрывает там, где дифференциатором становятся комплаенс, масштаб или вертикальная логика.
• Гибрид edge + облако сегодня — архитектура по умолчанию. Jetson или Coral на камере дают инференс за 10–50 мс, VMS посередине, облако — для переобучения моделей и аналитики по нескольким объектам.
• Распознавание лиц относится к высокому риску по EU AI Act (2025) и регулируется BIPA, CCPA и GDPR. Privacy-by-design — это архитектурное решение, дорабатывать постфактум так дорого, что проекты от этого умирают.
• Типичный ИИ-проект на 50 камер: 11–22 млн ₽ TCO за первый год, при этом операционные расходы дают 60–70% стоимости за 5 лет. Свои разработки раскрываются с 500+ камер, где модель SaaS «за каждого пользователя» начинает ломаться.
Зачем Фора Софт написала этот гайд
Мы делаем видеоёмкое программное обеспечение с 2005 года, а видеонаблюдение с поддержкой ИИ — с тех пор, как первые детекторы на свёрточных нейросетях стали практичны на массовых GPU. Наш флагман — система видеонаблюдения V.A.L.T. — работает в 450+ организациях: полицейских участках, медицинских и образовательных учреждениях. Она обрабатывает живые потоки с нескольких IP-камер уровня Axis, обеспечивает строгую систему прав и автоматическое планирование записи. Этот материал — то, что мы реально говорим клиенту на скоупинг-звонке в понедельник утром.
Мы работаем по подходу Agent Engineering, поэтому наши сеньоры запускают ИИ-агенты параллельно по аналитике, интеграции с VMS, edge-деплою и маршрутизации алертов. Это сжимает классический rollout на 50 камер с 5–7 месяцев до 3–4 месяцев при том же уровне качества.
Статья делает четыре вещи: помещает видеонаблюдение с ИИ в контекст 2026 года, раскладывает реальный компромисс «построить или купить», честно оценивает операционные расходы и даёт фреймворк для принятия решения, чтобы ваш следующий security RFP оказался короче предыдущего.
Планируете внедрение видеонаблюдения с ИИ?
Напишите или позвоните нам — разберём ваши камеры, топологию объектов и зону комплаенса, подберём подходящий стек. Без апсейла.
Что изменилось в видеонаблюдении между 2020 и 2026
Три сдвига превратили «CCTV» в «видеонаблюдение с ИИ». Системы, под которые писали RFP в 2020-м, — не те системы, что заказчики просят сегодня.
1. От движения — к смыслу. Детекция движения топила диспетчерские в ложных срабатываниях. Современные модели в реальном времени классифицируют объекты (человек, машина, рюкзак, оружие), поведение (праздное шатание, бег, падение) и контекст (плотность толпы, наличие СИЗ, совпадение по номеру).
2. Вычисления ушли на edge. NVIDIA Jetson, Google Coral и скромные мини-ПК сегодня тянут инференс уровня YOLO на 10 FPS по 4K-потокам прямо у камеры. Итог: задержка ниже 50 мс, трафик в сеть сокращается на 60–80%, а сырое видео не уходит наружу — что в ряде юрисдикций критично с точки зрения закона.
3. Регулирование ужесточилось. EU AI Act (вступил в силу 2 февраля 2025) относит большую часть биометрического наблюдения к высокому риску или к запрещённым практикам. BIPA, CCPA и обновлённый COPPA накладываются поверх GDPR. Комплаенс теперь формирует архитектуру, а не только бумажный пакет.
Рынок видеонаблюдения с ИИ в 2026 году
Аналитические агентства расходятся в точных цифрах, но направление однозначно: видеонаблюдение с ИИ — это рынок объёмом 450–675 млрд ₽ в 2026 году, который растёт с CAGR 21–30% до 2030 года. Лидер по проникновению — ритейл (~22% бюджета), быстрее всех растут производство и логистика, а крупные публичные внедрения тянут на себя smart cities и критическая инфраструктура.
Три сигнала, на которые стоит реагировать:
- На облако приходится 59% внедрений, но edge и гибрид — самый быстрорастущий сегмент: в чувствительных к задержкам вертикалях (заводы, транспорт, медицина) ходить за облачной аналитикой по сети уже непозволительно.
- Ритейл-аналитика стала линией дохода, а не только расходов. Тепловые карты, конверсия и время пребывания продаются в маркетинговые бюджеты — и удваивают бизнес-обоснование для ИИ на уже стоящих камерах.
- Операционные KPI важнее «метрик для презентаций». Заказчик смотрит на среднее время до алерта, снижение ложных срабатываний и усталость операторов — не на мегапиксели. Ваш питч должен звучать так же.
Ключевые ИИ-функции, которые реально дают результат
Выберите четыре или пять, релевантных вашей вертикали. Складывать модели стопкой не улучшит точность — только усилит усталость от алертов.
Детекция объектов и людей
Сегодня по умолчанию используют YOLO v8/v11 и RetinaNet. С хорошей настройкой они дают 85%+ precision и 90%+ recall на классах «человек» и «транспорт» в типичных сценах видеонаблюдения. Для школ, банков и транспортных узлов добавляют детекцию оружия (пистолет, нож, длинноствол).
Детекция поведения и аномалий
Гибриды CNN + RNN, vision-language энкодеры или слабо-размеченные MIL-классификаторы помечают шатание, падения, драки и забегание в запретную зону — при минимальной разметке по кадрам.
Распознавание лиц (с осторожностью)
Лучшие алгоритмы в бенчмарке NIST FIVE 2024 дают меньше 0,15% ложноотрицательной идентификации — но демографическое смещение (bias) реально: разброс ошибки по подгруппам нужно аудировать. По EU AI Act распознавание лиц в публичном пространстве — высокий риск, иногда прямо запрещено. Используйте только там, где есть юридическое основание, и настраивайте пороги отдельно по подгруппам.
Распознавание автомобильных номеров (ANPR)
Edge-ANPR на массовом железе уровня Jetson Nano уверенно читает номера при 30–40 км/ч. Применения: парковки, площадки логистики, школьные въезды, малообъёмное взимание платы.
СИЗ и охрана труда
Детекция касок, жилетов, масок, перчаток и страховочных систем в реальном времени — для строительства, производства, пищевой промышленности и здравоохранения. Обычно это модель с самым высоким ROI на индустриальных объектах: она напрямую конвертируется в измеримые метрики безопасности труда.
Аналитика толпы и тепловые карты
Плотность толпы, длина очереди, время пребывания. Продаётся дважды — службе безопасности (предотвращение давки) и операциям с маркетингом (планировка магазина, расстановка персонала).
Вторжение и виртуальные периметры
Многоугольники-геофенсы поверх кадра, срабатывающие на детекции определённого класса (зашёл человек, проехала машина). Куда точнее, чем ИК-датчики или рамки движения, и легко пересоздаются под каждую смену.
Эталонная архитектура: edge, VMS, облако
В любом продакшен-стеке видеонаблюдения с ИИ, который мы поставляем, всегда четыре плоскости:
- Плоскость камер. IP-камеры по ONVIF/RTSP — Axis, Hanwha, Hikvision, Dahua или то, что уже стоит у заказчика. Лучше H.265 и dual-stream: аналитика получает 720p, а хранение оставляет 4K.
- Плоскость edge-вычислений. Jetson Orin Nano / NX / AGX или Coral TPU, один блок на 4–16 камер. Тянет детекторы, оценку позы и ANPR на 10–30 FPS при потреблении 15–60 Вт.
- Плоскость VMS. Milestone XProtect, Genetec Security Center, Avigilon или Axxon Next — для коммерческих проектов; Frigate, Shinobi или ZoneMinder — для open source. Закрывает хранение, воспроизведение, роли и маршрутизацию событий.
- Облачная плоскость. Переобучение моделей, аналитика по нескольким объектам, долгосрочный архив, мультитенантное администрирование. AWS Rekognition, Google Vertex AI Vision, Azure Video Indexer или собственный инференс на Kubernetes.
Склеивайте всё это шиной событий (MQTT, Kafka или NATS), структурированными логами в SIEM (Splunk, QRadar, Microsoft Sentinel) и слоем алертов, который маршрутизирует в SOC, СКУД и мобильные приложения.
Edge или облако: где должен жить инференс
| Параметр | Edge (Jetson/Coral) | Облако |
|---|---|---|
| Задержка инференса | 10–50 мс | 500–2000 мс |
| Полоса пропускания до WAN | Только метаданные и клипы | Полный поток 4–8 Мбит/с на камеру |
| Профиль приватности | Сырое видео остаётся на объекте | Нужны DPA и привязка к региону |
| Стоимость на масштабе | Capex + амортизация 3–5 лет | 3 300–15 000 ₽/камеру в месяц |
| Обновления моделей | OTA, поэтапно | Моментально, силами вендора |
| Отказоустойчивость без сети | Работает, алерты копятся в очередь | Отказ закрытый |
Берите edge-first, когда: важна задержка (<500 мс на алерт), сеть нестабильна или сырое видео не должно покидать объект. Cloud-first уместен только для разрозненных парков менее 50 камер без жёстких требований к задержке.
Построить или купить: Verkada, Eagle Eye, Rhombus, Spot AI — или своё решение
SaaS-платформы видеонаблюдения решили проблему «у меня 20 камер и нет ИТ-команды». Они не решают проблему «у меня 800 камер на шести объектах и уникальная аналитика». Перед оплатой определите, в какой группе вы.
| Платформа | Модель | Типичная цена | Кому подходит | Слабые стороны |
|---|---|---|---|---|
| Verkada | Своё железо + облако | ~7 500–22 500 ₽/камеру в год | Средний бизнес, много площадок | Привязка к вендору, ограничения по своей логике |
| Eagle Eye | Облако, дружелюбное к ONVIF | 1 500–4 500 ₽/камеру в мес. | Свои камеры | Скромный набор встроенной аналитики |
| Rhombus | Железо + облако | 3 700–15 000 ₽/камеру в мес. | Ритейл, кампусы | Привязка к вендору |
| Spot AI | ИИ-обвязка поверх существующих камер | 3 700–15 000 ₽/камеру в мес. | Быстрый ИИ-ретрофит | Узкий охват аналитики |
| Genetec / Milestone | Корпоративный VMS + ИИ-плагины | Лицензия + услуги | Корпоративный сегмент, госсектор | Тяжёлая стоимость интеграции |
| Своя разработка (Фора Софт / уровень VALT) | Открытый стек + кастомный ML | Capex + T&M | Уникальная аналитика, масштаб, комплаенс | Выше стартовые вложения |
Берите свою разработку, когда: у вас 200+ камер, регулируемая отрасль (медицина, силовые структуры, банки), своя аналитика, которую вы продаёте клиентам как апгрейд, или когда данные нельзя завязывать на вендорское облако.
Приватность, комплаенс и EU AI Act
Комплаенс — это теперь архитектурная фича, а не приписка в подвале документа. Ошибётесь — проект умрёт на этапе закупки.
| Регулирование | Кому соответствовать | Ключевое правило | Влияние на архитектуру |
|---|---|---|---|
| GDPR | Внедрения с аудиторией в ЕС | Лицо — биометрия специальной категории | Резидентность данных в ЕС, DPIA, DPA |
| EU AI Act | Любой пользователь в ЕС, с февраля 2025 | Распознавание лиц в публичном пространстве — высокий риск | Оценка соответствия, тестирование, логирование |
| BIPA | Иллинойс (США) | Письменное согласие на сбор биометрии | Сценарий согласия, opt-out по каждому субъекту |
| CCPA/CPRA | Калифорния | Уведомление при съёмке, opt-out | Двуязычные вывески, DSR-пайплайн |
| HIPAA | Зоны PHI в здравоохранении США | Нужен BAA, шифрованное хранение | Ролевой доступ, журнал аудита |
| UK Surveillance Code | Публичные и частные внедрения в Великобритании | Пропорциональность, необходимость | Сроки хранения, журнал аудита ICO |
Практические примитивы privacy-by-design: размытие лиц до сохранения, дефолтный срок хранения 30 дней, изолированное хранилище по тенантам, DSR-пайплайн, неизменяемый журнал каждого инференса модели и регулярный аудит на bias. Всё это — более дешёвые архитектурные решения, чем судебные иски.
Модель стоимости: сколько реально стоит внедрение на 50, 500 и 5000 камер
Используйте цифры как планировочные ориентиры, не как гарантии. Операционные расходы — это 60–70% TCO за 5 лет, и именно с этого числа должна начинаться ваша презентация для отдела закупок.
| Масштаб | Железо | Хранение + облако | ПО / лицензии | TCO за первый год |
|---|---|---|---|---|
| 50 камер (малый корпоративный) | 1,1–5,6 млн ₽ | 3,7–7,5 млн ₽ | 2,2–3,7 млн ₽ | 11–22 млн ₽ |
| 500 камер (средний бизнес) | 11–56 млн ₽ | 30–75 млн ₽ | 22–37 млн ₽ | 112–225 млн ₽ |
| 5000 камер (корпорация / город) | 112–562 млн ₽ | 225–375 млн ₽ | 75–150 млн ₽ | 750 млн – 1,5 млрд ₽ |
На 50 камерах SaaS обычно слегка выигрывает по TCO. На 500+ свой edge-стек плюс самохостинг VMS, как правило, на 30–50% дешевле SaaS на горизонте пяти лет: облачные платы «за камеру» растут линейно, а собственное железо для инференса амортизируется.
Хотите реалистичный TCO под ваше количество камер?
Расскажите, сколько у вас камер и объектов — вернёмся с одностраничной моделью стоимости за 48 часов. Бесплатно.
Мини-кейс: V.A.L.T. в 450+ организациях
V.A.L.T. — наша флагманская система видеонаблюдения, развёрнутая в 450+ организациях: полицейских участках, медицинских и образовательных учреждениях. Задача проста на словах и тяжела на исполнении: живой стриминг с нескольких IP-камер, идеальная аудио-видео синхронизация, ролевые права, достаточно строгие для комнат допросов в полиции и наблюдения за медицинскими тренингами, и интерфейс, который оператор осваивает за полдня.
Решение собрано из ONVIF-камер уровня Axis, гибридных моделей CNN+RNN для детекции аномалий (пространственные признаки по кадрам, временные — по последовательностям), open-source VMS-ядра, автоматического планирования записи и редактора правил «по щелчку». ИИ-агенты в нашем пайплайне доставки сгенерировали примерно 60% обвязки сервисов, адаптеров интеграций и UI-компонентов параллельно с ревью сеньоров — благодаря этому функционал V.A.L.T. рос быстрее, чем у сопоставимых проприетарных систем.
Результаты по всему парку: доставка алертов меньше чем за секунду в локальных сетях, детерминированная модель прав, прошедшая аудиты уровня CJIS, покрытие плановой записи >99,9%, а пользовательская база выросла от нескольких ведомств до 450+ организаций без переписывания системы.
Интеграции, которые всегда всплывают в тендерах
Отличный аналитический движок, который не умеет говорить с остальным охранным стеком, проигрывает закупку. В каждом продакшен-проекте, который мы выпускаем, поддерживается минимум пять из этого списка:
- СКУД — Genetec, Brivo, LenelS2, SALTO (открытие двери при совпадении идентичности).
- Сигнализация и вторжение — Bosch, Honeywell, DSC через webhook или MQTT.
- Домофоны и IP-телефония — мост SIP/RTP к VMS, webhook-и видеодомофонов.
- SIEM — Splunk, QRadar, Microsoft Sentinel со структурированными событиями CEF/JSON.
- Digital signage — отображение текущей заполняемости с шины аналитических событий.
- BI/ERP — дашборды Tableau, Power BI по тепловым картам, времени пребывания и недостачам.
ONVIF Profile S/T — базовый стандарт; ONVIF Profile M уже зарождается для метаданных аналитики, и о нём имеет смысл уже сейчас спрашивать у поставщиков.
Фреймворк решения — пять вопросов в пользу своей разработки
Ответьте на них, прежде чем продлевать SaaS или начинать свой проект.
1. Сколько камер и сколько объектов? До 50 камер на одном-двух объектах SaaS почти всегда дешевле. От 500 камер или в регулируемой отрасли математика начинает склоняться в сторону своей разработки.
2. Где должно лежать сырое видео? Если on-prem — жёсткое требование комплаенса (силовые структуры, медицина, отдельные госструктуры), cloud-first SaaS-варианты отпадают.
3. Насколько уникальна ваша аналитика? Универсальная детекция человека и транспорта — коммодити. Вертикальная логика — контроль маршрутов в больнице, отслеживание фишек в казино, борьба с потерями на заводе — оправдывает свою разработку: SaaS вам этого просто не поставит.
4. Есть ли у вас SOC или дежурная команда безопасности? Своя система требует «глаз». Без неё уровень ложных срабатываний важнее, чем точность; SaaS с приличными дефолтами обыграет более точную свою систему, которую никто не подкручивает.
5. Какой горизонт — на 5 лет? Цена у вендоров капитализируется. Если SaaS TCO за 5 лет превышает стоимость своей разработки в два раза (распространённая ситуация при 500+ камерах), своя разработка выигрывает на одной только арифметике.
Пять ловушек в проектах видеонаблюдения с ИИ
1. Запуск без bias-аудита. Детекторы лиц и людей, обученные на несбалансированных датасетах, в 10–100 раз чаще ошибаются на недопредставленных подгруппах. До продакшена проведите аудит FNIR/FPIR по подгруппам и повторяйте его каждый квартал.
2. Тюнинг ради точности с игнорированием усталости от алертов. 92% precision — это 8 ложных срабатываний на 100 событий. На 500 камерах SOC утонет. Тюньте под усталость оператора (наше рабочее правило — <5 алертов на камеру в день), опираясь на baseline с учётом сцены.
3. Сюрпризы по пропускной способности. 4K-камера на 30 FPS — это 8–16 Мбит/с. 100 таких камер забивают гигабитный аплинк. H.265 с dual-stream и edge-предфильтрация — не опция, а часть архитектуры.
4. Отдать архив видео SaaS-вендору. Заканчивается контракт — заканчивается доступ к историческим записям. С первого дня требуйте выгрузки в открытых форматах: это самый дешёвый пункт страхования в договоре.
5. Пренебречь UX оператора. Сотрудник, который не может за три секунды отбросить, закрепить, просмотреть и поделиться алертом, перестанет пользоваться системой. Потратьте неделю на дизайн карточки алерта — она вернётся месяцами adoption.
KPI, которые действительно важны
Качественные KPI. Precision детекции ≥ 85% и recall ≥ 90% на целевых классах. FNIR распознавания лиц < 0,3% при разбросе по демографическим подгруппам не более 5 пунктов. Задержка алерта < 500 мс на edge / < 2 с в облаке.
Бизнес-KPI. Mean time to alert (MTTA) < 2 с от события до экрана SOC. Прирост подтверждённых инцидентов ≥ 30% по сравнению с baseline только на движении. Усталость оператора от алертов < 5 значимых срабатываний на камеру в день. Тренд времени до закрытия инцидента месяц-к-месяцу.
KPI надёжности. Доступность камер ≥ 99,5%, успешная запись ≥ 99,9%, восстановление по watchdog на edge-ноде < 60 с. Аудит целостности данных (цепочка хэшей по архиву) проходит на 100%.
Когда не стоит строить видеонаблюдение с ИИ под заказ
Иногда правильный ответ — выписать чек SaaS-вендору. Мы отговариваем клиентов от своей разработки, когда:
- До 50 камер, один объект. SaaS TCO и стоимость эксплуатации сложно перебить.
- Нет команды безопасности. Управляемые сервисы дают мониторинг, который вы не сможете содержать своими силами.
- Хватит универсальной аналитики. Если достаточно движения, детекции человека и пересечения линии, своя ML-конвейерная разработка не нужна.
- Нужен запуск за 60 дней. Verkada или Rhombus в это окно укладываются; своя разработка — нет.
FAQ
Сколько стоит система видеонаблюдения с ИИ под заказ?
Типичный TCO за первый год: 11–22 млн ₽ для 50 камер, 112–225 млн ₽ для 500 камер, 750 млн – 1,5 млрд ₽ для городского внедрения на 5000 камер. На операции приходится 60–70% стоимости за 5 лет — стройте бизнес-обоснование вокруг операционных расходов, а не вокруг железа.
Где запускать ИИ — на edge или в облаке?
Edge-first — стандарт 2026 года: ради задержки, приватности и трафика. Облако оставляйте под переобучение моделей, долгосрочный архив и аналитику по нескольким объектам. Чистое облако оправдано только для небольших парков без жёстких требований к задержке.
Можно ли использовать распознавание лиц в моём кейсе?
Зависит от юрисдикции. По EU AI Act (действует с февраля 2025) распознавание лиц в публичном пространстве — высокий риск или запрещённая практика. В США BIPA и CCPA требуют явного уведомления, а в ряде случаев — согласия. Привлекайте юриста, проводите DPIA, и во многих сценариях рассматривайте небиометрические альтернативы.
Какие камеры работают со своими ИИ-системами?
Любая ONVIF Profile S/T-камера с выходом RTSP. Axis, Hanwha, Hikvision, Dahua и Bosch — все подходят. Лучше брать dual-stream и H.265: аналитика бегает по 720p, хранение остаётся в 4K, и это сразу режет и трафик, и CPU.
Насколько точны современные детекторы объектов?
Хорошо настроенные модели уровня YOLO дают 85%+ precision и 90%+ recall на классах «человек» и «транспорт» в типичных сценах видеонаблюдения. Детекция оружия чуть слабее, но всё равно практически применима при ревью «человек в петле». Точность сильно зависит от угла камеры, разрешения, освещения и распознаваемого класса.
Можно ли интегрировать ИИ-аналитику с уже работающим VMS Milestone или Genetec?
Да. У обеих платформ есть плагинные SDK и API событий. Мы регулярно прикручиваем свою аналитику к Milestone XProtect или Genetec Security Center через ONVIF, WebSocket или их нативные SDK, не заменяя сам VMS.
Сколько идёт rollout на 50 камер?
SaaS (Verkada, Spot AI): 2–6 недель. Своя разработка с edge и кастомной аналитикой: 3–4 месяца с нашим подходом Agent Engineering, 5–7 месяцев с классической командой. Интеграция с существующими СКУД и SIEM добавит ещё 2–4 недели.
Какие open-source VMS стоит рассмотреть?
Frigate — наш дефолт для небольших и средних edge-внедрений: TensorFlow / Coral, MQTT, интеграция с Home Assistant, живое комьюнити. Shinobi и ZoneMinder подходят для крупных установок с большим объёмом ручной эксплуатации. Все три заменяют платный VMS только тогда, когда у вас есть команда эксплуатации соответствующего уровня.
Что почитать дальше
Модели
Топ-7 моделей детекции аномалий для видеонаблюдения
Глубокий разбор ML-архитектур, стоящих за современными алертами.
Реальное время
Детекция аномалий в видеонаблюдении в реальном времени
Как срезать задержку с секунд до миллисекунд на масштабе.
Дизайн системы
Система видеонаблюдения с детекцией аномалий на базе ИИ
Эталонная сквозная архитектура для команд эксплуатации.
Домофоны
IoT-домофоны: безопасность умного здания
Как домофоны встраиваются в современный стек видеонаблюдения с ИИ.
Автоматизация
Автоматизация детекции аномалий на камерах безопасности
Что приносит автоматизация и где всё ещё нужны глаза человека.
Готовы поднять уровень своего охранного стека
Современное видеонаблюдение с ИИ — это меньше про камеры и больше про софт между ними. Edge-инференс созрел, регулирование ужесточилось, и победителями 2026 года становятся команды, которые сочетают правильные модели с чистым комплаенсом и UX оператора, не выжигающим SOC. Будь то SaaS, своя разработка или гибрид — это не конкурс красоты по бренду камеры, а упражнение по TCO и риску.
Если вы оцениваете объём, ретрофитите ИИ на уже стоящие камеры или разбираетесь с забуксовавшим внедрением, следующий шаг — короткий созвон. Мы оставим вас с понятной архитектурой, реалистичным бюджетом и списком из пяти решений, которые можно принять уже на этой неделе.
Давайте построим вашу систему видеонаблюдения с ИИ
Фора Софт делает кастомное видеонаблюдение с ИИ по подходу Agent Engineering — быстрее, дешевле, готово к продакшену. V.A.L.T. и 450+ внедрений это подтверждают.
