Mindbox: ИИ-видеонаблюдение и обнаружение инцидентов в реальном времени (плейбук 2026)

Умная система видеонаблюдения для распознавания инцидентов и оповещений в реальном времени

Главное

• Mindbox — это рабочий плейбук, а не презентация. Фора Софт построила его с нуля в 2020 году, и сегодня он работает в более чем 50 корпоративных деплоях в сферах транспорта, фармацевтики и закрытых жилых комплексов. Точность распознавания лиц превышает 99,5%, а модуль ANPR считывает более 500 000 автомобильных номеров в день по всей Индии.

• Обнаружение инцидентов в реальном времени — это прежде всего задача пайплайна. Самое сложное здесь — приём потоков по RTSP/ONVIF, сквозная задержка оповещения менее 2 секунд, контроль ложных срабатываний и медиастек (AntMedia + WebRTC), который выживает в нестабильных сетях, а вовсе не выбор контрольной точки YOLO.

• Рынок развивается стремительно, а сторона покупателя запутана. AI-видеонаблюдение — это рынок объёмом 488 млрд ₽, который растёт до 2,15 трлн ₽ при среднегодовом темпе роста 30,6% (Grand View Research), но цены на SaaS непрозрачны, привязка к вендору реальна, а регулирование биометрии (EU AI Act, BIPA, UK ICO) меняет то, что вообще можно выпускать.

• Заказная разработка теперь конкурентна по цене, а не только по соответствию задаче. Готовые SaaS-решения стоят 150–1 125 ₽ за камеру в месяц с привязкой к вендору на 3–5 лет; заказной MVP AI-VMS у сфокусированной команды вроде Фора Софт обычно выпускается за 12–16 недель и окупается уже на второй год при парке от 100 камер.

• Соответствие требованиям теперь убивает проекты, а не закрывается галочкой. EU AI Act относит большую часть биометрического видео к высокорисковым системам; в штате Иллинойс закон BIPA предусматривает штрафы 75 000–375 000 ₽ за каждое нарушение. Сценарий согласия, хранения и удаления данных вы продумываете в первый же день — или платите за это при запуске.

Зачем Фора Софт написала этот плейбук

Mindbox — одна из систем, которыми мы гордимся больше всего, и на которую мы постоянно ссылаемся, когда заказчик говорит: «Хотим что-то вроде Verkada, но заказное». Мы спроектировали и построили платформу с нуля начиная с 2020 года для компании Mindbox Analytics, специализирующейся на видеоаналитике на базе ИИ. Сегодня система работает в более чем 50 корпоративных деплоях в сферах транспорта, фармацевтики и закрытых жилых комплексов. Заказные нейросети обеспечивают точность распознавания лиц выше 99,5% — это превосходит опубликованные результаты Google и Facebook — а модуль ANPR считывает более 500 000 автомобильных номеров в день по всей Индии с точностью около 95%.

Если вы рассматриваете продукт для обнаружения инцидентов в реальном времени — будь то для предотвращения потерь в ритейле, для кампуса, промышленного объекта или многоквартирного комплекса — эта статья разбирает, как на самом деле устроен Mindbox, что бы мы сделали так же, а что изменили бы, если бы начинали сегодня, и как всё это ложится на решение «строить или покупать» в 2026 году.

Прорабатываете собственную платформу в духе Mindbox?

Пришлите нам короткое описание задачи в один абзац. В течение 48 часов мы вернёмся с реалистичной вилкой бюджета, рекомендацией по моделям и стеку, а также списком регуляторных нюансов, которые вам нужно будет учесть — бесплатно и без обязательств.

Позвоните нам → Напишите нам →

Что на самом деле делает Mindbox

На уровне продукта Mindbox — это интеллектуальная система видеоменеджмента (IVMS): консоль оператора плюс админ-панель поверх слоя ИИ-инференса, который следит за каждой подключённой камерой и отправляет оповещения в тот момент, когда происходит что-то важное. От обычной VMS его отличают три вещи: он срабатывает на инциденты, а не на движение; в нём из коробки есть биометрическая аналитика и ANPR; и он позволяет одному оператору работать с сотнями потоков, потому что система показывает только то, что действительно важно.

Таксономия событий в реальном времени включает обнаружение оружия, падения, праздношатание, несанкционированный доступ, проникновение через периметр, контроль ношения касок и масок (СИЗ), плотность толпы, въезд и выезд транспорта, нарушения проезда на красный свет и превышения скорости, а также двустороннюю голосовую эскалацию. Операторы могут удалённо управлять поворотом, наклоном и зумом (PTZ) любой IP-камеры, регулировать яркость, контраст и резкость, а также запускать умный криминалистический поиск по часам записанного видео, чтобы найти конкретного человека, машину или событие — это разница между «мы просмотрим записи» и «вот нужный фрагмент за 12 секунд».

Администраторы получают интерактивную карту помещений с каждой камерой и её статусом в реальном времени, управление доступом на основе ролей, расписания записи для каждой камеры, политику хранения для каждой зоны, а также REST API/SDK для интеграции со сторонними системами — панелями контроля доступа, пожарной сигнализацией и ERP. Вся платформа изначально спроектирована как мультисайтовая: один тенант может управлять десятками объектов и тысячами камер из единой панели.

Сигнал рынка 2026 года — почему эта категория стала обязательной

Три цифры объясняют, почему у каждого мультисайтового оператора теперь есть пункт «AI-видео» в дорожной карте. Grand View Research оценивает рынок AI-видеонаблюдения в 488 млрд ₽ в 2024 году с прогнозом роста до 2,15 трлн ₽ к 2030 году — среднегодовой темп роста 30,6%. MarketsandMarkets более осторожны: 292 млрд ₽→934 млрд ₽ к 2030 году (среднегодовой темп 21,3%), но траектория та же. А потери ритейла только в США превысили 8,4 трлн ₽ в 2025 году, при этом инициативы по предотвращению потерь на базе ИИ показывают положительную окупаемость в 77,3% случаев в течение 12 месяцев.

Иными словами: мониторинг только силами людей больше не конкурентоспособен. Один заскучавший оператор пропускает 70–80% инцидентов уже через 20 минут работы с экраном, а 94–98% вызовов полиции из традиционных сигнализаций — ложные. Обнаружение инцидентов в реальном времени — единственный способ переломить эту тенденцию, и именно поэтому покупатели среднего сегмента, которые раньше выбирали базовый NVR, теперь пишут технические задания на AI-VMS.

Выбирайте AI-VMS вроде Mindbox, когда: у вас 50+ камер на двух и более объектах, ваши операторы обрабатывают более 100 оповещений за смену, а один пропущенный инцидент обходится дороже 1,8 млн ₽ в виде потерь, ответственности или простоя.

Эталонная архитектура — как устроен Mindbox

Mindbox следует слоистому пайплайну, к которому сходится любая серьёзная AI-VMS. Камеры передают видео по RTSP/ONVIF на медиасервер, который занимается транскодированием и распределением с низкой задержкой. Экстрактор кадров вытягивает ключевые кадры с управляемой частотой (обычно 4–10 FPS на аналитический поток, а не полные 30) и передаёт их в слой инференса. Обнаруженные события расходятся через шину событий реального времени на консоль оператора и в рекордер, который записывает только те фрагменты видео, которые действительно важны.

Стек Mindbox, слой за слоем

Слой	Выбор Mindbox	Почему мы это выбрали	Альтернатива 2026
Приём с камер	RTSP / ONVIF	Не зависит от вендора; Profile T покрывает PTZ; работает с Hikvision, Dahua, Axis, Hanwha	SRT для ненадёжного WAN, GB28181 для Китая
Медиасервер	AntMedia Server	Субсекундный WebRTC, приём RTSP, фолбэк на HLS, масштабирование до 1000+ зрителей на кластер	MediaMTX, LiveKit Egress, Ovenmedia
Инференс	Заказные CNN на TensorFlow + OpenCV (Python)	Доменно настроенные модели дают 99,5%+ на лицах и 95% на номерах — готовые решения так не умеют	YOLOv11/v26, RT-DETR, Detectron2, Triton Inference Server
Шина событий	socket.io поверх Node.js	Дружелюбна к браузеру, рассылка операторам менее чем за 200 мс, легко масштабируется горизонтально	Redis Streams, NATS JetStream, Kafka для >10 тыс. событий/с
Бэкенд приложения	Node.js + Express.js	Тот же набор JS-навыков, что и на фронтенде, богатая экосистема для связующего медиакода	NestJS, Go (chi/fiber), Rust (axum) для нагруженных участков
Фронтенд	Next.js (React)	Серверный рендеринг панелей, гидрация живой сетки, простые авторизация и роутинг	Remix, Astro, SolidStart для меньших JS-бандлов
Хранилище	MongoDB + S3-совместимый блоб	Гибкая схема для событий, S3 для видео; дёшево масштабируется	Postgres + TimescaleDB для событий, Wasabi/Backblaze B2 для холодного видео
Платежи и биллинг	Stripe	Биллинг по камерам и объектам за 30 дней, а не за три месяца	Paddle, Lago для учёта по факту использования

Несколько субъективных замечаний по таблице. Мы выбрали AntMedia Server, потому что он даёт субсекундное воспроизведение WebRTC на консоли оператора и пере-публикует RTSP-потоки, не заставляя производителей камер делать что-то особенное. Заказные модели на TensorFlow, а не готовые, — вот как мы добились точности 99,5% по лицам в Mindbox; публичные бенчмарки редко выдерживают реальное освещение и ракурсы продакшена.

Пайплайн обнаружения инцидентов в реальном времени, от и до

Удобный способ проектировать любую AI-VMS — заложить бюджет задержки от события на камере до оповещения оператора в 2 секунды, а затем распределить его между слоями. Вот как Mindbox тратит эти 2 секунды в типичном деплое 1080p.

Этап	Типичный бюджет	Где всё ломается
Захват кадра	0–33 мс	B-кадры камеры; форсируйте IDR каждую секунду
RTSP → медиасервер	100–300 мс	TCP-интерливинг на нестабильных каналах, джиттер WAN
Декодирование + извлечение кадров	20–80 мс	Декодирование на CPU вместо NVDEC
Инференс (класса YOLO)	50–500 мс	Неверный размер батча, модель слишком велика для GPU
Движок событий и правил	20–100 мс	Запись в БД на горячем пути
Оповещение оператора (socket.io)	50–200 мс	Фолбэк на long-poll; раздутые полезные нагрузки
Живой предпросмотр WebRTC	100–400 мс	Симметричный NAT; отсутствие TURN поверх TLS

Два факта, которые упускает большинство покупателей. Во-первых, для аналитики не нужны 30 FPS — для драк, падений, праздношатания и скопления людей достаточно 4–10 FPS, и это снижает ваш счёт за GPU в 3–7 раз. Во-вторых, оповещение оператору должно прийти push-уведомлением на телефон или баннером на рабочий стол в течение 2 секунд, даже если живой предпросмотр видео появляется дольше. Разделение пути оповещения и пути воспроизведения — самое важное архитектурное решение в этом пайплайне.

ИИ-модели, которые отрабатывают себя в 2026 году

Mindbox использует созвездие специализированных моделей, а не один монолит. Каждая настроена под одну задачу и питает нижестоящий движок правил, который решает, увидит ли оператор оповещение. Меню 2026 года теперь хорошо размечено, и большинство проектов сходятся к похожим вариантам.

1. Обнаружение объектов и оружия. YOLOv11 — рабочая лошадка, а YOLOv26 (январь 2026) — новый SOTA. Опубликованные точность/полнота по классам оружия составляют примерно 0,83/0,87 в контролируемых условиях; в продакшене ожидайте 70–90%. Detectron2 и RT-DETR — альтернативы, если вам нужна амодальная сегментация или трансформерные признаки.

2. Обнаружение падений и поскальзываний. Модель на основе позы (YOLO-Pose, ключевые точки Detectron2) плюс временная логика превосходит классификаторы, работающие только с изображением. SDES-YOLO показала точность обнаружения 95,34% с точностью на 9,48% выше, чем у RT-DETR, при на 85% меньшем числе параметров — это реальное преимущество для деплоя на периферии.

3. Распознавание лиц. Эмбеддинги ArcFace/AdaFace на бэкбонах класса FaceNet плюс список наблюдения со строгими ограничениями по согласию. 99,5%+ у Mindbox получаются за счёт заказного обучения на контролируемых заказчиком наборах для регистрации, а не за счёт более крупной модели.

4. ANPR / автомобильные номера. Двухэтапные пайплайны (детектор номера → OCR) по-прежнему обходят сквозные. Модуль ANPR у Mindbox обрабатывает 500 тыс.+ индийских номеров в день с точностью около 95%. Открытые базовые решения вроде OpenALPR держатся в районе 78–93% в зависимости от условий; коммерческий PlateRecognizer даёт около 90% на чистых номерах и падает ниже 70% при смазе из-за движения.

5. Плотность толпы и контроль СИЗ. Сети оценки плотности (семейство CSRNet, MCNN) для скоплений; многоклассовые детекторы для касок, масок, сигнальных жилетов и защитных очков. Промышленных покупателей это волнует едва ли не больше, чем оружие.

Выбирайте заказные модели, когда: готовые детекторы недобирают по вашему конкретному классу инцидентов (нож в плохом освещении, оставленный багаж в транспортном узле, двухколёсный транспорт в запретной зоне) больше пяти пунктов точности. В остальных случаях YOLOv11, дообученной на тысяче ваших собственных кадров, достаточно.

Более глубокую математику за обнаружением аномалий — функцию потерь реконструкции, изолирующие леса, 3D-CNN — мы разобрали в отдельном материале о алгоритмах машинного обучения для обнаружения аномалий, а также в дополняющем углублённом разборе моделей обнаружения аномалий именно для видеонаблюдения.

Подбор GPU и бюджет инфраструктуры

Самая большая статья расходов в любой AI-VMS — GPU-инференс. Правильный ответ зависит от числа потоков, размера модели, FPS и того, где находится камера. Используйте эту таблицу как отправную точку.

Профиль GPU	Одновременных потоков 1080p (аналитика 4–10 FPS)	Примерная стоимость в облаке	Лучше всего подходит
Coral TPU (периферия)	2–4	2 250–7 500 ₽ капитальных вложений единоразово	Один объект, <10 камер
RTX 3090 / 4090 (on-prem)	15–25	120 000–150 000 ₽ капвложений + электричество	Один склад, завод
NVIDIA T4 (облако)	30–40	~30–82 ₽/час	Только облачный мультитенантный SaaS
NVIDIA L4 (облако)	100–200	~90–120 ₽/час	Высокоплотные городские операции 720p
A10 / A10G (облако)	120–220	~90–225 ₽/час	Тяжёлый микс (лица + ANPR)

Эмпирическое правило: закладывайте около 225–450 ₽ за камеру в месяц на облачный GPU при аналитике 4 FPS, удвойте для 4K, уменьшите вдвое для обзорных камер низкого разрешения. Полоса пропускания и хранилище обычно становятся большим сюрпризом, чем инференс: 1080p H.264 на 4 Мбит/с и хранение 90 дней — это примерно 1,3 ТБ на камеру и ещё 225–450 ₽ за камеру в месяц по ценам S3-совместимых хранилищ.

Строить или покупать в 2026 году — честное сравнение

Есть три заслуживающих доверия пути, и на графике совокупной стоимости владения за пять лет они выглядят совершенно по-разному.

Путь	Время до ценности	Полная стоимость (3 года, 100 камер)	Сильные стороны	Компромиссы
Готовый SaaS (Verkada, Avigilon Alta, Eagle Eye, Spot AI, Solink, Rhombus)	Дни–недели	~9–40 млн ₽ (вкл. камеры)	Быстрое развёртывание, поддержка вендора, предсказуемый биллинг по камерам	Привязка на 3–5 лет, непрозрачные цены, ограниченная заказная аналитика, биометрия часто за доплату
Open-source на своём железе (Frigate / Shinobi / Viseron + Coral / GPU)	2–6 недель (своими силами)	~2,2–6,7 млн ₽ (в основном железо + эксплуатация)	Нет лицензионных платежей, полный контроль над данными, подключаемые детекторы	Нет мультисайтовой консоли, нет SLA, дежурства на вас
Заказная разработка (в духе Mindbox, например Фора Софт)	12–16 недель до MVP	Заказной MVP стартует от нижних восьмизначных сумм в рублях + эксплуатация	Настроено под ваши вертикали, нет вечного налога за каждую камеру, IP и данные остаются вашими	Вы несёте небольшой бюджет на эксплуатацию и дорожную карту

Конкретная цифра, которой мы доверяем: заказная сборка класса Mindbox, которая ещё несколько лет назад занимала 9–12 месяцев, теперь выпускается примерно за 12–16 недель, потому что внутри мы используем спецификационно-ориентированную агентную инженерию. Это меняет расклад: запас, который SaaS получал из аргумента «заказное слишком медленно», резко сократился. Стоматологической практике с 5 камерами мы по-прежнему посоветуем купить SaaS; но для 100+ камер на двух и более объектах заказная разработка обычно выигрывает по совокупной стоимости владения уже на второй год.

Выбирайте SaaS, когда: вам нужно запустить деплой на 50 камер за три недели, вам не важна кастомизация аналитики, а ваш финансовый директор предпочитает строку операционных расходов на камеру. В остальных случаях прорабатывайте заказную разработку — налог за привязку к вендору только накапливается.

Матрица вендоров — кого покупатели действительно сравнивают

Используйте эту матрицу как проверку здравого смысла, когда вам на стол ложится техническое задание. Никто из этих вендоров не публикует прайс-листы; диапазоны ниже — средние значения по отзывам покупателей за 2024–2026 годы.

Вендор	Модель	Сильная сторона	Слабая сторона	Типичная форма цены
Verkada	Гибрид SaaS + собственные камеры	Стильный интерфейс, мультисайтовая панель, быстрое развёртывание	Привязка к камерам, только облако, лицензия на каждую камеру	15 000–45 000 ₽/камеру капвложений + 3 750–18 750 ₽/камеру в год
Avigilon Alta (Motorola)	Облачный SaaS	Корпоративный масштаб, ALPR, поиск, опыт в общественной безопасности	Премиальные цены, сложные продажи	По запросу, 600–1 500 ₽/камеру в месяц
Genetec Security Center	On-prem + SaaS	Открытая платформа, широкие интеграции с контролем доступа	Тяжёлая для ИТ, крутая кривая обучения	Лицензия на подключение + обслуживание
Milestone XProtect	On-prem (облако опционально)	14 тыс.+ интеграций устройств, плагин аналитики BriefCam	Нет нативного SaaS, бремя эксплуатации on-prem	Бессрочная лицензия на устройство + поддержка
Eagle Eye Networks	Облачный SaaS (открытые камеры)	Любые камеры, масштабирование, аудиты банковского уровня	Ограниченный on-prem, ИИ-надстройки оплачиваются отдельно	~150–600 ₽/камеру в месяц + хранилище
Spot AI	Облачный SaaS	Фокус на предотвращении потерь в ритейле, простая установка	Узкая вертикаль, меньшая библиотека моделей	~225–750 ₽/камеру в месяц
Ambient.ai	Гибрид периферия + облако	Инференс на устройстве с приоритетом приватности, сигнал в реальном времени	Капзатраты на периферийное железо, узкая поддержка камер	375–1 125 ₽/камеру в месяц + устройство
Заказная (Mindbox / Фора Софт)	Заказной on-prem или гибрид	99,5% точность по лицам, ANPR в масштабах Индии, нет налога за камеру	Дорожная карта и дежурства на вас	Проектная оплата + небольшой ретейнер на эксплуатацию

Для ещё более широкого обзора наша команда ведёт кураторский список компаний-разработчиков видеонаблюдения, за которыми стоит следить, и сравнение корпоративных решений видеоаналитики, которые мы обновляем каждый квартал.

Застряли между привязкой к Verkada и заказной пересборкой?

Мы прошли обе стороны. Принесите нам камеры, примерную численность операторов и вертикали, которые вы обслуживаете — мы распишем план MVP на 12 недель и покажем совокупную стоимость владения на второй год, прежде чем вы на что-либо подпишетесь.

Позвоните нам → Напишите нам →

UX оператора и администратора — то, что большинство вендоров портит

Две трети проектов AI-VMS выдают работающую модель и неработающий интерфейс. Консоль — это место, куда приземляется 100% ценности, а операторы не прощают ошибок. Mindbox получился удобным, потому что мы зациклились на четырёх экранах.

Четыре экрана, которые имеют значение

1. Живая стена. Сетка, которая масштабируется с 4 до 64 потоков, не расплавляя ноутбук. Сначала воспроизведение через WebRTC, фолбэк на HLS. PTZ по наведению, без модальных окон.

2. Входящие оповещения. Обратно-хронологический список инцидентов, сгруппированный по объекту и классу, каждый с предпросмотром клипа на 5 секунд, кнопками «отклонить / эскалировать / зафиксировать» в два клика и уровнем серьёзности. Без переключения вкладок браузера.

3. Криминалистический поиск. Фильтруйте по времени, камере, признаку человека, номеру машины или типу события и перематывайте часы за секунды. Умный криминалистический поиск Mindbox — та функция, от которой, по словам заказчиков, они уже не смогли бы отказаться.

4. Карта объекта. Планы помещений с маркерами камер, которые становятся жёлтыми и красными при инцидентах. Один клик по маркеру — и оператор попадает в живой поток.

Администраторы получают отдельную консоль с доступом на основе ролей (оператор, супервайзер, аудитор, администратор), расписаниями записи для каждой камеры, политиками хранения для каждой зоны, журналами аудита и REST API. Разделение оператора и администратора важно, потому что у них разные ментальные модели и разные ошибки.

Безопасность и соответствие требованиям — то, что убивает проекты

Умное видеонаблюдение за один год перешло из категории «законно» в категорию «юридически непросто». EU AI Act вступил в силу в феврале 2025 года и относит большую часть биометрического видео в реальном времени либо к запрещённым системам (живая удалённая идентификация в общественных местах правоохранительными органами, с узкими исключениями), либо к высокорисковым (всё остальное — обязательное управление рисками, управление данными, человеческий надзор и запись в реестр ИИ ЕС). Рекомендации UK ICO 2023–2025 годов по распознаванию лиц отражают статью 9 GDPR и добавляют требования соразмерности и оценки воздействия на защиту данных (DPIA). В США закон Иллинойса BIPA предусматривает штрафы 75 000–375 000 ₽ за нарушение с правом частного иска; в Техасе и Вашингтоне есть похожие правила, но без частных исков.

На практике это означает три вещи, которые вы закладываете в первый же день. Во-первых, каждый биометрический поток требует явного согласия, SLA на хранение и эндпоинта удаления. Во-вторых, аудиозапись в комнатах отдыха или санузлах на рабочих местах запрещена в большинстве юрисдикций и грозит проблемами в других. В-третьих, у школ (FERPA), здравоохранения (HIPAA) и финансовых объектов есть дополнительные правила хранения и раскрытия, которые меняют форму хранилища и аудита системы.

Выбирайте периферийную архитектуру с приоритетом приватности, когда: вы работаете в ЕС, в Иллинойсе или где-либо ещё с активным применением законов о биометрической приватности и хотите держать исходные лица и номера on-prem, а не передавать их в облако.

Проработанная модель стоимости для деплоя на 100 камер

Покупатели просят назвать «стоимость», и мы всегда оспариваем такую постановку вопроса — но вот защищаемый средний сценарий для деплоя на 100 камер, два объекта, хранение 90 дней, с обнаружением оружия, падений, праздношатания, ANPR и криминалистическим поиском.

Статья	Путь SaaS	Заказной путь (Фора Софт)
Камеры (свои, ONVIF)	0 ₽ (имеющиеся) или 2,2 млн ₽ (новый набор)	0 ₽ (имеющиеся) или 2,2 млн ₽ (новый набор)
ПО / разработка	600 тыс.–1,5 млн ₽/мес SaaS по камерам	MVP за 12–16 недель, капвложения от нижних восьмизначных сумм в рублях
Облачный GPU + инфраструктура	Входит в SaaS	225–450 ₽/камеру в месяц (~22 500–45 000 ₽/мес всего)
Хранилище (90 дней, 1080p)	Входит в SaaS	225–450 ₽/камеру в месяц (~22 500–45 000 ₽/мес)
Эксплуатация / дежурства	SLA вендора	Небольшой управляемый ретейнер или собственный DevOps
Совокупная стоимость за 3 года	21–54 млн ₽ (на основе лицензий)	Нижние восьмизначные суммы в рублях; окупаемость обычно в пределах второго года

Точная заказная цифра зависит от того, какие модели вам нужны (ANPR добавляет больше всего), сколько объектов и насколько строг режим соответствия. Мы предпочтём дать консервативную оценку после сессии исследования, чем бросать единственную броскую цифру в статью блога; если вам нужен защищаемый диапазон под вашу форму бизнеса, наш процесс исследования проекта превращает его в такой за 1–2 недели.

Мини-кейс — Mindbox в продакшене

Ситуация. Компании Mindbox Analytics нужна была интеллектуальная система видеоменеджмента, которая могла бы обнаруживать аномалии (несанкционированный доступ, праздношатание, нарушения техники безопасности) в реальном времени, добавлять распознавание лиц и отслеживание транспорта, масштабироваться на несколько объектов и поставляться с интерфейсом, которым операторы и администраторы действительно стали бы пользоваться. Они пришли к нам в 2020 году.

Что мы выпустили. Масштабируемую платформу на базе ИИ, работающую круглосуточно под высокой нагрузкой: заказные нейросети на TensorFlow + OpenCV для обнаружения лиц, объектов и аномалий; модуль ANPR с правилами проезда на красный свет и превышения скорости; умный криминалистический поиск по часам видео; управление PTZ с фильтрами изображения; интерактивную карту объекта; и админ-панель с доступом на основе ролей, расписаниями записи, аналитикой и REST API/SDK. Медиастек — AntMedia + WebRTC + socket.io — дал операторам субсекундный живой предпросмотр и оповещения менее чем за 2 секунды.

Результат. С 2020 года платформа развёрнута в более чем 50 корпоративных локациях в сферах транспорта, фармацевтики и закрытых жилых комплексов. Модуль распознавания лиц достигает 99,5%+ на регистрационных наборах заказчиков — это превосходит опубликованные бенчмарки Google и Facebook. Пайплайн ANPR считывает более 500 000 автомобильных номеров в день по всей Индии с точностью около 95%, обеспечивая автоматический контроль проезда на красный свет и превышения скорости. Хотите похожую оценку своей системы? Позвоните нам по телефону +7 (911) 236-51-91 или напишите на info@fora-soft.ru.

Фреймворк принятия решения — выберите путь к AI-VMS за пять вопросов

В1. Сколько камер и сколько объектов? Менее 30 камер на одном объекте — по времени до результата выигрывает SaaS или open-source на своём железе. Свыше 100 камер на 2+ объектах заказная разработка обычно выигрывает уже на второй год.

В2. Нужны ли вам биометрия или ANPR? Если да, вы выбираете из меньшего пула; многие SaaS-вендоры прячут эти функции за корпоративными тарифами и не раскрывают точность моделей на ваших вертикалях. Заказная разработка позволяет настроить всё под ваши данные.

В3. Где могут храниться данные? Если GDPR, BIPA или FERPA вынуждают хранить данные on-prem или в пределах региона, архитектура — это гибрид (инференс на периферии, централизованное администрирование); только облачный SaaS становится сложнее.

В4. Сколько заказной аналитики вам реально нужно? Если нужны три готовых класса (праздношатание, оружие, падение) — можно покупать. Если нужны контроль СИЗ, оставленный предмет, двухколёсный транспорт в запретной зоне или специфические для вертикали нарушения безопасности — заказная разработка быстро догоняет.

В5. Кому принадлежит интеллектуальная собственность? SaaS оставляет вас в вечной аренде. Заказная разработка (с чистым контрактом в духе MIT) передаёт вам IP и позволяет запустить дочерний продукт, white-label или продать его.

Пять ловушек, которые, как мы видим, убивают проекты умного видеонаблюдения

1. Усталость от оповещений. Ненастроенная модель выдаёт 50 ложных срабатываний в час, оператор отключает уведомления, и система мертва уже через месяц. Решение: пороги уверенности по зонам, маскирование областей интереса с учётом движения, правила по времени суток и обратная связь, при которой отклонённые оповещения еженедельно переобучают модель.

2. Хрупкость RTSP. Камеры отваливаются, NAT съедает пакеты, RTSP-over-TCP интерливинг ломается под нагрузкой. Решение: медиасервер вроде AntMedia или MediaMTX, который берёт на себя логику переподключения, плюс метрики состояния по каждой камере, чтобы вы находили мёртвые потоки раньше заказчиков.

3. Спираль хранения. «Просто храните всё год» превращается в ежемесячный счёт, который превышает стоимость инференса. Решение: ступенчатое хранение (90 дней горячее, 365 дней холодное), хранение только событий для малозначимых камер и политика хранения на зону, а не на всю систему.

4. Расползание биометрии. Лица и номера появляются в объёме работ на 8-й неделе, потому что кто-то из заинтересованных лиц придумал новый сценарий, ломая план согласия и хранения, который вы не составили. Решение: предполагайте биометрию с первого дня, даже если запускаетесь без неё, и заранее проектируйте эндпоинты согласия и удаления.

5. Дрейф модели. Освещение меняется, сезоны сменяются, появляется новая униформа — и точность незаметно падает на 10–30% за три месяца. Решение: непрерывный механизм оценки с эталонными тестовыми наборами по каждому объекту плюс ежемесячное переобучение на отмеченных кадрах.

KPI — что измерять после запуска

KPI качества. Полнота ≥ 0,90 и точность ≥ 0,85 по трём ключевым классам инцидентов. Частота ложных срабатываний на камеру в день < 5. Среднее время до обнаружения (MTTD) < 2 секунд сквозным образом. Задержка криминалистического поиска < 5 секунд для окна в 24 часа на камеру.

Бизнес-KPI. Число камер, обрабатываемых оператором за смену, выше в 3–5 раз по сравнению с мониторингом без помощи. Время обработки инцидентов ниже на 50–80%. Затраты на предотвращение потерь или ответственность ниже на 15–30% в первый год. Окупаемость замены SaaS в пределах 18–24 месяцев для парков от 100 камер.

KPI надёжности. Время доступности потоков ≥ 99,5%. Доступность инференса ≥ 99,9% за скользящее окно в 30 дней. Восстановление после отказоустойчивого переключения медиасервера < 90 секунд. Разброс затрат на хранилище < 10% месяц к месяцу.

Когда НЕ стоит строить заказную AI-VMS

Заказная разработка не всегда ответ, и мы скажем вам об этом на первом же звонке. Если у вас меньше 30 камер на одном объекте, нет потребности в биометрии или ANPR, а нужный набор функций уже есть в спецификации Verkada или Eagle Eye — покупайте SaaS. Если ваша ИТ-команда — один человек, и он не хочет ночных дежурств, — покупайте SaaS. Если вы исследовательский проект, который хочет проверить «а работает ли вообще ИИ-видеонаблюдение для нашего сценария», начните с Frigate плюс Coral TPU на бюджет в 30 000 ₽ и выясните это до того, как браться основательно.

Сигнал того, что заказная разработка окупится, — когда цена SaaS, налог за привязку к вендору или отсутствующая функция аналитики становятся ограничителем роста. До этого момента это преждевременная оптимизация.

Готовы проработать продукт ИИ-видеонаблюдения вроде Mindbox?

Мы изучим ваш парк камер, вертикали, режим соответствия требованиям и целевую задержку и вернёмся с планом MVP на 12–16 недель, стеком и защищаемым бюджетом — бесплатно и без обязательств.

Позвоните нам → Напишите нам →

Часто задаваемые вопросы

Насколько точно обнаружение оружия в реальном времени в 2026 году?

Передовые модели класса YOLO достигают примерно 0,83 полноты и 0,87 точности по классам оружия в контролируемых тестах. Реальные цифры скорее в районе 70–90% точности, потому что освещение, перекрытия и расстояние ухудшают любую модель. Именно поэтому продакшен-системы пропускают каждое оповещение об оружии через оператора-человека менее чем за две секунды, а не действуют автоматически.

Нужно ли менять IP-камеры, чтобы добавить ИИ-аналитику?

Почти никогда. Любая ONVIF-камера Profile S/T моложе трёх лет нормально работает по RTSP. Добавление аналитики стоит 225–1 125 ₽ за камеру в месяц на облачный GPU. Замена на ИИ-нативные камеры обходится в 37 500–150 000 ₽ капвложений за камеру, так что ретрофит окупается почти сразу на имеющихся парках.

ONVIF или проприетарные камеры — это действительно важно?

Да. ONVIF Profile T (PTZ) и Profile S (стриминг) держат вас независимыми от вендора и позволяют смешивать Hikvision, Dahua, Axis, Hanwha и другие. Проприетарные стеки (например, камеры только Verkada или Avigilon) привязывают вас к одному VMS-вендору на годы.

Можно ли разместить систему на своём железе (on-prem) вместо облака?

Да — и мы часто рекомендуем гибрид (инференс на периферии, централизованное администрирование), когда этого требует соответствие нормам. Frigate, Shinobi и Viseron — заслуживающие доверия open-source отправные точки для <20 камер. Выше этого масштаба заказной гибридный стек обычно обходит и чистый SaaS, и чистый self-host по эксплуатационной головной боли.

Сколько реально стоит хранение данных?

Примерно 225–450 ₽ за камеру в месяц за 90 дней видео 1080p H.264 на 4 Мбит/с в S3-совместимом хранилище. Удвоение хранения до 180 дней примерно удваивает счёт; учетверение до 365 дней примерно учетверяет его. Разделение горячего/холодного хранилища и хранение только окон событий для менее критичных камер — стандартный приём контроля затрат.

Законно ли распознавание лиц там, где я работаю?

Зависит от обстоятельств. EU AI Act жёстко ограничивает живую биометрическую идентификацию в общественных местах и относит большую часть остального биометрического видео к высокорисковому. В Иллинойсе, Техасе и Вашингтоне есть законы о биометрической приватности; закон Иллинойса BIPA предусматривает штрафы 75 000–375 000 ₽ за каждое нарушение. Правильный ответ почти всегда: явное согласие, узкая цель, короткое хранение, эндпоинт удаления, регулярная DPIA — и юрист на стартовой встрече.

Какая задержка от инцидента до оповещения реалистична?

Хорошо настроенный пайплайн доставляет оповещение за 500 мс–2 с сквозным образом: захват (33 мс) + приём (100–300 мс) + декодирование (20–80 мс) + инференс (50–500 мс) + шина (20–100 мс) + уведомление (50–200 мс). Живой предпросмотр видео может занять чуть больше; разделение пути оповещения и пути воспроизведения — ключевой архитектурный ход.

Сколько времени занимает выпуск MVP в духе Mindbox?

12–16 недель для сфокусированного MVP — приём, живая стена, три ключевых класса аналитики, оповещения, базовый криминалистический поиск и админ-панель. Мы добираемся туда быстрее отраслевой нормы, потому что используем спецификационно-ориентированную агентную инженерию, чтобы сжать циклы исследования, сборки скелета и ревью. Добавление ANPR, биометрии или мультисайтового администрирования на основе ролей обычно занимает ещё 4–8 недель.

Что почитать дальше

Основы

ИИ и обнаружение аномалий в видеонаблюдении

Полное руководство по теории обнаружения аномалий, моделям и пайплайну, который питает деплои умных VMS.

Архитектура

Масштабируемые системы видеоменеджмента в 2026 году

Пять инженерных решений, которые определяют, масштабируется ли ваша VMS за пределы 500 камер — архитектура, хранилище, затраты.

Модели

Топ-7 моделей обнаружения аномалий для видеонаблюдения

Сравнение YOLO, RT-DETR, Detectron2 и моделей на основе реконструкции для реальных записей наблюдения.

Руководство покупателя

12 ключевых функций современного ПО VMS в 2026 году

Оцениваемый короткий список функций, которые должны быть у любой AI-VMS, прежде чем она попадёт в ваше техническое задание.

Вендоры

Лучшие компании-разработчики видеонаблюдения

Список вендоров, обновляемый ежеквартально, с сильными и слабыми сторонами и подходящим коротким списком под размер сделки.

Готовы выпустить более умную систему видеонаблюдения?

Mindbox — это то, как выглядит платформа обнаружения инцидентов в реальном времени, когда вы всерьёз относитесь к камерам, всерьёз к задержке и всерьёз к операторам. Архитектура воспроизводима: приём по ONVIF, AntMedia для субсекундного видео, заказные CNN, которые обходят готовые на ваших данных, socket.io для быстрых оповещений, MongoDB плюс S3 для длинного хвоста. Более важный урок в том, что модель — лишь один из семи слоёв, а слои, которые вы игнорируете (UX оповещений, хранение, биометрическое согласие, NAT/STUN), — именно те, что убивают проекты.

Если ваши операторы пропускают инциденты, ваш счёт за SaaS подбирается к стоимости заказной разработки или вашей дорожной карте нужен класс аналитики, который текущий вендор не поддерживает, — это момент, чтобы поговорить. Мы принесём плейбук Mindbox, наш процесс агентной инженерии и 21 год опыта выпуска продуктов видео в реальном времени. Вы приносите камеры и ограничения.

Хотите платформу в духе Mindbox — без привязки к вендору?

Расскажите нам о своём парке камер, вертикалях и целевой задержке. В течение 48 часов мы пришлём вилку бюджета, план MVP на 12–16 недель и регуляторные нюансы, которые вам нужно будет учесть — бесплатно и без обязательств.

Позвоните нам → Напишите нам →

No items found.

Mindbox: ИИ-видеонаблюдение и обнаружение инцидентов в реальном времени (плейбук 2026)

Зачем Фора Софт написала этот плейбук

Что на самом деле делает Mindbox

Сигнал рынка 2026 года — почему эта категория стала обязательной

Эталонная архитектура — как устроен Mindbox

Стек Mindbox, слой за слоем

Пайплайн обнаружения инцидентов в реальном времени, от и до

ИИ-модели, которые отрабатывают себя в 2026 году

Подбор GPU и бюджет инфраструктуры

Строить или покупать в 2026 году — честное сравнение

Матрица вендоров — кого покупатели действительно сравнивают

UX оператора и администратора — то, что большинство вендоров портит

Четыре экрана, которые имеют значение

Безопасность и соответствие требованиям — то, что убивает проекты

Проработанная модель стоимости для деплоя на 100 камер

Мини-кейс — Mindbox в продакшене

Фреймворк принятия решения — выберите путь к AI-VMS за пять вопросов

Пять ловушек, которые, как мы видим, убивают проекты умного видеонаблюдения

KPI — что измерять после запуска

Когда НЕ стоит строить заказную AI-VMS

Часто задаваемые вопросы

Что почитать дальше

Готовы выпустить более умную систему видеонаблюдения?

Похожие статьи

Похожих статей пока что нет, но они скоро появятся

Хотите обсудить ваш проект?