Главное

Облачный инференс не выдерживает масштаб флота. 10 000 камер × 30 инференсов в секунду = 26 млрд вызовов API в сутки. Даже по 0,07 ₽ за вызов это 58 млн ₽ в месяц только за инференс. Edge AI крутит те же модели за стоимость железа камер плюс электричество.

4 мс на инференс на устройстве — реальная цифра. Современные NPU (Hailo-8, Coral TPU, Jetson Orin Nano) классифицируют кадр 1080p меньше чем за 5 мс. Детекция и трекинг на 30 fps в реальном времени, не покидая камеру.

Экономия трафика — второй приз. Edge AI отправляет события, а не сырые кадры. Камера 24/7, которая выгружает только события движения, падает с ~1,5 ТБ/мес до ~30 ГБ/мес — в 50 раз меньше. Сильнее всего выигрывают сотовые флоты.

YOLO26 в INT8-квантизации — рабочая лошадка. Детекция в реальном времени для людей, машин и аномалий на железе мобильного класса. Экспорт в CoreML, TFLite и ONNX покрывает Apple, Android и встраиваемый Linux.

Приватность по умолчанию живёт на устройстве. Сырые кадры никогда не покидают камеру. В облако уходят только метаданные событий и снимки по запросу. С такой архитектурой соответствовать GDPR, CCPA и большинству регуляций по видеонаблюдению намного проще.

Почему этот плейбук написала Фора Софт

Фора Софт с 2005 года выпустила более 50 проектов в области видеонаблюдения и VMS (Video Management Systems). EyeBuild — солнечное AI-видеонаблюдение для строительных площадок и центральный пример этого гайда, VALT — система записи юридических заседаний более чем в 650 организациях США, Live Eye Surveillance, NetCamStudio, Mindbox и Doorbell App.

EyeBuild — нестандартный кейс: камеры на солнечных панелях с 4G/5G, без проводного интернета, выпускаются клиентом и работают полностью офлайн на батарее с автономностью 14 дней плюс 3 дня аварийного резерва. Детекция движения на базе ИИ крутится прямо на устройстве, потому что вы не сможете передать 4K@60fps по 4G и не сможете ждать 200 мс облачного round-trip, когда нарушители уже лезут через забор. Цифры в этом гайде взяты из этого продакшена и ещё четырёх проектов AI-видеонаблюдения, которые мы выпустили в 2024–2025.

Если вы строите или закупаете AI-видеонаблюдение и ваш флот переваливает за 50 камер, этот гайд расскажет, когда edge выигрывает, какой NPU выбрать, как доставлять YOLO26 на тысячи устройств и где обычно валятся подобные проекты.

Счёт за облачный инференс растёт быстрее флота?

Пришлите количество камер, частоту событий и текущий бюджет на облако. За 48 часов мы вернём одностраничный прогноз по реализации edge AI. Бесплатно.

Позвоните нам → Напишите нам →

Юнит-экономика, которая меняет расчёты

Облачные сервисы видеоаналитики (AWS Rekognition, GCP Vision, Azure Computer Vision) берут плату за каждый инференс. Цены разнятся, но реалистичный диапазон 2026 года для детекции объектов — 0,07–0,37 ₽ за вызов. На уровне флота арифметика рассыпается:

Флот из 10 000 камер по 30 инференсов в секунду. 10 000 × 30 = 300 000 вызовов в секунду = 26 млрд вызовов в сутки. По 0,07 ₽ за вызов — 1,9 млрд ₽ в день. Даже по 0,007 ₽ за вызов (объёмный тариф) — 195 млн ₽ в день. На таком масштабе подход «облачный API» структурно невозможен.

Сабсэмплинг помогает, но только до определённого предела. Большинство продакшен-деплоев не запускают инференс на каждом кадре. Они снижают частоту до 1–5 fps при движении и до 0,1 fps в простое. Даже на 1 fps в активном режиме флот из 10 000 камер выдаёт 10 000 инференсов в секунду, 864 млн в сутки — 6,4 млн ₽ в день по 0,007 ₽ за вызов. Всё равно нежизнеспособно.

На edge арифметика другая. Железо NPU стоит 3 750–22 500 ₽ на камеру (разово). Электричество для инференса — около 5–15 Вт на камеру, 375–1 125 ₽ в год. Маржинальная стоимость дополнительного инференса — ноль.

Трафик — вторая статья экономии. Камера 1080p H.264, работающая 24/7 на 4 Мбит/с, выгружает ~43 ТБ в год. С edge AI, который шлёт только события: ~360 ГБ в год. В 120 раз меньше. Для сотовых флотов (750–2 250 ₽ за ГБ) именно эта экономия становится главной.

Тиры железа — NPU, мобильные чипы, CPU

ТирЧипыСтоимость на камеруВозможности
Тир 1: NPUHailo-8, Google Coral, Jetson Orin Nano6 000–22 500 ₽YOLO26 на 30 fps в 1080p, несколько моделей
Тир 2: мобильные чипыSnapdragon 8 Gen 1+, Apple ANE15 000–60 000 ₽Детекция и трекинг на уровне смартфона
Тир 3: средний SoCRockchip RK3588, Ambarella CV53 750–9 000 ₽Только лёгкая детекция
Тир 4: только CPUУниверсальный ARM Cortex-A750–3 000 ₽Детекция движения, базовая классификация

Берите Тир 1 (NPU), когда: нужна детекция в реальном времени на 4K-потоках, несколько модельных голов (человек + транспорт + аномалии + лица) или высокая цена ошибки (охрана периметра, борьба с потерями в ритейле).

Берите Тир 2 (мобильные чипы), когда: «камера» на самом деле — это смартфон или планшет (приложение для охраны, нательная камера, мобильная инспекция). Apple ANE особенно силён в детекции объектов на 1080p.

Берите Тир 3 (средний SoC), когда: вы проектируете кастомную камеру по потребительским ценам (класс Wyze, Reolink). RK3588 — фактический стандарт для DIY и недорогого продакшена.

Берите Тир 4 (только CPU), когда: сценарий — это бинарная детекция движения и при этом флот огромный и чувствительный к цене. Лёгкое решение, которого хватает для ответа «происходит ли что-то?»

Выбор модели в 2026 году — YOLO26 и не только

YOLO26 (Ultralytics). Свежая модель из семейства YOLO, оптимизированная под мобильные NPU. Нативный экспорт в CoreML, TFLite и ONNX. Детекция объектов на 30+ fps на NPU Тира 1. Дефолт 2026 года для универсального видеонаблюдения.

Квантизованная YOLOv8/v9. Зрелая, поддержка широкого парка устройств. Точность ниже, чем у YOLO26, но примеров деплоя больше. Берите, когда нужно быстро запуститься, а тулчейн YOLO26 на вашем железе ещё сырой.

Детекция аномалий. Связка ResNet50 и автоэнкодера. Обучаете на «нормальной» съёмке, помечаете любое отклонение. Работает для нетипичных паттернов движения, оставленных предметов, попыток проникновения через периметр. Контролирует ложные срабатывания лучше правил-будильников.

Классификаторы людей и транспорта. Самая частая задача в видеонаблюдении. Отделить людей от животных (снизить ложные тревоги), классифицировать тип транспорта (грузовик или легковая для стройплощадок). MobileNetV3 или EfficientNet в INT8-квантизации справляются с этим на железе Тира 2–3.

Распознавание лиц. ArcFace или FaceNet в INT8. Здесь возникают вопросы приватности и регуляций — статья 9 GDPR относит биометрию к специальной категории данных. Обычно используется только для проверки по белому списку (например, корреляция с пропуском сотрудника) и крутится на NPU Тира 1.

Пайплайн деплоя — обучение, квантизация, OTA

1. Обучение в облаке. Тренируйте на размеченных данных флота с помощью PyTorch или TensorFlow. Активно используйте аугментации (освещение, погода, ракурсы) — так вы приблизите обучающую выборку к реальным условиям эксплуатации.

2. INT8-квантизация. Большинство NPU работают в INT8, а не в FP32. Post-training quantization (PTQ) быстрее, quantization-aware training (QAT) даёт более высокую точность. Целиться стоит в потерю точности менее 2 % относительно FP32.

3. Экспорт. CoreML — для iOS и Apple Silicon. TFLite — для Android и встраиваемого Linux. ONNX — для кросс-платформенной совместимости (у Hailo, Coral и Jetson есть ONNX-рантаймы). TensorRT — для максимальной производительности на NVIDIA Jetson.

4. OTA-доставка. Подпишите артефакт модели приватным ключом, загрузите в реестр моделей и раскатайте на флот через OTA-агента (Mender, Balena или собственный MQTT). Делайте поэтапную выкатку (canary → 10 % → 50 % → 100 %) с возможностью отката.

5. A/B-тесты в продакшене. Запустите новую модель на 5 % флота, логируйте события её решений и сравнивайте с контрольными данными (ручная проверка или теневой деплой доверенной модели). Промоутите до 100 % после 7–14 чистых дней.

6. Детекция дрейфа. Отслеживайте распределения уверенности инференса по каждой камере во времени. Резкие провалы средней уверенности сигнализируют о дрейфе данных — модель встретила условия, которых раньше не видела. Это триггер на дообучение.

Архитектура: edge ↔ VMS ↔ оповещения

Камера (edge) NPU + сенсор + хранилище YOLO26 INT8 Локальный SSD-кольцевой буфер Аплинк 4G/5G/Wi-Fi события Брокер событий MQTT / WebRTC DC ONVIF Profile T/M Auth + RBAC Маскирование PII VMS / облачная платформа Лента событий и поиск Консоль оператора Оркестрация оповещений Холодное хранилище PagerDuty / SMS Критические тревоги Дашборд оператора Триаж в реальном времени Push на смартфон Менеджеру / владельцу объекта Тиры хранения — edge SSD (7 дней) → тёплое облако (30 дней) → холодный S3 Glacier (год+) Снимок по событию выгружается; полный клип подтягивается по запросу Edge владеет инференсом; облако — лентой событий, поиском и интерфейсом оператора.

Рисунок 1. Архитектура AI-видеонаблюдения на edge — камера, брокер, VMS, рассылка оповещений, тиры хранения.

Приватность и комплаенс — минимизация данных

1. Минимизация данных по GDPR — по умолчанию. Edge AI отправляет только метаданные событий, а не сырые кадры. Видео, которое всё-таки уходит наверх, передаётся по запросу, а действие оператора пишется в лог. Соблюдать статью 5 GDPR (минимизация данных, ограничение цели обработки) с такой архитектурой намного проще, чем когда всё хранится в облаке.

2. Маскирование PII прямо на устройстве. Лица и автомобильные номера можно размывать на камере до того, как кадр уйдёт куда-либо. Открытые маски (mask-rcnn, дообученный под лица) плюс эффекты на встроенном GPU делают это в реальном времени. Обязательно для ритейла, транспортных хабов и школ.

3. Аудит решений модели. Каждое оповещение должно фиксировать: какая модель, с какой уверенностью, по какому хешу входного кадра. Это нужно и для разбора инцидентов, и часто для юридической цепочки доказательств.

4. Осторожно с биометрией. Распознавание лиц подпадает под статью 9 GDPR (специальная категория данных). Многие юрисдикции ЕС требуют отдельной DPIA, публичного оповещения и ограниченных сроков хранения. Подумайте, действительно ли вам нужно сравнение лиц — обычно достаточно детекции человека.

5. Политики хранения, которые соблюдает само устройство. Кольцевые буферы на SSD камер автоматически перезаписывают старые записи. Тиринг облачного хранилища переводит видео в холодное хранилище через N дней и удаляет по истечении срока юридического хранения. Документируйте и доказывайте, что хранение ограничивается автоматически, а не вручную.

Мини-кейс: как EyeBuild доставляет ИИ на солнечные 4G-камеры

EyeBuild охраняет сотни строительных проектов с активами на миллиарды долларов. Камеры с питанием от солнечных батарей, автономностью 14 дней плюс 3 дня резерва, разрешение 4K UHD, без проводного интернета (аплинк 4G/5G), поворот и наклон на 360 градусов, два режима ночного видения (инфракрасный и цветной). Архитектура edge здесь не обсуждается: вы не сможете передать 4K@60fps по LTE и не будете ждать 200 мс облачного round-trip, когда нарушители уже лезут через забор.

Ключевые элементы архитектуры. Кастомное железо камеры с NPU Hailo-8, на котором крутится квантизованная YOLOv8, дообученная на снимках со строек (тяжёлая техника, каски, отделение людей в нерабочее время). Инференс — 4 мс на кадр в 1080p. Локальный SSD-кольцевой буфер хранит 14 дней нарезанных событий. В облако через 4G/5G уходят только снимки событий движения и 30-секундные клипы. Дашборд оператора работает в браузере; полное разрешение по запросу подтягивается отдельной выгрузкой.

Результат. Установка в день обращения. 18 600 ₽/мес за камеру по принципу «под ключ». Ежемесячные контракты без длинных обязательств. 30 дней облачного хранения включены. Трафик на камеру: ~2 ГБ/мес против ~600 ГБ/мес для сырого 4K-стриминга. Флот покрывает элитную жилую недвижимость, промышленные объекты, инфраструктуру и модульное строительство.

Что мы выпустили. Кастомную прошивку камер, пайплайн инференса на Hailo-8, инфраструктуру обучения моделей для постоянного улучшения флота, OTA-агента, облачную VMS, дашборд оператора и мобильное приложение. Свяжитесь с нами, если хотите аналогичный продукт для своего видеонаблюдения.

Делаете кастомную AI-камеру или VMS?

Мы выпустили EyeBuild, VALT и ещё четыре продакшен-системы AI-видеонаблюдения. Пришлите ТЗ — за 48 часов мы вернём одностраничную архитектуру и план на 16 недель.

Позвоните нам → Напишите нам →

Build vs buy — Axis, Hikvision, кастомный white-label

Готовые AI-камеры (Axis, Hikvision, Bosch, Hanwha). 30 000–150 000 ₽ за камеру. Преднатренированные модели на устройстве, VMS вендора. Подходит, когда вы используете камеры как клиент сервиса (охранная фирма, ритейлер) и вам не нужны кастомные модели или брендированное железо. Учтите: Hikvision и Dahua ограничены на федеральных рынках США.

White-label камеры с кастомной прошивкой. Заказываете железо у ODM (TVT, OEM Hikvision, универсальные ODM в Шэньчжэне) по 6 000–22 500 ₽ за камеру и заливаете собственную прошивку и ИИ-стек. Подходит, когда AI-функции — ваше преимущество, а железо вы продаёте клиентам (паттерн EyeBuild). Выше инвестиции в инжиниринг, зато полный контроль над интеллектуальной собственностью.

Платформа BYOC (bring-your-own-camera). Камеры принадлежат клиенту (он отдаёт RTSP-потоки), ИИ крутится на вашей платформе. Подходит, когда вы продаёте только софт, а у клиентов уже есть свои камеры. Edge-инференс здесь сложнее — обычно вы запускаете инференс в облаке или на on-prem GPU.

Модель затрат — облако vs edge

Размер флотаОблако: годовая стоимостьEdge AI: годовая стоимостьЭкономия
100 камер~4,5 млн ₽~1,8 млн ₽ (с учётом амортизации железа)~58 %
1 000 камер~43 млн ₽~13 млн ₽~69 %
10 000 камер~412 млн ₽~105 млн ₽~75 %
100 000 камерСтруктурно нежизнеспособно~825 млн ₽N/A

Расчёт исходит из инференса на 30 fps, NPU стоимостью 3 750–9 000 ₽ за камеру с амортизацией на 5 лет, электричества на 375 ₽ в год, облачной VMS и оповещений на 375 ₽ за камеру в месяц, сотового трафика на 150 ₽/ГБ (где применимо). Для облачного варианта взято 0,03 ₽ за инференс (объёмный тариф), 24/7 с сабсэмплингом до 5 fps в активном режиме.

Фреймворк решения — выберите edge за пять вопросов

В1. Размер флота? Больше 50 камер — edge выигрывает по деньгам. Меньше 50 — облако может оказаться проще.

В2. Связь? Сотовая или нестабильный Wi-Fi → edge обязателен (трафик и надёжность). Гигабитный Ethernet по проводу → облако или гибрид допустимы.

В3. Чувствительный к задержке сценарий? Охрана периметра, детекция падения, обнаружение огня и дыма → нужен edge для отклика менее 100 мс. Общий мониторинг с оператором в цикле → облако подойдёт.

В4. Регулирование приватности? GDPR со строгими требованиями к локализации данных или чувствительный контент (школы, здравоохранение) → edge заметно проще.

В5. Кастомный или коммодити-ИИ? Вертикальные модели (стройка, потери в ритейле, здравоохранение) → делайте кастомную прошивку. Универсальная детекция людей и транспорта → готовых камер обычно достаточно.

Подводные камни, которых стоит избежать

1. Игнорировать OTA. Без надёжного OTA-пайплайна вы не сможете чинить баги моделей, выкатывать патчи безопасности и развивать продукт. Стройте OTA до раскатки на флот, а не после.

2. Закрывать глаза на дрейф моделей. Модель, обученная на летней съёмке, теряет точность зимой. Новые ракурсы, новое освещение, новые этапы стройки — всё это незаметно подъедает качество. Мониторьте распределения уверенности и переобучайте на регулярной основе.

3. Недооценивать поток оповещений. 10 тысяч камер генерируют столько тревог, что захлёбывается операторская команда. На таком масштабе нужны правила триажа, дедупликация оповещений и приоритизация на основе ML.

4. Ложные срабатывания, из-за которых операторы перестают реагировать. Если 30 % тревог — ложные, операторы перестанут их проверять. В первые 90 дней настраивайте под точность, а не под полноту; чувствительность будете повышать, когда доверие к системе уже сложится.

5. «Кирпичить» устройства неудачным OTA. Сбойное обновление прошивки на 10 тысячах устройств — катастрофа. Всегда запускайте canary-когорту, A/B по диапазонам серийных номеров и убеждайтесь, что откат работает, ещё до раскатки на весь флот.

KPI для измерения

Качество. mAP при IoU 0,5 на эталонном датасете (целевой показатель: 0,85+). Доля ложных срабатываний на камеру в день (целевой показатель: меньше 0,5). Задержка инференса p50 (целевой показатель: меньше 10 мс на Тире 1, меньше 50 мс на Тире 3). Стабильность средней уверенности во времени (тревога, если месячная средняя падает больше чем на 5 %).

Бизнес. Время оператора на камеру в день (целевой показатель: меньше 5 минут для флота от 100 камер). Годовая стоимость на камеру. Отток клиентов (качественная детекция радикально снижает churn).

Надёжность. Доступность флота камер (целевой показатель: 99,5 %). Доля успешных OTA (целевой показатель: 99,8 %). Трафик на камеру в месяц (тревога, если выше базового больше чем в 2 раза; это сигнал, что вместо событий в облако уходят сырые потоки). Распределение состояний питания (актуально для солнечных флотов).

Когда edge AI разворачивать НЕ стоит

Маленький флот (меньше 30 камер). Стоимость облачного инференса невелика, инвестиции в edge не окупаются. Берите AWS Rekognition или аналоги.

Разовый ретроанализ архива. Прогнать 6 месяцев записи в поисках одного события — облачный GPU-инференс эластично масштабируется, edge — нет.

Модели, которые меняются еженедельно. Если вы ещё итерируете ИИ-модель, OTA-цикл будет вас тормозить. Держите инференс в централизованной точке, пока модель не стабилизируется, и только потом переносите на edge.

Камеры, которыми вы не управляете. Если ваша платформа принимает RTSP-потоки от разнотипных сторонних камер, кастомную прошивку залить не получится. Инференс гоняйте на региональном GPU-кластере.

FAQ

Hailo-8 vs Coral TPU vs Jetson?

У Hailo-8 лучший показатель производительности на ватт — отлично подходит для камер на солнечных батареях. Coral TPU дешевле и хорошо поддержан экосистемой TensorFlow. Jetson Orin Nano — самый гибкий (полный Linux, более широкий стек ПО), но потребляет больше энергии. В EyeBuild мы используем Hailo-8 из-за ограничений по питанию.

YOLO26 или модель, обученная под задачу?

Преднатренированный YOLO26 закрывает ~80 % типовых сценариев видеонаблюдения (человек, транспорт, базовые объекты). Дообучайте YOLO26 на ваших данных для оставшихся 20 % — специфичные для стройки объекты, поведение в ритейле и так далее. Модель полностью с нуля редко когда нужна.

Как соблюдать GDPR при детекции лиц?

Избегайте распознавания лиц без явного бизнес-обоснования: детекция (есть ли лицо?) — более мягкая категория, чем распознавание (чьё это лицо?). Размывайте лица на устройстве для любого выгружаемого кадра. Нужно публичное оповещение. Подумайте, не достаточно ли вам детекции человека.

А ночное видение и плохая погода?

Обучайте на аугментированных данных: слабое освещение, дождь, туман. У части камер есть IR-cut фильтр, и ночью они переходят в ИК-режим. Модели надо учить и на видимых, и на ИК-кадрах; считайте их разными распределениями входа.

Как выкатывать модели по OTA?

Подпишите артефакт модели, раскатайте через OTA-агента (Mender, Balena или собственный MQTT), делайте поэтапную выкатку (canary → 10 % → 100 %) с проверкой здоровья на каждом шаге. Всегда закладывайте откат к последней рабочей версии. На устройстве резервируйте достаточно флеш-памяти под две версии модели.

Можно ли крутить несколько моделей на одной камере?

Да, на NPU Тира 1. Типичный паттерн: лёгкий детектор движения работает постоянно, более тяжёлый YOLO26 запускается по движению, опциональный детектор аномалий — периодически. Оркестрация нескольких моделей — стандарт для Hailo-8 и Jetson Orin Nano.

А что насчёт гибрида edge и облака?

Гибридный паттерн: edge делает быструю детекцию, облако получает метаданные событий и ключевые кадры и прогоняет более тяжёлую верифицирующую модель (на трансформерах) по подозрительным событиям, чтобы дополнительно срезать ложные срабатывания. Лучшее из двух миров, и трафика всё равно в 50 раз меньше, чем при стриминге всего подряд.

Сколько занимает разработка кастомной AI-камеры?

Прошивка, ИИ-пайплайн и облачная VMS для деплоя класса EyeBuild: 16–24 недели для v1 силами 2–4 сеньоров. Параллельный сорсинг железа добавит 8–12 недель, если идёте через ODM. Мы обычно укладываемся ближе к нижней границе диапазона за счёт переиспользования наработок Agent Engineering.

ИИ

AI-детекция аномалий в видеонаблюдении

Сопутствующий материал по дизайну модели аномалий на автоэнкодере и ResNet.

VMS

Видеоаналитика и видеонаблюдение

Паттерны интеграции аналитических событий со стороны VMS.

Архитектура

Масштабируемая архитектура VMS

Облачная и on-prem архитектура VMS для больших флотов.

Сравнение

Edge AI и cloud AI — сравнение

Соседняя статья о бинарном выборе.

AI-инфра

MCP для видео и real-time приложений

Как добавить слой LLM-агента поверх вашей VMS.

Готовы запустить флот, который масштабируется?

Свыше 50 камер edge AI остаётся единственным экономически оправданным путём. Железо Hailo-8, Coral и Jetson в 2026 году уже зрелое; YOLO26 в INT8-квантизации закрывает большинство сценариев; OTA-инструменты (Mender, Balena, собственные решения) умеют сопровождать эволюцию флота. Сам паттерн хорошо изучен — инженерные риски лежат не в модели, а в операционном слое: оповещения, дрейф, сроки хранения, надёжность OTA.

Для сотовых флотов edge выигрывает уже на одной только экономии трафика (в 50 раз меньше). Для сценариев с высокой ценой ошибки edge выигрывает по задержке. Для деплоев, чувствительных к приватности, edge выигрывает за счёт минимизации данных. На стороне «только облака» остаются мелкие флоты и быстрые итерации модели.

Хотите план запуска edge AI на 16 недель для своего флота камер?

Пришлите целевой размер флота, условия эксплуатации и сценарии детекции. За 48 часов мы вернём одностраничную архитектуру, шортлист железа и план на 16 недель.

Позвоните нам → Напишите нам →

  • Технологии