
Главное
• Камеры с распознаванием объектов на заказ наконец окупаются на узких, отраслевых задачах. Мировой рынок компьютерного зрения (computer vision) в 2025 году составляет 3 216 млрд ₽, к 2030-му прогнозируют 4 762 млрд ₽ (среднегодовой рост ~20%). Поставки камер с AI на периферии растут на 21,5% в год и движутся к 9 045 млрд ₽ к 2035 году.
• Сначала покупайте готовую платформу. Стройте на заказ только тогда, когда платформа действительно не справляется. Verkada, Avigilon, Genetec, Milestone, Eagle Eye, BriefCam, Viso.ai закрывают ~80% стандартных сценариев. Решение на заказ выигрывает, когда вам нужен специфический для предметной области класс объектов (редкая болезнь скота, таксономия дефектов именно вашей производственной линии, уникальный для отрасли сигнал соответствия требованиям).
• Облачные API (AWS Rekognition, Google Vision, Azure CV) — самый дешёвый способ проверить идею. Цена: 75–150 ₽ за 1 000 изображений. Используйте их для прототипа. Переходите на периферию или на собственное решение только тогда, когда к этому вынуждают задержка, приватность, стоимость на масштабе или точность на ваших конкретных классах.
• Реальные результаты промышленных внедрений: в ритейле предотвращение потерь даёт сокращение недостач на 35–56%. Контроль качества на производстве выявляет 95–99% дефектов против 70–80% у человека. Распознавание средств защиты на стройке — 95–99%. Контроль погрузочных ворот — 100% точности при сокращении ручного труда на 40–60%.
• Экономика MVP на заказ (2026): 4,5–10,5 млн ₽ за сфокусированную сборку на 8–14 недель (один сценарий, одна площадка). Промышленное внедрение на несколько площадок: 13,5–33,7 млн ₽. Agent Engineering сжимает рутинную интеграцию и работу по инференсу на 25–40% — быстрее и дешевле типичных оценок вендоров.
Почему Фора Софт написала это руководство
Фора Софт создаёт программное обеспечение для видео в реальном времени, AI и компьютерного зрения с 2005 года. Мы построили TradeCaster (видеоинфраструктуру финансового уровня для торговых десков), Speakk (многосторонние видеоконференции в реальном времени с модерацией на базе AI) и пайплайны видеоаналитики и распознавания на заказ для клиентов в ритейле, безопасности, здравоохранении и промышленной автоматизации. Дополнительное чтение: наше руководство по разработке VMS на заказ — о хребте систем видеонаблюдения и видеоменеджмента, к которому подключаются эти пайплайны распознавания, и наш разбор периферийных вычислений в стриминге — о модели задержки, которая определяет, где размещать распознавание. Эта статья — продолжение, ориентированное на принятие решения: когда распознавание объектов на заказ действительно выигрывает у готового решения и во сколько обходится его создание?
Выбираете камеры с распознаванием объектов для своего бизнеса?
Расскажите нам о сценарии (предотвращение потерь в ритейле, контроль качества на производстве, автоматизация погрузочных ворот, средства защиты на стройке, сельское хозяйство, дорожный трафик, безопасность) и примерном масштабе. Мы вернёмся с конкретной рекомендацией: облачный API, готовая платформа или решение на заказ — и с честной оценкой.
Почему распознавание объектов на заказ теперь реально построить, а не только помечтать о нём
Между 2022 и 2026 годами изменились три вещи, которые превратили распознавание объектов на заказ в реальный вариант закупки, а не в научный эксперимент:
- Периферийные чипы стали реальностью. NVIDIA Jetson Orin Nano (40 TOPS, ~18 700 ₽) запускает YOLOv8-medium на 30+ FPS. Hailo-8 (26 TOPS, ~15 000 ₽) и Google Coral (4 TOPS, 4 500 ₽) закрывают сценарии с меньшим энергопотреблением. Оборудование, которому в 2021 году требовалась рабочая станция за 375 000 ₽, теперь помещается в камеру за 30 000 ₽.
- Модели стали точными и компактными. YOLOv8–v11 достигают 85–95% mAP на распространённых объектах при размере модели 25–100 МБ. RT-DETR поднимает точность ещё выше, когда позволяет бюджет задержки. Базовые модели (Grounding DINO, SAM2) сокращают трудозатраты на разметку данных на 40–70%.
- Инструменты разметки повзрослели. Roboflow, CVAT, Labelbox, Encord: 2 000–5 000 качественно размеченных изображений на класс теперь дают промышленную точность в большинстве индустриальных сценариев. С предобученными бэкбонами вы можете выйти на точность 90%+ за 8–12 недель для одного сфокусированного класса.
Что это значит для тех, кто держит бюджет: вопрос больше не в том, «сможем ли мы это построить?». Вопрос в том, «оправдана ли сборка на заказ экономически по сравнению с готовой платформой, которая уже закрывает 80% типовых сценариев?». А на этот вопрос ответить куда проще.
Правило выбора в одну строку: если ваша задача типовая (подсчёт людей, автомобильные номера, распространённые нарушения безопасности, базовое обнаружение проникновения) — покупайте готовую платформу. Если задача отраслевая (ваша таксономия дефектов, ваша библиотека состояний скота, ваш класс активов) — и вендоры платформ её не покрывают — выигрывает решение на заказ.
Рынок камер с распознаванием объектов 2026 года — один общий снимок
Цифры, которые задают рамку для решения о покупке:
- Мировой рынок компьютерного зрения: 3 216 млрд ₽ (2025) → 4 761 млрд ₽ (2030), среднегодовой рост ~20%. (Оценки Grand View Research и MarketsandMarkets сходятся.)
- Сегмент камер с AI на периферии: 2 535 млрд ₽ (2025) → 9 045 млрд ₽ (2035), рост 21,52% в год — самая быстрорастущая доля.
- ПО для видеоаналитики: 855 млрд ₽ (2025) → 1 942 млрд ₽ (2030). Это слой платформы, к которому подключаются пайплайны распознавания.
- Распознавание автомобильных номеров (LPR/ANPR): 232 млрд ₽ (2025) → 360 млрд ₽ (2030), рост 9,2% в год.
- Отраслевое внедрение: 65% производителей планируют инвестировать в контроль качества на базе компьютерного зрения к 2027 году (Gartner). 50%+ крупных ритейлеров уже используют CV-аналитику полок или предотвращение потерь.
- Доля инференса на периферии: 40% всех CV-нагрузок в 2025 году, прогноз — 60% к 2028. Регулирование приватности, требования к задержке и экономика трафика толкают инференс ближе к камере.
Три пути покупки — облачный API, платформа или сборка на заказ
Определитесь, в какой вы полосе, ещё до того как начнёте звонить вендорам. Неправильная полоса — самая дорогая ошибка.
| Путь | Когда подходит | Стоимость 1-го года | Время до результата |
|---|---|---|---|
| Облачный API (Rekognition / Vision / Azure CV) | Типовые классы, <100 тыс. изображений/мес, нет жёстких требований к задержке | 112 тыс.–1,5 млн ₽ | Дни |
| Готовая платформа (Verkada, Avigilon, Genetec, Eagle Eye, BriefCam) | Стандартное видеонаблюдение / аналитика, несколько площадок, ИТ не может поддерживать ML | 1,8–15 млн ₽ (за площадку) | Недели |
| Вертикальный SaaS (Roboflow, Viso.ai, Landing AI, Chooch) | Свои классы, которые вы можете разметить, но хотите управляемый MLOps | 2,2–9 млн ₽ | 4–10 недель |
| Сборка на заказ (ваша команда или агентство) | Проприетарные классы + плотная интеграция + масштаб + владение интеллектуальной собственностью | 4,5–33,7 млн ₽ | 8–24 недели |
Покупайте облачный API, когда
- Вы проверяете идею (PoC, внутреннее демо, хакатон).
- Ваши классы типовые (лица, распространённые объекты, текст, логотипы).
- Объём < 100 000 изображений в месяц. (Выше этого облачная стоимость пересекается с выделенной инфраструктурой.)
- Допустимая задержка 200 мс и выше, и вы можете отправлять изображения в облако.
- Вам не нужно развёртывание на собственных серверах или в изолированной (air-gapped) сети.
Покупайте готовую платформу, когда
- Вам нужны видеонаблюдение + аналитика, а не чистое распознавание.
- У вас несколько площадок, и ваша ИТ-команда не будет поддерживать кастомный ML-стек.
- Ваши сценарии совпадают с готовым каталогом аналитики (подсчёт людей, классификация транспорта, типовая безопасность, обнаружение проникновения).
- Вам нужны сертифицированное оборудование + SOC 2 + готовое соответствие требованиям из коробки.
- Вы готовы жить в границах интеграции платформы (большинство дают REST/вебхуки; немногие поддерживают глубокую интеграцию с VMS / ERP).
Стройте на заказ, когда
- Объект распознавания действительно отраслевой (редкое состояние скота, таксономия дефектов вашей линии, специфический медицинский или промышленный сигнал).
- Вам нужна плотная интеграция с проприетарными системами (ваша MES, ваша SCADA, ваша кастомная WMS, ваша EHR).
- Обязательно развёртывание на собственных серверах / в изолированной сети / с соответствием NDAA.
- Важна долгосрочная юнит-экономика: 10 000+ камер, кастомная интеллектуальная собственность, которая становится конкурентным барьером.
- Точность готовых решений на ваших классах упирается в потолок ниже вашего минимума.
Нужна помощь, чтобы понять, в какой вы полосе?
Пришлите сценарий, ожидаемое количество камер и целевую точность. Мы вернёмся с рекомендацией на одну страницу и сравнением: прогноз стоимости облачного API, 2 наиболее подходящие платформы и оценка сборки на заказ.
Где распознавание объектов на заказ действительно окупается — 8 отраслей с реальными цифрами
Ритейл — предотвращение потерь, аналитика полок, управление очередями
Промышленные внедрения сокращают недостачи на 35–56% за счёт контроля касс самообслуживания, интеллектуальной видеоаналитики и обнаружения товаров на дне корзины. Средняя экономия: 3,2 млн ₽ на магазин в год. Используемые вендоры: Everseen, Standard Cognition, Verkada на уровне платформы; решения на заказ — для сетей с проприетарными планограммами или специфическими, привязанными к бренду библиотеками SKU.
Производство — визуальный контроль качества
Контроль качества на базе компьютерного зрения выявляет 95–99% дефектов против 70–80% у контролёров-людей, при пропускной способности в 10–100 раз выше. 65% производителей планируют инвестиции в визуальный AI к 2027 году (Gartner). Вендоры: Landing AI, Cognex VisionPro, Keyence; решение на заказ — под вашу конкретную таксономию дефектов, когда готовые модели не покрывают нужный класс дефектов.
Логистика и складирование — погрузочные ворота, отслеживание посылок
Автоматизация погрузочных ворот достигает 100% точности сканирования при сокращении ручного труда на 40–60% на сценариях с посылками и паллетами. Вендоры: Cognex, Sick AG, решения на заказ — для нестандартной упаковки (неправильные формы, отсутствие штрихкодов). Окупаемость: обычно 12–18 месяцев при установке на 5+ погрузочных ворот.
Сельское хозяйство — подсчёт скота, здоровье посевов, обнаружение сорняков
Полевые внедрения сообщают о 120–150% ROI, росте урожайности на 25%, сокращении вредителей на 50% при опрыскивании под управлением компьютерного зрения (Blue River / John Deere See & Spray). Здесь доминируют решения на заказ — мало готовых платформ знают вашу библиотеку пород скота или ваш набор видов сорняков.
Здравоохранение — мониторинг пациентов, обнаружение падений
Больничные внедрения: 92–98% точности обнаружения падений, сокращение нежелательных инцидентов на 15–40%. Профильные вендоры: Inspiren, AvaSure, Care.ai. Соответствие HIPAA — обязательно; только на собственных серверах или в облаке с подписанным BAA. Сильный перекос в сторону решений на заказ или узкоспециализированных платформ, а не универсальных вендоров видеонаблюдения.
Строительство — соблюдение требований к СИЗ, угрозы безопасности
Обнаружение средств индивидуальной защиты (каска, жилет, страховочная привязь) даёт 95–99% точности на большинстве площадок. Сокращение инцидентов: 40–50%. Вендоры: Smartvid.io, viAct, Buildots, Eyrus. Решения на заказ — когда специфическое для площадки оборудование, региональные стандарты СИЗ или проприетарные таксономии безопасности выходят за рамки покрытия готовых классов.
Трафик и умные города — LPR, классификация транспорта, аномалии
Распознавание автомобильных номеров (LPR/ANPR) достигает точности 95%+ в хороших условиях; ниже — в плохую погоду. Рынок: 232 млрд ₽ (2025) → 360 млрд ₽ (2030). Вендоры: Rekor, OpenALPR, Genetec AutoVu, Vaxtor. Решения на заказ — для интеграции с системами взимания платы, форматов номеров особых юрисдикций или классификации, специфичной для автопарка.
Безопасность и доступ — периметральное проникновение, проход «на хвосте», обнаружение оружия
Современное обнаружение проникновения: доля истинно положительных срабатываний 95%+ при откалиброванных порогах ложных срабатываний. Вендоры: Avigilon, Genetec, Eagle Eye, Verkada на уровне платформы; ZeroEyes и Actuate — конкретно для обнаружения оружия. Решения на заказ — для необычной геометрии сцены, объектов высокой степени защиты или интеграции с проприетарными системами доступа.
Ландшафт вендоров 2026 года — кого оценивать
Короткий список вендоров, достаточно серьёзных, чтобы попасть в шортлист. Проверяйте только тех, кто подходит под вашу задачу — не всех подряд.
| Вендор | Категория | Развёртывание | Лучше всего подходит |
|---|---|---|---|
| Verkada | Облачно-управляемые камеры + аналитика | Облако + периферия | Несколько площадок, минимум ИТ, типовая аналитика |
| Avigilon (Motorola) | Корпоративная VMS + AI-аналитика | Собственные серверы + облако | Крупный бизнес, госсектор |
| Genetec | Единая VMS + доступ + LPR | Собственные серверы + облако | Госсектор, умные города, транспорт |
| Milestone XProtect | Открытая платформа VMS | Собственные серверы | Интеграция лучшей в своём классе аналитики |
| Eagle Eye Networks | Облачная VMS + аналитика | Прежде всего облако | Малый и средний бизнес с несколькими локациями |
| Axis Communications + ACAP | Камеры + открытая платформа аналитики | Периферия | Лучшие камеры + гибкость сторонней аналитики |
| BriefCam | Видеоаналитика + расследования | Собственные серверы + облако | Криминалистический поиск, ретроспективная аналитика |
| Viso.ai | No-code платформа для CV-приложений | Периферия + облако | Кастомные приложения без полноценной ML-команды |
| Roboflow | Разметка + обучение + развёртывание | Облако + периферийный SDK | Разработка кастомных моделей, быстрые итерации |
| Landing AI | Визуальный контроль на производстве | Собственные серверы + облако | Обнаружение дефектов на масштабе |
| NVIDIA Metropolis | SDK + референсные приложения + DeepStream | Периферия (Jetson) | Кастомные периферийные пайплайны на Jetson |
| Edge Impulse | Tiny ML / встраиваемое CV | Периферия (микроконтроллер + ускоритель) | Устройства на батарее / с низким энергопотреблением |
| Hailo (чип + SDK) | Кремний AI-ускорителей для периферии | Периферия | Высокий инференс / низкое энергопотребление, жёсткий реальный режим времени |
| Rekor (LPR / ANPR) | Распознавание автомобильных номеров | Облако + периферия | Взимание платы, автопарки, общественная безопасность |
| Chooch | Кастомные CV-модели + мониторинг | Облако + периферия | Промышленность / безопасность / обнаружение оружия |
Подводный камень закупок и NDAA: Hikvision и Dahua запрещены к использованию федеральными органами США по разделу 889 NDAA (2019) и исключены из многих государственных и корпоративных списков закупок. Даже если технически вы можете купить эти камеры, банки, здравоохранение, господрядчики и многие крупные предприятия отклонят такое внедрение. По умолчанию выбирайте бренды, соответствующие NDAA: Axis, Avigilon, Bosch, Hanwha, Verkada, i-PRO.
Облачные API компьютерного зрения — цены и точка перелома
Три серьёзных игрока плюс несколько специализированных. Цены за 1 000 изображений (апрель 2026, прайс-лист; действуют объёмные скидки):
| API | За 1 000 изображений | Сильные стороны |
|---|---|---|
| Google Cloud Vision | 112 ₽ | Лучший OCR, распознавание меток, интеграция с Vertex AI |
| AWS Rekognition | 75 ₽ (по уровням) | Custom Labels, видеоанализ, глубокая интеграция с AWS |
| Azure Computer Vision | 150 ₽ | Custom Vision, модель Florence, корпоративные инструменты |
| Clarifai | 90–225 ₽ | Кастомные процессы, мультимодальность, опция на собственных серверах |
Когда облако — правильный ответ
Проверка идеи, < 100 тыс. изображений/мес, типовые классы, нет жёстких требований к задержке, нет требования к собственным серверам. Самый дешёвый способ узнать, работает ли идея вообще.
Когда облако ломается
При ~100–200 тыс. изображений в месяц поценовая модель облака пересекается с выделенной периферийной или облачно-GPU инфраструктурой. При 1 млн+/мес облачные API в 2–5 раз дороже, чем собственный инференс. Добавьте ограничения по задержке (оповещения в реальном времени < 200 мс), приватность/соответствие требованиям (HIPAA, собственные серверы) или проприетарные классы, которых нет в облачном каталоге, — и облако перестаёт быть ответом.
Периферийное AI-оборудование в 2026 году — что ставить в камеру (или рядом с ней)
Выбирайте оборудование после того, как определились с моделью, а не до. Выбор оборудования вытекает из бюджета на инференс (FPS × разрешение × размер модели), допустимого энергопотребления и физических условий развёртывания.
| Оборудование | Производительность | Мощность | Примерная цена | Лучше всего для |
|---|---|---|---|---|
| Google Coral (Edge TPU) | 4 TOPS | 2 Вт | 4 500–12 000 ₽ | Лёгкие задачи, один поток |
| NVIDIA Jetson Orin Nano | 40 TOPS | 7–15 Вт | 18 600–37 400 ₽ | YOLOv8-medium @ 30 FPS, несколько камер |
| Hailo-8 | 26 TOPS | 2,5 Вт | 15 000–22 500 ₽ | Ограниченное энергопотребление, жёсткий реальный режим времени |
| NVIDIA Jetson Orin NX | 100 TOPS | 10–25 Вт | 52 400–67 400 ₽ | Несколько потоков, крупные модели |
| NVIDIA Jetson AGX Orin | 275 TOPS | 15–60 Вт | 149 900 ₽ | Тяжёлая периферия, автономный мобильный транспорт, робототехника |
| Hailo-15 (vision SoC) | 20 TOPS | 5 Вт | Встроенный | Интеллект внутри камеры |
| Чипы Axis ARTPEC | Переменная | Низкая | Внутри камеры | Предустановленная аналитика, приложения ACAP |
Архитектуры моделей — что 2026 год действительно выводит в продакшен
Передовой уровень для детекции объектов в 2026 году, с компромиссами, на которые идёт каждый вариант:
YOLOv8 / v9 / v10 / v11 (Ultralytics)
Вариант по умолчанию. Сильный баланс точности и задержки. Несколько размеров (n, s, m, l, x) под разные бюджеты оборудования. Выбирайте его для 80%+ сценариев детекции объектов. mAP 50–55 на COCO при разумном обучении; 85–95% на сфокусированных кастомных классах.
RT-DETR (Real-Time DETR)
Точнее, чем YOLO, когда бюджет задержки это допускает. На базе трансформеров, без NMS. Выбирайте его, когда точность важнее последних 10 мс.
Detectron2 / MMDetection
Фреймворки исследовательского уровня с сотнями конфигураций детекторов. Выбирайте их для необычных режимов обучения или архитектур моделей, которых нет в YOLO.
Grounding DINO + SAM2
Детекция с открытым словарём (по текстовым промптам) + zero-shot сегментация. Эта связка сокращает трудозатраты на разметку на 40–70% за счёт предварительной разметки новых классов. Выбирайте её для пайплайна разметки данных, а не для продакшен-инференса (слишком тяжело для большинства периферийных внедрений).
YOLO-World
YOLO с открытым словарём — детекция классов по текстовому промпту, без обучения. Выбирайте её для раннего прототипирования и помощи в разметке данных, а не для постоянной работы в продакшене.
Оптимизация инференса
ONNX как формат переносимости. TensorRT для периферии NVIDIA (ускорение в 2–5 раз). OpenVINO для Intel. Квантизация (FP16, INT8) сокращает размер модели и задержку в 2–4 раза при небольшой потере точности. Планируйте это с первого дня — а не как запоздалую мысль, когда промахнётесь мимо целей по задержке.
Пайплайн данных и хребет MLOps, который нужен продакшену
Самый сильный предиктор того, выживет ли кастомная CV-система в продакшене: построила ли команда пайплайн данных до того, как вывела модель?
Разметка
Инструменты: CVAT (open-source, на своих серверах), Labelbox (управляемый, корпоративный), Roboflow (удобный для разработчиков), Encord (цикл активного обучения). Трудозатраты: закладывайте 30–60 секунд на одну рамку на изображении. Для промышленной точности на одном сфокусированном классе: 2 000–5 000 качественно размеченных изображений на класс; более сложным случаям нужно 10 тыс.+.
Версионирование и отслеживание экспериментов
Данные: DVC, Pachyderm или LakeFS. Модели и эксперименты: MLflow, Weights & Biases, Neptune. Без них вы не сможете воспроизвести собственные результаты спустя полгода.
Инфраструктура обучения
Vertex AI (Google), SageMaker (AWS), Azure ML — управляемые варианты. Для контроля и экономии: spot-GPU на кластере Kubernetes или небольшой собственный GPU-стенд для чувствительных данных. Большинство продакшен-обучений умещается на 1–4 GPU A100 / H100.
Мониторинг дрейфа и переобучение
Точность в продакшене деградирует. Сдвиг распределения (новое освещение, новые SKU, новые ракурсы камер, сезонность) — тихий убийца. Ежемесячный обзор дрейфа — разумное значение по умолчанию; переобучение по триггеру запускается, когда отслеживаемые распределения оценок уверенности выходят за пороги. В установившемся режиме планируйте каденцию переобучения от ежемесячной до ежеквартальной.
Развёртывание на периферии
OTA-обновления моделей (NVIDIA Fleet Command, AWS IoT Greengrass, Azure IoT Edge), поэтапные выкатки (10% → 50% → 100%), автоматический откат при регрессии точности, подписанные артефакты моделей.
Что чаще всего пропускают команды: реестр моделей, подписанные артефакты, политику отката и замкнутый цикл обратной связи от продакшена обратно к обучающим данным. Это не приятные мелочи — это разница между работающей системой и деградирующей.
Во сколько кастомная система распознавания объектов реально обходится в 2026 году
Консервативные бюджеты, три типичных сценария. Оценки предполагают ускорение за счёт Agent Engineering и не включают текущие закупки облака / камер (рассмотрены отдельно).
Сценарий A — сфокусированный MVP, один сценарий, одна площадка
| Статья | Диапазон |
|---|---|
| Discovery + формулирование сценария (1–2 недели) | 375 000–750 000 ₽ |
| Сбор и разметка данных (3–5 тыс. изображений, 1–3 класса) | 600 тыс.–1,8 млн ₽ |
| Выбор модели, обучение, оптимизация | 1,1–2,2 млн ₽ |
| Пайплайн инференса (приём с камер, периферия или облако, оповещения) | 1,1–2,6 млн ₽ |
| Дашборд / API / интеграция | 750 тыс.–1,8 млн ₽ |
| Пилот на площадке + тюнинг + передача | 525 тыс.–1,1 млн ₽ |
| Итого MVP (8–14 недель) | 4,5–10,5 млн ₽ |
Сценарий B — промышленная система, несколько площадок, MLOps
Добавляет: реестр моделей + мониторинг дрейфа, OTA-развёртывание на периферии, мультитенантный приём данных, защищённые HTTPS API, дашборды с ролевым доступом, мониторинг + оповещения. 13,5–33,7 млн ₽, 4–7 месяцев. Годовая стоимость эксплуатации (облако, мониторинг, переобучение): обычно 2,2–9 млн ₽ в зависимости от масштаба.
Сценарий C — промышленная система с регулируемым / FDA-треком
Добавляет: design controls, валидацию ПО по IEC 62304 или эквиваленту, план кибербезопасности, SBOM, формальную интеграцию с QMS, расширенную клиническую или промышленную валидацию. 37,5–112 млн ₽+, 12–24 месяца, плюс стоимость регуляторного консалтинга. Требуется только если ваш CV-продукт сам классифицируется как медицинское изделие, компонент автомобильной безопасности или аналогичный регулируемый артефакт.
Где Agent Engineering сжимает стоимость
Рутинный интеграционный код, каркас пайплайна инференса, обвязка дашбордов, генерация тестового стенда, скрипты развёртывания на периферии — поставка с помощью AI сокращает типичную почасовую нагрузку на этих слоях на 25–40%. Экономия берётся не из бюджета на качество модели — она финансирует работу над пайплайном данных и MLOps, которую обычно недооценивают при первых CV-сборках.
Хотите конкретную оценку под ваш сценарий?
Пришлите сценарий (отрасль, целевой класс, ожидаемую точность, количество камер, профиль площадки развёртывания). Мы вернёмся с одностраничным скоупом — подход к модели + оборудованию + интеграции и обоснованным диапазоном стоимости.
Приватность, биометрия и соответствие требованиям закупок, которые нельзя пропустить
CV-внедрения чаще проваливаются на юридической проверке, чем технически. Главные пункты в 2026 году:
GDPR и биометрические данные
Распознавание лиц и другие биометрические идентификаторы — особая категория данных по статье 9 GDPR. Правовое основание узкое (явное согласие или существенный общественный интерес). Требуется DPIA. Минимизация данных, ограничения хранения, права субъекта на доступ — обязательны.
BIPA (закон Иллинойса о приватности биометрической информации)
Строгие правила согласия и хранения для биометрических данных жителей Иллинойса. 75 000 ₽ за нарушение по неосторожности, 375 000 ₽ за умышленное — коллективные иски урегулировались на суммы в сотни миллионов долларов. Если вы используете камеры там, где среди ваших клиентов могут быть жители Иллинойса, это риск уровня совета директоров.
CCPA / CPRA (Калифорния)
Биометрические данные — чувствительная персональная информация. Права потребителей знать, удалять, отказываться. Требования ограничения цели обработки.
Раздел 889 NDAA
Запрещает федеральное использование в США (и нередко на уровне штатов и генподрядчиков) продуктов Hikvision, Dahua, Hytera, Huawei, ZTE. По умолчанию — камеры, соответствующие NDAA (Axis, Avigilon, Hanwha, Bosch, Verkada, i-PRO).
Локальные запреты на распознавание лиц
Сан-Франциско, Окленд, Портленд, Бостон, Беркли, Сомервилл, плюс запреты на уровне штатов (Массачусетс, Мэн — для госучреждений). Многие внедрения в частном секторе ограничены городскими постановлениями.
EU AI Act
Системы биометрической идентификации классифицируются как высокорисковые. Требуют оценки соответствия, управления рисками, управления данными, надзора человека, прозрачности. Биометрическая идентификация в реальном времени в общественных местах в основном запрещена для правоохранительных органов (с узкими исключениями).
Практичная позиция по соответствию: по умолчанию — никакого распознавания лиц, пока у вас нет однозначного правового основания. По умолчанию — камеры, соответствующие NDAA. По умолчанию — минимизация данных (не храните изображения дольше необходимого). Проводите проверку приватности до развёртывания, а не после. Документируйте всё.
Двенадцать ловушек, которые губят внедрения распознавания объектов
1. Вариативность освещения. Модели, обученные на дневных снимках, теряют 20–40% точности ночью, при смешанном освещении или под промышленными натриевыми лампами. Решение: обучайте на полном диапазоне освещения или используйте ИК / мультиспектральные камеры.
2. Смаз от движения. 30 FPS при 1080p подходит для медленных объектов; быстрым нужно 60 FPS+ и более короткая выдержка. Выбор камеры важен не меньше выбора модели.
3. Перекрытие объектов. В реальных сценах коробки стоят перед людьми, машины — перед номерами, оборудование — перед рабочими. Обучайте на примерах с перекрытием или принимайте сниженную точность в перекрытых зонах.
4. Дрейф распределения. Данные в продакшене дрейфуют. Новые SKU, новая униформа, новые модели транспорта, новое оборудование, новые ракурсы камер. Без мониторинга точность тихо деградирует. Планируйте ежемесячный обзор дрейфа.
5. Дисбаланс классов. Если в 99% кадров нет интересующего события, модель учится говорить «ничего». Боритесь с этим через focal loss, oversampling или генеративную аугментацию.
6. Рассинхрон жизненных циклов камер. Камеры служат 5–7 лет; AI-ускорители обновляются на поколение каждые 2–3 года. Планируйте циклы обновления раздельно.
7. Небрежность с интеграцией ONVIF + RTSP. «Совместимость с ONVIF» сильно различается. Тестируйте каждую модель камеры с вашей VMS / пайплайном приёма до закупки — совместимость на бумаге ≠ работающая интеграция.
8. Недостаточная разметка. Команды выходят с 500 изображениями на класс и удивляются, почему точность в продакшене 60%. Планируйте минимум 2–5 тыс.; сложным классам нужно 10 тыс.+.
9. Допущения о задержке. «Реальное время» означает разные вещи. До 100 мс (оповещения о скорости транспорта), до 500 мс (безопасность рабочих), до 2 с (управление очередями) — каждое подразумевает свою архитектуру.
10. Усталость от ложных срабатываний. 5% ложных срабатываний на 1 млн событий = 50 тыс. ложных оповещений. Операторы перестают реагировать. Калибруйте пороги под реальный приемлемый объём оповещений, а не под демо.
11. Отсутствие версионирования моделей. Через полгода никто не может воспроизвести, почему продакшен ведёт себя именно так. Используйте MLflow / W&B / DVC с первой недели.
12. Упущения в приватности. Лица, автомобильные номера, бейджи сотрудников попадают в кадр попутно. Маскирование данных, окна хранения, информирующие плакаты, таблички — всё это имеет значение. Приватность по дизайну дешевле, чем приватность задним числом.
Фреймворк принятия решения из 6 вопросов для проектов распознавания объектов
В1. Класс распознавания типовой или отраслевой? Типовой (лица, машины, люди, типовая безопасность): облачный API или платформа. Отраслевой (ваша таксономия дефектов, состояния скота, кастомные активы): сборка на заказ.
В2. Сколько у вас камер и какой объём изображений? < 50 камер / 100 тыс. изображений в месяц: облако или платформа. 50–500: вертикальный SaaS или решение на заказ. 500+: решение на заказ + инференс на периферии.
В3. Какой у вас бюджет задержки? > 2 секунд: облако подойдёт. 200 мс–2 с: облако с региональной точкой доступа. < 200 мс: требуется инференс на периферии.
В4. Каковы ваши требования к размещению данных и приватности? Публичное облако допустимо: облако или платформа. Только собственные серверы: решение на заказ + периферия или self-hosted. HIPAA / регулируемое: решение на заказ + облако с подписанным BAA или собственные серверы.
В5. Нужна ли интеграция с проприетарными системами (MES, SCADA, WMS, EHR)? Нет: подойдёт платформа. Да: решение на заказ или вертикальный SaaS с глубокой интеграцией.
В6. Какова зрелость вашей команды в ML / MLOps? Сильная внутренняя ML-команда: стройте на облачных GPU + open-source стеке. Нет своего ML: вертикальный SaaS или решение на заказ от агентства с управляемым MLOps.
Реалистичный план 90-дневного пилота распознавания объектов
Как выглядит хороший результат в каждом 30-дневном окне:
Дни 1–30: ограниченный PoC на облачном API или предобученной модели
Выберите единственный самый ценный сценарий. Соберите 500–1 000 репрезентативных изображений. Прогоните их через облачный API или предобученную модель. Замерьте базовую точность. Решите: способен ли этот подход правдоподобно достичь вашей целевой точности или нужно кастомное обучение?
Дни 31–60: пилотное развёртывание с кастомным обучением (если нужно)
Разметьте 2–5 тыс. изображений. Обучите YOLOv8/RT-DETR на ваших классах. Разверните на одной площадке / одной камере / одной точке инференса. Запустите теневой режим на 2 недели (ваша модель работает параллельно существующему процессу; выводы сравниваются, но по ним не действуют).
Дни 61–90: пилот в боевом режиме + решение о масштабировании
Перейдите из теневого режима к живым оповещениям. Откалибруйте пороги ложных срабатываний по обратной связи операторов. Проведите 90-дневную ретроспективу с твёрдыми данными: точность, объём оповещений, реакция операторов, бизнес-результат. Решите: масштабировать, перенаправить или закрыть.
Планируете 90-дневный CV-пилот?
Мы пришлём чек-лист планирования пилота (скрипт сбора данных, шаблон руководства по разметке, базовый тестовый стенд, KPI-лист для теневого режима) и при необходимости разберём его на 20-минутном звонке.
Выбор камеры — характеристики, которые действительно важны для распознавания
Точность распознавания ограничена качеством камеры. Чек-лист характеристик:
- Разрешение. 1080p подходит для общей детекции. 4K помогает с мелкими объектами, удалёнными субъектами, ANPR на расстоянии, тонкими дефектами в контроле качества.
- Частота кадров. 15 FPS для медленных сцен, 30 FPS для общей детекции, 60 FPS+ для быстрого движения (транспорт, спорт, конвейеры).
- Размер сенсора и работа при слабом освещении. Более крупные сенсоры + низкое число диафрагмы (1,4–2,0) для слабого освещения. ИК-подсветка или starlight-сенсоры для ночи.
- Объектив / угол обзора / фокусное расстояние. Широкий угол обзора для охвата площади; длинное фокусное расстояние для удалённых субъектов (LPR, периметр). Избегайте «рыбьего глаза» для распознавания (искажения вредят точности модели).
- Кодек. H.264 / H.265 широко поддерживаются. Нативный MJPEG для покадровых процессов аналитики.
- ONVIF + RTSP. Тестируйте, не доверяйте спецификации. Некоторые камеры поддерживают только ONVIF Profile S (живое видео), но не Profile T (расширенный) или Profile G (запись).
- Соответствие NDAA. Подтверждено отсутствие в списке раздела 889. По умолчанию Axis, Hanwha, Avigilon, Bosch, Verkada, i-PRO.
- Питание. PoE+ (30 Вт) для более мощных камер с бортовой аналитикой. Некоторым периферийным AI-камерам нужно 60 Вт (PoE++).
- Класс защиты от внешней среды. IP66/67 для улицы, IK10 для защиты от вандализма, диапазон рабочих температур под условия площадки.
VMS, NVR и интеграция пайплайна — чтобы распознавание появлялось там, куда реально смотрят операторы
Самый частый сбой при внедрении: модель работает, но оповещения не доходят до экрана оператора безопасности, планшета начальника смены или системы реагирования на инциденты. Три слоя интеграции, которые обязаны работать:
Камера → приём данных
RTSP для живого видео, ONVIF для управления, HTTP/HTTPS для API снимков. Тестируйте каждую модель камеры с вашим слоем приёма; «совместимость с ONVIF» у вендоров различается в реализации.
Инференс → оповещения / события
Вебхуки, MQTT, Kafka, gRPC-потоки к нижестоящей системе. Закладывайте повторную доставку, дедупликацию и ограничение частоты.
События → рабочий процесс оператора
Интеграция с VMS (Genetec, Milestone, Avigilon, Verkada), SOC-платформами, тикет-системами (ServiceNow, Jira), MES / WMS / ERP. Наше руководство по разработке VMS на заказ подробно разбирает паттерны интеграции.
Что действительно меняется в распознавании объектов в 2026 году
Детекция с открытым словарём стала реальностью. Grounding DINO, YOLO-World и SAM2 позволяют командам прототипировать новые классы по текстовому промпту до того, как браться за разметку тысяч изображений. Промышленная точность всё ещё выигрывает от обучения с учителем, но цикл прототипирования стал в 5–10 раз быстрее.
Базовые модели сокращают стоимость разметки на 40–70%. Предразметка базовой моделью с последующей корректировкой человеком вместо разметки с нуля. Самое сильное сжатие стоимости в CV-пайплайнах в этом году.
Инференс внутри камеры — вариант по умолчанию. Hailo-15 в камерах, чипы Axis ARTPEC с аналитикой на устройстве, Sony IMX500 со встроенным инференсом. Тренд очевиден: работу делает камера, а не облако.
Мультимодальные модели выходят в продакшен. Визуально-языковые модели, отвечающие на произвольные вопросы о сцене («держит ли кто-нибудь оружие?», «заклинило ли этот конвейер?»), уже реальны, но дороги на периферии. Используются для ретроспективного поиска, сортировки оповещений и высокоценных случаев.
CV с сохранением приватности. Инференс на устройстве + немедленное удаление кадра, федеративное обучение на периферийных снимках, дифференциальная приватность для отчётных метрик. Становится требованием закупок.
Ужесточение регулирования. Начинается правоприменение EU AI Act, всё больше штатов США принимают законы о биометрической приватности, всё больше муниципалитетов запрещают распознавание лиц. Закладывайте более жёсткие закупки, более узкие правовые основания и обязательные оценки воздействия.
Когда НЕ стоит строить кастомную систему распознавания объектов
Три честных случая:
Ваш сценарий типовой, и существующая платформа его покрывает. Не стройте подсчёт людей, базовое обнаружение проникновения или LPR с нуля. Купите у Verkada, Genetec или Rekor. Решение на заказ — только когда типовое не справляется.
У вас нет данных, и собрать их вы не можете. Нет данных — нет модели. Если вы не можете собрать 2–5 тыс. репрезентативных изображений на класс в рамках бюджета проекта, решение на заказ нереализуемо. Используйте платформу с универсальными моделями и принимайте их точность.
Ваша команда не может поддерживать ML в продакшене. Кастомные модели дрейфуют. Без команды или партнёра, способного вести мониторинг и переобучение, система деградирует. Либо берите на себя MLOps, либо используйте управляемый вертикальный SaaS (Roboflow, Viso.ai, Landing AI, Chooch), где дрейфом занимается вендор.
FAQ
Сколько данных нужно, чтобы обучить кастомную модель распознавания объектов?
Для промышленной точности на сфокусированном классе с предобученным бэкбоном разумная цель — 2 000–5 000 качественно размеченных изображений на класс. Лёгкие классы (высокий контраст, хорошее освещение, один объект) достигают приемлемой точности на 1 000–2 000 изображений. Сложным классам (перекрытие, вариативность освещения, мелкая градация, редкие события) нужно 10 000+. Предразметка базовой моделью может сократить трудозатраты на разметку на 40–70%.
Когда использовать облачные API, а когда инференс на периферии?
Облачные API имеют смысл для: проверки идеи, типовых классов, < 100 тыс. изображений/мес, отсутствия жёстких требований к задержке, отсутствия требования к собственным серверам. Инференс на периферии имеет смысл, когда: нужна задержка до 200 мс, есть ограничения по приватности/размещению данных, вы работаете на масштабе, где доминируют облачные затраты, или нужна работа офлайн. Точка перелома — примерно 100–200 тыс. изображений в месяц, где выделенная инфраструктура инференса становится дешевле облака.
Какой точности реально ожидать?
Готовые модели на распространённых классах: 70–85% mAP на COCO. Обучение на ваших конкретных классах с 3–5 тыс. качественно размеченных изображений: реалистично 85–95% mAP. Сложные классы (перекрытие, мелкая градация) могут упираться в потолок 80–88%. Для критичных применений (медицина, автомобили, безопасность) закладывайте проверку с участием человека независимо от заявленной точности.
Как часто нужно переобучать модель?
В установившемся режиме часто встречается каденция переобучения от ежемесячной до ежеквартальной. Переобучение по триггеру запускается, когда отслеживаемые распределения оценок уверенности выходят за пороги. Крупные изменения (новые SKU, новая униформа, сезонные сдвиги, замена камер) — явные триггеры переобучения. Без мониторинга и переобучения точность в продакшене деградирует на 5–15% в год.
Можно ли развернуть распознавание лиц в 2026 году?
Юридически: целиком зависит от юрисдикции. Запрещено для многих сценариев в Сан-Франциско, Портленде, Бостоне, Массачусетсе и других местах. Жёстко ограничено EU AI Act. Требует явного согласия по GDPR + BIPA. Позиция по умолчанию в 2026 году: никакого распознавания лиц, пока у вас нет однозначного правового основания, проведённого DPIA и чёткого уведомления потребителей. Многие предприятия теперь отклоняют распознавание лиц как требование к вендору независимо от законности.
Как интегрировать распознавание объектов с моей существующей VMS / NVR?
Три слоя: приём с камер (RTSP, ONVIF, HTTP-снимки), вывод событий инференса (вебхуки, MQTT, Kafka, gRPC) и нижестоящая интеграция (наложение метаданных в VMS, маршрутизация оповещений, тикеты). Большинство VMS-платформ (Genetec, Milestone, Avigilon, Verkada, Eagle Eye) поддерживают приём событий от сторонних систем через документированные API. Протестируйте весь пайплайн до закупки — совместимость с ONVIF на бумаге ≠ работающая интеграция.
Какое периферийное оборудование выбрать?
По умолчанию: NVIDIA Jetson Orin Nano (~18 600 ₽, 40 TOPS) для большинства многопоточных сценариев. Ограниченное энергопотребление: Hailo-8 (~15 000 ₽, 26 TOPS, 2,5 Вт). Лёгкий один поток: Google Coral (~4 500 ₽, 4 TOPS). Тяжёлая многопоточность / крупные модели: Jetson Orin NX (~59 900 ₽, 100 TOPS) или AGX Orin (~149 900 ₽, 275 TOPS). Интеллект внутри камеры: камеры Axis ACAP или камеры с Hailo-15.
Какие скрытые расходы стоит заложить?
Разметка (часто недооценивается в 2–3 раза), инфраструктура данных (хранение + версионирование + пайплайн), инструменты MLOps (реестр, мониторинг, инфраструктура переобучения), управление парком периферийных устройств (OTA-обновления, мониторинг, замена), цикл замены камер (5–7 лет) и текущее обслуживание модели (мониторинг дрейфа + переобучение). Закладывайте 30–50% от стоимости сборки ежегодно на эксплуатацию и поддержку.
Сколько времени до продакшена?
PoC на облачном API: дни. Пилот с кастомным обучением и одной площадкой: 8–14 недель для MVP. Промышленное внедрение на несколько площадок: 4–7 месяцев. Регулируемый / FDA-трек: 12–24 месяца. Базовые модели и ускорение за счёт Agent Engineering сжимают эти сроки — сборки 2026 года обычно выходят на 30–40% быстрее эквивалентных сборок 2023 года.
Какой самый большой риск внедрения?
Дрейф распределения в продакшене. Модель, достигшая 95% точности в пилоте, будет дрейфовать месяцами по мере изменения освещения, SKU, оборудования и ракурсов камер. Без мониторинга дрейфа и планового переобучения точность тихо деградирует. Закладывайте это с первого дня или примите неизбежный провал внедрения.
Строить силами своей команды или нанять агентство?
Своя команда: лучше всего, когда у вас есть постоянная ML-инженерная мощность и система — это ключевая интеллектуальная собственность. Агентство: лучше для ограниченных по объёму сборок, когда скорость важнее владения, когда внутренняя команда мала или одна узкая специализация. Гибрид: агентство строит v1, передаёт внутренней команде для текущего MLOps. Неправильный ответ — начинать своими силами с одним ML-инженером, который уволится до того, как система стабилизируется.
Есть ли проблемы с NDAA или соответствием требованиям для камер, которые я хочу купить?
Да, часто. Hikvision, Dahua, Hytera, Huawei, ZTE запрещены к федеральному использованию в США по разделу 889 NDAA (2019), с распространением на многие закупки штатов и генподрядчиков. По умолчанию выбирайте бренды, соответствующие NDAA: Axis, Avigilon, Bosch, Hanwha, Verkada, i-PRO. Здравоохранение добавляет HIPAA, финансы — SOC 2, федеральный уровень — StateRAMP / FedRAMP. Проверяйте до закупки, а не после развёртывания.
Во сколько распознавание объектов обходится в долгосрочной перспективе?
Для кастомной промышленной системы: сборка 13,5–33,7 млн ₽, эксплуатация 2,2–9 млн ₽ в год (инфраструктура, мониторинг, переобучение), обновление периферийного оборудования каждые 3–5 лет. Совокупная стоимость владения за 5 лет обычно составляет 30–75 млн ₽ для корпоративной системы на нескольких площадках. Готовые платформы: подписка обычно 1,8–15 млн ₽ в год на крупную площадку. На базе облачных API: масштабируется с объёмом изображений.
Как тестировать вендоров?
Дайте им одни и те же 500–1 000 репрезентативных изображений из вашей среды. Оценивайте по точности (mAP, F1), задержке (p50, p95, p99), доле ложных срабатываний на вашем рабочем пороге, глубине интеграции, совокупной стоимости владения за 3 года и позиции по соответствию требованиям (NDAA, SOC 2, HIPAA где актуально). Вендоры, которые не готовы запустить тест на ваших данных, — не финалисты.
Как будет выглядеть распознавание объектов в 2027 году?
Мультимодальные визуально-языковые модели в ретроспективном поиске и сортировке оповещений. Инференс внутри камеры — стандарт, а не опция. Детекция с открытым словарём — мейнстрим для прототипирования. Предразметка базовыми моделями, сокращающая стоимость разметки на 60–80%. Более жёсткий регуляторный охват (правоприменение EU AI Act, новые биометрические законы в США). Сближение CV и робототехники в промышленной автоматизации. Продолжающееся падение стоимости периферийных AI-ускорителей.
Что почитать дальше
Хребет VMS
Разработка VMS на заказ: полное руководство
Слой системы видеоменеджмента, к которому подключаются пайплайны распознавания объектов, — паттерны интеграции, модели развёртывания и выбор «купить или построить».
Периферийная архитектура
Периферийные вычисления в стриминге
Модель задержки, которая определяет, где запускать инференс, — облако против региональных узлов против периферии, с моделями стоимости и триггерами для решения.
AI-видеоаналитика
AI-видеоаналитика для онлайн-обучения
Вертикальный пример того, как распознавание объектов и поведения подключается к платформе под конкретную предметную область, — проектирование аналитики, интеграция и метрики результата.
Смежная отрасль
ПО для многоквартирного домофона
Смежная вертикаль (доступ в умном здании + видео), где камеры с распознаванием объектов всё чаще определяют пользовательский опыт.
Портфолио
TradeCaster — видеоинфраструктура в реальном времени
Как Фора Софт построила видео реального времени финансового уровня на масштабе — инженерный паттерн за низколатентными пайплайнами аналитики.
Готовы поставить камеры с распознаванием объектов на службу вашему бизнесу?
Распознавание объектов перешло из исследовательского демо в строку закупочного бюджета. Периферийные чипы реальны. Модели точны и компактны. Инструменты разметки повзрослели. Вопрос 2026 года не «работает ли это?» — а «облачный API, готовая платформа, вертикальный SaaS или сборка на заказ, и как нам выйти в продакшен за квартал?».
Мы создаём ПО для видео в реальном времени, AI и компьютерного зрения с 2005 года. Если вы прорабатываете пилот, оцениваете вендоров или прикидываете масштаб сборки на заказ — мы поможем честно продумать это решение.
Прорабатываете внедрение распознавания объектов или сборку на заказ?
Расскажите нам о сценарии, ожидаемом количестве камер, целевой точности и профиле площадки развёртывания. 30 минут с нами — и вы получите конкретную рекомендацию, таймлайн внедрения и обоснованный выбор «купить или построить» — без цикла продаж.
