
Главное
• Облачные VMS — крупнейшая продакшен-нагрузка для компьютерного зрения в 2026 году. Видеонаблюдение, аналитика для ретейла, мониторинг строек и поиск аномалий формируют большую часть корпоративных запросов на найм CV-инженеров.
• Нанимайте CV-разработчика, когда точность, задержка или edge-деплой ощутимо влияют на юнит-экономику. Если выбор модели компьютерного зрения сдвигает сроки выхода на рынок или меняет retention, вам нужен профильный специалист, а не дженералист по ML.
• Шесть сигналов, что вы готовы: 50 000+ размеченных кадров, SLA по задержке менее 100 мс, регулируемая отрасль (GDPR/BIPA/HIPAA), эффект от CV свыше 75 млн ₽/год, развёртывание на специализированном железе или зоопарк моделей из более чем трёх фреймворков. Ниже этих порогов часто хватит YOLO v11 и сильного платформенного инженера.
• Профильные студии (Фора Софт, Scale, Robotics Anywhere) сжимают 6–12 месяцев найма и онбординга в спринты 4–8 недель. Вы избавляетесь от расходов на штат и времени на разгон, но платите проектную ставку с множителем к часовой.
• 80% инженерного времени уходит на работу с данными и разметкой, а не на архитектуру модели. CV-разработчик, который не управляет вашим пайплайном CVAT/Label Studio/Prodigy и версионированием датасетов, выкатит красиво спроектированную модель, которая не обобщается.
Почему Фора Софт написала этот плейбук
Мы создаём системы видеоаналитики уже больше 15 лет. Стартовали с VALT — нашей флагманской платформы для видеонаблюдения и поиска аномалий, а затем масштабировали её на стройплощадки, сети ретейла, транспортные узлы и проекты умных городов. За эти годы рынок изменился радикально. Пять лет назад собрать продакшен-команду по компьютерному зрению означало нанять собственных PhD. Сегодня выбор сложнее: один сильный senior с командой дженералистов, профильная студия на фиксированный спринт или гибридная модель с удалённой командой, которая закрывает разметку и логистику edge-деплоя.
Мы выкатывали VALT для видеонаблюдения, мониторинг стройплощадок, видеоаналитику для ретейла и модели поиска аномалий для систем наблюдения в десятках клиентских вертикалей. На каждом первом созвоне всплывает один и тот же вопрос: взять CV-инженера в штат, уйти в офшор, привлечь студию или ещё подольше посидеть на open-source-моделях?
Эта статья — тот ответ, который нам самим был нужен десять лет назад. Здесь шесть сигналов о том, что пора, архитектурные паттерны на любом масштабе, профили специалистов, актуальные в 2026 году, реальная экономика проекта и подводные камни, которые убивают 40% инициатив по компьютерному зрению ещё до выхода в продакшен. Если времени мало, переходите сразу к фреймворку из четырёх созвонов.
Сомневаетесь, нужен ли вам CV-разработчик в команде?
Расскажите про архитектуру, бэклог разметки и ограничения по задержке. Мы оценим, нужен ли вам штатный специалист или хватит сфокусированного спринта.
Ответ в одном абзаце: когда нанимать разработчика компьютерного зрения
Нанимайте разработчика компьютерного зрения, когда решения о точности, задержке или edge-деплое ощутимо влияют на выручку, удержание клиентов или сроки выхода на рынок. Порог обычно такой: больше 50 000 размеченных кадров в вашем домене, SLA на инференс менее 100 мс, регулируемая вертикаль (GDPR, BIPA, HIPAA, CCPA), оценка эффекта от улучшений модели свыше 75 млн ₽/год, развёртывание на специализированном железе (Nvidia Jetson, кастомные SoC, edge TPU) или сравнение более трёх CV-фреймворков для продакшена. Ниже этих сигналов сильный платформенный инженер плюс YOLO v11 обычно выкатывает быстрее и дешевле. Выше — вы платите налог на специалиста, но получаете скорость, снижение комплаенс-рисков и архитектурные решения, которые выдерживают столкновение с реальными данными.
Обратная сторона: если ваш модельный пайплайн на 80% состоит из разметки и версионирования датасетов и только на 20% из архитектуры, CV-PhD вам не нужен. Нужен человек, который масштабирует ваш пайплайн на CVAT/Prodigy и научит команду разметчиков понимать, что такое «хороший кадр» в вашем домене.
Почему облачные VMS — крупнейшее применение продакшен-CV в 2026 году
Видеонаблюдение и облачные системы видеоменеджмента — это самое крупное единое применение продакшен-компьютерного зрения в 2026 году, опережающее автономный транспорт, медицинскую визуализацию и ретейл-аналитику покупателей. Причины простые: видео есть везде (ретейл, стройки, города, транспорт, здравоохранение), хранилище дешёвое, трафик дешёвый, а возврат от поиска аномалий, обнаружения вторжений и контроля занятости в реальном времени уже доказан на масштабе. Каждый крупный ретейлер, строительная компания, аэропорт и умный город либо тянет на себе легаси-систему на NVR, либо мигрирует на облачную VMS со встроенным AI.
Стек VMS+CV типично выглядит так: потоки с многих камер → облачный приём (RTMP/WebRTC) → видеохранилище (S3/GCS) → пайплайн инференса (YOLO/RT-DETR на Nvidia/TPU) → алерты и дашборды. CV-компоненты, которые двигают метрики: детекция объектов в реальном времени (люди, транспорт, вторжения), поиск аномалий (простаивающее оборудование, перекрытые выходы), повторная идентификация людей между камерами, распознавание активностей (праздношатание, драки, падения), распознавание номеров и лиц.
Сюда приходит 70% запросов на найм от наших клиентов. Не потому, что VMS — это гламурно, а потому что именно тут самые сильные экономика труда и регуляторное давление.
Шесть сигналов, что вам пора нанимать разработчика компьютерного зрения
1. У вас более 50 000 размеченных кадров в вашем домене. Это точка перегиба, после которой обучение собственной модели обгоняет продуктизацию предобученной. До 50 000 кадров вы в зоне transfer learning, где платформенный инженер с AutoML выкатит быстрее. Выше — нужен человек, который понимает аугментацию данных, дисбаланс классов и доменное дообучение.
2. У вас SLA на задержку менее 100 мс. Чтобы уложиться в инференс быстрее 100 мс end-to-end (от захвата кадра до решения), нужны экспертиза в квантовании, оптимизация ONNX runtime, TensorRT, edge-деплой и грамотная расстановка TURN/relay. Дженералист выкатит модель; CV-инженер выкатит модель, которая выдаёт 25 fps за 85 мс на Jetson Nano.
3. Вы работаете в регулируемой вертикали (GDPR, BIPA, HIPAA, CCPA, NY SHIELD). Биометрическое регулирование (BIPA в Иллинойсе, NY SHIELD, статья 4(14) GDPR) и регуляторика по медицинским данным требуют аккуратного аудита моделей, проверки на справедливость, политик хранения и сценариев согласия. CV-разработчик, который выкатывал в healthcare или финтехе, знает комплаенс-ловушки, мимо которых дженералист пройдёт.
4. Выбор по компьютерному зрению двигает выручку или удержание больше чем на 75 млн ₽/год. Если разница между точностью 85% и 92% сдвигает выход на рынок на квартал или меняет отток на 2 процентных пункта при выручке 750 млн ₽ годовой выручки — CV-специалист это не накладные расходы. Специалист и есть продукт.
5. Нужен деплой на специализированное железо (Jetson, кастомные SoC, Qualcomm Snapdragon, NVIDIA Orin Nano). Деплой на edge-железо — это другой навык, чем обучение облачной модели. Нужно понимать различия TensorRT и ONNX Runtime, стратегии квантования (INT8, mixed-precision) и тестировать на целевом железе.
6. Ваш модельный зоопарк больше трёх фреймворков (YOLO, SAM, CLIP, MediaPipe, RT-DETR, OpenCV). Если вы сшиваете детекцию объектов с семантической сегментацией, визуальным поиском и оценкой поз, нужен человек, который понимает компромиссы и умеет оптимизировать пайплайн. Сборка на одной модели спокойно живёт у платформенного инженера.
Что на самом деле делает CV-разработчик
Хороший CV-разработчик не просто крутит гиперпараметры. Он отвечает за весь пайплайн целиком:
- Выбор модели и архитектуры. YOLO v10/11 для общей детекции, RT-DETR для точной многомасштабной, SAM для сегментации, CLIP для семантического поиска, MediaPipe для оценки поз и рук. Понимание, когда и зачем менять модель.
- Разметка и версионирование датасетов. Сборка пайплайнов на CVAT/Prodigy, написание гайдлайнов для разметчиков, отлов системных искажений (например, лица одной этнической группы получают более низкую уверенность модели), версионирование датасетов вместе с кодом.
- Аугментация и балансировка данных. Mixup, Mosaic, случайные кропы, сэмплирование по весам классов, работа с дисбалансом, когда позитивный класс — это 2% кадров.
- Квантование и компиляция модели. TensorRT для NVIDIA, ONNX Runtime, MediaPipe Lite для мобильных. Превращение FP32-модели на 500 МБ в INT8-модель на 50 МБ без просадки точности.
- Edge-деплой и оптимизация. Профилирование на целевом железе (Jetson Orin, Google Coral, мобильные SoC), батчинг кадров, работа с ограничениями памяти, обработка тротлинга по температуре.
- Калибровка камер и слияние видов. Для мультикамерных систем (VMS, ретейл, стройки) — калибровка intrinsics, работа с разными разрешениями, слияние детекций между видами без двойного учёта.
- Интеграция с NVR/SFU и стримингом. Подключение к вашей системе видеоменеджмента, обработка приёма по RTMP/WebRTC, оркестрация записи и инференса в реальном времени.
- Контроль качества и тестирование. A/B-тесты новых моделей против продакшен-baseline, отслеживание уровней ложноположительных и ложноотрицательных по сценам, мониторинг инференса и алерты по drift модели.
- Комплаенс-аудит. Проверки на справедливость по GDPR/BIPA, выявление искажений по защищённым атрибутам, интеграция сценариев согласия, пайплайны хранения и удаления данных.
- Документирование и передача знаний.
Берите CV-разработчика, когда: вам нужен человек, который может вести весь пайплайн — от стратегии разметки до мониторинга инференса в продакшене, а не тот, кто обучит модель и передаст её дальше.
Сравнение: in-house, офшор и профильная студия
Так мы оцениваем решение о найме на собственных проектах и для клиентов:
| Вариант | Срок до MVP | Стоимость в год | Удержание знаний | Кому подходит |
|---|---|---|---|---|
| Senior CV-инженер в штат (in-house) | 6–12 месяцев | 13–21 млн ₽ + 30% бенефиты | 100% (ваше навсегда) | Высоконагруженные продакшен-VMS, длинная дистанция |
| Профильная студия (Фора Софт, Scale и другие) | 6–10 недель (фикс-спринт) | 6–15 млн ₽ за спринт (фикс) | 40–60% (документировано, дальше владеет ваша команда) | Запуск MVP, проектирование архитектуры, комплаенс-аудит |
| Офшорная команда (Индия, Вьетнам, Филиппины) | 4–8 месяцев (с разгоном) | 3–7,5 млн ₽/год | 70% (хорошо при наличии документации) | Разметка, data ops, контроль качества разметки на junior-уровне |
| Гибрид (1 senior in-house + офшорная команда) | 4–6 месяцев | 17–26 млн ₽/год (senior + команда) | 85% (senior владеет архитектурой) | Долгосрочное масштабирование, мультидоменные модели |
| Платформенный инженер + предобученные модели (YOLO/SAM) | 2–4 месяца | 11–16 млн ₽ (1 инженер) | 95% (всё ваше) | Простые детекторы, без кастомного домена, мягкие требования по задержке |
Профиль senior CV-инженера: версия 2026 года
Когда мы нанимаем или партнёрим с senior CV-инженерами, мы ищем такой набор навыков:
Базовое компьютерное зрение (без обсуждений). Сильное понимание свёрток, механизмов внимания, многомасштабной детекции, instance- и semantic-сегментации. Может объяснить, почему RT-DETR обыгрывает YOLO на маленьких объектах, не подсматривая в статью. Выкатил в продакшен хотя бы одну кастомную модель.
Системное мышление в продакшене. Понимает оптимизацию инференса, батчинг, управление памятью, тепловые профили целевого железа. Дебажил, почему модель, которая работает в Jupyter, падает на Jetson. Видит разницу между задержкой обучения и задержкой инференса.
Инженерия датасетов. Может построить пайплайн разметки в CVAT или Prodigy. Понимает дисбаланс классов, стратегии сэмплирования, доменно-специфичные техники аугментации. Ловил системные искажения в обучающих данных (например, все сложные примеры — с одного ракурса камеры). Версионирует датасеты как код.
Свобода во фреймворках. Без паузы переключается между PyTorch, TensorFlow, ONNX, TensorRT, ONNX Runtime. Знает, когда компилировать в ONNX, а когда оставить в PyTorch. Оптимизировал модель под мобильные (меньше 50 МБ).
Опыт работы с видеосистемами. Понимает RTMP, WebRTC, частоты кадров, компромиссы кодеков, оркестрацию мультикамерных систем, архитектуру NVR/SFU. Выкатывал на реальном видео с камер видеонаблюдения, а не только на лабораторных датасетах.
Коммуникация и ответственность. Может объяснить выбор модели нетехническим стейкхолдерам. Ведёт проект от ТЗ до продакшен-мониторинга. Не уходит в исследовательскую кроличью нору, когда нужно выкатить MVP.
Senior CV-инженеры в 2026 году стоят в США 13–21 млн ₽/год + бенефиты (район залива Сан-Франциско начинается от 16 млн ₽). Их мало. Зато один senior может разблокировать команду из 4–6 платформенных и data-инженеров на 12+ месяцев.
Junior- и middle-CV-инженеры: где они полезны и где нет
Junior CV-инженеры (0–2 года). Сильны в подборе гиперпараметров на размеченных датасетах, реализации статей в виде прототипов, написании чистых обучающих циклов на PyTorch. Слабы в стратегии работы с данными, продакшен-оптимизации, решениях в условиях неопределённости. Подходящая роль: работа под senior CV-инженером, не в одиночку. Стоимость: 6,7–10,5 млн ₽.
Middle CV-инженеры (2–5 лет). Сильны в выкатке моделей в продакшен, поиске узких мест в архитектуре, проектировании мультикамерных систем, доменной адаптации. Закрывают 80% проектов в одиночку. Слабы в новых исследованиях, очень крупных мультимодальных моделях, передовом комплаенсе (например, первый аудит по BIPA). Подходящая роль: ведут проект на одной модели, менторят junior-ов. Стоимость: 10,5–15 млн ₽.
Большинству команд, если CV-инженер вообще нужен, стоит начинать с middle. Junior-ы дороги в менторинге и почти не дают экономии времени. Senior-ы — узкое место рынка, и они вам, скорее всего, не нужны до тех пор, пока зоопарк моделей не превысит 3 фреймворка, а SLA на задержку — не упадёт ниже 50 мс.
Доменное компьютерное зрение: ретейл, стройки, умные города, здравоохранение, транспорт
Видеонаблюдение и ретейл. Самая большая категория. Модели: детекция пешеходов (YOLOv11), повторная идентификация людей, оценка поз (OpenPose, MediaPipe), распознавание активностей. Сложности: ночная съёмка, перекрытия, переменное освещение, 30+ камер. Нужен человек, уверенный в работе с малой освещённостью, NVR-пайплайнами и системами алертов.
Стройки и управление площадками. Модели: детекция оборудования, нарушений безопасности (отсутствие касок, жилетов, наличие техники), отслеживание активности. Сложности: уличное переменное освещение, погода, пыль, захламлённость. Нужны устойчивость в реальных условиях, edge-деплой на камеры на площадке, нестандартные ракурсы.
Умные города и транспорт. Модели: распознавание номеров, поток транспорта, плотность толпы, классификация транспортных средств. Сложности: масштаб (сотни камер), обработка в реальном времени, интеграция с муниципальными системами. Нужны опыт развёртывания на масштабе, MQTT/edge-протоколы, регуляторный опыт (GDPR в ЕС). В основе — поиск аномалий для систем наблюдения.
Здравоохранение и медицинская визуализация. Модели: сегментация органов и поражений, детекция хирургических инструментов, обнаружение падений пациентов. Сложности: регуляторика (одобрение FDA для части сценариев), приватность (HIPAA/GDPR), узкоспециализированные датасеты. Нужны опыт медицинской визуализации, понимание клинической валидации, навигация в регуляторике. Накладные расходы на комплаенс — в 3–4 раза выше, чем в других доменах.
Автономный транспорт и робототехника. Модели: 3D-детекция объектов, паноптическая сегментация, семантическое понимание сцены. Сложности: критичность для безопасности (на кону жизни), требование высокой точности (свыше 99,5% для критичных задач), дорогие вычисления. Нужны опыт автономных систем, сертификации по безопасности (ISO 26262), симуляционные среды. Этот уровень начинается от 18 млн ₽ для senior-инженеров.
Экономика: сколько на самом деле стоит CV-разработчик и когда побеждают гибридные команды
Пройдёмся по реалистичным цифрам 2026 года для среднего проекта VMS+CV (мультитенантный SaaS, 10 000 камер, детекция объектов и поиск аномалий в реальном времени):
Вариант 1: один senior CV-инженер плюс два платформенных. Senior: 16 млн ₽/год + 4,9 млн ₽ бенефитов = 21 млн ₽. Платформенные инженеры: 2 × 13 млн ₽ + бенефиты = 32 млн ₽. Итого: примерно 54 млн ₽/год. Срок до MVP: 5–6 месяцев. Вы владеете всей интеллектуальной собственностью и сопровождаете её сами. Накладные на разгон — 2–3 месяца.
Вариант 2: один middle CV-инженер (in-house) + один офшорный junior + Фора Софт на 6-недельный архитектурный спринт. Middle: 12 млн ₽ + бенефиты = 15 млн ₽. Офшорный junior: 3,3 млн ₽ + накладные = 4,5 млн ₽. Спринт со студией (6 недель, оценка): 9 млн ₽. Итого за первый год: примерно 29 млн ₽. Срок до MVP: 8–10 недель (работа студии накладывается на найм). Вы владеете 60% знаний, студия — 40%. Быстрее на рынок, ниже риски по штату.
Вариант 3: только профильная студия (Фора Софт или похожая). Три 6-недельных спринта за полгода (discovery, MVP, доводка): 11 + 11 + 7,5 млн ₽ = 30 млн ₽. Срок до MVP: 6 недель, доведено за 12. Вы владеете 50% IP. Низкая нагрузка по штату, высокая стоимость одного проекта. Идеально для запуска MVP или редизайна архитектуры.
При выручке 750 млн ₽ Вариант 1 съедает 7,2% выручки (стандартно для основной техкоманды). При 3,7 млрд ₽ — уже 1,4% (накладные). Решение зависит от запаса денег, сложности и того, нанимаете ли вы под устойчивый рост или под скорость запуска.
Хотите проверить свою финансовую модель на прочность?
Мы разберём вашу архитектуру, размер команды и комплаенс-требования и покажем, какой путь найма минимизирует риски.
Эталонная архитектура: облачная VMS и пайплайн компьютерного зрения
Вот продакшен-архитектура, которую мы используем почти на каждом проекте облачной VMS+CV:
| Слой | Технологический стек | Зона ответственности | Ключевое решение |
|---|---|---|---|
| Приём | RTMP / WebRTC (HLS как fallback) | Платформенный инженер | RTMP для надёжности, WebRTC для низкой задержки |
| Хранилище | S3/GCS (хранение сегментов, метаданные в PostgreSQL) | Платформенный инженер | S3 ради цены, GCS — если уже на GCP |
| Инференс в реальном времени | GPU Nvidia (A10, H100) + CUDA / TensorRT | CV-инженер | A10 до 200 тыс. кадров/день, H100 — свыше 1 млн |
| Сервинг моделей | Triton, vLLM или ONNX Runtime + FastAPI | CV-инженер + платформенный инженер | Triton для мультимодели, FastAPI для одной |
| Поток событий | Kafka / Redis Streams (алерты, детекции) | Платформенный инженер | Kafka для долговечности, Redis ради задержки |
| Аналитика и дашборды | PostgreSQL + Grafana / Superset | Платформенный инженер | Grafana для эксплуатации, Superset для бизнес-пользователей |
| Edge-деплой | Nvidia DeepStream / NVIDIA Jetson / TensorRT | CV-инженер | DeepStream для нескольких потоков, Jetson для одного |
| Комплаенс / PII | Размытие лиц (OpenCV), редактирование PII (regex + модель) | CV-инженер + инженер безопасности | Размытие на захвате или на воспроизведении (риск комплаенса) |
CV-инженер принимает решения по сервингу моделей, оптимизации инференса и edge-деплою. Платформенный инженер владеет приёмом, хранилищем и потоком событий. Продуктовая команда отвечает за правила алертов и пороги.
Модельный зоопарк 2026 года: что вы реально будете использовать в продакшене
YOLO v10/11. Дефолт для детекции объектов в реальном времени. v11 на инференсе в 2–3 раза быстрее v8 при той же точности. Подходит для людей, транспорта, вторжений, оборудования. Отлично квантуется в ONNX.
RT-DETR (Real-Time DETR). Лучше на маленьких объектах (лица, номера), чем YOLO. Инференс чуть медленнее, но точнее в сложных кейсах. Подходит для детекции мелких объектов и плотных сцен.
Segment Anything (SAM). Instance-сегментация без обучения по классам. Подходит для произвольной сегментации объектов и instance-задач. Дорогой инференс (не реал-тайм на edge), зато без дообучения.
CLIP (Contrastive Learning Image Pre-training). Zero-shot визуальный поиск и классификация. Подходит для семантического поиска по видео (найти все кадры с «человеком в красной рубашке»), мультиязычной разметки.
MediaPipe. Лёгкое распознавание поз, рук и лиц. Подходит для распознавания активностей, безопасности (падения, лазание), жестовых интерфейсов. Поставляется уже квантованной для мобильных.
OpenCV. Классическое компьютерное зрение (вычитание фона, оптический поток, детекция движения). Подходит для лёгкого препроцессинга, извлечения признаков, когда глубокое обучение — оверкилл.
TensorRT. Компилятор моделей для GPU NVIDIA. Квантует и сливает слои, режет задержку инференса в 2–4 раза. Подходит для всех продакшен-деплоев на железе Nvidia.
ONNX Runtime. Переносимый инференс на CPU, GPU, мобильных, edge. Подходит для мультиплатформенного деплоя, совместимости, развёртываний только на CPU.
NVIDIA DeepStream. Биндинги для многопоточной обработки видео на железе Nvidia. Подходит для edge-VMS с 4+ потоками камер, аналитики прямо на устройстве.
Как оценить партнёра по компьютерному зрению за четыре созвона
Созвон 1: глубокий разбор архитектуры (45 минут). Пройдитесь по текущему пайплайну приёма видео, хранилищу и инференсу. Спросите: (а) Какой слой сегодня ест задержку? (б) Что изменится, если задержку срезать вдвое? (в) В чём наибольший риск, если уйти в in-house? Хорошие партнёры спрашивают про комплаенс, железо и ёмкость команды. Красные флаги: продают свою proprietary-модель раньше, чем поняли вашу задачу, или предполагают, что вы перейдёте на их SaaS-платформу.
Созвон 2: эталонные архитектуры и кейсы (30 минут). Запросите 2–3 кейса в вашей вертикали (ретейл, стройки и т. д.). Спросите: с какой точностью стартовали и до какой пришли? Сколько заняла разметка? Что с комплаенсом? Хорошие партнёры держат написанные кейсы и могут поделиться выводами (с обезличиванием). Красные флаги: размытые кейсы, без цифр или из совершенно другого домена.
Созвон 3: оценка технических навыков (60 минут). Пусть ваш senior-инженер обсудит детали с их командой. Спросите: какой деплой был самым сложным? Как вы работаете с дисбалансом классов? Разберите кейс по оптимизации модели. Хорошие партнёры идут в технические детали. Красные флаги: у них нет доступного senior-инженера или все вопросы переадресуются «исследовательской команде».
Созвон 4: модель сотрудничества и передача знаний (30 минут). Уточните: что на выходе — код или только обученная модель? Будет ли документация на пайплайн? Кто отвечает за edge-деплой? Что происходит после окончания контракта? Хорошие партнёры чётко проговаривают границы scope, документацию и передачу. Красные флаги: размытые сроки, отказ фиксировать документацию или давление с продлением контракта.
Данные, разметка и проблема «80% работы»
Этот блок заслуживает отдельной секции, потому что убивает больше CV-проектов, чем плохая архитектура моделей. Правда такая: построить детектор объектов мирового уровня — это 20% усилий. Получить чистые, сбалансированные, репрезентативные размеченные данные домена — остальные 80%.
Сложность разметки. Для продакшен-детектора нужно 50–200 тыс. размеченных кадров. По 2 минуты на кадр (bounding box + класс) — это 1700–6700 часов работы. По 375 ₽/час (краудсорсинг) — это 637 тыс.–2,5 млн ₽. По 1 125 ₽/час (внутренний контрактор в США) — 1,9–7,5 млн ₽. Большинство команд недооценивает в 3–4 раза. Хорошие CV-разработчики, которых вы наймёте, знают это сразу и помогут спланировать.
Правильный подход. Используйте платформу разметки (CVAT, Prodigy, Label Studio, Humanloop). Стартуйте с маленького ручного посевного датасета (2 000–5 000 кадров), который хорошо отражает домен. Обучите на нём модель. Дальше через active learning находите кадры, в которых модель меньше всего уверена, и размечайте их. Это режет стоимость разметки примерно вдвое — потому что вы размечаете те 50% кадров, которые реально важны.
CV-разработчики, которых вы нанимаете, должны иметь чёткую позицию по стратегии разметки. Если они говорят: «Кадры размечаете вы, я обучаю модель» — это тревожный сигнал.
Комплаенс и искажения: GDPR, CCPA, BIPA, NY SHIELD, liveness и справедливость
GDPR (Европейский союз). Статья 4(14) определяет биометрические данные как персональные данные, полученные специальной технической обработкой физических, физиологических или поведенческих характеристик человека. Распознавание лиц явно отнесено к биометрии. GDPR требует явного согласия, ограниченного срока хранения (в большинстве трактовок максимум 6–12 месяцев) и прав субъекта (удаление, портативность). Если вы делаете детекцию лиц в ЕС без согласия — вы вне комплаенса.
BIPA (Illinois Biometric Information Privacy Act). Применяется к любой компании, обслуживающей жителей Иллинойса. Требует письменного уведомления, информированного согласия и безопасного хранения. Штрафы: 75 000–375 000 ₽ за нарушение по каждому человеку. Если ваша VMS детектирует лица в Иллинойсе, вам нужен сценарий согласия по BIPA.
NY SHIELD Act. Расширяет права на приватность в Нью-Йорке. Биометрическая информация требует предварительного согласия, разумной защиты и уведомления о нарушениях. Сопоставимо по охвату с BIPA.
CCPA (Калифорния). Биометрия не выделена явно, но распознавание лиц трактуется как механизм таргетирования. Требуется раскрытие и право отказа.
Справедливость и искажения в CV. Модели, обученные на несбалансированных датасетах, показывают более низкую точность на недопредставленных группах. Модели распознавания лиц начала 2020-х давали более 35% ошибок на тёмной коже против 5% на светлой. Ваша CV-команда должна аудировать искажения по возрасту, этничности, полу и освещению. Инструменты: FairFace (искажения по возрасту и полу), Grad-CAM (визуализация внимания), отдельные тестовые наборы по демографическим срезам.
Закладывайте 4–6 недель на работу по комплаенсу в любой регулируемой вертикали. Это не опционально — это стоимость легальной работы.
Кейсы Фора Софт: что мы выкатили в компьютерном зрении
Фора Софт занимается продакшен-CV для видеонаблюдения с 2010 года. Вот реальные проекты:
Система видеонаблюдения VALT. Мультитенантный SaaS для детекции объектов и поиска аномалий в реальном времени на 50 000+ камер по всему миру. Модели: YOLOv5/v8 для детекции людей, транспорта, вторжений, кастомная RNN для поиска аномалий в активности. Деплой: TensorRT на GPU-инстансах AWS (p3.8xlarge) и edge-кластерах Jetson Orin. Комплаенс: размытие лиц по GDPR, сценарии согласия по BIPA, аудит SOC 2 Type II.
Мониторинг строительных площадок. 100+ строительных компаний используют CV для детекции нарушений безопасности (отсутствие касок, рабочие в запрещённых зонах), простаивающего оборудования и проникновений. Модели: кастомный YOLOv11, дообученный на 80 000+ строительных кадрах, MediaPipe для оценки поз (детекция правильного использования страховки). Деплой: edge-кластеры Jetson Nano на площадке, облачное оповещение.
Видеоаналитика для ретейла. Защита от потерь и аналитика покупателей для 500+ торговых точек. Модели: детекция людей, распознавание активностей по позам (паттерны магазинных краж), генерация heatmap (трафик). Деплой: GPU-серверы в магазине, облачные дашборды. Комплаенс: GDPR для магазинов в ЕС, региональные законы о приватности в США.
Поиск аномалий для видеонаблюдения. Детекция нестандартных паттернов в видео (оставленные предметы, скопления людей, ДТП). Модели: кастомные автоэнкодеры для unsupervised-обучения на аномалиях в сочетании с supervised-классификаторами для известных аномалий. Деплой: стриминговый пайплайн на Kafka/Flink.
Шесть подводных камней при найме CV-инженеров, которые мы видим каждый месяц
1. Нанимают под модель, а не под пайплайн. Вы находите блестящего ML-исследователя, который умеет дообучать ResNet. Он не пишет ONNX-экспорт, не оптимизирует под Jetson и не понимает, как построить пайплайн разметки. Итог: красивая модель, которая никогда не выходит в продакшен. Что делать: нанимайте под end-to-end-ответственность, а не только за обучение.
2. Недооценивают разметку в 10 раз. Думают: 50 000 кадров × 30 секунд = 400 часов. Реальность: 50 000 кадров × 2 минуты на аккуратную аннотацию = 1700 часов. Потом находят системные ошибки в первых 10 000 разметок и начинают переразмечать. Закладывайте 6–12 месяцев и 2,2–7,5 млн ₽ на разметку для серьёзного проекта.
3. Обучают на нерепрезентативных данных. Размечают 50 000 дневных кадров. В продакшене 80% — ночь. Итог: 45% точности ночью и 95% днём. Что делать: стратифицируйте разметку по времени суток, освещению, ракурсу камеры, типу сцены.
4. Деплоят на железо без тестов. Ваша модель выдаёт 8 fps на ноутбучном GPU. Вы переносите её на Jetson Orin и получаете 2 fps, потому что не квантовали и не выстроили батчинг. Что делать: профилируйте на целевом железе с самого начала. На столе CV-инженера должен лежать Jetson dev kit.
5. Комплаенс — на потом. Вы выкатываете детекцию лиц в ЕС без сценариев согласия. Через полгода это ловит ваш DPO. Теперь вы добавляете согласие задним числом, разбираетесь со штрафами по GDPR и идёте на повторный аудит. Что делать: подключайте комплаенс с первого дня. Закладывайте 10% инженерного времени на эту работу.
6. В продакшене нет мониторинга и детекции drift. Модель ушла в продакшен с точностью 94%. Через девять месяцев — 78%, потому что освещение в локации поменялось или появилась новая модель камер с другой частотой кадров. Вы не замечаете этого неделями. Что делать: инструментируйте инференс под мониторинг точности, ставьте алерты на drift, регулярно семплируйте и переразмечайте кадры из продакшена.
Частые вопросы
Мне правда нужен разработчик компьютерного зрения, или хватит предобученной модели вроде YOLO?
Запустить предобученный YOLO с платформенным инженером можно за 4–6 недель. Но если вам нужна точность выше 90% в специфичном домене, задержка ниже 100 мс на edge-железе или регуляторный комплаенс — CV-специалист сожмёт 9–12 месяцев работы в 3–4 месяца. Вопрос на самом деле другой: во сколько вам обойдётся задержка в полгода?
Чем CV-инженер отличается от ML-инженера?
ML-инженер знает линейную алгебру и умеет крутить гиперпараметры. CV-инженер знает свёрточные архитектуры, оптимизацию под деплой, инженерию датасетов и умеет выкатить модель, которая работает на реальном видео с камер, а не только на курированных датасетах. CV — более узкая специализация.
Нанимать локально или уходить в офшор?
Локально нанимайте senior-архитектора, который владеет решениями. В офшор уходите за junior- и middle-инженерами, которые закрывают QA разметки, data ops и оптимизацию инференса junior-уровня. Соотношение, которое мы рекомендуем: 1 senior (локально) + 2–3 junior/middle (офшор). Это даёт удержание знаний и архитектурный контроль.
Сколько на самом деле занимает выпуск MVP по компьютерному зрению?
Со специалистом — 6–10 недель (если данные уже размечены). Без специалиста — 4–6 месяцев (большая часть — разметка). С гибридной командой — 4–5 месяцев. Эти сроки исходят из того, что данные есть и вы не ждёте железо.
Что делать, когда модель компьютерного зрения падает в продакшене?
Поставьте мониторинг точности инференса (логируйте 10% кадров на ручную проверку), отслеживайте долю ложноположительных и ложноотрицательных по типам сцен и подключайте алерты при просадке точности ниже порога. Когда происходит drift, команда переразмечает 1 000–5 000 новых кадров и дообучает модель. Это часть SLA.
Можно ли взять CV-разработчика с фриланс-площадки вроде Upwork?
Не для продакшен-систем. Фрилансеры хорошо тянут разовое обучение моделей, но не вытягивают многомесячную перестройку архитектуры, комплаенс или edge-деплой. Используйте фрилансеров для QA разметки или экспериментов с моделями. Для всего, что идёт клиентам, — профильная студия или полноценный найм.
Какая самая частая ошибка при найме в компьютерное зрение?
К нему относятся, как к обычному найму разработчика. Открывают вакансию, берут человека с пометкой «deep learning» в резюме — и через полгода он сидит в ожидании размеченных данных, бьётся с edge-деплоем или жалуется, что модель не обобщается. Ошибка в том, что данные и деплой не считают первоклассными задачами. CV-найм — это 40% инженерия, 40% продукт, 20% эксплуатация.
Что почитать дальше
Гид для разработчика
Видеоаналитика: разрабатывать у себя или брать готовое
Глубокий разбор: строить платформу видеоаналитики in-house или брать управляемую систему по лицензии.
Алгоритмы
Лучшие алгоритмы для поиска аномалий в видеонаблюдении
Практичные алгоритмы для unsupervised- и semi-supervised-поиска аномалий в видео.
Безопасность
Безопасные облачные системы видеоменеджмента
Комплаенс, шифрование и требования к локализации данных для видеосистем.
Готовы собрать команду по компьютерному зрению?
Если у вас более 50 000 размеченных кадров, SLA по задержке менее 100 мс или эффект от CV свыше 75 млн ₽/год, нанимайте senior CV-инженера или контрактуйте профильную студию на сфокусированный спринт. Если вы ниже этих порогов, выкатывайте на YOLO v11 с платформенным инженером и пересматривайте решение через 6 месяцев. Решение о найме — это про эффект на выручку и риск-аппетит, а не про то, какой подход «лучше».
Используйте шесть сигналов выше, чтобы поставить себе диагноз. Используйте фреймворк из четырёх созвонов, чтобы понять, стоит ли брать партнёра. Всё остальное — это исполнение, и вот именно там лежит реальная ценность.
Давайте проведём аудит вашей CV-стратегии
Мы разберём ваш data-пайплайн, ограничения по железу и комплаенс-требования и пришлём письменную рекомендацию: нанимать в штат, уходить в офшор или работать со студией.

