Своя AI-система видеонаблюдения с YOLO, ByteTrack, BoT-SORT и DeepSORT

Главное

• YOLO — это детектор. Продукт делает трекер. ByteTrack, BoT-SORT и DeepSORT решают разные задачи в продакшене: ошибётесь с выбором — и доля ложных идентификаций удвоится.

• BoT-SORT + YOLOv11 — выбор по умолчанию в 2026 году. Выше MOTA, чем у ByteTrack, на плотных сценах и быстрее, чем инференс эмбеддингов внешнего вида в DeepSORT. Берите его, если нет конкретных причин выбрать другое.

• Edge выигрывает по стоимости и приватности. Jetson Orin Nano (15 тыс. ₽, 40 TOPS) тянет YOLOv11 + BoT-SORT на 30 fps в 1080p. Облачный GPU обходится в 5–10× дороже на камеру в год и создаёт риски по GDPR.

• Мульти-камерная ре-идентификация — вот где системы ломаются. Передача ID между камерами требует шага с эмбеддингами внешнего вида (фичи в стиле DeepSORT) и стратегии хеширования, которая не выносит PII между объектами.

• Соответствие требованиям — часть архитектуры, а не «фаза 2». Обязательства EU AI Act для высокорисковых систем применяются с 2 августа 2026 года. Размытие на edge, аудит-логи и телеметрию для DPIA закладывайте с первого дня.

Почему этот гид по сборке YOLO + трекера написала Фора Софт

Мы выпускаем видеопродукты с интеграцией AI с 2005 года и держим 100% Job Success на Upwork. Наша практика охватывает видеостриминг, видеонаблюдение, телемедицину, судебные системы и live-shopping — продакшен-среды, где небрежный трекер за считанные дни превращается в инцидент с клиентами или юристами.

Конкретика: AI-видеонаблюдение, работающее 24/7 в более чем 650 организациях, плюс продакшен-проекты для Sprii (ведущая в Европе платформа live-shopping, более 365 млн евро продаж), TransLinguist (контракт с NHS-UK) и BrainCert (LMS на WebRTC промышленного масштаба).

Этот гид — тот самый чек-лист сборки, который мы передаём продуктовым командам, когда сдаём кастомную AI-систему видеонаблюдения. Он покрывает детектор, трекер, edge-железо, мульти-камерную ре-идентификацию, операторскую панель и инструменты соответствия — примерно в том порядке, в котором всё это собирается.

Делаете кастомный AI-продукт для видеонаблюдения?

Расскажите, сколько у вас камер, какой бюджет по задержкам и какие требования по соответствию. Набросаем пайплайн YOLO + трекер — и смету — за 30 минут.

Позвоните нам → Напишите нам →

Пайплайн в общих чертах

Современный пайплайн AI-видеонаблюдения состоит из шести этапов. Большинство сбоев в продакшене, которые мы видели, — это экономия на этапе 4 (re-ID) или этапе 6 (инструменты соответствия). Закладывайте все шесть с первого дня.

1. Захват. IP-камеры, отдающие H.264 или H.265 по RTSP. ONVIF — для независимости от вендора. Частоту кадров подгоняйте под темп детекции (10–30 fps для большинства сценариев видеонаблюдения).

2. Детекция. YOLOv9, v10 или v11 на edge-GPU. Один прогон детекции на кадр, на выходе — bounding box, метка класса и уверенность.

3. Трекинг. ByteTrack, BoT-SORT или DeepSORT связывают детекции между кадрами в стабильные ID треков. Именно трекер даёт вам «человек 47 вошёл в 14:32 и вышел в 14:47».

4. Ре-идентификация. Эмбеддинги внешнего вида (в стиле DeepSORT или на базе VLM), которые передают ID треков между камерами и переживают короткие перекрытия.

5. Детекция поведения и событий. На основе правил + базовая модель аномалий + (опционально) обогащение через VLM. Отсюда берутся алерты.

6. Инструменты соответствия. Размытие лиц и номеров на edge, аудит-логи append-only, телеметрия под DPIA, операторская панель с объяснимостью. Встроены в пайплайн, а не приклеены сбоку.

Какую версию YOLO выбрать в 2026 году

С 2024 года YOLO разделился на ветки. Несколько исследовательских групп ведут совместимые, но всё же различающиеся варианты. Для продакшен-видеонаблюдения реалистичный шорт-лист — три версии.

Версия	Авторы	Когда подходит	Производительность (Jetson Orin Nano, 1080p)
YOLOv8	Ultralytics	Зрелый, простой экспорт в ONNX, большая экосистема	35–45 fps
YOLOv9	WongKinYiu и соавторы	Лучшая точность на мелких объектах, бэкбон GELAN	25–35 fps
YOLOv10	Tsinghua	Без NMS, ниже задержка, силён на плотных сценах	40–50 fps
YOLOv11	Ultralytics	Лучший баланс mAP/задержки; выбор по умолчанию для новых проектов	30–40 fps

Наш выбор по умолчанию в 2026 году — YOLOv11 small или medium для новых edge-сборок. Более крупные варианты (l, x) применяем только тогда, когда точность критична и можно позволить себе более мощный GPU.

Совет. Всегда экспортируйте в ONNX и запускайте через TensorRT или ONNX Runtime на edge. Нативный PyTorch на инференсе медленнее в 2–3 раза и привязывает вас к стеку обучения.

Берите YOLOv11, когда: собираете новый пайплайн в 2026 году и хотите лучший баланс точности и задержки на железе уровня Jetson.

ByteTrack — простой и быстрый трекер

Ключевая идея ByteTrack — использовать и высокоуверенные, и низкоуверенные детекции, чтобы сохранить треки сквозь перекрытия. Это простой трекер на фильтре Калмана и венгерском алгоритме назначения с хитрой двухэтапной ассоциацией: сначала высокоуверенные детекции, затем низкоуверенные — чтобы вернуть частично закрытые объекты. Никакой модели внешнего вида, никаких эмбеддингов.

Зачем брать

Скорость и простота. ByteTrack добавляет менее 5 мс на кадр поверх детектора и не имеет своих модельных зависимостей. Для прямолинейных одно-камерных сценариев со средней плотностью толпы конкурентов мало.

Ограничения

Без памяти внешнего вида он не способен снова подхватить объект после долгого перекрытия или между камерами. Количество переключений ID растёт в плотных толпах. Если у вас в кадре более 20 одновременных объектов в близком соседстве, ByteTrack в одиночку поплывёт.

Берите ByteTrack, когда: одна камера, низкая или средняя плотность толпы и важна каждая миллисекунда. Часто встречается в промышленной безопасности и в трафик-проектах.

BoT-SORT — трекер по умолчанию в 2026 году

BoT-SORT («Better-on-Top SORT») расширяет ByteTrack тремя идеями: компенсация движения камеры, более богатая фича внешнего вида и более умное состояние фильтра Калмана. Результат — стабильно более высокие показатели MOTA на бенчмарках MOT17/MOT20, чем у ByteTrack на плотных сценах, при контролируемой стоимости по задержке.

Зачем брать

Лучшая точность из коробки. Камерная компенсация движения (CMC) — киллер-фича для подвижных камер: PTZ, дроны, видеорегистраторы, нагрудные камеры; помогает и на статичных камерах с вибрацией. Лёгкие ReID-эмбеддинги возвращают объекты после коротких перекрытий.

Ограничения

CMC добавляет 8–15 мс на кадр на Jetson. Для сценариев с очень высокой частотой кадров это ощутимая статья бюджета. ReID-эмбеддинг добавляет ещё 5–10 мс, но он опционален: BoT-SORT можно запустить и без ReID, чтобы получить более лёгкий пайплайн.

Берите BoT-SORT, когда: собираете новую систему в 2026 году и хотите один трекер на все случаи — одна камера, несколько камер (с подключённым re-ID) и подвижные камеры. Выбор по умолчанию для большинства проектов.

DeepSORT — классика с упором на внешний вид

DeepSORT — классика жанра. Он сочетает фильтр Калмана с глубоким дескриптором внешнего вида (изначально — фича на WideResNet) и связывает детекции между кадрами прежде всего по визуальной похожести. Тяжелее, чем ByteTrack и BoT-SORT, зато даёт сильные результаты при долгих перекрытиях и работе между камерами.

Зачем брать

Сильное моделирование внешнего вида. Для мульти-камерных систем, где нужно опознавать одного и того же человека, переходящего между непересекающимися ракурсами (вход, проход, выход), голова с эмбеддингами в стиле DeepSORT обязательна. Современные варианты используют эмбеддинги OSNet или TransReID вместо исходной фичи и поднимают точность ещё выше.

Ограничения

Стоимость вычислений. Каждая детекция прогоняется через сеть эмбеддинга — это ещё 10–30 мс на кадр в зависимости от модели. Эталонный код DeepSORT к тому же исследовательский — на продакшен его придётся доводить руками.

Берите DeepSORT (или BoT-SORT с ReID в стиле DeepSORT), когда: мульти-камерная ре-идентификация — часть продукта и у вас есть бюджет GPU на инференс эмбеддингов.

Сравнение трекеров: какой подойдёт под вашу сцену

Трекер	Стоимость на кадр	Плотная сцена	Меж-камерный ReID	Лучше всего подходит
ByteTrack	< 5 мс	Средне	Нет	Промышленная безопасность, трафик
BoT-SORT	15–25 мс	Сильно	С ReID-надстройкой	Большинство ритейл-проектов, smart-city
DeepSORT (современный)	25–40 мс	Сильно	Да — нативно	Сети ритейла, кампусы

Совет: не миксуйте трекеры между камерами. Выберите один трекер на проект — так операторская панель, метрики и отчёты по инцидентам останутся согласованными.

Edge-железо: где на самом деле работают YOLO + трекер

Инференс на edge — архитектура по умолчанию для биометрического и приватность-чувствительного видеонаблюдения в 2026 году. Три платформы покрывают 95% проектов.

NVIDIA Jetson Orin Nano (40 TOPS, ~15 тыс. ₽, 25–50 Вт). Выбор по умолчанию для серьёзных проектов. Тянет YOLOv11 + BoT-SORT на 30 fps в 1080p через TensorRT. Зрелый стек CUDA, простая интеграция с DeepStream SDK.

Hailo-8 (13 TOPS, 3 Вт). Сценарии на батарее или с термоограничениями. Ниже пропускная способность, зато отличная энергоэффективность. Инструменты подтянулись в 2025–2026 годах, но всё ещё уступают по зрелости NVIDIA.

Аппаратные модули Ambarella, Hikvision и Dahua. Часто встречаются в апгрейдах унаследованных CCTV. Плюсы: всё уже интегрировано. Минусы: привязка к вендору, проприетарные форматы моделей. Закладывайте ONVIF и модели с экспортом в ONNX, чтобы потом можно было поменять железо.

Застряли между edge и облаком или с выбором трекера?

Мы принимали такие решения на продакшен-проектах. Обычно 30 минут разговора всё проясняют.

Позвоните нам → Напишите нам →

Мульти-камерная ре-идентификация — самое сложное

Трекинг в одной камере — решённая задача. Системы ломаются на ре-идентификации между камерами. Задача такая: когда человек 47 пропадает из камеры А, а через 30 секунд на камере Б появляется кто-то визуально похожий, надо решить — присваивать ли тот же ID.

Архитектурный паттерн. Edge-трекер выдаёт трек и эмбеддинг внешнего вида. Центральный re-ID-сервис держит хранилище недавних эмбеддингов на короткое окно (по локации). На новом треке от любой камеры опрашиваем хранилище ближайшим соседом во временном окне; если косинусная схожесть выше порога — присваиваем существующий глобальный ID.

Выбор эмбеддинга. OSNet или TransReID — для продакшен-ре-идентификации людей. Обе модели — это ONNX-экспорт на 1–2 МБ, работающий по 5–15 мс на детекцию на edge-GPU.

Подвох с PII. Эмбеддинги — это биометрия. Хешируйте глобальные ID по площадке или региону; никогда не отдавайте сырые эмбеддинги в операторскую панель; никогда не делитесь эмбеддингами между организациями без явного законного основания по статье 9 GDPR.

Подбор порога. Типичная рабочая точка по косинусной схожести — около 0,65–0,75. Прогоните валидацию на отложенной выборке реальных записей с ваших камер: распределения одежды в торговом центре отличаются от аэропортных, а вместе с ними — и оптимальные пороги.

Детекция поведения и событий: правила + аномалии + VLM

Когда у вас есть стабильные треки, встаёт другой вопрос: что считать событием? В продакшене обычно используют три парадигмы вместе.

1. Правила. Пересечение виртуальной линии, превышение времени пребывания, пороги по числу людей, вход в запретную зону. Быстро, объяснимо, хорошо подходит для известных угроз. Просто объяснить командам по соответствию.

2. Базовая модель аномалий. Обучите автоэнкодер или одноклассовую модель на 30 днях нормального поведения по площадке. Помечайте отклонения. Ловит «неизвестные неизвестности» и снижает поток ложных срабатываний на 30–40% по сравнению с чистыми правилами.

3. Обогащение через VLM (опционально). Отправьте 5-секундный клип с высокоуверенным аномальным событием в VLM (Qwen-VL, дообученная Florence-2 или облачная GPT-4o) ради описания на естественном языке. Полезно для операторской панели и отчётов по инцидентам. Никогда не давайте VLM запускать действия по реагированию — у моделей бывают галлюцинации.

Инструменты соответствия, встроенные в пайплайн

Обязательства EU AI Act для высокорисковых систем применяются с 2 августа 2026 года. GDPR — с 2018 года. ISO/IEC 42001 становится требованием в закупках. Закладывайте соответствие с первого дня — иначе позже доделки обойдутся в 5–10× дороже.

Размытие лиц и номеров на edge. Распознать, размыть необратимо, передать. На Jetson — 5–10 мс. Снижает риск повторной идентификации почти до нуля.

Аудит-логи append-only. Каждый доступ к данным, каждое решение модели и любое переопределение оператора получают подписанную запись. Срок хранения 3–7 лет.

Минимизация данных. Сырое видео — 7–14 дней; метаданные — 90 дней; дольше — только при задокументированной цели.

Дезагрегированный мониторинг искажений. Еженедельные автоматические отчёты о работе детектора и трекера по демографическим стратам. Триггер срабатывает, когда худшая когорта по уровню ошибок превышает лучшую более чем в 1,5×.

Телеметрия под DPIA. В один клик выгружаются карточка модели, демография обучающих данных, политика хранения и свежий аудит искажений. Аудиторы перестают пугать, когда у вас всё это под рукой.

Наша смежная статья по регуляторике — «AI Surveillance Trends 2026: доверие через качество данных и этику» — глубже разбирает охват EU AI Act и ISO 42001.

Модель затрат: edge против облака на 200 камерах

Разберём пример. 200 камер, YOLOv11 + BoT-SORT, правила поведения и базовая модель аномалий, размытие на edge, полное аудит-логирование.

Подход	Капитальные	Операционные в год	Соответствие
Гибрид с приоритетом edge	3–22,5 млн ₽ (Jetson + монтаж)	5,4–27 млн ₽ (эксплуатация и индекс в облаке)	Сильно — биометрия не покидает площадку
Только облако	375 тыс.–1,1 млн ₽ (загрузка с NVR)	15–37,5 млн ₽ (GPU и хранение)	Слабо — сырое видео по умолчанию уходит вовне

Edge выигрывает по совокупной стоимости владения примерно от 50 камер и в части соответствия — почти всегда. Облако выигрывает по скорости запуска пилота и там, где соответствие реально не вопрос (что в 2026 году встречается редко).

Фреймворк решения: пять вопросов, чтобы выбрать стек

Вопрос 1. Какова ваша юрисдикционная поверхность? EU, UK, Иллинойс, Калифорния — гибрид с приоритетом edge единственный безопасный вариант по умолчанию. Только США без Калифорнии — облако допустимо, но мода на него уходит.

Вопрос 2. Сколько одновременных объектов на камеру в пике? Меньше 15 — справится ByteTrack. 15–40 — BoT-SORT. Больше 40 (стадионы, транспортные узлы) — BoT-SORT с ReID в стиле DeepSORT.

Вопрос 3. Нужен ли мульти-камерный re-ID? Нет — BoT-SORT или ByteTrack. Да — добавьте эмбеддинги OSNet/TransReID к BoT-SORT или запускайте современный DeepSORT.

Вопрос 4. Каков ваш бюджет по задержкам? Меньше 100 мс end-to-end — edge с ByteTrack. 100–300 мс — edge с BoT-SORT. Более 500 мс — гибрид допустим.

Вопрос 5. Собирать самим или покупать? Стандартный сценарий (периметр, защита от потерь в ритейле) — готового решения может хватить. Кастомный отраслевой контекст, этика-чувствительный сценарий, мульти-площадочный re-ID — собирайте с партнёром.

Мини-кейс: запуск 200 камер для ритейла, end-to-end меньше 100 мс

Ситуация. Сети розничных магазинов нужны были алерты по защите от потерь в реальном времени по 18 магазинам и 200 камерам. Конкуренты предлагали только облако и оценивали эксплуатацию в 36 млн ₽ в год — с потоковой передачей сырого видео в US-East-1, что европейские подразделения не могли принять под GDPR.

План на 12 недель. Развернули по Jetson Orin Nano на каждую камеру (200 устройств по 15 тыс. ₽ каждое) с YOLOv11-medium и BoT-SORT с эмбеддингами OSNet для меж-камерного re-ID. Размытие лиц и номеров на edge — до того, как любые данные покинут камеру. По каждому магазину обучили базовую модель аномалий на 30 днях нормального трафика. Центральное облако держит метаиндекс и обогащение клипов через дообученный Qwen-VL для описаний поведения. DPIA, согласование с ISO/IEC 42001 и дезагрегированный мониторинг искажений — встроены с первой недели.

Результат. Сквозная задержка алертов 70–90 мс (от камеры до операторской панели). Точность меж-камерного re-ID — 87% на отложенной выборке. Уровень ложных срабатываний — 12 алертов на камеру в день, в 8× лучше, чем у готовой системы, которой клиент пользовался раньше. Годовая эксплуатация — 13,5 млн ₽, около 38% от облачного предложения, и при этом вся биометрия осталась на площадке.

Пять провалов, которые мы видим в продакшене снова и снова

1. Зацикленность на детекторе. Команды перетюнивают YOLO под конкретный датасет и игнорируют трекер. В большинстве сценариев видеонаблюдения трекер важнее, чем дополнительные доли точности у детектора.

2. Пропуск экспорта в ONNX. Нативный PyTorch на edge медленнее в 2–3 раза и привязывает к стеку обучения. Всегда экспортируйте в ONNX и запускайте через TensorRT или ONNX Runtime.

3. Несогласованные частоты кадров. Детекция на 30 fps + трекер на 30 fps + детекция поведения на 1 fps — рецепт ошибок по таймингу. Выберите один темп инференса и держитесь его по всему пайплайну.

4. Утечка PII через эмбеддинги. Эмбеддинги внешнего вида — это биометрия. Не отдавайте их в операторскую панель; не делитесь между площадками без задокументированного законного основания.

5. Соответствие во «второй фазе». Аудит-логи, DPIA, мониторинг искажений, размытие на edge — если отложить, доделки потом обойдутся в 5–10× дороже, чем закладка с самого начала.

Какие KPI отслеживать после запуска

Качество. mAP детектора по когортам (целевой разрыв < 1,5×), MOTA трекера (> 65 на репрезентативных сценах), переключения ID в минуту (< 2 на камеру в пике), точность меж-камерного re-ID (> 80%).

Бизнес. Ложные срабатывания на камеру в день (цель < 25), доля реальных инцидентов в детекциях относительно прежней базы, среднее время реакции (цель < 5 мин), снижение потерь в ритейле (обычно 5–15%).

Надёжность. Аптайм edge на камеру (> 99%), задержка инференса P99 (в рамках бюджета), целостность аудит-лога (100%), время на подготовку отчёта под DPIA (< 1 час).

Когда НЕ нужно собирать кастомный пайплайн YOLO + трекер

Три сценария, где мы советуем клиентам подождать или взять готовое решение.

Меньше 30 камер. Стоимость инженерных работ съедает выгоду. Готовый аппаратный модуль от Hikvision/Dahua и тонкая кастомная панель почти всегда выигрывают.

Стандартный сценарий без отраслевой специфики. Базовая периметральная детекция, простая защита от потерь, обычный подсчёт трафика — рынок готовых решений зрелый.

Нет ML-инженерной команды. Кастомный пайплайн, который вы не можете сопровождать, превращается в полку. Сначала купите, а собирать начнёте, когда будет команда, готовая его вести.

Как протестировать пайплайн YOLO + трекер до запуска

Соберите отложенную тестовую выборку на реальных записях с ваших камер — с разной демографией, освещением, погодой и плотностью толпы. Не берите цифры по MOT17 из статьи как ориентир — они не обобщаются.

Детекция. mAP@0.5 в среднем И в разрезе по когортам. Целевой разрыв на худшей когорте — менее 1,5×.

Трекинг. MOTA, IDF1, переключения ID в минуту. MOTA выше 65 — здоровый показатель для большинства сцен видеонаблюдения.

End-to-end. Уровень ложных срабатываний на стороне оператора при продакшен-пороге; среднее время до детекции на наборе известных событий; задержка P50/P95/P99 по всему пайплайну.

FAQ

Какая версия YOLO лучше для видеонаблюдения в 2026 году?

YOLOv11 small или medium — наш выбор по умолчанию для новых edge-сборок: лучший баланс mAP и задержки на железе уровня Jetson. YOLOv10 (Tsinghua) хорош на плотных сценах за счёт архитектуры без NMS. YOLOv8 всё ещё часто встречается в унаследованных стеках. Для продакшена всегда экспортируйте в ONNX и запускайте через TensorRT.

ByteTrack, BoT-SORT или DeepSORT — что выбрать?

ByteTrack: простой, быстрый, для одной камеры, низкой и средней плотности. BoT-SORT: выбор по умолчанию в 2026 году для большинства проектов в ритейле и smart-city — справляется с компенсацией движения и лёгким ReID. DeepSORT (современный, с OSNet/TransReID): когда мульти-камерная ре-идентификация и есть продукт. Один трекер на проект — для согласованности.

Можно ли запустить YOLO с трекером на Jetson Orin Nano?

Да. YOLOv11 small/medium с BoT-SORT работает на 30 fps в 1080p через TensorRT. С добавленными эмбеддингами OSNet для меж-камерного re-ID ожидайте 20–25 fps. Закладывайте 25–50 Вт на камеру и продумайте теплоотвод на месте установки.

Как делать меж-камерную ре-идентификацию без утечек PII?

Относитесь к эмбеддингам внешнего вида как к биометрии. Хешируйте глобальные ID по локациям; никогда не отдавайте сырые эмбеддинги в операторскую панель; никогда не делитесь эмбеддингами между организациями без задокументированного законного основания по статье 9 GDPR или BIPA. Сопоставляйте в коротком временном окне (5–30 минут) и в re-ID-хранилище для конкретной площадки.

Как этот пайплайн соответствует EU AI Act?

Высокорисковые обязательства EU AI Act применяются с 2 августа 2026 года. Описанная архитектура — инференс в первую очередь на edge, необратимое размытие до передачи, аудит-логи append-only, дезагрегированный мониторинг искажений, телеметрия под DPIA — спроектирована, чтобы их выполнить. Согласование с ISO/IEC 42001 — самый чистый способ показать соответствие во время закупочного аудита.

Стоит ли использовать облачный VLM (GPT-4o, Claude, Gemini) для детекции поведения?

Для обогащения высокоуверенных аномальных событий описаниями на естественном языке — да, с осторожностью. Для запуска действий по реагированию — нет: VLM галлюцинируют описания на сценах видеонаблюдения. Гибридный паттерн: правила и базовая модель аномалий на edge на первом проходе, опциональное обогащение через VLM на выборке для операторской панели, с порогами уверенности и контролем «человек в петле».

Сколько занимает сборка кастомной AI-системы на 200 камер?

Пилот (10–30 камер, одна площадка) — 3 месяца. Региональный запуск (50–100 камер, 5–10 площадок) — 6 месяцев. Полная продакшен-система на 200 камер с согласованием EU AI Act — 9–12 месяцев в формате Agent Engineering, 12–18 месяцев — на классических агентских сроках.

Сколько стоит кастомный AI-продукт для видеонаблюдения на 200 камер?

Капитальные на edge-сборку: 3–22,5 млн ₽ на железо и монтаж плюс инженерная стоимость самой сборки (как правило, существенная часть кастомной разработки на 37,5–112 млн ₽). Операционные в год — 5,4–27 млн ₽ в зависимости от облачного обогащения и политики хранения. С Agent Engineering мы уверенно работаем в нижней части этих диапазонов.

Что почитать дальше

Соответствие

Доверие к AI-видеонаблюдению: данные, искажения и EU AI Act

Регуляторная карта, контроль искажений и паттерны privacy-by-design.

Edge AI

Edge AI против Cloud AI для видеонаблюдения

Компромиссы по задержке и стоимости, которые формируют архитектуру выше.

Найм

Когда нанимать разработчиков computer vision

Фреймворк «строить или нанимать» для инженеров под ваш CV-продукт.

Видео-AI

Как работают видео-AI-агенты в 2026 году

Архитектура, бюджеты по задержке и поминутная экономика видео-AI.

Архитектура

Масштабирование видеостриминга до 1 миллиона зрителей

Стриминговый слой за любым крупным проектом видеонаблюдения.

Готовы запустить кастомный пайплайн YOLO + трекер?

YOLOv11 + BoT-SORT на edge-железе Jetson, с эмбеддингами внешнего вида для меж-камерного re-ID и полным набором инструментов соответствия — это продакшен-рецепт 2026 года. Детектор — самая простая часть. Выбор трекера, архитектура edge против облака, мульти-камерный re-ID и соответствие с первого дня — вот где живёт настоящий продукт.

Если хотите проверить ваш текущий пайплайн — или получить план на 9–12 месяцев под продакшен на 200 камер — мы возьмёмся за работу вместе с вами. Двадцать лет инжиниринга в мультимедиа и AI, 100% Job Success на Upwork, Agent Engineering для ускоренной поставки. Принесите количество камер и объём требований по соответствию — мы принесём архитектуру.

Хотите кастомный AI-пайплайн видеонаблюдения с YOLO и трекером?

Мы оценим, рассчитаем и запустим — с инструментами по приватности, искажениям и соответствию, которые держат вас в безопасности по EU AI Act, GDPR, BIPA и HIPAA.

Позвоните нам → Напишите нам →

Технологии
Услуги
Процессы
Разработка
Опыт клиентов

Платформа	Задержка	Стоимость аватара	Лучше всего для	На что обратить внимание
Tavus CVI (Phoenix-4)	< 600 мс	37–75 ₽/мин	Продажи, медицинский триаж, консьерж	Дорого на малых объёмах
HeyGen Interactive	1–2 с	13–58 ₽/мин	Поддержка, HR, многоязычность	Lip-sync на речи с акцентом
D-ID Agents 2.0	1–2 с	Тарифы 449–3 675+ ₽/мес	Быстрый эмбед, SaaS-виджет	Lip-sync уступает HeyGen
NVIDIA ACE (self-hosted)	800 мс–1,2 с	GPU-ферма + лицензия	On-prem, регуляторика, кастом	Стартовая стоимость GPU и нагрузка на ops
Inworld AI + кастомный рендерер	700–900 мс	менее 1 ₽/мин (TTS)	Миграция с Soul Machines	Рендерер пишете сами
Synthesia / Hour One	Предрендер (батч)	2 250–75 000+ ₽/мес	Обучающие библиотеки, питч-видео	Не интерактивно — не путайте

Слой	Премиум (Tavus + ElevenLabs)	Сборка (LiveKit + ACE + Inworld)
STT	0,52 ₽/мин	0,37 ₽/мин
Реплика LLM	3 ₽/мин	1,5 ₽/мин
TTS	5,4 ₽/мин	0,6 ₽/мин
Рендеринг аватара	60 ₽/мин	9 ₽/мин (амортизированная GPU)
WebRTC-медиа	1,5 ₽/мин	1,5 ₽/мин
Итого «всё включено»	70 ₽/мин (705 000 ₽/мес)	12 ₽/мин (127 500 ₽/мес)

Слой	Рекомендуемый стек	Почему он выигрывает	Альтернативы
Приём DICOM	Orthanc + dcm4che	Open-source, соответствие IHE, надёжная деперсонализация	AWS HealthImaging, GCP Healthcare API
Деперсонализация	CTP + кастомный пиксельный OCR	Соответствие Supplement 142 плюс затирание текста, вшитого в пиксели	Presidio (пиксельный OCR), MIRC-CTP
Хранилище	S3 c SSE-KMS + Object Lock	AES-256 в покое, неизменяемое хранение, аудит-цепочка на 6 лет	Azure Blob с immutable-политиками, GCS Bucket Lock
База данных	RDS Postgres c шифрованием + pgAudit	Реляционная строгость для клинических данных, шифрование PHI на уровне полей	Azure Database for PostgreSQL, Cloud SQL
Идентификация	Cognito / Auth0 + MFA + SCIM	SSO с больничным IdP, обязательная MFA, авто-деактивация по SCIM	Okta, Azure AD B2C, Keycloak
Просмотрщик	OHIF + Cornerstone3D	Без установки, FDA-уровень, мощный API аннотирования	3D Slicer, Weasis
Аудит и логирование	CloudTrail + CloudWatch + S3 Object Lock	Хранение с защитой от подделки на 6 лет, как требует HIPAA	Azure Monitor + Immutable Blob, Loki + S3
Секреты	AWS Secrets Manager + KMS	Автоматическая ротация, происхождение ключей, журнал аудита	HashiCorp Vault, Azure Key Vault
Интеграция	HL7 v2 + FHIR R4 + DICOMweb	Те же протоколы, на которых говорят Epic, Cerner, Sectra и PACS	Rhapsody, Mirth Connect
Сеть	VPC + приватные эндпоинты + WAF	Никакого публичного egress PHI, TLS 1.3 на каждом хопе	Azure VNet, GCP VPC + Private Service Connect

Стандарт	Кто требует	Типичная стоимость	Сроки
HIPAA	Любой американский медицинский заказчик	Внутренняя аттестация — внешнего сертификата нет	Постоянно
SOC 2 Type II	Большинство больниц США, B2B SaaS	1,8–4,5 млн ₽ аудит + платформа	6 месяцев наблюдения + 1–2 месяца аудита
HITRUST i1	Крупные больницы США (250+ коек)	4,5–11 млн ₽	6–9 месяцев
HITRUST r2	Корпоративные системы здравоохранения, страховщики	11–30 млн ₽	12–18 месяцев
FedRAMP Moderate	VA, DoD, федеральные медицинские агентства	37–150 млн ₽	18–36 месяцев
ISO 27001 / 27701	Заказчики из ЕС, глобальные корпорации	2,2–9 млн ₽	6–12 месяцев
GDPR / EU MDR	Любое развёртывание в ЕС	1,5–6 млн ₽ DPIA + юристы	Постоянно

Этап	Сроки	Объём	Бюджет
HIPAA-готовый MVP	4–6 месяцев	Orthanc + OHIF + шифрованное хранение + аудит + BAA + SSO	7,5–16 млн ₽
SOC 2 Type II	6 месяцев + 1–2 месяца аудита	Политики, контроли, доказательства, аудиторские сборы	1,8–4,5 млн ₽
HITRUST i1	6–9 месяцев	180+ контролей, гонорары ассессоров, устранение замечаний	4,5–11 млн ₽
Расширение под FDA 510(k)	9–15 месяцев	QMS, клиническая валидация, подача документов	11–30 млн ₽
Opex со 2-го года	Постоянно	HIPAA-облако, пентест, аудиты, инженер по безопасности	13–37 млн ₽/год

Своя AI-система видеонаблюдения с YOLO, ByteTrack, BoT-SORT и DeepSORT — гид 2026

Почему этот гид по сборке YOLO + трекера написала Фора Софт

Пайплайн в общих чертах

Какую версию YOLO выбрать в 2026 году

ByteTrack — простой и быстрый трекер

Зачем брать

Ограничения

BoT-SORT — трекер по умолчанию в 2026 году

Зачем брать

Ограничения

DeepSORT — классика с упором на внешний вид

Зачем брать

Ограничения

Сравнение трекеров: какой подойдёт под вашу сцену

Edge-железо: где на самом деле работают YOLO + трекер

Мульти-камерная ре-идентификация — самое сложное

Детекция поведения и событий: правила + аномалии + VLM

Инструменты соответствия, встроенные в пайплайн

Модель затрат: edge против облака на 200 камерах

Фреймворк решения: пять вопросов, чтобы выбрать стек

Мини-кейс: запуск 200 камер для ритейла, end-to-end меньше 100 мс

Пять провалов, которые мы видим в продакшене снова и снова

Какие KPI отслеживать после запуска

Когда НЕ нужно собирать кастомный пайплайн YOLO + трекер

Как протестировать пайплайн YOLO + трекер до запуска

FAQ

Что почитать дальше

Готовы запустить кастомный пайплайн YOLO + трекер?

Похожие статьи

Хотите обсудить ваш проект?

Недели	Веха	Результаты
1–3	Discovery + проектирование безопасности	Модель угроз, диаграммы потоков данных, карта суб-процессоров, список BAA, наброски политик
2–5	Облачный фундамент HIPAA	AWS Control Tower, KMS CMK, VPC c приватными эндпоинтами, базовая IAM, CloudTrail
3–7	DICOM + деперсонализация	Orthanc-роутер, профиль Supplement 142, пайплайн пиксельного OCR, политика по приватным тегам
5–10	Приложение и просмотрщик	OHIF-просмотрщик, аутентификация (SSO + MFA), RBAC, журнал аудита, break-glass workflow
8–13	Интеграция	HL7 v2 ADT/ORU, FHIR R4, DICOMweb, опционально SMART-запуск из EHR
10–15	Программа комплаенса	23 политики, оценка рисков, журналы обучения, подписанные BAA с поставщиками
15–18	Пентест + пилот	Внешний пентест, устранение замечаний, старт окна наблюдения SOC 2, выход пилота в прод