Блог: Генеративный ИИ и контекстный видеоинтеллект — от детекции к пониманию намерений

Главное

Детекция превратилась в коммодити; преимущество — в понимании намерений. Детекторы класса YOLO выдают 15–60 FPS на edge. В 2026 разница в продукте — в рассуждении: что именно делает человек, зачем и что нам с этим делать.

Складывайте слои, а не заменяйте их. Прод-системы строятся как трёхуровневый пайплайн: YOLO + трекер на edge, vision-language model (VLM) для подписи к сцене и LLM для рассуждения о намерениях, — а не одна гигантская модель на каждом кадре.

Экономика наконец сошлась. Gemini 2.5 Pro обрабатывает часовой ролик в режиме низкого разрешения примерно за 22 ₽. Свой Qwen2.5-VL-72B на H100 окупается в сравнении с облачными API при объёме около 500 часов видео в месяц.

EU AI Act, вступивший в силу 2 августа 2026, меняет обязательства. Биометрическая идентификация в реальном времени отнесена к высокому риску; контент, созданный ИИ, должен маркироваться (статья 50); человеческий контроль, прозрачность и DPIA становятся обязательными для продуктов видеонаблюдения в ЕС.

Галлюцинации — новый режим отказа. Бенчмарки вроде VIDHALLUC показывают точность ниже 55% на классах, критичных для безопасности, при временных искажениях. Ансамбль из детектора, подписи VLM, LLM-рассуждения и человека в контуре — единственная разумная архитектура для алертов с высокими ставками.

Почему контекст и намерения важны в 2026

Классические системы видеоаналитики обнаруживают объекты: человек, машина, рюкзак. Рисуют рамку. Считают. Это и есть детекция, — и в большинстве промышленных решений, выпущенных до 2024 года, на этом интеллект и заканчивался. Оператору оставалось смотреть на рамки и самому додумывать, что происходит.

Изменилось три вещи. Во-первых, мультимодальные LLM научились работать с видео нативно: Gemini 2.5 Pro принимает часовой ролик прямо через File API, Qwen2.5-VL-72B обрабатывает длинное видео на массовых H100, а MiniCPM-V 2.6 умещает VLM на 8,1 млрд параметров в 5,5 ГБ памяти на edge-устройстве. Во-вторых, упала цена: час видео, прогнанный через Gemini в низком разрешении, стоит в 2026 порядка 22 ₽. В-третьих, подключились регуляторы: основные положения EU AI Act заработали 2 августа 2026, и правила вокруг удалённой биометрической идентификации, маркировки сгенерированного ИИ контента и прозрачности теперь напрямую применимы к продуктам видеонаблюдения.

В итоге появилась новая продуктовая категория — контекстный видеоинтеллект, — где система описывает происходящее словами, выводит намерение, позволяет оператору искать на естественном языке и эскалирует только те события, которые действительно стоят внимания человека. Эта статья — плейбук, по которому Фора Софт строит такие продукты, когда клиент приходит с подобной задачей.

Почему этот плейбук написала Фора Софт

Фора Софт делает видео- и AI-продукты с 2005 года, выпустила больше 600. В этот гайд легло три направления: инфраструктура стриминга в реальном времени (WebRTC, MediaSoup, LiveKit, MoQ), пайплайны компьютерного зрения (YOLOv8/v9, ByteTrack, BoT-SORT, DeepSORT) и поверх них — диалоговые и мультимодальные агенты. Наша модель поставки — спецификационно-агентная инженерия, которая ужимает то, что раньше было шестимесячной разработкой, до восьми-двенадцати недель, — и стоимость рассчитывается соответственно.

Архитектурные решения ниже опираются на три проекта. V.A.L.T. — платформа для видеодоказательств, которой пользуются больше 770 организаций США (полиция, центры защиты детей, медучреждения): 2 500 IP-камер, 25 000 ежедневных пользователей, выручка 727 млн ₽. Meetric — AI-платформа для записи и анализа продажных звонков (привлечено 21 млн SEK), на которой инференс по детекции намерений и саммари вызовов работает в проде на масштабе. DSI Drones — аэроразведка с детекцией угроз прямо на устройстве. Каждый слой стека ниже мы хотя бы раз доводили до прода.

Прорабатываете контекстный видеопродукт?

Расскажите про количество камер, сценарий и целевую задержку. Мы прорисуем гибридную архитектуру YOLO + VLM + LLM и дадим оценку сроков по телефону или в письме.

Позвоните нам → Напишите нам →

От детекции к намерению: ответ за 60 секунд

Детекция отвечает на вопрос «что в кадре?» Трекинг — «это тот же человек на соседних кадрах?» Подпись к сцене — «что происходит?» Рассуждение — «зачем и что с этим делать?» Контекстный видеоинтеллект — это все четыре уровня в стеке, а не одна модель на каждом кадре.

Дешёвые и быстрые слои (детекция, трекинг) живут на edge при 15–60 FPS и отдают эмбеддинги и короткие клипы. Дорогие слои (подписи VLM, рассуждение LLM) работают в облаке при 0,5–8 FPS и дают связный текст, метки намерений и поиск на естественном языке. Тонкий канал между ними переносит эмбеддинги, клипы по алертам и обратную связь от оператора, — а не сырое видео. Вот вся архитектура в одном абзаце.

Эталонная архитектура: edge CV + облачный VLM + LLM-рассуждения

Промышленные системы сходятся к одной форме — независимо от того, кто их строит: Ambient.ai, Coram AI, Twelve Labs или мы для клиентов. Три уровня и одна петля обратной связи.

Эталонная архитектура контекстного видеоинтеллекта: уровень 1 — edge CV с детекцией YOLOv8/v9, трекингом ByteTrack и отбором эмбеддингов; уровень 2 — облачный VLM с подписью к сцене на Gemini или Qwen, визуальный RAG, синтетические данные и защита от типовых отказов; уровень 3 — LLM-рассуждения с выводом намерений, саммари алертов и оператором в контуре, чьи метки возвращаются в модели

Рисунок 1. Гибридная эталонная архитектура контекстного видеоинтеллекта в 2026.

Уровень 1 — edge CV (каждый кадр)

Детектор YOLOv8/v9 плюс многообъектный трекер (ByteTrack, BoT-SORT или DeepSORT) — на Jetson Orin Nano, Hailo-8 или умной камере. Каждая детекция порождает компактный эмбеддинг и временной контекст: ID трека, время нахождения в зоне, вектор движения. 99% кадров никогда не покидают edge. Подробный разбор этого уровня — в нашем гайде по YOLO + ByteTrack + DeepSORT.

Уровень 2 — облачный VLM (выборка кадров)

Vision-language model (Gemini 2.5 Pro, Qwen2.5-VL-72B или MiniCPM-V 2.6) берёт клипы вокруг интересных событий, нарезанные с частотой 1 FPS, и выдаёт структурированную подпись: сцена, действующие лица, действия, атрибуты. Вывод — JSON, низкая температура, валидация по схеме. Бюджет задержки: 1–2 секунды на 30-секундный клип в Gemini, 5–10 секунд на минутный клип в self-hosted Qwen.

Уровень 3 — LLM-рассуждения и агент (намерение)

LLM получает структурированную подпись и короткое контекстное окно (последние N подписей по этой сущности, правила объекта, прошлые инциденты) и выдаёт метку намерения, уверенность и рекомендованное действие. Сюда же подключается ретривал — по операторским плейбукам, прошлым инцидентам и графовой БД сущностей и связей (CA-RAG). Всё ниже порога уверенности уходит человеку; всё выше — маршрутизируется автоматически.

Уровень 4 — обратная связь от оператора

Каждое действие оператора (подтвердить, отклонить, эскалировать) превращается в размеченные данные. Сложные случаи возвращаются в облако для повторного инференса с моделью побольше и в датасет для дообучения edge-модели. Без этой петли система дрейфует. С ней точность накапливается.

Модели, которые имеют значение в 2026

Выбирайте по уровню, а не по хайпу. Уровень детекции хочет скорости. Уровень VLM — длинного контекста и структурированного вывода. Уровень LLM — рассуждения и работы с инструментами. Ниже короткий список, который мы рекомендуем клиентам сегодня.

Уровень Модель Где работает Зачем выбирать
Детекция YOLOv8/YOLOv9 (INT8) Edge (Jetson, Hailo, умная камера) 15–60 FPS, зрелая экосистема.
Трекинг ByteTrack / BoT-SORT Edge Стабильные ID при перекрытиях; дёшево.
Эмбеддинг Twelve Labs Marengo / Florence-2 Edge или облако Векторы 1024 измерений — для визуального RAG и поиска на естественном языке.
VLM (облако) Gemini 2.5 Pro / GPT-4o-vision Облачный API Нативное видео, контекст до часа, 22–135 ₽/час.
VLM (свой хостинг) Qwen2.5-VL-72B / InternVL2.5 H100 / H200 Открытые веса, лидер MVBench, полный контроль над данными.
VLM (edge) MiniCPM-V 2.6 / LFM2.5-VL Jetson AGX / промышленный ПК Объём 5,5 ГБ; инференс быстрее 250 мс при 4 FPS.
LLM для рассуждений Claude Sonnet 4 / Gemini 2.5 / GPT-4o Облачный API Работа с инструментами, структурированный вывод, дружат с RAG.

Берите self-hosted Qwen2.5-VL, когда: требования к локализации данных не позволяют отправлять видео в американское облако, у вас больше ~500 часов в месяц или нужно дообучить модель под свою предметку (атриумы банкоматов, аптечные ряды, переходы на нефтегазе).

Реальное, почти реальное время и форензик: бюджеты задержек

Три режима работы покрывают почти любой контекстный видеопродукт. Выбирайте режим под сценарий, а не под камеру, и проектируйте пайплайн соответственно.

Режим Целевая задержка Что и где работает Сценарии
Алерт в реальном времени <250 мс Edge CV + edge VLM (MiniCPM-V или LFM2.5-VL) Вторжение, падение, оружие против телефона, остановка линии.
Почти реальное время 1–5 с Edge CV + облачный VLM + облачный LLM Поведенческие аномалии, праздное шатание, описание сцены.
Форензик-поиск Секунды–минуты Облачные batch-задания, векторная БД Расследования, поиск на естественном языке, ежедневные отчёты.

Реальный пример из прода: 16-камерный CCTV-пайплайн на нефтегазе, описанный в ScienceDirect, выдал суммарную пропускную способность 16,5 FPS и сквозную задержку алерта 26,76 секунды на 21 часе непрерывной работы. По нашей классификации это «почти реальное время» — заметно ниже порога, при котором оператор смотрит уже на устаревший дашборд.

Экономика: облачные API против собственных GPU

Расходы делятся на три статьи. Самая предсказуемая — почасовая оплата видеотокенов в облачных API. Самая дешёвая на масштабе — аренда собственных GPU. Хранение эмбеддингов в 2026 фактически бесплатно.

Стек Цена за час видео Заметки
Gemini 2.5 Pro (низкое разрешение) ~22 ₽ Лучший выбор для роликов длиннее 10 минут; есть кэширование.
Gemini 2.5 Pro (по умолчанию) ~67 ₽ Выше recall на мелких объектах.
GPT-4o-vision ~135 ₽ Кадры подаются вручную; стабильно отдаёт JSON.
Self-hosted Qwen2.5-VL-72B (GMI) ~157 ₽ (аренда H100) Дешевле всего при нагрузке выше ~500 ч/мес.
Self-hosted Qwen2.5-VL-72B (AWS) 300–600 ₽ Наценка гиперскейлера; имеет смысл, только если этого требует комплаенс.

Два правила выбора. До 100 часов видео в месяц по совокупной стоимости выигрывают облачные API. Выше 500 часов — выигрывает self-hosted на GPU-провайдере вроде GMI или Lambda. В диапазоне 100–500 часов ответ зависит от того, насколько ваша нагрузка пиковая (тогда API) или ровная (тогда свой хостинг).

Сценарии, которые открывает GenAI

1. Описание сцены словами. Вместо рамок — одна строка, которую оператор схватывает на лету: «Двое в касках управляют погрузчиком возле паллет, 03:42» вместо «человек, человек, транспортное средство».

2. Вывод намерения. Различить «человек с телефоном топчется у периметра» и «техник на обходе». Фреймворк VERA даёт прирост AUC на 30% по сравнению с базовой версией за счёт замены общих промптов на детальные промпты-рассуждения.

3. Различение оружия и телефона. Чистая детекция объектов классифицирует один и тот же удлинённый тёмный предмет на разных кадрах по-разному. VLM, который видит контекст (поза, жест, реакция окружающих), решает это правильно, — но только если в петле остаётся оператор.

4. Форензик-поиск на естественном языке. «Покажи клипы, где кто-то уходит с рюкзаком между 15:00 и 17:00 вчера». Визуальный RAG поверх 1024-мерных эмбеддингов заменяет покадровую перемотку, — мы стабильно видим сокращение времени поиска оператором примерно на 90% после внедрения.

5. Корреляция между камерами. Отслеживание интересующего человека на 50-камерной территории. Детекция уровня 1 плюс LLM-рассуждения уровня 3 над эмбеддингами реидентификации делают это, не отправляя каждый кадр в облако.

6. Саммари алертов. Свести алерты за смену в один абзац для утренней планёрки. Именно это делает вывод VLM понятным нетехническим стейкхолдерам.

7. Синтетика для редких случаев. Сгенерировать через диффузионные модели варианты редких событий (нарушения средств защиты, падения, драки) и сбалансировать тренировочную выборку без ловли в реальности. Точность VLM на длинном хвосте классов поднимается на 10–20% при правильно подобранной доле синтетики.

Беритесь за поиск на естественном языке, когда: следователи или операторы сейчас тратят часы на покадровый просмотр каждой записи — это самая простая в обосновании ROI-история, которую можно положить на стол финансовому директору.

Шаблон реализации: структурированный вывод и визуальный RAG

В продуктах, которые мы выпускаем, тащат на себе всю работу два шаблона. Оба проще, чем кажется, когда видишь схему.

Вызов VLM со структурированным выводом

Всегда заставляйте VLM возвращать JSON по схеме. Температура 0,1, валидация, один повтор при ошибке схемы. Схема становится контрактом между зрением и рассуждением.

{
  "scene": "warehouse loading dock, dusk",
  "actors": [
    {"id": "track-42", "role": "worker", "ppe": ["hard_hat", "vest"]},
    {"id": "track-43", "role": "visitor", "ppe": []}
  ],
  "actions": ["forklift_operation", "pedestrian_walking_in_zone"],
  "anomalies": ["unauthorized_pedestrian_in_forklift_zone"],
  "confidence": 0.82
}

Визуальный RAG

Эмбеддинг каждого детектированного фрагмента кладётся в векторную БД (Qdrant, Pinecone, Weaviate). На запрос мы эмбеддим естественно-языковой запрос пользователя, достаём топ-K фрагментов, отправляем их и запрос в VLM для переранжирования и затем в LLM для связного текста. Это движок под «покажи все клипы, где у кого-то рюкзак», и он уже сегодня работает на осмысленном масштабе.

Нужен видеопродукт уровня VLM без многоквартальной разработки?

Наша спецификационно-агентная инженерия выпускает рабочий пилот за 8–12 недель. Расскажите про сценарий — мы привезём архитектуру и бюджет.

Позвоните нам → Напишите нам →

Приватность и EU AI Act с августа 2026

С 2 августа 2026 года основные положения EU AI Act действуют. Для контекстных видеопродуктов критичны три из них. Биометрическая идентификация в реальном времени по CCTV отнесена к высокому риску по приложению III: вы обязаны проводить оценку соответствия, оценку влияния на основные права, вести регистрируемые логи и обеспечивать человеческий контроль. Видео, созданное или изменённое ИИ, должно маркироваться по статье 50, — это касается дашбордов на синтетических данных, оверлеев с размытыми лицами и любых клипов, где система склеивает кадры с автогенерацией VLM-комментариев. Запрещены вывод эмоций на работе или в школах и нецелевой сбор лиц с CCTV или интернета в базы.

В нашем парном материале «Тренды и этика ИИ-видеонаблюдения в 2026» обязательства разобраны от начала до конца. Короткая шпаргалка для инженеров: по возможности держите сырое видео on-premise, логируйте каждое решение модели вместе с операторским контекстом, стройте контур человеческого контроля с первого дня и относитесь к аудит-следу как к первоклассному артефакту поставки.

Берите on-premise или суверенное облако, когда: внедрение касается жителей ЕС в трудовых отношениях, школах, здравоохранении или госсекторе — там обязательства складываются быстрее всего.

Сценарии отказа: галлюцинации, атаки, дрейф

1. Временные галлюцинации. Бенчмарк VIDHALLUC показывает точность VLM ниже 55% на классах, критичных для безопасности (пешеходы, дорожные знаки), при смазе движения или шуме сенсора. Лечится детальным промптингом, метрикой временной согласованности и ансамблем из детектора и VLM, которые должны сойтись прежде, чем алерт уйдёт наверх.

2. Атаки с подменой ввода. Напечатанный паттерн на футболке или табличке стабильно сбивает VLM на нескольких кадрах подряд. Защита: оценка водяного знака или аномалии на стороне детекции, изоляция любого текста, который VLM распознаёт как чтение из кадра, и отказ выполнять команды, которые попали в кадр в виде текста.

3. Несоответствие действия и сцены. Рабочий проходит мимо тлеющего поддона, а VLM описывает только рабочего. Линия работ MASH-VLM с CVPR 2025 показывает, что многозадачное обучение и калибровка уверенности уменьшают такие пропуски; в проде мы добавляем жёсткие правила (детекция дыма, детекция огня), которые эскалируют событие независимо от того, что написал VLM.

4. Дрейф концепта. Меняются ракурсы камер, форма сотрудников, сезонные декорации. Без петли дообучения частота ложных срабатываний заметно растёт уже после 12–18 месяцев. Стройте сбор сложных случаев до запуска, а не после.

5. Тихие регрессии при апдейтах модели. Новый релиз VLM может изменить формулировки, крайние случаи в JSON или поведение на хвостовых классах. Держите небольшой отложенный валидационный набор под каждый сценарий и прогоняйте его на каждом обновлении модели; выкатывайте только если метрика прошла порог.

Берите ансамбль и человека в контуре, когда: алерт может запустить реальное действие — заблокировать турникет, отправить наряд, инициировать задержание. Вердикт одной модели на этом уровне небезопасен.

Мини-кейс: V.A.L.T. — 770+ организаций и поиск улик с ИИ

Контекст. Американская платформа для видеодоказательств, которой пользуются больше 770 организаций: полицейские департаменты, центры защиты детей и медучреждения. Следователи тратили часы на покадровый просмотр записей в комнатах для допросов, чтобы найти нужный момент.

Что мы построили. Слой детекции событий интереса прямо на камере и облачный слой рассуждения, который выдаёт структурированные подписи и эмбеддинги по каждому событию. Следователь набирает запрос на естественном языке («клипы, где субъект говорит, что его не было на месте») и получает ранжированный список ссылок на клипы, у каждого — JSON с обоснованием и оценкой уверенности. Аудит-логи и человеческие подтверждения вшиты в цепочку доказательств.

Результат. 2 500 IP-камер под управлением, 25 000 ежедневных пользователей, выручка 727 млн ₽. Время на типовой просмотр улик резко сократилось после запуска поиска на естественном языке. Если строите похожий продукт для работы с уликами или комплаенсом, позвоните или напишите нам.

Фреймворк решений — выберите свой уровень за пять вопросов

1. Вопрос «что в кадре?» или «почему это происходит?» Чистая детекция объектов решает первый. Под второй нужны VLM и LLM.

2. Какой бюджет задержки? До 250 мс — это edge VLM (MiniCPM-V, LFM2.5-VL). 1–5 с — открывается дверь для облачных Gemini/Qwen. У форензик-поиска требований к реальному времени нет вовсе.

3. Сколько часов видео в месяц? До 100 часов — облачный API. Больше 500 часов — свой хостинг на H100. В промежутке зависит от характера нагрузки.

4. Какие регуляторы применимы? Жители ЕС, школы, больницы, правоохрана, объекты под NDAA — on-premise или суверенное облако с полным аудит-следом и маркировкой по статье 50. В остальных случаях коммерческое облако работает при сильном DPA.

5. Действие автоматическое или с участием человека? Автоматические алерты (турникеты, остановки линии) требуют ансамблевой уверенности. Алерты с участием человека (триаж оператора, поиск следователя) допускают неуверенность VLM, если показывается обоснование.

Пять ловушек, в которые попадают команды

1. VLM как входная точка. Отправлять каждый кадр в VLM — слить и бюджет, и задержку. Детекция на edge фильтрует, что доходит до VLM, — целевой показатель меньше 1% кадров.

2. Свободный текст вместо структурированного вывода. Абзац ответа невозможно распарсить. Заставьте модель отдавать JSON по строгой схеме; отбрасывайте и повторяйте при ошибке парсинга; собирайте нарушения схемы как обучающий сигнал.

3. Нет отложенной валидационной выборки. Без своего бенчмарка обновление модели тихо ломает поведение. Мы делаем оценку из 200–500 клипов на каждый сценарий до запуска любой модели и прогоняем её на каждом изменении.

4. Игнорирование операторской петли. Если клики «отклонить/эскалировать» не уходят в дообучение, вы платите за ИИ, который не учится. Петля собирается дёшево и окупается уже в первом квартале.

5. Игнор статьи 50 и FRIA. «Допилим комплаенс-UI потом» — это то, что говорят на второй неделе и о чём жалеют на восемнадцатой, когда буксует пилот в ЕС. Заложите маркировку, водяной знак и шаблон оценки влияния на основные права в спецификацию продукта с первого спринта.

Какие KPI измерять

KPI качества. mAP по классам на вашей валидационной выборке (не на COCO). Доля нарушений JSON-схемы у VLM — здоровая ниже 1%. Частота галлюцинаций по аудиту оператора — ниже 3% на критичных для безопасности метках.

Бизнес-KPI. Стоимость доставленного алерта (цель — ниже 7 ₽). Медианное время оператора от алерта до решения (ниже 30 секунд). Пропущенные события по жалобам клиентов — кварталом за квартал вниз.

KPI надёжности. P99-задержка от кадра до оператора (в пределах бюджета режима). Доля ошибок API VLM (цель <0,5%). Среднее время восстановления после отката модели (меньше 10 минут на здоровом CI/CD).

Когда GenAI на видео не нужен

GenAI — неподходящий инструмент, когда вопрос замкнут и частотен. Считаете машины на перекрёстке? YOLO + трекер. Человек или нет на дверном звонке? YOLO + трекер. Чтение номеров? OCR. Не нужен VLM; нужен точный детектор и компактный счёт за инфраструктуру.

GenAI также неуместен там, где нельзя терпеть галлюцинации и нет оператора. Полностью автоматическая классификация оружия без человека в контуре — не продукт 2026, а заявление в суд, которое ждёт своего часа. Применяйте детекцию + алерт + человеческий триаж, и пусть VLM даёт обоснование, а не вердикт.

Готовы проверить экономику и архитектуру VLM?

Пришлите количество камер, целевую задержку, объём в часах в месяц и комплаенс-периметр. Мы прорисуем стек и дадим оценку поставки — собранную по-агентски, быстрее, чем вы ожидаете.

Позвоните нам → Напишите нам →

Путь от пилота до прода за 90 дней

Недели Этап Результат
1–2 Спецификация и оценочная выборка Оценка из 200–500 клипов на сценарий; согласованы бюджеты задержек.
3–5 Пайплайн v1 Edge YOLO + трекер; облачный Gemini/Qwen с JSON-схемой.
5–7 Визуальный RAG и поиск Векторная БД в проде; поиск на естественном языке за фича-флагом.
7–9 Усиление Тесты на галлюцинации, ансамблевые проверки, операторская петля, наблюдаемость.
9–11 Комплаенс Маркировка по статье 50, аудит-логи, шаблон FRIA, RBAC, шифрование.
11–13 Пилот и отчёт по ROI Реальные данные клиента; отчёт по KPI до и после; план раскатки.

Это типовой график, по которому мы работаем с новыми клиентами на контекстных видеопродуктах. Сжатие против классических разработок даёт агентный скаффолдинг и тот факт, что слой моделей теперь — это API, а не исследовательский проект.

Частые вопросы

Чем контекстный видеоинтеллект отличается от классического компьютерного зрения?

Классическое CV отвечает «что в кадре». Контекстный видеоинтеллект кладёт поверх CV ещё VLM и LLM, которые отвечают «что происходит, зачем и что нам с этим делать». На практике это означает связный текст, метки намерений и поиск на естественном языке вместо голых рамок.

С какого VLM стартовать на контекстном видеопродукте в 2026?

Большинству клиентов мы рекомендуем начать с Gemini 2.5 Pro: нативное видео, контекстное окно в час, режим низкого разрешения по 22 ₽/час. Для развёртываний с требованиями суверенности данных мы переходим на self-hosted Qwen2.5-VL-72B на H100. Для инференса на edge в реальном времени MiniCPM-V 2.6 умещается в 5,5 ГБ и выдаёт 4 FPS на Jetson AGX Orin.

Насколько быстро VLM реально отвечает на живом видео?

Edge VLM (LFM2.5-VL, MiniCPM-V) уже сегодня дают меньше 250 мс при 4 FPS. Облачные VLM укладываются в 1–2 секунды на 30-секундный клип у Gemini и 5–10 секунд на минутный клип у self-hosted Qwen. За пределами этого вы попадаете в режим форензик-поиска, что нормально для расследований, но не для алертов реального времени.

Применяется ли EU AI Act к моему видеопродукту, если я не в ЕС?

Если ваша система обрабатывает данные жителей ЕС — да, регулирование экстерриториальное. Большинство B2B-продуктов контекстного видео так или иначе касаются данных ЕС через того или иного клиента. Проектируйте под комплаенс с первого спринта.

Как удержать VLM от галлюцинаций на критичных для безопасности событиях?

Не полагайтесь на VLM в одиночку. Стройте ансамбль: классическая детекция плюс подпись от VLM плюс рассуждение LLM, где двое из трёх должны сойтись прежде, чем система эскалирует. Добавьте жёсткие правила на дым, огонь и оружие. Держите человека в контуре на любом алерте с высокими ставками.

Облачный API или self-hosted VLM — что дешевле на моём масштабе?

До ~100 часов видео в месяц по совокупной стоимости выигрывают облачные API (Gemini 2.5 Pro в режиме низкого разрешения). Выше ~500 часов в месяц выигрывает self-hosted Qwen2.5-VL-72B на GPU-провайдере (GMI, Lambda). Между этими цифрами решают пиковость нагрузки и комплаенс.

Как на самом деле выглядит архитектура визуального RAG?

Edge-устройства складывают 1024-мерные эмбеддинги фрагментов (Twelve Labs Marengo или Florence-2) в векторную БД (Qdrant, Pinecone). На запрос мы эмбеддим естественно-языковой запрос пользователя, достаём топ-K фрагментов, отправляем в VLM для переранжирования и затем в LLM для связного ответа. Это пайплайн из трёх вызовов, который масштабируется горизонтально.

Сколько занимает разработка контекстного видеопродукта в Фора Софт?

Рабочий пилот — 5–10 камер, edge-детекция, облачный VLM со структурированным выводом, базовый поисковый интерфейс — обычно занимает 8–12 недель за счёт спецификационно-агентной инженерии. Сроки промышленной раскатки зависят от сертификаций, интеграций и количества камер. Опишите задачу — и мы дадим конкретную цифру.

Архитектура видеонаблюдения

YOLO + ByteTrack + BoT-SORT + DeepSORT, гайд 2026

Стек детекции и трекинга, который кормит любой пайплайн контекстного видео.

Edge или облако

Edge AI или облачный AI для видеонаблюдения

Задержки, цена и EU AI Act — где разместить инференс.

Приватность и доверие

Тренды ИИ-видеонаблюдения 2026: качество данных и этика

EU AI Act, GDPR и плейбук доверия для биометрических видеопродуктов.

Агентное видео

Видео-AI-агенты в 2026: архитектура и экономика

Бюджеты задержек, поминутная экономика и стек агентов для живого видео.

Инженерные практики

Обработка видео в реальном времени с ИИ: лучшие практики

Архитектурные паттерны и бюджеты задержек по итогам 625+ выпущенных видеопроектов.

Готовы выпустить контекстный видеоинтеллект?

Ответ 2026 для серьёзных видеопродуктов — слоистый стек: YOLO и трекер на edge, vision-language model для подписи к сцене, LLM для рассуждения о намерениях и человек в контуре на принятии решений с высокими ставками. Детекция стала коммодити; преимущество там, где рамки превращаются в текст, запросы и решения.

Если вы прорабатываете заказной контекстный видеопродукт — наблюдение, промышленный мониторинг, спорт, аналитика продаж, здравоохранение — технологические выборы понятны. Сложно совместить их с вашим бюджетом задержек, месячным объёмом и регуляторным периметром. Это и есть тот разговор, который мы ведём с потенциальными клиентами по телефону или в письме: расскажите про ограничения, и мы привезём архитектуру и оценку поставки.

Поговорите с командой, которая выпустила больше 600 видео- и AI-продуктов

Edge-инференс, подписи VLM, рассуждения LLM, потоки данных под EU AI Act. Мы делаем это каждый день — и быстрее, чем вы ожидаете, благодаря агентной инженерии.

Позвоните нам → Напишите нам →

  • Технологии
    Услуги
    Процессы
    Разработка