Детекция аномалий в видеонаблюдении: алгоритмы и архитектура (2026)

Главное

• Универсальные алгоритмы детекции аномалий не работают в видеонаблюдении. Готовый isolation forest или one-class SVM, обученный на табличных данных, не выдерживает изменений освещения, погоды, перекрытий и смены ракурса камеры. В продакшене нужны фичевые пайплайны, заточенные под конкретный домен.

• У четырёх семейств алгоритмов очень разный профиль затрат. Статистические — дёшево, но хрупко. Дистанционные — дёшево, но без учёта времени. Реконструктивные — средне, нужны только нормальные данные. Последовательностные — дорого, зато улавливают временные паттерны. Выбирайте по своим данным и бюджету задержки.

• Доля ложных срабатываний — единственная операционная метрика, которая важна. Модель с полнотой 95 % и долей ложных срабатываний 30 % за две недели приучает операторов игнорировать оповещения. Сначала тюньте на точность, потом, когда появится доверие, поднимайте чувствительность.

• Детекция дрейфа (drift) — обязательна. Модели, обученные на летних записях, деградируют зимой; модели, обученные на фиксированном ракурсе, ломаются после поворота камеры. Мониторинг распределения уверенности модели ловит дрейф раньше пользователей.

• EyeBuild снизил долю ложных срабатываний на 73 % за 6 недель — целевой майнинг сложных негативов и временное сглаживание, чисто алгоритмическая работа без нового железа.

Почему этот плейбук написала Фора Софт

С 2005 года Фора Софт выпустила более 50 проектов по видеонаблюдению. EyeBuild — наш флагманский деплой системы детекции аномалий: автономные камеры на солнечной энергии с ИИ, охраняющие сотни строительных площадок, работают по 4G/5G и используют ансамбль YOLO + автоэнкодер прямо на устройстве. VALT обслуживает более 650 юридических организаций и обеспечивает поиск по событиям внутри записанных видео.

В 2024–2025 годах мы выпустили четыре продакшен-системы детекции аномалий и провели аудит ещё двух. Паттерны из этого руководства — из этих проектов и из открытых бенчмарков (UCF-Crime, ShanghaiTech, MVTec AD).

Если вы ML-инженер, CTO продукта в области видеонаблюдения или интегратор умных зданий и сейчас оцениваете внедрение детекции аномалий, это руководство подскажет, какое семейство алгоритмов подходит под ваш сценарий, какая архитектура переживает дрейф и где обычно ломаются проекты.

Нужна система детекции аномалий, которая действительно работает?

Пришлите нам описание парка камер, среды и целевых событий. За 48 часов вернёмся с одностраничным прогнозом по модели и архитектуре. Бесплатно.

Позвоните нам → Напишите нам →

Почему универсальная детекция аномалий не работает в продакшене

Универсальная детекция аномалий (sklearn IsolationForest на плоских табличных фичах) подходит для мошенничества с картами и серверных метрик. Для видео она не годится. Три причины:

1. Видео — это не табличные данные. Кадр — это 1920×1080×3 пикселя. Сначала модель должна спроецировать его в фичевое пространство: сырые пиксели, CNN-эмбеддинги, оптический поток, маски переднего плана, детекции объектов. Выбор фичевого пайплайна влияет на результат сильнее, чем выбор самого алгоритма детекции аномалий поверх него.

2. Норма нестационарна. Освещение, погода, время суток, сезон — «норма» в 6 утра летом — это не «норма» в 6 вечера зимой. Модели, обученные на статичном срезе, дрейфуют быстро. В продакшене нужны скользящие базовые линии или модели, обусловленные доменом.

3. Аномалии редкие и асимметричные. Настоящие аномалии (проникновение, падение, пожар) — это 0,001 % кадров. Доля ложных срабатываний даже 1 % даёт более 1000 оповещений в день на парке из 100 камер — операционно непригодно. Планка — точность, а не полнота.

Четыре семейства алгоритмов

Семейство	Примеры	Стоимость инференса	Когда подходит
Статистические	Z-score, IQR, расстояние Махаланобиса	Микросекунды	Очень узкие фичи (гистограмма движения, яркость)
Дистанционные	kNN, LOF, isolation forest, one-class SVM	Миллисекунды	Эмбеддинги детекций, фичи на уровне кадра
Реконструктивные	Автоэнкодер, VAE, GAN, U-Net	Десятки мс (NPU 1-го уровня)	Пиксельные аномалии, не нужны размеченные негативы
Последовательностные	LSTM, Transformer, TimesNet, MAE-ST	Сотни мс	Поведенческие паттерны во времени

Статистические методы. Дёшево, интерпретируемо, хрупко. Z-score по гистограммам движения ловит резкие изменения; расстояние Махаланобиса по небольшому вектору фич ловит многомерные выбросы. Используются как первичный фильтр перед более тяжёлым инференсом.

Дистанционные методы. Обучаются на эмбеддингах детекций (векторы фич на основе CNN) и помечают сэмплы, далёкие от обучающего распределения. Isolation forest — рабочая лошадка: быстрый, устойчивый, обучается только на нормальных данных. One-class SVM работает на меньших датасетах, но плохо масштабируется. Local Outlier Factor (LOF) справляется с разной плотностью данных там, где остальные пасуют.

Реконструктивные методы. Автоэнкодер учится сжимать и восстанавливать «нормальные» кадры; высокая ошибка реконструкции = аномалия. Обучается на неразмеченных нормальных записях — огромный плюс для видеонаблюдения, где размеченные аномалии редкость. Вариационные автоэнкодеры (VAE) и варианты на основе GAN дают лучшее качество ценой большего вычислительного бюджета.

Последовательностные методы. Улавливают временные паттерны — слоняющиеся люди, оставленные предметы, нетипичные траектории. Архитектуры LSTM и Transformer предсказывают следующий кадр; большая ошибка предсказания = аномалия. TimesNet и MAE-ST (masked autoencoder spatio-temporal) — state-of-the-art 2026 года на бенчмарках вроде UCF-Crime.

Берите дистанционные методы (isolation forest), когда: у вас есть эмбеддинги детекций из YOLO и нужен быстрый, устойчивый скоринг аномалий на edge-устройствах.

Берите реконструктивные методы (автоэнкодер), когда: размеченных аномалий мало или их совсем нет. Обучайтесь на нормальных записях; высокая ошибка реконструкции отметит ненормальные сцены.

Берите последовательностные методы (Transformer), когда: аномалия временная — слоняющиеся люди, оставленные предметы, нетипичные траектории. Тяжелее по вычислениям; обычно идёт как верификация на стороне облака.

Берите ансамбль (несколько семейств), когда: доля ложных срабатываний критична. Согласие двух независимых детекторов сильнее, чем любой из них по отдельности.

Что специфично именно для видео

Разделение переднего и заднего плана. Большинство алгоритмов детекции аномалий должны работать по переднему плану (двигающимся объектам), а не по всему кадру. Вычитание фона через MOG2 или специализированную сеть сегментации сокращает размер фичевого пространства на 90 % и значительно улучшает соотношение сигнал/шум.

Движение и аномалия — не одно и то же. Все аномалии связаны с движением; не каждое движение — аномалия. Идущий человек — это не аномалия; человек, перелезающий через забор в 3 ночи, — аномалия. Детектор должен учитывать движение в связке с контекстом (класс объекта + место + время), чтобы их различать.

Сдвиги по освещению, погоде и времени суток. Обучающие данные должны покрывать весь рабочий диапазон деплоя. Аугментируйте обильно — яркость, контраст, погодные оверлеи (дождь, туман), ИК и видимый спектр, золотой час. Доменная рандомизация распространяется и на синтетические данные, когда реального покрытия не хватает.

Инвариантность к ракурсу и зуму. Модель, обученная на одном ракурсе, ломается, когда камеру перемещают или меняют зум. Либо включайте геометрическую аугментацию в обучение (перспективные сдвиги, разный зум, варианты кадрирования), либо обучайте по одной модели на камеру с онлайн-адаптацией.

Эталонная архитектура

Рисунок 1. Продакшен-детекция аномалий — инференс на edge, edge-фильтр, верификация в облаке, разбор оператором, телеметрия и петля дообучения.

В архитектуре пять активных слоёв и одна петля дообучения. На edge работает облегчённая детекция (YOLO + автоэнкодер) на 30 fps. Edge-фильтр применяет порог уверенности и временное сглаживание (требует совпадения на 3 из 5 подряд идущих кадров перед оповещением). Облачный верификатор запускает более тяжёлый Transformer или Vision-Language Model на загруженных снимках, плюс корреляцию между камерами. Очередь оператора приоритезирует события с высокой уверенностью. Телеметрия отслеживает распределение уверенности по каждой камере и времени суток; пайплайн обучения принимает размеченные ложные срабатывания и каждую неделю запускает дообучение.

Пайплайн данных — разметка, аугментация, синтетика

Разметка. Активное обучение бьёт разметку в лоб. Модель предлагает кадры, в которых она не уверена; человек их размечает. Время разметки сокращается в 5–10 раз против случайного семплинга. CVAT, Roboflow Annotate и Label Studio поддерживают активное обучение в петле.

Аугментация. Яркость и контраст, погода (наложения дождя и тумана), перспективные сдвиги, размытие движения, имитация шума сенсора. Albumentations — рабочая лошадка среди Python-библиотек. Аугментируйте до 5–10-кратного объёма исходного датасета.

Синтетические данные. Unity, Unreal Engine, NVIDIA Omniverse и BlenderProc генерируют физически корректные синтетические записи видеонаблюдения. Используйте для покрытия редких событий (драки, кражи, пожар), где реальных записей мало. Доменная рандомизация позволяет аккуратно смешивать синтетику с реальными данными. SyntheticAIData и Datagen — это вендоры с готовыми синтетическими датасетами.

Майнинг сложных негативов. Самая высокорентабельная техника. Периодически забирайте ложные срабатывания из продакшена, размечайте их как «норму» и дообучайте модель. Это сдвигает решающую границу в нужную сторону. Снижение ложных срабатываний на 73 % в EyeBuild — почти полностью результат майнинга сложных негативов.

Контроль ложных срабатываний — единственная важная метрика

Модель с полнотой 95 % и долей ложных срабатываний 30 % за две недели приучает операторов игнорировать оповещения. Когда доверие потеряно, модель операционно мертва даже при полноте 99 %. Три приёма, чтобы прижать ложные срабатывания:

1. Пороги уверенности. Поднимайте порог по каждой камере на основе наблюдаемой доли ложных срабатываний. У камеры с большим числом ложных — более строгий порог; у камеры с низким — оставляйте чувствительность. Тюнинг по камерам выигрывает у глобального порога в 3–5 раз.

2. Временное сглаживание (3 из 5). Требуйте, чтобы детекция сработала на 3 из 5 подряд идущих кадров, прежде чем выдать оповещение. Артефакты на одном кадре (шум сенсора, кратковременное перекрытие) отсекаются. Добавляет 100–200 мс задержки и снижает ложные срабатывания на 60–80 %.

3. Корреляция между камерами. Проникновение по периметру должно быть видно с соседних камер. Детекция на одной камере без подтверждения с других понижается в приоритете. Это ещё уменьшает ложные срабатывания ценой небольшой потери полноты.

Детекция дрейфа и расписание дообучения

Модели, обученные на летних записях, деградируют зимой. Новые ракурсы камер, новые этапы стройки, новые типы машин — всё это незаметно подтачивает точность. Сигнал — сдвиг распределения уверенности модели со временем. Отслеживайте среднее и дисперсию уверенности по каждой камере в недельном разрезе; резкое падение или расширение распределения говорит о дрейфе.

Расписание дообучения. Стабильный продакшен — раз в месяц на свежей партии сложных негативов. Новый деплой или смена окружения — раз в неделю первые 2 месяца, затем раз в месяц. Инфраструктура дообучения должна быть автоматизирована — ручные циклы отстают от дрейфа.

Canary-деплой. Новая модель уходит на 5 % камер; в течение 7 дней мониторите долю ложных срабатываний, полноту на размеченной валидационной выборке и распределение уверенности. Если всё чисто, ракатываетесь до 25 % и далее до 100 %. Всегда держите предыдущую версию модели на диске для отката.

Модель детекции аномалий выдаёт ложные срабатывания?

Пришлите нам двухнедельную выборку продакшен-данных. За 5 рабочих дней мы найдём корневую причину ложных срабатываний и предложим план исправления. Бесплатно.

Позвоните нам → Напишите нам →

Реальные бенчмарки — UCF-Crime, ShanghaiTech, EyeBuild

UCF-Crime. Открытый бенчмарк с 13 классами аномалий (насилие, арест, поджог, нападение, ДТП, кража со взломом, взрыв, драка, дорожная авария, ограбление, стрельба, магазинная кража, кража, вандализм). 1900 обучающих видео, 290 тестовых. State-of-the-art по AUC на уровне кадра в 2026 году — около 88–90 %; слабосупервизорные методы — около 84–86 %.

ShanghaiTech Campus. 437 видео с 13 фиксированных камер на университетском кампусе. Классы аномалий: катание на скейте, езда на велосипеде, прыжки, драки. State-of-the-art по AUC на уровне кадра в 2026: ~95 %.

MVTec AD. Промышленный датасет с дефектами (15 категорий, 5354 изображения). Не видео, а одиночные изображения — полезен для бенчмаркинга автоэнкодеров. PaDiM, PatchCore и EfficientAD в 2026 году выбивают по AUROC более 99 % на изображениях.

Наши данные по EyeBuild (под NDA, обезличенные). Около 220 камер на 18 строительных площадках. До тюнинга: точность 28 % при полноте 80 % на детекции проникновений в нерабочее время. После тюнинга (майнинг сложных негативов + временное сглаживание): точность 73 % при полноте 78 % — улучшение в 2,6 раза в категориях, где важно доверие оператора, при минимальной потере полноты.

Своя разработка или готовое решение

Предобученные модели в коммерческих камерах (Axis, Hanwha, Avigilon). Привязаны к железу и вендору, нормально справляются с базовой детекцией людей и машин. Спотыкаются на вертикально-специфичных событиях (соблюдение СИЗ, цепочка хранения вещдоков, поведение строительной техники).

Облачные API (AWS Rekognition, Google Cloud Vision). Просто стартовать; стоимость становится определяющей при масштабе парка (см. наш гид по edge AI). Только базовая детекция; никакой вертикальной специализации.

Open-source-модели и предобученные веса. YOLO26, MMDetection, библиотека anomalib — отличные стартовые точки. Нужен файнтюнинг на ваших доменных данных и MLOps для поддержки.

Кастомная разработка. Это правильный выбор, когда: (а) у вас есть доменно-специфичная модель аномалий, которой нет в готовых продуктах; (б) комплаенс или требования к локализации данных требуют инференса on-prem или в вашем VPC; (в) масштаб парка делает инвестиции в инженерию оправданными.

Мини-кейс — EyeBuild снизил ложные срабатывания на 73 %

EyeBuild ставит ИИ-камеры на солнечных батареях на стройках — uplink по 4G/5G, проводного интернета нет, инференс должен идти прямо на устройстве. Изначальная продакшен-модель (YOLOv8n + простой порог уверенности) выдавала примерно 120 событий на площадку за ночь. Операторы фиксировали более 70 % ложных срабатываний — в основном белки, еноты, развевающиеся тенты, фары проезжающих машин.

Шестинедельная работа. Недели 1–2: подключили в продакшене телеметрию по распределению уверенности на каждой камере. Недели 3–4: спринт по майнингу сложных негативов — собрали 2800 снимков ложных срабатываний, разметили как «норму» и дообучили YOLO с focal loss. Неделя 5: добавили временное сглаживание (совпадение на 3 из 5 кадров). Неделя 6: запустили canary-деплой на 12 площадок и далее раскатали до 100 %.

Результат. Число событий на площадку за ночь упало с ~120 до ~32; точность поднялась с 28 % до 73 %; полнота осталась 78 % (потеряли 2 процентных пункта). Субъективная оценка доверия операторов выросла с 2,4/5 до 4,2/5. Хотите похожий аудит на своём парке камер? Позвоните нам.

Как выбрать алгоритм за пять вопросов

В1. Есть ли у вас размеченные аномалии? Нет: реконструкция (автоэнкодер). Да, но мало: слабосупервизорные методы. Да, много: супервизорный классификатор.

В2. Аномалия временная? Покадровые аномалии (нарушитель, видимый в момент X): автоэнкодер или дистанционные методы. Эволюционирующие во времени аномалии (слоняющиеся люди, оставленные предметы): последовательностные.

В3. Бюджет задержки? <10 мс: статистические или дистанционные. 10–100 мс: автоэнкодер или неглубокий Transformer. >100 мс: полный Transformer или VLM в облаке.

В4. Инференс на edge или в облаке? Edge (NPU 1-го уровня): автоэнкодер или дистанционные. Облако: ансамбль из полного Transformer и VLM.

В5. Профиль дрейфа? Стабильная сцена, фиксированная камера, предсказуемое освещение: проще модели справляются. Улица, разные сезоны, мобильная камера: вкладывайтесь в петлю дообучения, чувствительную к дрейфу.

Подводные камни

1. Оптимизировать полноту до того, как поднимется точность. Полнота звучит важно, но операторов держит в работе именно точность. Сначала тюньте на точность; чувствительность повышайте, когда появится доверие.

2. Обучение на одной камере и деплой на много. Модели, обученные на одном ракурсе, не работают на других. Либо включайте многоракурсные данные в обучение, либо обучайте по одной модели на камеру с онлайн-адаптацией.

3. Нет мониторинга дрейфа. Без отслеживания распределения уверенности вы узнаете о деградации модели только по жалобам клиентов. Заложите телеметрию с первого дня.

4. Пропуск временного сглаживания. Покадровые детекции шумные. Требуйте согласия по нескольким кадрам (3 из 5) перед оповещением; ложные срабатывания сократятся на 60–80 % при незначительной потере полноты.

5. Забыть про приватность и GDPR. Детекция аномалий часто связана с захватом лиц или профилированием поведения. С первого дня планируйте редактирование PII прямо на устройстве, режим работы с биометрией по статье 9 GDPR (особая категория данных) и правила хранения.

Какие KPI измерять

KPI качества. Точность (цель: >70 % до появления доверия, >85 % после). Полнота (цель: >75 % по критичным событиям). Доля ложных срабатываний на камеру в день (цель: <3). AUC на валидационной выборке (цель: >0,85).

Бизнес-KPI. Доля разобранных оператором оповещений (% оповещений, разобранных в рамках SLA). Число ложных срабатываний по жалобам клиентов. Среднее время обнаружения критичных событий.

KPI надёжности. Сигнал дрейфа модели (изменение средней уверенности неделя к неделе >5 % — триггер оповещения). Успешность OTA-деплоя моделей (цель: 99,8 %). Задержка инференса p99 (цель: <50 мс на edge 1-го уровня).

FAQ

Isolation forest или one-class SVM — что лучше?

Isolation forest лучше масштабируется и быстрее обучается на больших датасетах (миллионы сэмплов). One-class SVM даёт более высокую точность на маленьких датасетах, но деградирует на объёмах больше 50 тыс. сэмплов. Для видеонаблюдения по умолчанию берите isolation forest, если ваш обучающий набор не меньше 5 тыс.

Можно ли использовать Vision-Language Model (GPT-4V, Gemini) для детекции аномалий?

Да, для верификации в облаке. Отправьте помеченный кадр в GPT-4V с промптом — «Этот человек делает что-то необычное?» — и используйте ответ как второе мнение. Добавляет 1–3 секунды задержки и поэтапную стоимость; используйте только на событиях, помеченных на edge, а не на каждом кадре.

Сколько занимает обучение кастомной модели?

С нуля на ваших данных: 6–10 недель. Файнтюнинг предобученных YOLO + автоэнкодер под ваш домен: 2–3 недели. Продакшен-деплой с мониторингом и петлёй дообучения: добавьте 4–6 недель. Быстрее — за счёт переиспользования паттернов нашего Agent Engineering из EyeBuild и VALT.

Какой объём датасета нужен?

Для автоэнкодера: 50–100 часов нормальных записей, покрывающих все условия (день/ночь/погода). Для супервизорной модели: 500+ размеченных примеров аномалий на класс. Аугментация увеличивает объём в 5–10 раз. Синтетические данные закрывают пробелы по редким событиям.

Соответствуют ли системы детекции аномалий требованиям GDPR?

Если они захватывают лица или биометрию, применяется статья 9 GDPR (особая категория данных). Меры: редактирование PII прямо на устройстве (размытие лиц до того, как кадр уйдёт с камеры), минимизация данных (отправляйте события, а не сырые кадры), ограничения хранения, DPIA. Если система используется для мониторинга на рабочем месте, может также применяться классификация уровня риска по EU AI Act.

Что такое anomalib и стоит ли его брать?

anomalib — это open-source-библиотека от Intel/OpenVINO с реализациями PaDiM, PatchCore, EfficientAD и других SOTA-алгоритмов детекции аномалий. Отлично подходит для промышленной детекции дефектов (в стиле MVTec AD) и хорошая стартовая точка для подходов с автоэнкодерами в видеонаблюдении.

Может ли инференс на edge тянуть детекцию аномалий на 30 fps?

Да — на NPU 1-го уровня (Hailo-8, Jetson Orin Nano, Coral). YOLO26 + лёгкий автоэнкодер дают 30 fps на 1080p при энергопотреблении менее 10 Вт. Железо 2-го и 3-го уровня требует пропуска кадров или меньших моделей.

Как оценить, какой вендор детекции аномалий лучше?

Запустите 4-недельный пилот с двумя-тремя финалистами на ваших реальных записях. Меряйте точность и полноту на вашей размеченной валидационной выборке, долю ложных срабатываний за 2 недели в продакшене и поведение модели при дрейфе условий. Бенчмарки вендоров на их собственных данных не переносятся на ваши.

Что почитать дальше

Edge AI

Edge AI для видеонаблюдения

Парный гид по уровням железа и развёртыванию.

ИИ-система детекции аномалий

Более ранний обзор той же темы на верхнем уровне.

VMS

Видеоаналитика и наблюдение

Куда уходят события аномалий после детекции.

Архитектура

Масштабируемый дизайн VMS

Архитектура VMS для парков камер.

AI Infra

MCP для видеоприложений

Как добавить слой LLM-агента поверх событий детекции.

Готовы запустить детекцию аномалий, которой будут доверять операторы?

Универсальные алгоритмы не работают на видео. У четырёх семейств — статистических, дистанционных, реконструктивных, последовательностных — очень разные профили по затратам и точности. Выбирайте по своим данным и бюджету задержки; для контроля ложных срабатываний рассмотрите ансамбль.

В первые 90 дней точность важнее полноты. Майнинг сложных негативов и временное сглаживание стабильно срезают ложные срабатывания на 60–80 % в продакшене. Детекция дрейфа обязательна. Петля дообучения должна быть автоматизирована — ручные циклы отстают от реального дрейфа.

Хотите шестинедельный план улучшения детекции аномалий?

Пришлите нам описание парка камер, текущую модель и долю ложных срабатываний. За 5 рабочих дней вернёмся с планом повышения точности. Бесплатно.

Позвоните нам → Напишите нам →

Технологии

Тип доставки	Контроль	Масштаб	Стоимость	Когда выбирать
OTT (ваша платформа)	Всё под вашим контролем	от 1 тыс. до 100+ млн зрителей	3–67 млн ₽ и выше на разработку; 150 тыс.–3,7 млн ₽/мес на эксплуатацию	Уникальный контент, сложный биллинг, контроль над брендом
SaaS OTT (Brightcove, Kaltura)	Платформа владеет инфраструктурой	от 1 до 500 тыс. зрителей	75 тыс.–375 тыс. ₽/мес фикс; egress включён	MVP, нет команды медиа-инженерии, быстрый запуск
IPTV (телеком-оператор)	Оператор контролирует сеть и доставку	Миллионы (закрытая сеть)	от 75 млн ₽ (только корпоративный сегмент)	Унаследованные пакеты платного ТВ (кабель, DSL); постепенно уходит в 2026
Эфир / кабель	Регулирование вещания (FCC и аналоги)	Миллионы (линейное лицензированное вещание)	от 750 млн ₽ (физическая инфраструктура)	Лицензированное линейное ТВ (морально устаревшее в 2026)

Вариант	Сроки запуска	Стоимость в первый год	Кому подходит
SaaS OTT (Brightcove, Kaltura, JW Player)	2–4 недели	900 тыс.–3,7 млн ₽	MVP, нет ops-команды, быстрый запуск
Гибрид (SaaS + кастомные модули)	8–12 недель	3,7–11 млн ₽	Кастомный биллинг, брендинг, единая платформа
Полностью кастом (Wowza + собственный код)	16–24 недели	11–37 млн ₽	500+ тыс. минут просмотра, контроль затрат, дифференциация
Корпоративный multi-tenant кастом	24–52 недели	30–75 млн ₽ и выше	B2B-маркетплейс OTT, региональные операторы

Тир	Стоимость (Фора Софт)	Срок до v1	Набор протоколов	Пиковая аудитория	Модель инфраструктуры
Тир 1 — лёгкий	2,6–5,2 млн ₽	10–14 нед.	RTMP/WHIP вход → LL-HLS на выход	< 10K	Полностью управляемая (Mux / Cloudflare)
Тир 2 — креатор	6–11 млн ₽	16–24 нед.	RTMP/WHIP + LL-HLS + WebRTC-чат	10K–50K	Гибрид: управляемые сервисы + собственные
Тир 3 — корпоративный	от 13 млн ₽	24–40 нед.	WebRTC SFU + LL-HLS + multi-CDN	50K–1M+	Self-hosted origin + управляемый edge
Дополнение — AI-набор	+1,1–2,6 млн ₽	+3–5 нед.	Любой	Любая	Cloudflare AI / OpenAI / LiveKit Agents

Функция	Часы	Стоимость	Тир	Заметки
Аутентификация + профиль пользователя	40–70	180–337 тыс. ₽	1+	OAuth, email, сброс пароля, MFA по желанию
Базовый ингест → воспроизведение (LL-HLS)	180–320	825 тыс.–1,5 млн ₽	1+	Включая ингест RTMP/WHIP, лестницу из трёх ступеней, плеер
Запись + библиотека VOD	50–90	225–450 тыс. ₽	1+	Архив на S3/R2, подписанные URL, HLS catch-up
Live-чат + модерация	80–160	375–750 тыс. ₽	1+	WebSocket, бан/мьют, медленный режим, фильтр сквернословия
Реакции, подарки, донаты	40–70	180–337 тыс. ₽	2+	Stripe/Paddle, разделение выплат
Подписки + paywall	60–120	270–562 тыс. ₽	2+	Триал, dunning, сервис прав доступа
Реклама / VAST + SSAI	90–170	412–787 тыс. ₽	2+	SpotX / Google IMA / AWS MediaTailor
DVR + перемотка	60–110	270–525 тыс. ₽	2+	Буфер на 30–60 мин., тюнинг origin
Дашборд аналитики	80–140	375–675 тыс. ₽	2+	Конкурентность, QoE, выручка; Mux Data или своё
AI-субтитры + перевод в реальном времени	60–110	270–525 тыс. ₽	2+	Cloudflare Workers AI, AWS Transcribe, SyncWords
AI-хайлайты + авто-обложки	90–160	412–750 тыс. ₽	2+	Детекция сцен, нарезки по всплескам реакций
Multi-DRM (Widevine + FairPlay)	80–140	375–675 тыс. ₽	3	EZDRM/BuyDRM + ротация ключей
WebRTC SFU (интерактив)	200–360	900 тыс.–1,6 млн ₽	3	LiveKit / mediasoup / Janus, авто-масштабирование
Резервирование multi-CDN	80–140	375–675 тыс. ₽	3	Active-active обмен токенами, проверки здоровья
Готовность к SOC2 / HIPAA	120–200	562–937 тыс. ₽	3	Контроли, логирование, управление ключами, аудиты

Сервис	Модель	Стартовая цена	Egress	Для чего лучше
Cloudflare Stream	Минуты доставки	75 ₽ за 1 000 мин.	Включён	Предсказуемые счета; гибрид live + VOD
Mux	Кодирование + доставка	~1,1 ₽/мин кодирование; 0,07 ₽/ГБ доставка	За ГБ (по тирам)	Дев-ориентированный; отличная наблюдаемость (Mux Data)
AWS IVS	Часы входа + ГБ выхода	150 ₽/час HD-вход; 37 ₽/час multitrack	~6 ₽/ГБ базово	AWS-нативный; интерактивные функции
LiveKit Cloud	Участник-минуты	~0,03 ₽/мин (WebRTC)	Включён	Интерактив, AI-агенты, задержка меньше секунды
Agora	Минуты (по качеству)	74–299 ₽ за 1 000 мин. HD	Включён	Китай / APAC; устаревшие ILS-клиенты
Dolby.io / 100ms	Участник-минуты	Индивидуально / по тирам	Включён	Премиальный звук, событийные форматы

Детекция аномалий в видеонаблюдении: алгоритмы и архитектура (2026)

Почему этот плейбук написала Фора Софт

Почему универсальная детекция аномалий не работает в продакшене

Четыре семейства алгоритмов

Что специфично именно для видео

Эталонная архитектура

Пайплайн данных — разметка, аугментация, синтетика

Контроль ложных срабатываний — единственная важная метрика

Детекция дрейфа и расписание дообучения

Реальные бенчмарки — UCF-Crime, ShanghaiTech, EyeBuild

Своя разработка или готовое решение

Мини-кейс — EyeBuild снизил ложные срабатывания на 73 %

Как выбрать алгоритм за пять вопросов

Подводные камни

Какие KPI измерять

FAQ

Что почитать дальше

Готовы запустить детекцию аномалий, которой будут доверять операторы?

Похожие статьи

Хотите обсудить ваш проект?

Слой	Выбор	Почему
Ингест	RTMP + WHIP, фронтированные Cloudflare или Mux	RTMP — ради совместимости со всеми энкодерами; WHIP — ради ингеста с задержкой меньше секунды из OBS 30+
Транскодирование	Mux / Cloudflare Stream	Лестница ABR из трёх ступеней, per-title там, где контент оправдывает compute
Доставка	LL-HLS поверх CDN Cloudflare / Mux	Задержка 2–3 секунды, масштабируется до миллионов, кэшируется на CDN
Интерактивность	LiveKit Cloud для соведущих и гостей	WebRTC с задержкой меньше 500 мс только для активных участников
Чат	Собственный WebSocket + Redis Streams	Полный контроль над модерацией, подарками, UI; в 10 раз дешевле Stream Chat на масштабе
Запись / VOD	S3 или R2, подписанные URL, HLS catch-up	Дешёвое долгосрочное хранение, ноль egress через R2 в связке с доставкой Cloudflare
AI-слой	Cloudflare Workers AI / OpenAI Whisper	Субтитры, перевод, детекция хайлайтов; pay-as-you-go
Наблюдаемость	Mux Data + Grafana	QoE по каждому зрителю + метрики инфраструктуры в одном дашборде

Статья	Допущение	Месяц, ₽
Доставка (LL-HLS через Mux)	3 класса × 45 мин × 30 дней × в среднем 12 000 зрителей @ 2,8 Мбит/с	285–345 тыс. ₽
Кодирование	4 050 live-минут @ ~1,1 ₽/мин	4,5 тыс. ₽
Чат + вовлечённость	Собственный WebSocket на AWS (c7i.xlarge × 3 + Redis)	33 тыс. ₽
Запись + VOD-хранилище	R2, 400 часов архива, хранение 6 месяцев	3,3 тыс. ₽
AI-субтитры + модерация	4 050 минут субтитров + вызовы API токсичности	16,5 тыс. ₽
Наблюдаемость + мониторинг	Mux Data + Grafana Cloud	26 тыс. ₽
Итого инфра	—	~375–435 тыс. ₽

Фаза	Недели	Результаты
Discovery + ТЗ	1–2	Продуктовое ТЗ, документ архитектуры, рекомендация по протоколу, спецификация инфраструктуры
Базовый стриминг	3–6	Ингест RTMP/WHIP, доставка LL-HLS, веб-плеер, мобильные SDK для просмотра
Вовлечённость + чат	5–9	Чат, реакции, подарки, очередь модерации, push-уведомления
Монетизация	8–12	Подписки, pay-per-view, интеграция рекламы, дашборд выручки
AI + аналитика	10–13	Live-субтитры, фильтр токсичности, генератор хайлайтов, дашборд QoE
Закалка + нагрузочные тесты	13–15	Нагрузочные тесты до 2x ожидаемого пика, chaos-учения, ревью безопасности
Запуск + стабилизация	15–16	Мягкий запуск, тюнинг наблюдаемости, runbooks, передача дежурств